RSS
 

Arquivo para outubro 10th, 2013

Um problema interessante de Big Data

10 out

Simon DeDeo , um investigação em matemática aplicada e sistemas complexos do Instituto Santa Fé,MatematicaCriativa tinha um problema, conforme postado na revista Wired.

Ele estava colaborando em um novo projeto para analisar de dados a partir dos arquivos do tribunal  Old Bailey de  Londres, um  tribunal criminal central da Inglaterra e  do País de Gales 300 anos “.

Mas não haviam dados limpos (dizemos estruturados) como em um  formato de planilha Excel habitual simples, incluindo variáveis ​​como acusação, julgamento e sentença para cada caso, mas sim cerca de 10 milhões de palavras gravadas durante pouco menos de 200 mil julgamentos.
Como se poderia analisar esses dados ? DeDeo pergunta:  “Não é o tamanho do conjunto de dados, que era difícil, por padrões de dados grandes , o tamanho era bastante controlável”. Foi esta enorme complexidade e falta de estrutura formal que representava um problema  para estes “grandes dados” que o perturbou.

O paradigma da pesquisa envolveu a formação de uma hipótese, decidir precisamente o que se pretendia medir, em seguida, construir um aparelho para fazer essa medição com a maior precisão possível, não é exatamente como física onde você controla variáveis e tem um número limitado de dados.

Alessandro Vespignani, um físico da Universidade de Northeastern, que é especializada em aproveitar o poder das redes sociais para surtos modelo de doença, o comportamento do mercado de ações, as dinâmicas sociais coletivos, e os resultados eleitorais, coletou muitos terabytes de dados de redes sociais como o Twitter, esta abordagem pode ajudar a tratar textos escritos fora das redes sociais.

Cientistas como DeDeo e Vespignani fazem bom uso dessa abordagem fragmentada para a análise de dados grande, mas o matemático da Yale University, Ronald Coifman diz que o que é realmente necessário é o grande volume de dados equivalente a uma revolução newtoniana, comparando com a invenção do cálculo do século 17, que ele acredita que já está em andamento.

Coifman afirma “Temos todas as peças do quebra-cabeça – agora como é que vamos realmente montá-los”, ou seja, ainda temos que avançar para tratar dados dispersos.