Arquivo para outubro 10th, 2013
Um problema interessante de Big Data
Simon DeDeo , um investigação em matemática aplicada e sistemas complexos do Instituto Santa Fé, tinha um problema, conforme postado na revista Wired.
Ele estava colaborando em um novo projeto para analisar de dados a partir dos arquivos do tribunal Old Bailey de Londres, um tribunal criminal central da Inglaterra e do País de Gales 300 anos “.
Mas não haviam dados limpos (dizemos estruturados) como em um formato de planilha Excel habitual simples, incluindo variáveis como acusação, julgamento e sentença para cada caso, mas sim cerca de 10 milhões de palavras gravadas durante pouco menos de 200 mil julgamentos.
Como se poderia analisar esses dados ? DeDeo pergunta: “Não é o tamanho do conjunto de dados, que era difícil, por padrões de dados grandes , o tamanho era bastante controlável”. Foi esta enorme complexidade e falta de estrutura formal que representava um problema para estes “grandes dados” que o perturbou.
O paradigma da pesquisa envolveu a formação de uma hipótese, decidir precisamente o que se pretendia medir, em seguida, construir um aparelho para fazer essa medição com a maior precisão possível, não é exatamente como física onde você controla variáveis e tem um número limitado de dados.
Alessandro Vespignani, um físico da Universidade de Northeastern, que é especializada em aproveitar o poder das redes sociais para surtos modelo de doença, o comportamento do mercado de ações, as dinâmicas sociais coletivos, e os resultados eleitorais, coletou muitos terabytes de dados de redes sociais como o Twitter, esta abordagem pode ajudar a tratar textos escritos fora das redes sociais.
Cientistas como DeDeo e Vespignani fazem bom uso dessa abordagem fragmentada para a análise de dados grande, mas o matemático da Yale University, Ronald Coifman diz que o que é realmente necessário é o grande volume de dados equivalente a uma revolução newtoniana, comparando com a invenção do cálculo do século 17, que ele acredita que já está em andamento.
Coifman afirma “Temos todas as peças do quebra-cabeça – agora como é que vamos realmente montá-los”, ou seja, ainda temos que avançar para tratar dados dispersos.