RSS
 

Arquivo para a ‘Mineração de dados’ Categoria

Big Data com uso de Hadoop 2.0

23 set

Conforme afirmou Merv Adrian, analista da empresa de pesquisa Gardner, o Hadoop 2.0 éHadoop2.0 “um passo importante”, tornando-se uma tecnologia com “um ambiente operacional de dados muito mais versátil”, e agora trabalha também com ferramentas tradicionais SQL.

Hadoop, é um dos vários projetos da Fundação de Software Livre Apache, o software mais usado em servidores, foi construída em Java, usa computação distribuída HDFS (Hadoop Distributed File System) e trabalha com os conceitos de MapReduce e GoogleFS (GFS), conceitos importantes para tratar BigData.

O projeto de alto-nível da Apache foi construído por uma comunicade de desenvolvedores, que inclui até mesmo o Yahoo, veja os contribuidores no wiki da Apache.

Até agora, porém o Hadoop tem sido usado principalmente para reduzir enormes conjuntos de dados para análise, mas apenas em lotes, e não fluxos (Workflow) que agora é possível.

Segundo pesquisa da Gartner em 720 empresas, feita em junho, 64% estavam investindo em BigData, o que representa 58% em relação ao ano passado, e Hadoop 2.0 promete um tratamento simplificado para pequenas e médias empresas no controle do Workflow.

 

Big Data e Bibliotecas

21 ago

A tecnologia de dados do Big Data está pronta para revolucionar todos os aspectos da BigData2vida humana e da cultura como pessoas coletar e analisar grandes volumes de dados para previsão de comportamento, resolução de problemas, segurança e inúmeras outras aplicações, é o que garante o site Christian Science Monitor.

A geração de grandes quantidades de dados está sendo impulsionada pela crescente digitalização das atividades cotidianas e a dependência das pessoas em dispositivos eletrônicos que deixam “rastros digitais” conceito que pode ser estendido para “rastro da informação”, uma vez que qualquer objeto em qualquer estado de conservação pode conter informação “implícita” que não está ainda num formato adequado.

O site CSMonitor cita um grande projeto de dados notável  que é um esforço por os Biblioteca do Congresso dos EUA para arquivar milhões de tweets por dia, cujo benefício pode custar muito pelo seu valor histórico.

Um exemplo, citado é o trabalho de Richard Rothman, professor da Johns Hopkins University, em Baltimore, fundamental: salvar vidas.

Os Centros de Controle e Prevenção de Doenças (CDC) em Atlanta preveem surtos de gripe, e o faz através dos relatórios dos hospitais.

Mas isto levava semanas, em 2009, apareceu um estudo onde pesquisadores puderam prever surtos muito mais rápido através da análise de milhões de buscas na Web, fazia as consultas como “Meu filho está doente” e podiam conhecer um surto de gripe muito antes do CDC soubesse pelos relatórios dos hospitais.

Mas as tecnologias de grandes volumes de dados também tem uma contorno sinistro, em que a tecnologia é percebida potencial de destruir a privacidade, incentivar a desigualdade e promover a vigilância do governo de cidadãos ou outros em nome da segurança nacional, como conciliar estas duas tendências ?

 

Falha no Google faz internet cair 40%

20 ago

Na última sexta-feira entre os horários das 20h37 e 20h48 (horário de Brasília), GoSquaretodos os serviços do Google sofreram uma interrupção: Gmail, Drive, Maps, claro o buscador e outros, que segundo nota da empresa durou “entre um e cinco minutos.

O Google afirmou em sua página que, durante o período de interrupção, “de 50% a 70% das requisições ao Google receberam mensagens de erro”, mas que o serviço foi corrigido após quatro minutos e foi restaurado para a maioria dos usuários em um minuto.

Segundo a empresa GoSquared houve uma queda de 40% no tráfego de internet mundial naquela noite e o estudou mostrou que, após a queda de poucos minutos, o tráfego de internet disparou logos após a restauração.

Durante a falha, segundo a página do Google, “de 50% a 70% das requisições ao Google receberam mensagens de erro”, mas não informou a origem da falha.

A falha mostrou o quanto a internet ainda é frágil e as possibilidades de danos mesmo que temporários não é uma falácia.

 

Big Data já é uma área de estudos

17 abr

Embora seja o grande assunto do momento, o problema dos Grandes Dados (Big Data) pode carecer de realidade e conceitualização correta, comum em tudo que vira “moda”.

Um trabalho publicado na Harvard Business Review, não só esclarece estes fatos, mas dá a eles uma realidade prática para o futuro de nossas vidas.

Os programas de dezenas de Universidades nasceram de uma forma que ficaram conhecidas como uma “constelação” que incluem a Universidade de Stanford, Northwestern, George Mason, Syracuse e a Universidade de Nova York, além de Harvard e Columbia.

Outra universidade que oferece um mestrado na área é a Universidade de Columbia, também a Universidade de São Francisco, Califórnia formará uma classe na área.

Rachel Schutt, uma cientista de pesquisa sênior da Johnson Research Labs, na Universidade de Columbia, dá um curso intitulado “Introdução à Ciência dos dados“, no último semestre da graduação da Universidade de Columbia.

Ela descreve o cientista dados como alguém que é : “um híbrido de cientista da computação, estatístico e engenheiro de software.”

Em 2012, ela criou um blog e desenvolveu algumas aulas, como uma que está num vídeo do TEDx, também é um dos primeiros cursos que podem ser encontrados em buscas.

É um dos primeiros trabalhos sobre Big Data sem muita fantasia, prático e claro.

 

O domínio .com e um super ciberataque

02 abr

O domínio .com comemorará 25 anos de existência dia 15 de março, a internet nascida no pentágono por preocupações com a comunicação no período da guerra fria, foi para as universidades e depois para o mundo comercial, com isto apareceram os domínios www.com .

Existem 84 milhões de domínios comerciais com este prefixo, dos quais 19 milhões são empresariais, 4,3 milhões são orientados para o entretenimento, 3,1 milhões estão relacionados com finanças e 1,8 milhões são relativos a esportes em geral.
Só para comparar todos os domínios .br somam apenas 2 milhões.

Mas não tudo são flores e comemoração, um gigantesco ciberataque foi desencadeado semanas atrás, após o bloqueio de uma empresa que combate os spams e vírus: a Spamhaus que havia bloqueado servidores mantidos pelo Cyberbunker, empresa holandesa que abriga sites de qualquer tipo, excluindo apenas pornografia e terrorismo.

Spamhaus é uma instituição sem fins lucrativos que verifica os provedores de emails e filtra spams e outros conteúdos indesejados, para isto mantém uma lista de endereços e bases de dados de servidores conhecidos que possam ser usados para fins escusos na internet.

Sven Olaf Kamphuis, porta-voz da Cyberbynker, afirmou que Spamhaus está abusando de seu poder, e que não deveria decidir “o que acontece e o que não acontece na internet”.

Por outro lado o porta-voz da Spamhaus, Steve Linford, um executivo-chefe afirmou à BBC que a escala do ataque não tem precedentes: “Estamos sofrendo este ciberataque por ao menos uma semana, mas estamos funcionando, não conseguiram nos derrubar”.

É preciso sim empresas que mantenham um controle sobre o mau uso da internet, não quer dizer censura e muito menos manipulação política.

 

Google Reader já tem substituto

19 mar

Com o anúncio da Google de desativar o Google Reader, apesar de inúmeros protestos, os internautas já elegeram um novo feed que é o Feedly, segundo o site Mashable,

Só na última quinta-feira com o anúncio da Google, o Feedly tinha conquistado 500 mil novos usuários que migraram suas contas do serviço do Google para esta nova promessa.

O Reader deve ser desligado possível no dia 1º de julho, conforme anuncio da Google na última quinta-feira, com a desculpa de que o serviço vinha tendo pouca adesão.

O Google Reader havia sido lançado em 7 de outubro de 2005, e era conhecido por ter uma interface limpa para a leitura de feeds RSS, o que levou a milhões de adesões e muita popularidade.

Agora a promessa do Feedly é que é possível fazer uma transição sem traumas e assim é uma grande promessa para blogueiros e internautas.

O novo serviço do Feedly já tem 10 vezes a sua banda anterior para dar conta do fluxo de milhares de novos cadastrados, tem versões para o Chrome (Google), Kindle (Amazon) e dispositivos iOS (Apple) e Android (diversos smartphones).

Eis as alternativas de feeds: Pulse , que é bastante simples e com uma interface interessante, disponibiliza as principais funcionalidades: marcar para ler mais tarde, compartilha com amigos via e-mail, Facebook e Twitter; Feedshow, é funcional e rápido, salva conteúdos em PDF, aumenta e diminui fontes, ,não usa redes sociais, apenas por e e-mail, e, NewsBlur combina bem com o RSS naleitura de feeds interessante, mas a interface é um pouco chat e precisa de paciência para inserir os pacotes de feeds

 

Google pode retirar RSS

14 mar

A decisão do Google de fazer o seu próprio Google Reader retirando o RSS (veja notícia do CNET News) provocou um grande descontentamento popular e os usuários do leitor do RSS se voltaram para o meio popular para reagir a esta mudança: a petição online.

O Google anunciou esta tarde que seria retirado este serviço em julho. Em um post no blog da empresa ontem, o Google disse que a decisão foi baseada no declínio uso de do leitor de RSS, que o Google lançou em 2005, feito por Aaron Schuwartz morto recentemente e que tem um prêmio de liberdade na internet com seu nome agora.

Muitos usuários se voltaram para o Twitter para expressar sua decepção com esta decisão. Enquanto alguns diziam que contam com o serviço, outros admitiram seu uso tornou-se menos freqüentes, mas disseram que a cobiça do Google estava por trás do este movimento.

Poucas horas após do anúncio, um punhado de petições bateu na Web pedindo o gigante da Web reconsidere sua decisão, uma petição no Change.org, intitulada Google: Mantenha Google rodando o Reader, já havia atrído mais de 3.300 assinaturas, e espera-se que cresça nos próximos dias.

Change.org tem um site em português com diversas campanhas de defesa do consumidor, pelos direitos das mulheres, contra pornografia barata e muitas outras veja lá.

Daniel Lewis, de Nova York, que lançou a petição, culpou o declínio de uso do leitor pel a decisão do Google de remover algumas partes e funcionalidade de comentário.

 

Algoritmo poderá reviver linguas antigas

15 fev

Pesquisadores canadenses da Universidade de Vancouver, liderados por Alexandre Bouchard-Côté, desenvolveram um algoritmo de aprendizado de máquina que usa regras sobre como os sons das palavras podem variar para inferir as mudanças mais prováveis fonéticos atrás variações e diferenças dentro de uma língua, a pesquisa saiu na revista New Scientist.

Eles dão como exemplo mudanças que já acontecem na língua inglesa canadense, onde a palavra about que significa “sobre” já está sendo modificada por um prolongamento do “o” dando origem fonética ao “aboot”, temos inúmeros casos no português como o “né”, o muito que dizemos “muinto” e muitas outras variações fonéticas em relação a língua escrita.

A equipe está aplicando o algoritmo a pares de palavras usadas em 636 línguas austronésias (Austrália e Indonésia), que incluem as ilhas Fiji, Tonga e Havaí.

Como o sistema é capaz de perceber a origem de fonemas, ele poderá fazer uma língua recuar no tempo e perceber com maior precisão as origens de sons e palavras, como fazemos em muitos estudos etimológicos (estudo da origem das palavras).

E uma vez que sistema é capaz de sugerir como línguas ancestrais também pode identificar que os sons eram mais propensos a mudar. Quando a equipe comparou os resultados com o trabalho feito por especialistas humanos, eles descobriram que mais de 85 por cento das sugestões estavam no conjunto das palavras reais.

Por exemplo, a palavra moderna para “vento” em Fijiano é CAGI, usando esta mesma palavra em outras línguas modernas austronésias, o sistema automático reconstruiu a palavra ancestral beliu e os especialistas humanos reconstruído bali, que foneticamente são muito próximos.
Novos estudos linguísticos e pesquisas etimológicas poderão usufruir destes sistemas.

 

Facebook lança "busca social"

17 jan

Em um evento do Facebook, nesta última terça-feira em Menlo Park, a empresa anunciou uma nova ferramenta de busca na sua rede social. A busca social agora permite respostas a perguntas reais, tais como “amigos que curtem corrida”, e já está disponível em versão beta, mas só em língua inglesa.

A primeira versão está centrada em quatro áreas: pessoas, fotos, lugares e interesse. Então terá como resultados das buscas: “amigos que vivem em minha cidade”, “fotos que eu curti”, “cidades que minha família visitou” ou “línguas que meus amigos falam”.

Foi o próprio Zuckerberg que apresentou a “Busca Social” dando os dados do Facebook: 1 bilhão de pessoas (cifra atingida recentemente), 240 bulhões de fotos e mais de 1 trilhão de conexões nesta rede social, afirmando: “É uma maneira completamente diferente de encontrar informação no Facebook”, disse.

“Nossa missão é tornar o mundo mais aberto e conectado, fazemos isso para dar às pessoas as ferramentas para que elas possam mapear as histórias de suas vidas”, afirmou Zuckerberg.

 

Buscas podem ter mais semântica

28 mar

A gigante de busca anunciou no seu blog que modificou seu motor de busca para identificar associações e conceitos relacionados a uma consulta, melhorando a lista de termos relacionados a um assunto e mostrando esta associação nos seus resultados.

Em reportagem da PC World, Ori Allon, o líder do grupo técnico de desenvolvimento da Google, explicou: “Por exemplo, se você busca por ‘princípios da física´, nossos algoritmos entendem que estão associados ‘movimento angular’, ´relatividade especial, ´big-bang´e ´mecânica quântica´ e termos relacionados que podem ajuda-lo a encontrar o que precisa”.

A vice-presidente da Google do Grupo de Pesquisa de Experiência do Usuário, Marisa Mayer disse em entrevista ao IDB News Service, em outubro de 2007, que reconhecia a necessidade de uso de palavras-chave e isso era ainda uma limitação que o motor de busca deveria superar com o tempo, mas o caminho atual parece ser ainda o de associação de termos e não uma inserção maior de tagging para identificar conteúdos.

Uma das críticas principais é que o as buscas não tem este aspecto semântico, sendo uma busca apenas textual, o que é um fato, mas para resolver este problema nas buscas além da possibilidade dos motores encontrarem é necessário um incremento na própria maneira de armazenar conteúdos na Web e isto ainda não é considerado, mesmo tendo muitas tecnologias com uso de XML já desenvolvidas.