Arquivo para a ‘Mineração de dados’ Categoria
Use of Big Data with Hadoop 2.0
As said Merv Adrian, an analyst at research of the Gardner, Hadoop 2.0 is “an important step”, making it a technology with “an operating environment data much more versatile,” and now also works with traditional SQL tools.
Hadoop is one of several projects of the Free Software Foundation Apache, the most widely used software for servers, was built in Java, uses distributed computing HDFS (Hadoop Distributed File System) and works with the concepts of MapReduce and GoogleFS (GFS) concepts bigdata important to treat.
The design of high-level Apache was built by a developer comunicade, that even includes Yahoo, see the wiki contributors in the Apache.
So far, though Hadoop has been used mainly to reduce huge data sets for analysis, but only in batches, not flows (Workflow) is now possible.
According to research by Gartner in 720 companies, made in June, 64% were investing in bigdata, representing 58% compared to last year, and Hadoop 2.0 promises a simplified treatment for small and medium enterprises in control of Workflow.
Big Data and Libraries
Technology Data Big Data is poised to revolutionize all aspects of human life and culture as people collect and analyze large volumes of data to predict behavior, problem solving, safety, and numerous other applications, is what ensures the site Christian Science Monitor.
The generation of large amounts of data is being driven by the increasing digitization of everyday activities and dependence on electronic devices of people who leave “fingerprints” concept that can be extended to trace “information”, since any object in any state conservation may contain “implicit” that is not yet in a suitable format.
The site CSMonitor cites a large data project which is a remarkable effort by the Library of Congress to archive millions of tweets per day, which can cost a lot of money for its historical value.
.
One example cited is the work of Richard Rothman, a professor at Johns Hopkins University in Baltimore, fundamental save lives.
The Centers for Disease Control and Prevention (CDC) in Atlanta predict flu outbreaks, and does so through the reports from hospitals.
But it took weeks, in 2009, appeared a study where researchers could predict outbreaks much faster through the analysis of millions of Web searches, queries made as “My son is sick” and could learn a flu outbreak long before the CDC knew the reports of hospitals.
But the technologies of large volumes of data also has a boundary claim, in which technology is perceived potential distruir privacy, encourage inequality and promote government surveillance of citizens or others in the name of national security, how to reconcile these two trends ?
Google makes internet failure fall 40%
In last Friday between the hours of 20h37 and 20.48 (GMT), all Google services suffered an outage.: Gmail, Drive, Maps and clear the search, the company said in a statement that lasted “between one and five minutes .
Google said on your page that, during the period of interruption, “50% to 70% of requests Google received” error messages, but the service was corrected after four minutes and was restored to most users on a minute.
According to the company GoSquared there was a 40% drop in global internet traffic that night and studied showed that, after the fall of a few minutes, internet traffic soared logos after restoration.
During the fault, according to the Google page, “50% to 70% of requests Google received error messages”, but did not report the source of the failure.
The failure showed how the internet is still fragile and the possibility of even temporary damage is not a fallacy.
Big Data já é uma área de estudos
Embora seja o grande assunto do momento, o problema dos Grandes Dados (Big Data) pode carecer de realidade e conceitualização correta, comum em tudo que vira “moda”.
Um trabalho publicado na Harvard Business Review, não só esclarece estes fatos, mas dá a eles uma realidade prática para o futuro de nossas vidas.
Os programas de dezenas de Universidades nasceram de uma forma que ficaram conhecidas como uma “constelação” que incluem a Universidade de Stanford, Northwestern, George Mason, Syracuse e a Universidade de Nova York, além de Harvard e Columbia.
Outra universidade que oferece um mestrado na área é a Universidade de Columbia, também a Universidade de São Francisco, Califórnia formará uma classe na área.
Rachel Schutt, uma cientista de pesquisa sênior da Johnson Research Labs, na Universidade de Columbia, dá um curso intitulado “Introdução à Ciência dos dados“, no último semestre da graduação da Universidade de Columbia.
Ela descreve o cientista dados como alguém que é : “um híbrido de cientista da computação, estatístico e engenheiro de software.”
Em 2012, ela criou um blog e desenvolveu algumas aulas, como uma que está num vídeo do TEDx, também é um dos primeiros cursos que podem ser encontrados em buscas.
É um dos primeiros trabalhos sobre Big Data sem muita fantasia, prático e claro.
O domínio .com e um super ciberataque
O domínio .com comemorará 25 anos de existência dia 15 de março, a internet nascida no pentágono por preocupações com a comunicação no período da guerra fria, foi para as universidades e depois para o mundo comercial, com isto apareceram os domínios www.com .
Existem 84 milhões de domínios comerciais com este prefixo, dos quais 19 milhões são empresariais, 4,3 milhões são orientados para o entretenimento, 3,1 milhões estão relacionados com finanças e 1,8 milhões são relativos a esportes em geral.
Só para comparar todos os domínios .br somam apenas 2 milhões.
Mas não tudo são flores e comemoração, um gigantesco ciberataque foi desencadeado semanas atrás, após o bloqueio de uma empresa que combate os spams e vírus: a Spamhaus que havia bloqueado servidores mantidos pelo Cyberbunker, empresa holandesa que abriga sites de qualquer tipo, excluindo apenas pornografia e terrorismo.
Spamhaus é uma instituição sem fins lucrativos que verifica os provedores de emails e filtra spams e outros conteúdos indesejados, para isto mantém uma lista de endereços e bases de dados de servidores conhecidos que possam ser usados para fins escusos na internet.
Sven Olaf Kamphuis, porta-voz da Cyberbynker, afirmou que Spamhaus está abusando de seu poder, e que não deveria decidir “o que acontece e o que não acontece na internet”.
Por outro lado o porta-voz da Spamhaus, Steve Linford, um executivo-chefe afirmou à BBC que a escala do ataque não tem precedentes: “Estamos sofrendo este ciberataque por ao menos uma semana, mas estamos funcionando, não conseguiram nos derrubar”.
É preciso sim empresas que mantenham um controle sobre o mau uso da internet, não quer dizer censura e muito menos manipulação política.
Google Reader já tem substituto
Com o anúncio da Google de desativar o Google Reader, apesar de inúmeros protestos, os internautas já elegeram um novo feed que é o Feedly, segundo o site Mashable,
Só na última quinta-feira com o anúncio da Google, o Feedly tinha conquistado 500 mil novos usuários que migraram suas contas do serviço do Google para esta nova promessa.
O Reader deve ser desligado possível no dia 1º de julho, conforme anuncio da Google na última quinta-feira, com a desculpa de que o serviço vinha tendo pouca adesão.
O Google Reader havia sido lançado em 7 de outubro de 2005, e era conhecido por ter uma interface limpa para a leitura de feeds RSS, o que levou a milhões de adesões e muita popularidade.
Agora a promessa do Feedly é que é possível fazer uma transição sem traumas e assim é uma grande promessa para blogueiros e internautas.
O novo serviço do Feedly já tem 10 vezes a sua banda anterior para dar conta do fluxo de milhares de novos cadastrados, tem versões para o Chrome (Google), Kindle (Amazon) e dispositivos iOS (Apple) e Android (diversos smartphones).
Eis as alternativas de feeds: Pulse , que é bastante simples e com uma interface interessante, disponibiliza as principais funcionalidades: marcar para ler mais tarde, compartilha com amigos via e-mail, Facebook e Twitter; Feedshow, é funcional e rápido, salva conteúdos em PDF, aumenta e diminui fontes, ,não usa redes sociais, apenas por e e-mail, e, NewsBlur combina bem com o RSS naleitura de feeds interessante, mas a interface é um pouco chat e precisa de paciência para inserir os pacotes de feeds
Google pode retirar RSS
A decisão do Google de fazer o seu próprio Google Reader retirando o RSS (veja notícia do CNET News) provocou um grande descontentamento popular e os usuários do leitor do RSS se voltaram para o meio popular para reagir a esta mudança: a petição online.
O Google anunciou esta tarde que seria retirado este serviço em julho. Em um post no blog da empresa ontem, o Google disse que a decisão foi baseada no declínio uso de do leitor de RSS, que o Google lançou em 2005, feito por Aaron Schuwartz morto recentemente e que tem um prêmio de liberdade na internet com seu nome agora.
Muitos usuários se voltaram para o Twitter para expressar sua decepção com esta decisão. Enquanto alguns diziam que contam com o serviço, outros admitiram seu uso tornou-se menos freqüentes, mas disseram que a cobiça do Google estava por trás do este movimento.
Poucas horas após do anúncio, um punhado de petições bateu na Web pedindo o gigante da Web reconsidere sua decisão, uma petição no Change.org, intitulada Google: Mantenha Google rodando o Reader, já havia atrído mais de 3.300 assinaturas, e espera-se que cresça nos próximos dias.
Change.org tem um site em português com diversas campanhas de defesa do consumidor, pelos direitos das mulheres, contra pornografia barata e muitas outras veja lá.
Daniel Lewis, de Nova York, que lançou a petição, culpou o declínio de uso do leitor pel a decisão do Google de remover algumas partes e funcionalidade de comentário.
Algoritmo poderá reviver linguas antigas
Pesquisadores canadenses da Universidade de Vancouver, liderados por Alexandre Bouchard-Côté, desenvolveram um algoritmo de aprendizado de máquina que usa regras sobre como os sons das palavras podem variar para inferir as mudanças mais prováveis fonéticos atrás variações e diferenças dentro de uma língua, a pesquisa saiu na revista New Scientist.
Eles dão como exemplo mudanças que já acontecem na língua inglesa canadense, onde a palavra about que significa “sobre” já está sendo modificada por um prolongamento do “o” dando origem fonética ao “aboot”, temos inúmeros casos no português como o “né”, o muito que dizemos “muinto” e muitas outras variações fonéticas em relação a língua escrita.
A equipe está aplicando o algoritmo a pares de palavras usadas em 636 línguas austronésias (Austrália e Indonésia), que incluem as ilhas Fiji, Tonga e Havaí.
Como o sistema é capaz de perceber a origem de fonemas, ele poderá fazer uma língua recuar no tempo e perceber com maior precisão as origens de sons e palavras, como fazemos em muitos estudos etimológicos (estudo da origem das palavras).
E uma vez que sistema é capaz de sugerir como línguas ancestrais também pode identificar que os sons eram mais propensos a mudar. Quando a equipe comparou os resultados com o trabalho feito por especialistas humanos, eles descobriram que mais de 85 por cento das sugestões estavam no conjunto das palavras reais.
Por exemplo, a palavra moderna para “vento” em Fijiano é CAGI, usando esta mesma palavra em outras línguas modernas austronésias, o sistema automático reconstruiu a palavra ancestral beliu e os especialistas humanos reconstruído bali, que foneticamente são muito próximos.
Novos estudos linguísticos e pesquisas etimológicas poderão usufruir destes sistemas.
Facebook lança "busca social"
Em um evento do Facebook, nesta última terça-feira em Menlo Park, a empresa anunciou uma nova ferramenta de busca na sua rede social. A busca social agora permite respostas a perguntas reais, tais como “amigos que curtem corrida”, e já está disponível em versão beta, mas só em língua inglesa.
A primeira versão está centrada em quatro áreas: pessoas, fotos, lugares e interesse. Então terá como resultados das buscas: “amigos que vivem em minha cidade”, “fotos que eu curti”, “cidades que minha família visitou” ou “línguas que meus amigos falam”.
Foi o próprio Zuckerberg que apresentou a “Busca Social” dando os dados do Facebook: 1 bilhão de pessoas (cifra atingida recentemente), 240 bulhões de fotos e mais de 1 trilhão de conexões nesta rede social, afirmando: “É uma maneira completamente diferente de encontrar informação no Facebook”, disse.
“Nossa missão é tornar o mundo mais aberto e conectado, fazemos isso para dar às pessoas as ferramentas para que elas possam mapear as histórias de suas vidas”, afirmou Zuckerberg.
Buscas podem ter mais semântica
A gigante de busca anunciou no seu blog que modificou seu motor de busca para identificar associações e conceitos relacionados a uma consulta, melhorando a lista de termos relacionados a um assunto e mostrando esta associação nos seus resultados.
Em reportagem da PC World, Ori Allon, o líder do grupo técnico de desenvolvimento da Google, explicou: “Por exemplo, se você busca por ‘princípios da física´, nossos algoritmos entendem que estão associados ‘movimento angular’, ´relatividade especial, ´big-bang´e ´mecânica quântica´ e termos relacionados que podem ajuda-lo a encontrar o que precisa”.
A vice-presidente da Google do Grupo de Pesquisa de Experiência do Usuário, Marisa Mayer disse em entrevista ao IDB News Service, em outubro de 2007, que reconhecia a necessidade de uso de palavras-chave e isso era ainda uma limitação que o motor de busca deveria superar com o tempo, mas o caminho atual parece ser ainda o de associação de termos e não uma inserção maior de tagging para identificar conteúdos.
Uma das críticas principais é que o as buscas não tem este aspecto semântico, sendo uma busca apenas textual, o que é um fato, mas para resolver este problema nas buscas além da possibilidade dos motores encontrarem é necessário um incremento na própria maneira de armazenar conteúdos na Web e isto ainda não é considerado, mesmo tendo muitas tecnologias com uso de XML já desenvolvidas.