RSS
 

Arquivo para a ‘Mineração de dados’ Categoria

Grandes Dados e grandes impactos

20 fev

É o que diz um relatório do Forum Econômico Mundial, o crescimento número de dados que podem influenciar decisões e controlar ou mesmo acelerar grandes impactos, é uma história recente e que já é estratégica para governos e empresas. Diversas organizações como o Instituto McKinsey, a Revista Nature e o Grupo Kimball, entre outros, destacam a importância estratégica do assunto.

Mas o que é um “Big Data”, ou Grandes Dados, o termo surgido no marketing, é uma abreviação para avançar tendências tecnológica que abrem a porta para uma nova abordagem e compreensão de como trabalhar dados que cresce 50% ao ano, relativos a tomadas de decisão estratégicas, segundo estimativas do IDC, uma empresas de pesquisa em tecnologia.

Não é mais o paradigmas de fluxo de dados, mas de dados inteiramente novos, por exemplo, existem inúmeros sensores digitais em todo o mundo em equipamentos industriais, automóveis, sensores elétricos e isto não significam dados acumulados, mas completamente modificados em períodos de tempo.  Problemas de vibração, temperatura, umidade, mudanças químicas no ar que afetam estes sensores não fazem sentido em tempos anteriores, quando se trata de verificar os efeitos num veículos, por exemplo.

Outro exemplo, são dados governamentais, que estão migrando para a Web.O governo americano por exemplo, em 2009, divulgou ainda mais seus dados no site Data.gov, onde há todo tipo de dado governamental acessível ao público.

Os dados são não apenas se tornando mais disponíveis, mas também mais “tratáveis” por computadores. A maior parte do aumento de Grandes Dados, são dados de natureza diversas, como coisas escritas em palavras, imagens e vídeos na Web, mas serão os fluxos de dados de sensores que mais poderão mudar a natureza destes dados. Estão disponíveis nas “nuvens” e poristo são chamados de dados não estruturados, ou semi-estruturados e poristo não serão combustível para bancos de dados tradicionais.

Assim serão as ferramentas computacionais para o conhecimento, recolhendo e insights de vastos acervos era da Internet de dados, as que estão ganhando rapidamente terreno nos não estruturados, incluindo técnicas de inteligencia artificial, reconhecimento de padrões, processamento e aprendizagem por computador.

 

As mais partilhadas no Facebook

02 dez

Em nota no Facebook, há uma lista de matéria que foram as mais partilhadas na sua rede, e mostrou que a grande imprensa oficial com a CNN, com dez links, o noticioso dispõe de um canal de televisão o que dá uma certa vantagem, enquanto o The New York Times empatou com uma noticioso digital o The Huffington Post em terceiro lugar, cada um com sete matérias na lista cada.

Confira a lista dos 20 primeiros, links vistos pelos usuários norte-americanos do Facebook:

1. Fotos de satélite do Japão, antes de depois do terremoto e do tsunami – noThe New York Times

2. O que os professores realmente querem dizer aos pais – na CNN

3. Não, seu signo do zodíaco não mudou – na CNN

4. Pais, não vistam suas meninas como mendigos – na CNN

5. (Vídeo) – Pai e filha dançam Medley – no Yahoo

6. Em funeral, cachorro chora pela morte de soldado da Marinha morto no Afeganistão – no Yahoo

7. Você vai pirar quando vir o novo Facebook – na CNN

8. Cachorro no Japão fica ao lado de amigo ferido nos escombros – no Yahoo

9. Crocodilo gigante é capturado vivo nas Filipinas – no Yahoo

10. Novas datas de signos do zodíaco: Serpentário é 13° signo? – no The Huffington Post

11. Pais mantém sexo de criança em segredo – Yahoo

12. Como falar com garotinhas – The Huffington Post

13. Pare de venerar os super-ricos – New York Times

14. Porque as mães chinesas são superiores – Wall Street Journal

15. (Vídeo) – Bebês gêmeos conversam! – Yahoo

16. Homem assalta banco para conseguir tratamento médico na cadeia – Yahoo

17. Porque você não é casado(a) – The Huffington Post

18. O elogio de uma irmã a Steve Jobs – New York Times

19. Morre Ryan Dunn: estrela de Caras de Pau morre em acidente de carro – The Huffington Post

Há mais 21 links na lista, mas creio que dá para ter uma ideia do que as pessoas andam lendo.

 

Transcrição e tradução de videos no YouTube

08 nov

Muitas ferramentas disponíveis na Web ainda são desconhecidas de usuários, desde 2009 o Youtube anunciou
 
no blog oficial da Google (o Youtube é da Google veja nosso post), a transcrição automática (a função auto-caption que existe desde 2006, CC  ) e introduziu a nova possibidade de tradução em 51 idiomas, que incluem o português e Espanhol.

Em março de 2009, Matt Cutts explicava em seu blog o funcionamento da máquina de tradução do YouTube então ainda com 41 idiomas, e na qual exemplificava com as famosas conferências TED (Ideas worth Spreading) que tratam de assuntos atuais, com 25 idiomas.

O auto-caps  usa os algoritmos de reconhecimento de voz mesmo em Google Voice para gerar automaticamente legendas para o vídeo. As legendas nem sempre são perfeita (confira o vídeo ao lado para ver um divertido exemplo), mas mesmo tendo defeitos, eles ainda podem ser úteis e a tecnologia vai continuar melhorando com o tempo.

Mas o desafio de transcrição e documentação destes vídeos é imenso, segundo o blog do Google, faz, a cada minuto são carregadas 20 horas de vídeo e o proprietário do vídeo nem sempre está disposto a dispender esforços para adicionar legendas aos seus vídeos, mesmo com todo apoio disponível no site do YouTube, a maioria dos vídeos ficam inacessíveis.

Para ajudar este desafio, o YouTube trará o auto-caps automática (mesmo sem a escolha do usuário) em qualquer vídeo, chamada ASR  (Automatic Speech Recognition), claro podendo o usuário optar por sua não ativação.

Além de legendas automáticas, está sendo lançado também um mecanismo de sincronismo de legenda automática, chamado auto-timing, que poderá torná-lo mais fácil para criar legendas inclusive manualmente, o que permitirá a correção de más traduções ou expressões idiomáticas.

Assim o auto-timing permitirá ter-se mais conhecimentos especiais para criar suas próprias legendas no YouTube , será preciso apenas fazer um arquivo simples de texto com todas as palavras no vídeo e usar a tecnologia ASR do Google para tratar as palavras faladas quando as legendas no vídeo estiverem incorretas ou precisarem de retoques.

Talvez isto reduza significativamente a barreiras que os proprietários de vídeo tem para poderem adicionar as suas legendas, e mesmo quem não têm o tempo ou recursos para criar faixas de legenda de modo profissional possam dar sua “mãozinha” aos usuários.

 

Facebook-Yahoo testam seis graus de separação

24 ago

Os estudos sobre grau de separação incluem-se entre os avançados estudos de análise de redes sociais, entre os vários trabalhos incluem-se as análises de redes sociais de informação, entre empresas ou na identificação da estrutura das redes de colaboração de cientistas, redes de cooperação, ou mesmo redes de transmissão de doenças, e redes de páginas ou sites na Web.

A idéia é que num grau máximo de 6 pessoas é possível conectar duas pessoas quais, por exemplo no cinema, duas pessoas que atuaram juntas em um filme, foi feito por Brett Tjaden, um cientista da computação da Universidade de Virgínia, um jogo chamado Oráculo de Bacon, pois se desejassemos ligar o ator o Kevin Bacon, com a atriz brasileira Fernanda Montenegro tem um número Bacon de 3, pois ela atuou em Joanna Francesa (1973) com Jeanne Moreau; esta atuou com Eli Wallach em The Victors (1963) e, finalmente, este atuou com Kevin Bacon em Mystic River (2003), ou seja, em três ligações de atuações conjuntas ligamos Kevin Bacon com Fernanda Montenegro.

Anunciado no Mercury News do vale do silício americano, desde a semana passada cientistas sociais do Facebook e Yahoo estão empenhados em descobrir se a vasta rede mundial, que tem em torno de 750 milhões de pessoas, podem estar realmente conectadas nestes moldes, que quanto cada pessoa levaria em média para transmitir uma mensagem para alguém ao redor do mundo, escolhendo esta pessoa ao acaso.  Será que realmente num vasto universo estes seis graus de separação valerão?

O primeiro experimento foi feito em 1960 por Stanley Milgram, e conhecido como “pequenos mundos”, no seu experimento eram enviadas cartas para pessoas “alvo” quer dizer pessoas para as quais as cartas deveriam chegar, não sendo a pessoa alvo o destinatário deveria enviar uma nova carta para uma pessoa que conhecesse pedindo que fizesse o mesmo, ou para uma pessoa qualquer de suas relações que tivesse maior chance de conhecer a pessoa alvo. A pessoa alvo, ao receber a carta, deveria enviar uma carta para os responsáveis pelo estudo.

Mas neste experimento apenas 64 de 300 pessoas alvo receberam a carta, e o pequeno número põe em dúvida a validade do experimento, depois disto Duncan Watts e Steven Strogatz publicaram um trabalho na Nature em 1998, e Watts fez em 2001 o mesmo experimento usando o email e enviando para 100 milhões na rede, ele mesmo agora dirige o experimento usando o Facebook-Yahoo, e afirmou:  “isto realmente não poderia ter feito isso até muito recentemente”, disse Watts, agora é “um marco, em termos de qual é o tipo de questão que esta pesquisa pode responder, isto não poderia ter sido imaginado 50 anos atrás, pois não poderia ter respondido a 50 anos, ou mesmo 15 anos atrás”.

 Mas agora para um universo de quase 7 bilhões de pessoas, a rede social de 750 milhões é significativa, eis mais uma resposta que as redes sociais podem dar ao mundo.

 

Achar ou encontrar o que o usuário busca

10 ago

Nos sites como na vida, tão importante quanto procurar é encontrar, Leia o resto deste post »

 

Aplicativo coloca tags automáticas em fotos

08 jul

Dois estudantes de graduação da Universidade de Duke e da Universidade de Carolina do sul: Chaun Qin e Xuan Bao Leia o resto deste post »

 

Livro sobre WikiLeaks e a guerra da transparência

24 jun

Lançado recentemente no Brasil, o livro “WikiLeaks: A guerra de Julian Assange contra os Segredos de Estados” mostra a origem da personalidade de Assange filho de Christine e neto de Warren Hawkins, descrito no livro como um acadêmico rigoroso, do qual a filha se rebelara e fora viver uma vida de contracultura e conheceu o pai de Assange em uma manifestação contra a Guerra do Vietnã, mas viveria com outro companheiro Brett Assange (aparentemente derivado do chinês Ah Sang) , a mãe uma artista viveu uma vida alternativa e nômade.

Mais tarde o pai biológico de Assange: John Shipton, retoma o contato com o filho e em 2006 teve o nome registrado de seu pai, e em dezembro divulgou seu primeiro documento, registrado pelo New Yorker (este não vão tirar do ar).

Escrito por David Leigh e Luke Harding, jornalistas do The Guardin, o livro já teve seus direitos comprados por Steven Spielberg para o cinema, vem aí o filme ?

Sabia como ninguém driblar a mídia vertical, fazendo acordos para divulgar dados sigilosos e manter sempre a mídia vertical sob seu controle, está registrado no livro a impressão de Jack Shafer, colunista da revista Slate: “Assange atormenta os jornalistas que trabalham com ele porque se recusa a se conformar a qualquer papel que esperam que  ele desempenhe”(pg. 20).

Assange procurado e perseguido após um suposto “estrupo” (que teria rasgado de propósito o preservativo em uma relação), curiosamente logo após revelar alguns crimes de guerra americanos registrado em documentos oficiais, também narrados no livro, recebe um apoio tático de outro grupo chamado “Anonymous”, que se organizou através de um fórum na internet, esta realizou  ciberataques contra as companhias americanas de cartão de crédito MasterCard e Visa, e de outros grupos que bloquearam as contas do WikiLeaks.

É importante entender o tipo de ataque, chamados de Negação de Serviço Distribuídos (DDOS), onde um número imenso de acessos simultâneos a partir de um grande número de equipamentos, bloqueiam ou pelo menos sobrecarregam um portal na internet, portanto não destroem conteúdos ou equipamentos.

No início de janeiro, quando a revolução de Jasmim começava na Tunísia, de acordo com The Next Web Oriente Médio, o governo tunisiano bloqueou não apenas Wikileaks mas qualquer fonte de notícias publicação ou referencias telegramas que originaram ou são endereçados à Tunísia, incluindo Tunileaks, uma sistema da Tunísia específico de comunicação diplomática, mas em pouco tempo o governo cairia.

O livro é antes de mais nada o direito a uma versão diferente da grande imprensa interessada apenas nos grandes grupos econômicos e nos apoios políticos a eles condicionados, o direito a informação transparente é antes de mais nada um direito universal e se não houveram crimes de guerra ou distorção de informações não há porque temer o WikiLeaks e Anonymous.

 

Dados: matéria prima da nova revolução industrial ?

10 jun

Dados é uma matéria-prima vital da economia da informação, assim como o carvão e o minério de ferro na Revolução Industrial, conforme afirmava uma notícia no New York Times. O mundo dos negócios está apenas começando a aprender a processar tudo.

Segundo o jornal, a quantidade de dados de negócios dobra a cada 1,2 anos, e a próxima etapa vai ser explorar os dados em escala na Internet para descobrir novos negócios e prever mudanças de comportamento do consumidor e do mercado.

Projetos Open Source surgiram também nesta área, o projeto Hadoop teve suas raízes nas empresas da Web, tendo sido conduzido pela Yahoo, e muitas empresas já estão se acostumando rapidamente a ele também, conforme afirmou James Markarian, Vice-presidente executivo da empresa, mas o problema é que as lojas de TI das empresas não podem ter alguns tipos de perícia caseira, isto é amadora.

Hadoop é uma plataforma de software livre, sendo um projeto da fundação Apache que vai sendo construído em Java por uma comunidade de colaboradores.

É um software de computação distribuída voltada para clusters e processamento de grandes massas de dados, sendo inicialmente inspirado pelo MapReduce e GoogleFS (GFS). A Yahoo! foi a maior colaboradora do projeto, utilizando-o intensivamente no seu modelo de negócio.

A informática já tem a capacidade de carregar e recuperar dados de clusters, assim o que  Hadoop faz não é necessariamente diferente do que uma série de fornecedores de data warehousing já estão fazendo mas é provável que outros fornecedores que estão preocupados com a horizontalização e integração de dados seguirão este modelo, que além de software livre (que integra a comunidade de desenvolvedores)  olha além da ferramenta, para padronização de suas atividades em uma pilha de tecnologias.

Talvez não seja matéria prima, mas apenas insumo ou talvez ainda seja algo para tornar a humanidade mais “re-ligada”.

 

Yahoo entra na briga das “buscas”

25 mar

Tendo terceirizado seu back-end de buscas para a Google, aparentemente o Yahoo estaria fora de tentar as buscas, porem promete revolucionar com um sistema de busca muito rápido, segundo Ryan Singel da Revista Wired  e “a coisa mais rápida que já vi.”

O novo produto chamado Search direto ( search.yahoo.com ) combina pesquisa instantânea, mostrando os resultados à medida que escreve, com respostas imediatas, um a digitação tipo “AMZ”instantaneamente mostraria numa caixa o site da Amazon com várias opões da loja de compras mas a primeira opcao seria AMZN,  e ‘AMZN” traria com cotações de ações sobre a Amazon.com, por exemplo.  O site de Beta teste traz um vídeo de apresentação do novo motor de busca, com add-on para o twitter e Facebook, mas mostra que ainda nao há uma completa internanacionalização como o poderoso concorrente Google, que possui site especial em cada país.

Para pesquisas que não tem resposta, que mostra links de pesquisa imediatamente de modo fácil de navegar, com caixa acima da busca resultados típicos, mas ainda feitos por popularidade apenas.

Segundo Shashi Selth, vice-presidente da Yahoo: “Eu quero que você se lembre de três palavras:” e não das respostas ou dos links,  disse uma sala de repórteres de tecnologia em San Francisco, demonstrando o produto.

Alem da rapidez superior ao Google, o Search direto estará oferecendo um produto tem “respostas” para 15 categorias de entidades, por exemplo: filmes, atletas profissionais, música, celebridades, informações meteorológicas, notícias, compras, locais e das populações. Mas ainda não chega a ter as exigencias de indexadores, como profissionais de Biblioteconomia, mais completa com categorias universais.

A Busca Direta não exige uma conexão rápida, e segundo a empresa, e o sistema é construído com infra-estrutura que o Yahoo possui., mas o recurso entra em conflito com seus parceiros do Bing da Microsfot.  Por exemplo, o Yahoo diz que podem surgir novos formatos de anúncios que se encaixam na caixa de busca direta, mas ainda não se sabe se iria partilhar as receitas com a Microsoft, como atualmente acontece com os anúncios de busca.

Por exemplo, o Yahoo diz que podem surgir novos formatos de anúncios que se encaixam na caixa de busca direta, mas ainda não se sabe se iria partilhar as receitas com a Microsoft, como atualmente acontece com os anúncios de busca.

 

Novas batalhas da Google para o acesso livre

23 mar

Os regimes autoritários estão em polvorosa no mundo todo, sobrevivem sem problemas apenas alguns governos autoritários na Ásia, África e America latina, mas sempre encontrando alguma forma de controlarem as novas mídias.

A China esta em embate com o Google e seus serviços há muito tempo, agora a acusação que saiu no jornal inglês The Guardian, foi que usuários chineses do gmail vêm sofrendo alguma dificuldade no serviço desde janeiro deste ano.

Os problemas no Gmail começaram junto de uma tentativa do governo chinês em dizimar um movimento online que surgiu junto das revoluções que estão acontecendo em países como a Líbia (a China foi contra a intervenção internacional lá).  E a chamada Revolução Jasmim, também estaria chegando na China..

Segundo o Google “o problema não está do nosso lado”, disse um porta-voz ao The Guardian:. ”isto é obra de um bloqueio governamental cuidadosamente planeado para que pareça que o problema está do lado da Google”.

A China é um dos países com maior controle da Internet no mundo, muitos sites populares encontram-se bloqueados como o Facebook e o YouTube, por exemplo.

O Google enfrenta ainda outra batalha, um tribunal nova-iorquino acaba de rejeitar o acordo entre o Google e representantes de autores e editores que deixariam a empresa digitalizar livros antes mesmo de ter a autorização dos detentores de direitos, a ideia do Google é rentabilizar os livros em formato digital, em parte com anúncios publicitários, mas por enquanto vamos continuar financiando as editoras e seus donos.

Segundo a decisão do juiz, “enquanto a digitalização de livros e a criação de uma biblioteca universal digital beneficiaria muitas pessoas”, o acordo “simplesmente ia longe demais” segundo o site Salon, porque na visão do juiz os “autores seriam lesados”, o velho discurso, porem só ganharam dinheiro com livros autores que tiveram suas próprias editoras, ou que tendo muita fama podiam impor contratos vantajosos para ambos.

Não se pode ignorar os problemas do Google, a falta de indexação das buscas e alem disto recentemente (em fevereiro) 500 mil usuários perderam as contas do gmail, segundo a gigante da Web “afetou apenas 0,29% de todos os usuários do serviço e que seus engenheiros já estão trabalhando para resolver o problema e que tudo que foi excluído vai aparecer novamente”.