RSS
 

Arquivo para a ‘Recuperação da Informação’ Categoria

Questões simples e complexas da Web Semântica

05 jul

Sempre nos deparamos com conceitos alguma parecem uma coisa no senso comum e não o são, tornam-se complexas coisas que eram simples, é o caso de muitos exemplos: as redes sociais (confundidas com as Mídias), os fractais (números ainda genéricos demais para serem usados no dia a dia, mas importantes), a inteligência artificial (que não é a humana), enfim inúmeros casos, podendo ir para o virtual (não é o irreal), as ontologias, etc.

Estes são os casos da Web Semântica e das Ontologias, onde toda simplificação leva a um erro.

Provavelmente por isso, um dos precursores da Web Semântica Tim Hendler, escreveu um livro Semantic Web for Ontologists modelling: : Effective Modelling in RDFS and OWL  (Allemang, Hendler, 2008).

Os autores explicam no capítulo 3 que quando se fala de Web Semântica “de uma linguagem de programação, normalmente nos referimos ao mapeamento da sintaxe da linguagem para algum formalismo que expressa o “significado” dessa linguagem.

Agora quando falamos “de semântica´ da linguagem natural, muitas vezes nos referimos a algo sobre o que significa entender o enunciado – como ir das letras ou sons estruturados de uma linguagem para algum tipo de significado por trás deles. Talvez a parte mais primitiva dessa noção de semântica seja uma representação da ligação de um termo em uma declaração à entidade no mundo a que o termo se refere.” (Allemang, Hendler, 2008).

Quando falamos de coisas do mundo, no caso da Web Semântica falamos de Recursos, conforme dizem os autores talvez isto seja a coisa mais incomum para a palavra recurso, e para elas foi criada uma linguagem de definição chamada RDF como Framework de Descrição dos Recursos, e eles na Web tem uma unidade de identificação básica chamada URI, juntamente um Identificador Uniforme de Recursos.

No livro os autores desenvolvem uma forma avançada de RDF chamada de RDF Plus, que já tem muitos usuários e desenvolvedores, para modelar também ontologias usando uma linguagem própria para elas que é o OWL, o primeiro aplicativo é chamado SKOS, Uma Organização simples do Conhecimento, que propõe a organização de conceitos como dicionários de sinônimos, taxonomias e vocabulários controlados em RDF.

Como o RDF-Plus é um sistema de modelagem que fornece suporte considerável para informações distribuídas e federação de informações, é um modelo que introduz o uso de ontologias na Web Semântica de modo claro e rigoroso, embora complexo.

Allemang, D. Hendler, J. Semantic Web for the Working Ontologist: Effective Modelling in RDFS and OWL, Morgan Kaufmann Publishing, 2008.

 

Novidades no Google News

02 jul

Após vários anúncios, finalmente na segunda quinzena de maio o Google lançou seu novo aplicativo, somente agora consegui dar uma olhada no aplicativo que substitui o Google Play Newsstand, agora com uso de Inteligência Artificial.

O aplicativo trabalho em usar aprendizado de máquina para treinar algoritmos que vasculham notícias de modo complexo e recentes e divide-as num formato de fácil compreensão, com cronogramas cronológicos, notícias locais e histórias apresentadas numa sequencia de acordo com a evolução dos fatos, por exemplo, o início de uma partida de futebol, seus lances mais importantes, o resultado e as consequências.

Esta seção que são notícias que os algoritmos julgam importantes para você tem o nome For You (Para você no Brasil, e Para si em Portugal), seguem mais 3 seções assim divididas:

A segunda seção é chamada Manchete, onde as últimas notícias e temas específicos são apresentadas. Aqui, existe uma subseção onde o usuário pode escolher ler a notícia pela Cobertura Completa do Google, em que o Google divide-a em itens, numa variedade de fontes em Mídias sociais, permitindo saber onde e quando aquilo aconteceu.

A terceira seção mostra os favoritos, como os principais tópicos que o usuário costuma acessar, a IA tem grande trabalho ai, vai nas fontes favoritas do proprietário, salva histórias para leituras mais tarde e guarda pesquisas de acordo com a localização dos textos.

E por fim o White Play (Play Branco) que é a adição do novo Google news, que permite que o usuário acesse e assine serviços com conteúdos premium em Sites voltadas à notícias.

Enquanto uma parte da crítica continua a duelar com os velhos esquemas de notícias dirigidas ou enlatadas, vinculadas a grupos editoriais, o mundo das notícias personalizadas evolui.  

 

Alexa: assistente pessoal da Amazon

26 jun

Pode não parecer um fenômeno novo na tecnologia já que existem assistentes como o Siri, Cortana ou Google Now, mas o fato deste assistente ser realmente pessoal, por isto chamei os outros de assistentes de voz, é o fato que ele aprende e armazena os dados em uma nuvem particular da Amazon Web Service (AWS).

Ativados por voz estes assistentes pessoais embora todos fundamentados pelo uso de voz há diferenças, eles podem aprender com pessoas específicas hábitos e funções que elas desejam, enquanto o assistente de voz, como chamo Siri e Google Now agora emponderado pelo Dialogflow, como explicamos no post anterior, eles podem responder e aprender com a interação humana, mas poderá, se for desejável organizar seu próprio banco de dados.

O Alexa (por ser o assistente pessoal penso ser do género masculino, mas pode ser a também) está centralizada na nuvem da Amazon e tem seu próprio equipamento que é o Amazon Echo, uma coluna sempre conectada a internet via WiFi que está atenta aos diálogos do seu “dono”.

Os serviços de música em streaming com uso do Spotify ou Pandora, pode ler as notícias dos principais jornais que preferir, informar a previsão de tempo ou o trânsito a caminho do trabalho, pode controlar todos equipamentos em casa que sejam Smart Home, inclusive ele pode identificar e dizer sobre a compatibilidade, mais sua capacidade vai além.

Além disto tudo promete verificar coisas básicas como resolver contas matemáticas ou entrar numa conversa e até contar piadas, com o tempo este banco e esta capacidade vai evoluir.

Mas cuidado, já postamos aqui sobre o mito da singularidade (em especial o livro de Jean Gabriel Ganascia), a ideia que isto vai virar um monstro e controlar você é menos verdadeira que a de individualizar-se e deixar de falar com amigos e parentes.

 

Como pensamos que é o pensar

15 mai

Desde a Algebra de 0 e 1 de Boole, passando pelos primeiros computadores de Charles Babbage, chegando aos pensamentos de Vannevar Bush e Norbert Wiener do MIT dos anos 40, chegamos passando por Alan Turing e Claude Shannon, a pergunta final: a máquina um dia pensará.

O que vemos entre o apelo de investimentos da Robô Sophia ao mercado de “assistentes pessoais” é uma longa história do que de fato significa pensar, mas a pergunta agora devido aos tecnoprofetas (nome dado aos alarmistas por Jean-Gabriel Ganascia) é inevitável.

Vannevar Bush tinha uma máquina de processar dados no seu laboratório do MIT, onde foi trabalhar um estagiário chamado Claude Shannon, diz James Gleick que foi ele que sugeriu ao seu aluno que estudasse a Algebra de Boole.

Vannevar Bush no seu texto histórico As We May Think, embora não diga como iriamos pensar, fala das possibilidades futuras de novos avanços: “considere um dispositivo futuro … em que um indivíduo armazene todos os seus livros, registros e comunicações, e que seja mecanizado para que possa ser consultado com excessiva velocidade e flexibilidade. É um suplemento íntimo ampliado de sua memória” (Bush, livre tradução nossa do texto de 1945).

Cria a ideia embrionária de um computador que relaciona textos, como se faz em pesquisas desde o início da impressão de Gutenberg, mas sua máquina Memex (figura acima) já era pensada como uma capacidade alargada de registros e comunicações, mesmo que o telefone fosse ainda nascente nos anos finais da II Guerra mundial e as comunicações dependiam de potentes antenas.

O certo é que no final seu texto pouco ou quase nada diz sobre de fato o que é o pensamento e tal como acontece ainda hoje em Inteligência Artificial, o que temos feito é ampliar mais e mais a capacidade de memória e comunicação, assim como de cruzar grandes quantidades de dados, agora com técnicas chamadas de Big Data.

Outra tendência contemporânea é perguntar pela autonomia das máquinas, os experimentos realizados, mesmo com os chamados “veículos autónomos” são a base de algoritmos e eles dependem na tomada de decisão de como o ser humano vai fazer em determinada circunstância, em casos críticos, como decidir entre duas tragédias, a opção pode ser fatal.

Mas pensar ainda é com humanos, e por enquanto são eles que escrevem algoritmos e treinam as máquinas.

 

Um inimigo do povo

01 mai

O ministro Edson Fachin citou Henrik Ibsen (1828-1906) a semana passada,UmInimigoDoPovo após ser voto vencido contra a soltura de pecuarista Bumlai e o ex-tesoureiro do PP Genu, disse que pensou em reler Um inimigo do povo, onde o escritor norueguês narra um certo Dr. Stockmann que sendo médico afirma que a água da cidade estava contaminada, mas esta água era a principal fonte de renda daquela comunidade.

Assim narra as contradições entre a consciência do trabalho a favor do bem comum e o desejo de conseguir a unanimidade, fato que fez o Dr. Stockmann entrar em choque com os interesses mesquinhos da cidade.

Ibsen, cujas ideias anarquistas teve grande influencia em intelectuais e políticos da sociedade de sua época, talvez seja uma das razões que estes países nórdicos gozarem de boa reputação em relação a corrupção, a distribuição de renda e políticos que não se servem da política, mas fazem dela um serviço.

Os ideais anarquistas, estão presente quando o médico do balneário, Dr. Stockmann afirma: “somente o pensamento livre, as ideias novas, a capacidade de um pensar diferente do outro, o contraditório, podem contribuir para o progresso material e moral da população”, anarquismo a parte, é a dificuldade para uma verdadeira dialogia.

Não havia lido, li seu livro mais famoso é Casa de Bonecas, obra concluída em 1979, e encenada pela primeira vez em Copenhagne na Dinamarca no teatro “Det Kongelige Teater”, que provocou polêmicas por denunciar a exclusão das mulheres na sociedade moderna, e que deu destaque ao pensamento de Ibsen não só na Escandinávia, mas em todo mundo.

O que Fachin quis apontar ao citar “Um inimigo do povo” é o perigo real que provavelmente a operação Lava-jato solte todos os implicados nos escândalos de corrupção no Brasil, deixando de fazer um importante ajuste na nossa história e jamais seremos uma Suécia ou uma Noruega porque não há líderes capazes de apontar um caminho de “ficha-limpa” e fim de enriquecimentos ilícitos a partir do abuso do erário público.

No dia do trabalho seria importante não apenas fazer média com a classe operário, mas mostrar quais são as águas poluídas que de fato minam a saúde de seus salários e dos serviços públicos a ela oferecidos.

 

Scholar Semantic é uma novidade ?

26 out

A Google poderá perder terreno, desde novembro está online uma versão BETAsemanticweb do Scholar Semantic, que faz busca semântica na Web através de artigos envolvendo autores e suas referências.

Quando se trata de literatura científica faz algumas décadas que vivemos uma sobrecarga de artigos científicos, áreas como a Ciência da Informação já estudam este fenômeno a anos, mas agora a Google parece querem abalar os alicerces das “buscas” no ambiente da Web.

Mas o número agora é astronômico, mais de 100 milhões de papers acadêmicos estão online, e o crescimento é de cerca de 5.00 artigos por dia, como tratar este volume de dados.

O Instituto Allen, dedicado a Paul Allen promete balançar este “mercado” com o lançamento da ferramenta já disponível Scholar Semantic, fiz uma busca no meu nome e já achei alguma coisa.

Lançado em novembro de 2015, e ainda com uma versão beta, o buscador online procura abranger a área de informática, limitada ainda a cerca de 3 milhões de artigos, portanto 3% do universo atual, mas a área de Neurociência já está disponível em 2016, e outras áreas médicas começaram a aparecer.

Oren Etzioni, o chefe do projeto de Inteligência Artificial intitulado de EA2, disse em entrevista que é “impossível não se incomodar com tudo que estamos descobrindo estes dias”.

Deverão avançar mais agora na área médica, porque ela é “tão visceral”, disse Etzioni, e comparando com os serviços de Google Scholar ou PubMed, a capacidade de destacar os papers mais importantes e suas ligações com outros papers, poderão direcionar as pesquisas num futuro muito próximo.

Em quanto tempo este futuro chegará até nós ? Etzione responde: “Eu acho que os primeiros serviços de “assistentes científicos” vão surgir nos próximos 10 anos e eles estão poderão ficar melhores a cada dia, “Nós não estamos falando muito além do horizonte, veremos isto em muito breve”.

Pode já acessar o programa EA2 Semantic Scholar ou pelo site semanticscholar.org , já há vermos também para iOs e Android.

 

Tecnologias significativas para Big Data

20 set

Big Data ainda é uma tecnologia emergente, no ciclo que vai do surgimento de uma tecnologia até asxsw sua maturidade, se olharmos o hipociclo da curva de Gartner, veremos nela o Big Data na descendência desde o surgimento, até a desilusão, mas depois vem o ciclo da maturidade.

 

Para responder a questões propostas na TechRadar: Big Data, Q1 2017, um novo relatório foi produzido dizendo da 22 tecnologias de possíveis maturidades nos próximos ciclo de vida, entre as quais, 10 passos para “amadurecer” as tecnologias Big Data.

 

Na opinião desta pesquisa, os dez pontos que poderão, para incrementar o Big Data, são:

 

  1. A análise preditiva: soluções de software e / ou hardware que permitem que as empresas descobrem, avaliem, otimizem e implantem modelos preditivos através da análise de fontes de dados grandes para melhorar o desempenho dos negócios ou mitigação de risco.
  2. Serão necessários bancos de dados NoSQL: key-value, documentos e bases de dados gráfica.
  3. Pesquisa e descoberta de conhecimento: ferramentas e tecnologias para apoiar a extração de informações e novas perspectivas de auto-atendimento de grandes repositórios de dados não estruturados e estruturados que residem em múltiplas fontes, tais como sistemas de arquivos, bancos de dados, córregos, APIs e outras plataformas e aplicações.
  4. Fluxos de análises (analytics Stream): software que podem filtrar, agregar, enriquecer e analisar uma alta taxa de transferência de dados de múltiplas fontes de dados on-line díspares e em qualquer formato de dados (semi-estruturados).
  5. Análise persistente (In-memory) de “tecidos” de dados: permite o acesso de baixa latência e processamento de grandes quantidades de dados através da distribuição de dados através da memória de acesso aleatório dinâmico (DRAM), Flash, ou SSD de um sistema de computador distribuído.
  6. Arquivos de lojas Distribuídas: uma rede de computadores onde os dados são armazenados em mais de um nó, muitas vezes de forma replicada, tanto a redundância como desempenho.
  7. A virtualização de dados: uma tecnologia que fornece informações de várias fontes de dados, incluindo fontes grandes de dados, como a ferramenta Hadoop e armazenamentos de dados distribuídos em tempo real e ou tempo quase-real (pequenos delays).

Isto vai exigir as 3 ultimas etapas que a pesquisa sugere: 8. integração de dados: ferramentas para a orquestração de dados (Amazon Elastic MapReduce (EMR), Apache Hive, Apache Pig, Apache Spark, MapReduce, Couchbase, Hadoop, MongoDB), preparação de dados (modelagem, limpeza e compartilhamento) e a qualidade dos dados (enriquecimento e limpeza de dados em alta velocidade) serão necessários  e feito isto, poderá tornar o Big Data produtivo “fornecendo valores de algo de crescimento através de uma Fase de Equilíbrio”.

 

Verizon compra Yahoo

27 jul

Anunciada nesta segunda-feira (25/07) a operadora de telecomunicaçõesYahooVerizon americana (com pouca presença no Brasil), anunciou a compra do site Yahoo pelo valor de R$ 4,83 bilhões, mas a operação final deve ser autorizada pelo governo americano até o final do ano.

 

Tendo se iniciado com site de busca, a competição deste além da AOL com a Google acabou sucumbindo as Buscas ao Google, e a interação em mídia de redes sociais ao Facebook.

 

Tornando-se a terceira maior em publicidade, unidas a Verizon, uma das duas grandes americanas em telecomunicações (a outra é a TIM-móvel), a expectativa é que possa fazer frente ao site de buscas e lançar novas ferramentas de mídias de redes sociais alternativas ao Facebook, o futuro digital pode reservar ainda mais novidades.

 

Maria Mayer que foi contratada a quatro anos para dar uma virada na Yahoo foi ao que parece mal sucedida no negócio de fazer a marca entrar numa nova fase para uma empresa com mais de 20 anos de existência, e com o fato pertencer agora a uma operadora de telefonia móvel poderá auxiliar este avanço esperado.

 

No momento o que aparece ao público serão sites, aplicativos e diversos tipos de operações de vídeo, imagens e chats, mas o negócio já tem em vista participação na gigante de negócios Alibabá, onde a Yahoo Japan Corp. tem 35,5% de participação, então devem vir novidades.

 

 

 

 

TDM em Humanidades Digitais

12 jul

Humanidades Digitais é uma área emergente que procura explorar MoleculaResinaconsequências sociais e humanas em ambientes digitais, por isso considero mais correto no nome Humanidade em Ambientes Digitais, e TDM (Text and Data Mining) é uma destas tendências.

 

Um blog da London School acaba de publicar interessante artigo que aponta para uma tendência que bibliotecas e bibliotecários explorem e auxiliem no uso de TDM para pesquisas e buscas.

http://blogs.lse.ac.uk/impactofsocialsciences/2016/07/12/how-libraries-and-librarians-can-help-with-text-and-data-mining/

O blog explica que em especial a alteração da revisão de Hargreaves sobre direitos autorais no Reino Unido, removem as barreiras legais para explorar textos e fazer mineração de dados (TDM) sobre o corpus da literatura de pesquisa, então o artigo explora como bibliotecas e os bibliotecários podem facilitar o trabalho de pesquisadores que querem aplicar métodos TDM em recursos bibliotecários quer seja para fontes impressas ou eletrônicas.

 

O artigo também defende que no caso dos recursos de bibliotecas, os bibliotecários podem aconselhar pesquisadores e incentivá-los a usar as novas regras de exceções de direitos autorais, o que significa que possam ultrapassar certas barreiras de direitos autorais.

 

O blog explica que isto pode significar recursos valiosos, por exemplo, em pesquisas de química molecular (foto), cristalografia e outras áreas de caráter muito sigiloso.

 

O artigo aponta isto como um exemplo das Humanidades Digitais, um grande corpo de jornais da época vitoriana pode ser extraído para extrair piadas desta época, e que podem ainda analisar outros aspectos de época e historia social do Reino Unido.

http://britishlibrary.typepad.co.uk/digital-scholarship/2014/06/victorian-meme-machine.html

Não se trata apenas do corpus eletrônico que possa ser extraído, embora-o artigo forneça um exemplo de digitalização de cópia para fins de TDM para ajudar o leitor.

 

Cresce o mercado de e-books

24 jul

Segundo a Câmara Brasileira do Livro e o Sindicato Nacional dos editores, o crescimento no E-booksCrescemercado nacional neste ano saltou de R$ 3,8 milhões em 2012 para R$ 12,7 milhões em 2013, ano base do levantamento, conforme pesquisa encomendada pela FIPE (Fundação Instituto de Pesquisas Econômicas) que foi apresentada nessa terça-feira, 22/07/2014.

Mesmo que as editoras reclamem que o crescimento não seja suficiente para cobrir os custos, a verdade do levantamento é que os esforços dos últimos anos na produção e a conversão de livros em e-books estão em pleno crescimento.

Em dados brutos, foram produzidos 30.683 títulos digitais em 2013, onde 26.054 são e-books e 4.629 são aplicativos, enquanto em 2012, os dados eram respectivamente, 7.470 e 194, e em  unidades vendidas, o salto também é também significativo, saltando de 235.315 para 889.146.

Uma informação é significativa, pois os números poderiam ser ainda maiores, pois a pesquisa é uma estimativa feita a partir de dados tomados por amostragem no último ano, tomado em 217 editoras, que representam apenas 72% do mercado, e o questionário tem pela segunda vez uma forma mais aprofundada sobre o livro digital, nenhuma inferência foi feita.

Ou seja, os números estão restritos ao universo destas 217 editoras que estão no mundo digital, portanto os valores podem ser ainda maiores.