Arquivo para a ‘Information Retrieval’ Categoria

(Português) Verizon compra Yahoo

27 Jul

Sorry, this entry is only available in Brazilian Portuguese.


TDM in Digital Humanities

12 Jul


Digital Humanities is an emerging field that seeks to explore social and MoleculeResinhuman consequences in digital environments, so consider the more correct name Humanity in Digital Environments, and TDM (Text and Data Mining) is one of these trends.
A London School blog has just published interesting article that points to a trend that libraries and librarians operate and assist in the use of TDM for research and searches.
The blog explains that in particular the amendment of the Hargreaves review of copyright in the UK, remove legal barriers to explore texts and make data mining (TDM) on the corpus of the research literature, then the article explores how libraries and librarians can facilitate the work of researchers who want to apply TDM methods in library resources to either print or electronic sources.
The article also states that in the case of resource libraries, librarians can advise researchers and encourage them to use the new rules of copyright exceptions, which means that they can overcome certain copyright barriers.
The blog explains that this can mean valuable resources, for example, in research on molecular chemistry (photo), crystallography and other very confidential areas.
The article points out that as an example of Digital Humanities, a major newspaper body of the Victorian era can be mined to extract jokes this time, and can also analyze other aspects of time and UK social history.
It’s not just the electronic corpus that can be extracted, although it article provides a copy of scanning for example TDM purposes to aid the reader.


(Português) Cresce o mercado de e-books

24 Jul

Sorry, this entry is only available in Brazilian Portuguese.


All books digitalized in Norway

17 Dec

The news worried the publishing market, but Norway aims by 2020 to provide all the LibraryNorwayworks that are available in the country , and made an audacious plan to the Norway National Library.

Also the books that are in other languages ​​will be scanned, and the national control can be done through the IP (Internet Protocol on the computer) that is on your computer , this means that if you are in Norway can access the scanned books there and download, even though they have copyrights.

In other countries for selective access, i.e. e-books that are already free to download, can be accessed by page.

There are already cases of mass digitization in the UK and Finland , but Norway did something extra to make agreements with many publishers to allow any person with an IP address in Norway accessing a copyrighted material .

The library has equipment for scanning and analyzing text structure of the books . It will also include the addition of metadata and storing files in a database for easy retrieval , according to The Verge site .


Die F. W. Lancaster

28 Aug

Is much discussion today about the semantics of the data, the Web tries to remake tLancasterhe way to organize your content via the Semantic Web, but these studies are present in Information Science and reference name is JW Lancaster.

His book ” Indexação e Resumos: teoria e prática” (Indexing and Abstracting in Theory and Practice, with Brazilian translation made by Briquet Lemos, now in 2nd. Edition) was the first American edition awarded in 1991 by the American Society for Information Science, as best book of the year in the area.

Frederic Wilfrid Lancaster was born in 1933 in England, studied at the Newcastle School of Librarianship from 1950 to 1954, following his career in the public library system of Newcastle. In 1959, he immigrated to the United States, where he worked in private firms and specialized libraries in the development and evaluation of information retrieval systems.

It was one of the first to work the evaluation of databases and do fundamental work in information retrieval, with the classic work called the Medical Literature Analysis and Retrieval System (MEDLARS), who performed at the end of the 1960s, to the National Library of Medicine U.S. (Jackson, 2005).

Went to the University of Illinois in 1970, where he was professor ma Graduate School of Library and Information Science from the University, where he continued advising on development of information retrieval in automated systems, having rendered service to the CIA.

In an article published in 1978, Toward paperless information systems, 1978, and in later works, the author argued for the inevitability of change of publications on paper to a paperless society, perhaps the first person to write about this.

He was a teacher and mentor of the first Brazilian Masters course in the area in the 1970s,


Big Data and Libraries

21 Aug

Technology Data Big Data is poised to revolutionize all aspects of human life and culture BigData3as people collect and analyze large volumes of data to predict behavior, problem solving, safety, and numerous other applications, is what ensures the site Christian Science Monitor.

The generation of large amounts of data is being driven by the increasing digitization of everyday activities and dependence on electronic devices of people who leave “fingerprints” concept that can be extended to trace “information”, since any object in any state conservation may contain “implicit” that is not yet in a suitable format.

The site CSMonitor cites a large data project which is a remarkable effort by the Library of Congress to archive millions of tweets per day, which can cost a lot of money for its historical value.

One example cited is the work of Richard Rothman, a professor at Johns Hopkins University in Baltimore, fundamental save lives.

The Centers for Disease Control and Prevention (CDC) in Atlanta predict flu outbreaks, and does so through the reports from hospitals.

But it took weeks, in 2009, appeared a study where researchers could predict outbreaks much faster through the analysis of millions of Web searches, queries made ​​as “My son is sick” and could learn a flu outbreak long before the CDC knew the reports of hospitals.

But the technologies of large volumes of data also has a boundary claim, in which technology is perceived potential distruir privacy, encourage inequality and promote government surveillance of citizens or others in the name of national security, how to reconcile these two trends ?


Buscas podem ter mais semântica

28 Mar

A gigante de busca anunciou no seu blog que modificou seu motor de busca para identificar associações e conceitos relacionados a uma consulta, melhorando a lista de termos relacionados a um assunto e mostrando esta associação nos seus resultados.

Em reportagem da PC World, Ori Allon, o líder do grupo técnico de desenvolvimento da Google, explicou: “Por exemplo, se você busca por ‘princípios da física´, nossos algoritmos entendem que estão associados ‘movimento angular’, ´relatividade especial, ´big-bang´e ´mecânica quântica´ e termos relacionados que podem ajuda-lo a encontrar o que precisa”.

A vice-presidente da Google do Grupo de Pesquisa de Experiência do Usuário, Marisa Mayer disse em entrevista ao IDB News Service, em outubro de 2007, que reconhecia a necessidade de uso de palavras-chave e isso era ainda uma limitação que o motor de busca deveria superar com o tempo, mas o caminho atual parece ser ainda o de associação de termos e não uma inserção maior de tagging para identificar conteúdos.

Uma das críticas principais é que o as buscas não tem este aspecto semântico, sendo uma busca apenas textual, o que é um fato, mas para resolver este problema nas buscas além da possibilidade dos motores encontrarem é necessário um incremento na própria maneira de armazenar conteúdos na Web e isto ainda não é considerado, mesmo tendo muitas tecnologias com uso de XML já desenvolvidas.


Gerenciamento Eletrônico de Documentos (GED)

29 Oct

Gerenciadores eletrônicos de documentos (GED em português e ECM, Enterprise Content Management) propiciam que uma empresa, organização ou mesmo uma pessoa gerencie documentos mesmo que não estejam estruturados, ou seja, envolvem estratégias, métodos e ferramentas utilizadas para capturar, gerenciar, armazenar, preservar e distribuir conteúdo e documentos relacionados aos processos de organização do fluxo.

Neste sentido são mais amplos que os CMS (Content Managment System), como Drupal, Plone, WordPress, etc. que gerenciam conteúdos “carregados” dentro da plataforma e portanto são limitados, pois não é suficiente “gerenciar” o conteúdo.

Duas plataformas mais difundidas de GED são: Alfresco e Knowledge Tree (KT).

As principais motivações para se ter um GED são: o compartilhamento de arquivos é melhorar a colaboração e auditoria em documentos organizacionais. Seis pontos devem ser levados em consideração: métodos para organizar e armazenar de modo simples os documentos, segurança e proteção (isto é crítico, nem sempre levado a sério), capacidade de introduzir metadados, opções de pesquisa (outro ponto crítico), controle de versão e rastreamento de transações e documento de fluxo de trabalho (road map).

As duas ferramentas fazem isto, mas KT é paga, há uma outra paga chamada Dokmee, mais simples mas ao nosso ver mais limitada, mas muitas empresas preferem ferramentas “simples”, para tornar o treinamento simples e garantir o “serviço”.

Tanto Alfresco quanto KT oferecem todas as funcionalidades sugeridas acima, com pequenas diferenças.  Os dois têm os conceitos de usuários, grupos e papéis, mas KT fornece ainda  a opção de unidades.  Todos os usuários tem acesso aos documentos que podem ser controlados em uma escala de simples e com complexas opções de proteção.

Já os metadados e opções globais de pesquisas internas de documentos estão disponíveis em ambos, mas na versão KT estão ativados como padrão enquanto no Alfresco podem ser acrescentados com maior facilidade através de definição de aspectos de herança de acordo com as localidades. E por último ambos têm sistemas de fluxo contínuo de trabalho.


Reinventando o conhecimento e encontrabilidade

28 Oct

O livro é dos autores Ian McNeely e Lisa Wolverton,  com o nome em inglês “Reinventing Knowledge: From Alexandria to the Internet” e o que pode parecer uma extravagancia intelectual revela-se aos poucos um grande passeio na história da escrita e do conhecimento até chegar a um conceito importante para os dias de hoje, encontrar é diferente de buscar, daí a diferença entre o ´find´ com o ´search´.

O texto fala da importância da oralidade nos séculos V e VI, que “mesmo se a memória tenha o conteúdo, ela altera nas palavras, mas lá [no discurso em papel] é armazenada em segurança, para ser ouvida para sempre com consistência” (Encyclopaedia Romana).  Dois milênios depois, estamos aqui voltando ao discurso da conversação com o registro on-line que pode ser ouvido para sempre (ou não) dependendo da consistência, ou pelo menos enquanto o site estiver no ar.

O livro fala de Cassiodoro, um oficial romano dos séculos V e VI d.C. Cassiodoro, que possivelmente fundou um mosteiro, onde ele participou da segunda reinvenção do conhecimento, enquanto a sociedade romana se desintegrava, os mosteiros e conventos tornavam-se os repositórios de conhecimento com os escribas religiosos silenciosamente copiando as palavras, e assim, registrando o texto sobre alguma fala como meio de troca de conhecimentos. Dois milênios depois, estamos registrando o discurso de uma conversação com um registro on-line.

Livros começaram como pergaminhos, e foram tendo uma melhoria tecnológica mais em cascas mais comprimidas.  Assim foi escrevendo sobre Cassiodoro, em tempos antigos: “Por quanto você poderia gravar rapidamente palavras que a dureza da casca resistente tornou quase impossível de estabelecer?  ( Encyclopaedia Romana ). Não é de admirar que o calor da mente sofreu atrasos sem sentido, e gênio foi era impelido com o texto gravado, foi com as suas palavras foram retardados ” (Encyclopaedia Romana ).   Essa é exatamente a melhoria que vamos encontrar com computadores muito mais do que com máquinas de escrever.

Como qualquer pessoa que passa muito tempo com seus textos escritos, foram os monges e as monjas comecei a pensar sobre a encontrabilidade, isto uma busca inteligente, uma espécie de “google mental” mas com sistemas referenciais que ligassem os conteúdos.   O papel pergaminho mais rápido para escrever, tinha um problema sério, você tinha que ir desenrolando até encontrar a passagem correta que queria, então era interessante coloca-lo em páginas individuais, e agora em vez de desenrolar, você simplesmente podia voltar e colocar uma folha escrita ao lado.

Agora em vez de desenrolar você poderia simplesmente voltar a página e em vez de desenrolar, você poderia simplesmente se voltar para uma página específica.  A palavra para estes primeiros livros é códex.   Tipo de tecnologia tem um anel para ela, e  McNeely e Wolverton comparam a mudança a uma “diferença entre uma fita de vídeo e um DVD.”

Mais raciocínios lógicos deste tipo só lendo o livro, muito interessante.


Achar ou encontrar o que o usuário busca

10 Aug

Nos sites como na vida, tão importante quanto procurar é encontrar, Leia o resto deste post »