RSS
 

Arquivo para a ‘Information Retrieval’ Categoria

All books digitalized in Norway

17 Dec

The news worried the publishing market, but Norway aims by 2020 to provide all the LibraryNorwayworks that are available in the country , and made an audacious plan to the Norway National Library.

Also the books that are in other languages ​​will be scanned, and the national control can be done through the IP (Internet Protocol on the computer) that is on your computer , this means that if you are in Norway can access the scanned books there and download, even though they have copyrights.

In other countries for selective access, i.e. e-books that are already free to download, can be accessed by ebooksgo.org page.
 .

There are already cases of mass digitization in the UK and Finland , but Norway did something extra to make agreements with many publishers to allow any person with an IP address in Norway accessing a copyrighted material .

The library has equipment for scanning and analyzing text structure of the books . It will also include the addition of metadata and storing files in a database for easy retrieval , according to The Verge site .

 

Die F. W. Lancaster

28 Aug

Is much discussion today about the semantics of the data, the Web tries to remake tLancasterhe way to organize your content via the Semantic Web, but these studies are present in Information Science and reference name is JW Lancaster.

His book ” Indexação e Resumos: teoria e prática” (Indexing and Abstracting in Theory and Practice, with Brazilian translation made by Briquet Lemos, now in 2nd. Edition) was the first American edition awarded in 1991 by the American Society for Information Science, as best book of the year in the area.

Frederic Wilfrid Lancaster was born in 1933 in England, studied at the Newcastle School of Librarianship from 1950 to 1954, following his career in the public library system of Newcastle. In 1959, he immigrated to the United States, where he worked in private firms and specialized libraries in the development and evaluation of information retrieval systems.

It was one of the first to work the evaluation of databases and do fundamental work in information retrieval, with the classic work called the Medical Literature Analysis and Retrieval System (MEDLARS), who performed at the end of the 1960s, to the National Library of Medicine U.S. (Jackson, 2005).

Went to the University of Illinois in 1970, where he was professor ma Graduate School of Library and Information Science from the University, where he continued advising on development of information retrieval in automated systems, having rendered service to the CIA.

In an article published in 1978, Toward paperless information systems, 1978, and in later works, the author argued for the inevitability of change of publications on paper to a paperless society, perhaps the first person to write about this.

He was a teacher and mentor of the first Brazilian Masters course in the area in the 1970s,

 

Big Data and Libraries

21 Aug

Technology Data Big Data is poised to revolutionize all aspects of human life and culture BigData3as people collect and analyze large volumes of data to predict behavior, problem solving, safety, and numerous other applications, is what ensures the site Christian Science Monitor.

The generation of large amounts of data is being driven by the increasing digitization of everyday activities and dependence on electronic devices of people who leave “fingerprints” concept that can be extended to trace “information”, since any object in any state conservation may contain “implicit” that is not yet in a suitable format.

The site CSMonitor cites a large data project which is a remarkable effort by the Library of Congress to archive millions of tweets per day, which can cost a lot of money for its historical value.

.
One example cited is the work of Richard Rothman, a professor at Johns Hopkins University in Baltimore, fundamental save lives.

The Centers for Disease Control and Prevention (CDC) in Atlanta predict flu outbreaks, and does so through the reports from hospitals.

But it took weeks, in 2009, appeared a study where researchers could predict outbreaks much faster through the analysis of millions of Web searches, queries made ​​as “My son is sick” and could learn a flu outbreak long before the CDC knew the reports of hospitals.

But the technologies of large volumes of data also has a boundary claim, in which technology is perceived potential distruir privacy, encourage inequality and promote government surveillance of citizens or others in the name of national security, how to reconcile these two trends ?

 

Buscas podem ter mais semântica

28 Mar

A gigante de busca anunciou no seu blog que modificou seu motor de busca para identificar associações e conceitos relacionados a uma consulta, melhorando a lista de termos relacionados a um assunto e mostrando esta associação nos seus resultados.

Em reportagem da PC World, Ori Allon, o líder do grupo técnico de desenvolvimento da Google, explicou: “Por exemplo, se você busca por ‘princípios da física´, nossos algoritmos entendem que estão associados ‘movimento angular’, ´relatividade especial, ´big-bang´e ´mecânica quântica´ e termos relacionados que podem ajuda-lo a encontrar o que precisa”.

A vice-presidente da Google do Grupo de Pesquisa de Experiência do Usuário, Marisa Mayer disse em entrevista ao IDB News Service, em outubro de 2007, que reconhecia a necessidade de uso de palavras-chave e isso era ainda uma limitação que o motor de busca deveria superar com o tempo, mas o caminho atual parece ser ainda o de associação de termos e não uma inserção maior de tagging para identificar conteúdos.

Uma das críticas principais é que o as buscas não tem este aspecto semântico, sendo uma busca apenas textual, o que é um fato, mas para resolver este problema nas buscas além da possibilidade dos motores encontrarem é necessário um incremento na própria maneira de armazenar conteúdos na Web e isto ainda não é considerado, mesmo tendo muitas tecnologias com uso de XML já desenvolvidas.

 

Gerenciamento Eletrônico de Documentos (GED)

29 Oct

Gerenciadores eletrônicos de documentos (GED em português e ECM, Enterprise Content Management) propiciam que uma empresa, organização ou mesmo uma pessoa gerencie documentos mesmo que não estejam estruturados, ou seja, envolvem estratégias, métodos e ferramentas utilizadas para capturar, gerenciar, armazenar, preservar e distribuir conteúdo e documentos relacionados aos processos de organização do fluxo.

Neste sentido são mais amplos que os CMS (Content Managment System), como Drupal, Plone, WordPress, etc. que gerenciam conteúdos “carregados” dentro da plataforma e portanto são limitados, pois não é suficiente “gerenciar” o conteúdo.

Duas plataformas mais difundidas de GED são: Alfresco e Knowledge Tree (KT).

As principais motivações para se ter um GED são: o compartilhamento de arquivos é melhorar a colaboração e auditoria em documentos organizacionais. Seis pontos devem ser levados em consideração: métodos para organizar e armazenar de modo simples os documentos, segurança e proteção (isto é crítico, nem sempre levado a sério), capacidade de introduzir metadados, opções de pesquisa (outro ponto crítico), controle de versão e rastreamento de transações e documento de fluxo de trabalho (road map).

As duas ferramentas fazem isto, mas KT é paga, há uma outra paga chamada Dokmee, mais simples mas ao nosso ver mais limitada, mas muitas empresas preferem ferramentas “simples”, para tornar o treinamento simples e garantir o “serviço”.

Tanto Alfresco quanto KT oferecem todas as funcionalidades sugeridas acima, com pequenas diferenças.  Os dois têm os conceitos de usuários, grupos e papéis, mas KT fornece ainda  a opção de unidades.  Todos os usuários tem acesso aos documentos que podem ser controlados em uma escala de simples e com complexas opções de proteção.

Já os metadados e opções globais de pesquisas internas de documentos estão disponíveis em ambos, mas na versão KT estão ativados como padrão enquanto no Alfresco podem ser acrescentados com maior facilidade através de definição de aspectos de herança de acordo com as localidades. E por último ambos têm sistemas de fluxo contínuo de trabalho.

 

Reinventando o conhecimento e encontrabilidade

28 Oct

O livro é dos autores Ian McNeely e Lisa Wolverton,  com o nome em inglês “Reinventing Knowledge: From Alexandria to the Internet” e o que pode parecer uma extravagancia intelectual revela-se aos poucos um grande passeio na história da escrita e do conhecimento até chegar a um conceito importante para os dias de hoje, encontrar é diferente de buscar, daí a diferença entre o ´find´ com o ´search´.

O texto fala da importância da oralidade nos séculos V e VI, que “mesmo se a memória tenha o conteúdo, ela altera nas palavras, mas lá [no discurso em papel] é armazenada em segurança, para ser ouvida para sempre com consistência” (Encyclopaedia Romana).  Dois milênios depois, estamos aqui voltando ao discurso da conversação com o registro on-line que pode ser ouvido para sempre (ou não) dependendo da consistência, ou pelo menos enquanto o site estiver no ar.

O livro fala de Cassiodoro, um oficial romano dos séculos V e VI d.C. Cassiodoro, que possivelmente fundou um mosteiro, onde ele participou da segunda reinvenção do conhecimento, enquanto a sociedade romana se desintegrava, os mosteiros e conventos tornavam-se os repositórios de conhecimento com os escribas religiosos silenciosamente copiando as palavras, e assim, registrando o texto sobre alguma fala como meio de troca de conhecimentos. Dois milênios depois, estamos registrando o discurso de uma conversação com um registro on-line.

Livros começaram como pergaminhos, e foram tendo uma melhoria tecnológica mais em cascas mais comprimidas.  Assim foi escrevendo sobre Cassiodoro, em tempos antigos: “Por quanto você poderia gravar rapidamente palavras que a dureza da casca resistente tornou quase impossível de estabelecer?  ( Encyclopaedia Romana ). Não é de admirar que o calor da mente sofreu atrasos sem sentido, e gênio foi era impelido com o texto gravado, foi com as suas palavras foram retardados ” (Encyclopaedia Romana ).   Essa é exatamente a melhoria que vamos encontrar com computadores muito mais do que com máquinas de escrever.

Como qualquer pessoa que passa muito tempo com seus textos escritos, foram os monges e as monjas comecei a pensar sobre a encontrabilidade, isto uma busca inteligente, uma espécie de “google mental” mas com sistemas referenciais que ligassem os conteúdos.   O papel pergaminho mais rápido para escrever, tinha um problema sério, você tinha que ir desenrolando até encontrar a passagem correta que queria, então era interessante coloca-lo em páginas individuais, e agora em vez de desenrolar, você simplesmente podia voltar e colocar uma folha escrita ao lado.

Agora em vez de desenrolar você poderia simplesmente voltar a página e em vez de desenrolar, você poderia simplesmente se voltar para uma página específica.  A palavra para estes primeiros livros é códex.   Tipo de tecnologia tem um anel para ela, e  McNeely e Wolverton comparam a mudança a uma “diferença entre uma fita de vídeo e um DVD.”

Mais raciocínios lógicos deste tipo só lendo o livro, muito interessante.

 

Achar ou encontrar o que o usuário busca

10 Aug

Nos sites como na vida, tão importante quanto procurar é encontrar, Leia o resto deste post »

 

Aplicativo coloca tags automáticas em fotos

08 Jul

Dois estudantes de graduação da Universidade de Duke e da Universidade de Carolina do sul: Chaun Qin e Xuan Bao Leia o resto deste post »

 

Convergência transmodal e padrões de reuso de objetos

07 Jul

A convergência “transmodal”, é uma perspectiva educacional que a partir Leia o resto deste post »

 

Revista D-Lib discute presente e futuro das Bibliotecas

27 Jun

A revista de maio/junho D-Lib Magazine focalizou todos os artigos na discussão do presente e futuro das Bibliotecas, enfatizando a ligação das com os avanços destas tecnologias, com a pesquisa científica e as técnicas de introdução de metadados adaptadas aos novos avanços.

O editor esclarece no editorial: “A parte ‘para o futuro’ significa que um estudo adequado deve incluir métodos de preservação, bem como proporcionar aos usuários maneiras de descobrir, obter e analisar qualquer registro … D-Lib geralmente prefere a publicar artigos sobre projetos e atividades existentes, mas felizmente nós podemos quebrar as nossas próprias regras quando é útil para fazer isso … e suas implicações para o trabalho da biblioteca no futuro são instigantes e acreditamos que você vai achar de interesse”, esclarece Lawrence Lannon, diretor do CNRI e editor da revista.

O primeiro artigo de Li e Banach refere-se a um encontro realizado na primeira americana de 2010, analisaram o contexto dos repositórios institucionais (RI) e examiram as práticas de preservação, evolução e padrões em 72 bibliotecas de pesquisa analisando o complexo ambiente com uma tecnologia em rápida mudança.

O segundo artigo vê o papel das bibliotecas nas pesquisas, estudando as bibliotecas australianas, os autores Wolski, Richardson e Rebollo, descrevem  como construir uma coleções virtuais de pesquisa ao nível institucional e expor os metadados para buscas em níveis, tanto local quanto nacional de dados e conteúdos de pesquisa. O núcleo dessa arquitetura contém formas de intercâmbio de metadados, que é descrito em detalhes e mostra um caminho a seguir paratornar os  serviços de biblioteca mais útil e mais visível. Também é usado a “arquitetura de participação” usada pela Biblioteca da Universidade de Minnesota que aponta para um quadro multi-dimensional de apoio acadêmico, estudos feitos por dois autores Neuroth (2009) e Lougee & Blanke (2009) que apontam o papel da “biblioteca como catalisador de colaborações não frequentes e não intencionais” necessários para o envolvimento da comunidade.

O terceiro artigo de Robert B. Allen aborda a Comunicação Científica e propõe modelos para superar algumas dificuldades atuais, segundo o autor as limitações enumeradas são: “(a) a indexação de texto depende das condições que acontecerá a ser utilizado; (b) relatórios de pesquisa textual não são facilmente navegável por navegação; (c) extração de informações de texto é tedioso e propenso a erros; (d) relatórios de pesquisa textual não são facilmente colocadas completas e falta verificação de consistência, e (e) devem ser traduzidos em vários idiomas”. È um modelo teórico complexo para ser implantado, mas problematiza o desenvolvimento da pesquisa e sua respectiva documentação em etapas, sugere um modelo de entidade-relacionamento.

O último artigo de Johan van der Knijff, discute a especificação do formato JP2 (na norma ISO / IEC, 2004a) que descreve os métodos que podem ser usados ​​para definir o espaço de cores de uma imagem. O uso JP2 suporta o uso de perfis ICC para níveis de cores preto e branco e três componentes (tais como tons de cinza e RGB-Red, Green e Blue). No entanto, JP2 não suporta todas as funcionalidades do padrão ICC.

Neuroth, H., & Blanke, T. E-Infrastructures for Research Data in the Humanities. Knowledge Exchange, disponível aqui., 2009.

Lougee, W. The diffuse library revisited: aligning the library as strategic asset. Library Hi Tech, 27(4), 610-623, 2009.