Arquivo para a ‘Recuperação da Informação’ Categoria
Noruega digitaliza e disponibiliza e-books
A notícia caiu com uma bomba no mercado editorial, mas a Noruega pretende até o ano 2020 disponibilizar todas as obras que estão disponíveis no país, e fez um plano audaciosa com a Biblioteca Nacional daquele país.
Também os livros que estiverem em outras línguas serão digitalizados, e o controle nacional pode ser feito através do IP (endereço de internet no computador) que estiver no computador, isto significa que se você estiver na Noruega pode acessar os livros digitalizados lá e fazer download, mesmo que tiverem copyright.
Em outros países para um acesso seletivo, isto é ebooks que já são free para download, pode ser acessado pela página ebooksgo.org.
Já há processos de digitalização em massa no Reino Unido e na Finlândia, mas a Noruega fez algo extra ao fazer acordos com muitas editoras para permitirem que quaisquer pessoas com um endereço de IP na Noruega acessem um material com direitos autorais.
A biblioteca possui equipamentos para digitalização e análise de estrutura de texto dos livros. É contará também com a adição de metadados e armazenando os arquivos em um banco de dados para facilitar a recuperação, segundo o site The Verge.
Morre F. W. Lancaster
Muito se discute hoje sobre a semântica dos dados, a Web tenta refazer a maneira de organizar seus conteúdos através da Web Semântica, mas estes estudos já estavam presentes na Ciência da Informação e um nome de referência é J.W. Lancaster.
Seu livro Indexação e Resumos: teoria e prática (Indexing and Abstracting in Theory and Practice, com tradução brasileira feita pela Briquet Lemos, já em 2ª. edição) teve a primeira edição americana premiada no ano de 1991, pela American Society for Information Science, como melhor livro da área no ano.
Frederic Wilfrid Lancaster nasceu em 1933 na Inglaterra, tendo estudado na Newcastle School of Librarianship de 1950 a 1954, seguindo sua carreira profissional no sistema de bibliotecas públicas de Newcastle. Em 1959, imigrou para os Estados Unidos, onde trabalhou em firmas particulares e bibliotecas especializadas no desenvolvimento e avaliação de sistemas de recuperação da informação.
Foi um dos primeiros a trabalhar a avaliação de bases de dados e a fazer trabalhos fundamentais na recuperação da informação, com o trabalho clássico chamado Medical Literature Analysis and Retrieval System (MEDLARS), que realizou em fins da década de 1960, para a National Library of Medicine dos EUA (JACKSON, 2005).
Foi para a Universidade de Illinois em 1970, onde foi professor na Graduate School of Library and Information Science da University, onde continuou prestando consultoria em desenvolvimento de recuperação da informação em sistemas automatizados, tendo prestado serviço a CIA.
Em artigo publicado em 1978, o Toward paperless information systems, de 1978, e em trabalhos posteriores, o autor defendia a inevitabilidade da mudança das publicações em papel para uma sociedade sem papel, talvez a primeira pessoa e escrever sobre isto.
Foi professor e orientador do primeiro curso de mestrado brasileiro na área, na década de 1970, no âmbito do Instituto Brasileiro de Bibliografia e Documentação (IBBD, hoje Ibict) ao lado de outros autores como Tefko Saracevic, Douglas Foskett e Derek Langridge, já em 1981, haviam 34 dissertações de mestrado no Brasil, o que contribuiu para organização de cursos.
Big Data e Bibliotecas
A tecnologia de dados do Big Data está pronta para revolucionar todos os aspectos da vida humana e da cultura como pessoas coletar e analisar grandes volumes de dados para previsão de comportamento, resolução de problemas, segurança e inúmeras outras aplicações, é o que garante o site Christian Science Monitor.
A geração de grandes quantidades de dados está sendo impulsionada pela crescente digitalização das atividades cotidianas e a dependência das pessoas em dispositivos eletrônicos que deixam “rastros digitais” conceito que pode ser estendido para “rastro da informação”, uma vez que qualquer objeto em qualquer estado de conservação pode conter informação “implícita” que não está ainda num formato adequado.
O site CSMonitor cita um grande projeto de dados notável que é um esforço por os Biblioteca do Congresso dos EUA para arquivar milhões de tweets por dia, cujo benefício pode custar muito pelo seu valor histórico.
Um exemplo, citado é o trabalho de Richard Rothman, professor da Johns Hopkins University, em Baltimore, fundamental: salvar vidas.
Os Centros de Controle e Prevenção de Doenças (CDC) em Atlanta preveem surtos de gripe, e o faz através dos relatórios dos hospitais.
Mas isto levava semanas, em 2009, apareceu um estudo onde pesquisadores puderam prever surtos muito mais rápido através da análise de milhões de buscas na Web, fazia as consultas como “Meu filho está doente” e podiam conhecer um surto de gripe muito antes do CDC soubesse pelos relatórios dos hospitais.
Mas as tecnologias de grandes volumes de dados também tem uma contorno sinistro, em que a tecnologia é percebida potencial de destruir a privacidade, incentivar a desigualdade e promover a vigilância do governo de cidadãos ou outros em nome da segurança nacional, como conciliar estas duas tendências ?
Buscas podem ter mais semântica
A gigante de busca anunciou no seu blog que modificou seu motor de busca para identificar associações e conceitos relacionados a uma consulta, melhorando a lista de termos relacionados a um assunto e mostrando esta associação nos seus resultados.
Em reportagem da PC World, Ori Allon, o líder do grupo técnico de desenvolvimento da Google, explicou: “Por exemplo, se você busca por ‘princípios da física´, nossos algoritmos entendem que estão associados ‘movimento angular’, ´relatividade especial, ´big-bang´e ´mecânica quântica´ e termos relacionados que podem ajuda-lo a encontrar o que precisa”.
A vice-presidente da Google do Grupo de Pesquisa de Experiência do Usuário, Marisa Mayer disse em entrevista ao IDB News Service, em outubro de 2007, que reconhecia a necessidade de uso de palavras-chave e isso era ainda uma limitação que o motor de busca deveria superar com o tempo, mas o caminho atual parece ser ainda o de associação de termos e não uma inserção maior de tagging para identificar conteúdos.
Uma das críticas principais é que o as buscas não tem este aspecto semântico, sendo uma busca apenas textual, o que é um fato, mas para resolver este problema nas buscas além da possibilidade dos motores encontrarem é necessário um incremento na própria maneira de armazenar conteúdos na Web e isto ainda não é considerado, mesmo tendo muitas tecnologias com uso de XML já desenvolvidas.
Gerenciamento Eletrônico de Documentos (GED)
Gerenciadores eletrônicos de documentos (GED em português e ECM, Enterprise Content Management) propiciam que uma empresa, organização ou mesmo uma pessoa gerencie documentos mesmo que não estejam estruturados, ou seja, envolvem estratégias, métodos e ferramentas utilizadas para capturar, gerenciar, armazenar, preservar e distribuir conteúdo e documentos relacionados aos processos de organização do fluxo.
Neste sentido são mais amplos que os CMS (Content Managment System), como Drupal, Plone, WordPress, etc. que gerenciam conteúdos “carregados” dentro da plataforma e portanto são limitados, pois não é suficiente “gerenciar” o conteúdo.
Duas plataformas mais difundidas de GED são: Alfresco e Knowledge Tree (KT).
As principais motivações para se ter um GED são: o compartilhamento de arquivos é melhorar a colaboração e auditoria em documentos organizacionais. Seis pontos devem ser levados em consideração: métodos para organizar e armazenar de modo simples os documentos, segurança e proteção (isto é crítico, nem sempre levado a sério), capacidade de introduzir metadados, opções de pesquisa (outro ponto crítico), controle de versão e rastreamento de transações e documento de fluxo de trabalho (road map).
As duas ferramentas fazem isto, mas KT é paga, há uma outra paga chamada Dokmee, mais simples mas ao nosso ver mais limitada, mas muitas empresas preferem ferramentas “simples”, para tornar o treinamento simples e garantir o “serviço”.
Tanto Alfresco quanto KT oferecem todas as funcionalidades sugeridas acima, com pequenas diferenças. Os dois têm os conceitos de usuários, grupos e papéis, mas KT fornece ainda a opção de unidades. Todos os usuários tem acesso aos documentos que podem ser controlados em uma escala de simples e com complexas opções de proteção.
Já os metadados e opções globais de pesquisas internas de documentos estão disponíveis em ambos, mas na versão KT estão ativados como padrão enquanto no Alfresco podem ser acrescentados com maior facilidade através de definição de aspectos de herança de acordo com as localidades. E por último ambos têm sistemas de fluxo contínuo de trabalho.
Reinventando o conhecimento e encontrabilidade
O livro é dos autores Ian McNeely e Lisa Wolverton, com o nome em inglês “Reinventing Knowledge: From Alexandria to the Internet” e o que pode parecer uma extravagancia intelectual revela-se aos poucos um grande passeio na história da escrita e do conhecimento até chegar a um conceito importante para os dias de hoje, encontrar é diferente de buscar, daí a diferença entre o ´find´ com o ´search´.
O texto fala da importância da oralidade nos séculos V e VI, que “mesmo se a memória tenha o conteúdo, ela altera nas palavras, mas lá [no discurso em papel] é armazenada em segurança, para ser ouvida para sempre com consistência” (Encyclopaedia Romana). Dois milênios depois, estamos aqui voltando ao discurso da conversação com o registro on-line que pode ser ouvido para sempre (ou não) dependendo da consistência, ou pelo menos enquanto o site estiver no ar.
O livro fala de Cassiodoro, um oficial romano dos séculos V e VI d.C. Cassiodoro, que possivelmente fundou um mosteiro, onde ele participou da segunda reinvenção do conhecimento, enquanto a sociedade romana se desintegrava, os mosteiros e conventos tornavam-se os repositórios de conhecimento com os escribas religiosos silenciosamente copiando as palavras, e assim, registrando o texto sobre alguma fala como meio de troca de conhecimentos. Dois milênios depois, estamos registrando o discurso de uma conversação com um registro on-line.
Livros começaram como pergaminhos, e foram tendo uma melhoria tecnológica mais em cascas mais comprimidas. Assim foi escrevendo sobre Cassiodoro, em tempos antigos: “Por quanto você poderia gravar rapidamente palavras que a dureza da casca resistente tornou quase impossível de estabelecer? ( Encyclopaedia Romana ). Não é de admirar que o calor da mente sofreu atrasos sem sentido, e gênio foi era impelido com o texto gravado, foi com as suas palavras foram retardados ” (Encyclopaedia Romana ). Essa é exatamente a melhoria que vamos encontrar com computadores muito mais do que com máquinas de escrever.
Como qualquer pessoa que passa muito tempo com seus textos escritos, foram os monges e as monjas comecei a pensar sobre a encontrabilidade, isto uma busca inteligente, uma espécie de “google mental” mas com sistemas referenciais que ligassem os conteúdos. O papel pergaminho mais rápido para escrever, tinha um problema sério, você tinha que ir desenrolando até encontrar a passagem correta que queria, então era interessante coloca-lo em páginas individuais, e agora em vez de desenrolar, você simplesmente podia voltar e colocar uma folha escrita ao lado.
Agora em vez de desenrolar você poderia simplesmente voltar a página e em vez de desenrolar, você poderia simplesmente se voltar para uma página específica. A palavra para estes primeiros livros é códex. Tipo de tecnologia tem um anel para ela, e McNeely e Wolverton comparam a mudança a uma “diferença entre uma fita de vídeo e um DVD.”
Mais raciocínios lógicos deste tipo só lendo o livro, muito interessante.
Achar ou encontrar o que o usuário busca
Nos sites como na vida, tão importante quanto procurar é encontrar, Leia o resto deste post »
Aplicativo coloca tags automáticas em fotos
Dois estudantes de graduação da Universidade de Duke e da Universidade de Carolina do sul: Chaun Qin e Xuan Bao Leia o resto deste post »
Convergência transmodal e padrões de reuso de objetos
A convergência “transmodal”, é uma perspectiva educacional que a partir Leia o resto deste post »
Revista D-Lib discute presente e futuro das Bibliotecas
A revista de maio/junho D-Lib Magazine focalizou todos os artigos na discussão do presente e futuro das Bibliotecas, enfatizando a ligação das com os avanços destas tecnologias, com a pesquisa científica e as técnicas de introdução de metadados adaptadas aos novos avanços.
O editor esclarece no editorial: “A parte ‘para o futuro’ significa que um estudo adequado deve incluir métodos de preservação, bem como proporcionar aos usuários maneiras de descobrir, obter e analisar qualquer registro … D-Lib geralmente prefere a publicar artigos sobre projetos e atividades existentes, mas felizmente nós podemos quebrar as nossas próprias regras quando é útil para fazer isso … e suas implicações para o trabalho da biblioteca no futuro são instigantes e acreditamos que você vai achar de interesse”, esclarece Lawrence Lannon, diretor do CNRI e editor da revista.
O primeiro artigo de Li e Banach refere-se a um encontro realizado na primeira americana de 2010, analisaram o contexto dos repositórios institucionais (RI) e examiram as práticas de preservação, evolução e padrões em 72 bibliotecas de pesquisa analisando o complexo ambiente com uma tecnologia em rápida mudança.
O segundo artigo vê o papel das bibliotecas nas pesquisas, estudando as bibliotecas australianas, os autores Wolski, Richardson e Rebollo, descrevem como construir uma coleções virtuais de pesquisa ao nível institucional e expor os metadados para buscas em níveis, tanto local quanto nacional de dados e conteúdos de pesquisa. O núcleo dessa arquitetura contém formas de intercâmbio de metadados, que é descrito em detalhes e mostra um caminho a seguir paratornar os serviços de biblioteca mais útil e mais visível. Também é usado a “arquitetura de participação” usada pela Biblioteca da Universidade de Minnesota que aponta para um quadro multi-dimensional de apoio acadêmico, estudos feitos por dois autores Neuroth (2009) e Lougee & Blanke (2009) que apontam o papel da “biblioteca como catalisador de colaborações não frequentes e não intencionais” necessários para o envolvimento da comunidade.
O terceiro artigo de Robert B. Allen aborda a Comunicação Científica e propõe modelos para superar algumas dificuldades atuais, segundo o autor as limitações enumeradas são: “(a) a indexação de texto depende das condições que acontecerá a ser utilizado; (b) relatórios de pesquisa textual não são facilmente navegável por navegação; (c) extração de informações de texto é tedioso e propenso a erros; (d) relatórios de pesquisa textual não são facilmente colocadas completas e falta verificação de consistência, e (e) devem ser traduzidos em vários idiomas”. È um modelo teórico complexo para ser implantado, mas problematiza o desenvolvimento da pesquisa e sua respectiva documentação em etapas, sugere um modelo de entidade-relacionamento.
O último artigo de Johan van der Knijff, discute a especificação do formato JP2 (na norma ISO / IEC, 2004a) que descreve os métodos que podem ser usados para definir o espaço de cores de uma imagem. O uso JP2 suporta o uso de perfis ICC para níveis de cores preto e branco e três componentes (tais como tons de cinza e RGB-Red, Green e Blue). No entanto, JP2 não suporta todas as funcionalidades do padrão ICC.
Neuroth, H., & Blanke, T. E-Infrastructures for Research Data in the Humanities. Knowledge Exchange, disponível aqui., 2009.
Lougee, W. The diffuse library revisited: aligning the library as strategic asset. Library Hi Tech, 27(4), 610-623, 2009.