RSS
 

Arquivo para August 30th, 2011

Os Petabytes estão chegando

30 Aug

Você sabe quanto é um Petabyte, mil Teras (e estes mil gigas ou seja:  109 bytes), assim um peta será 1012 bytes, pois logo será atingido este numero, a IBM anunciou uma máquina, composta de 120 petabytes, com  200.000 unidades de disco de Terabytes, conforme anuncio no MIT Technology Review.

Isto significa 24 milhões de arquivos mp3 cada um com um tamanho médio típico de 5 MByte ou guardar 60 cópias de backup da Web, os 150 bilhões de páginas que compõem a máquina de Arquivos da Internet WayBack Machine, o filme Avatar inteiro usou 1 Petabyte de arquivos e calcula-se que o Google processe em média 25 petabytes de dados por dia.

Um portavoz a IBM Ari Entin confirmou a existência do projeto de super-storage (storage é uma concepção de armazenamento confiável em repositórios ou clouds), mas os pesquisadores ainda não querem comentar antes da publicação do artigo científico.

Parece simples pois seria apenas unir unidades de armazenamento, mas o endereçamento e a matriz que realiza a consulta dos   arquivos, tem vários problemas técnicos, e isso poderia causar problemas exclusivos como aquecimento e inconsistência de endereçamento endereçados de uma vez, que é diferente o mesmo enderaçameno em máquinas diferentes, conforme disse Jay Heiser, vice-presidente de pesquisa da Gartner ao TechNewsWorld: “Muito do que foi aprendido no centro de dados ao longo dos últimos 30 anos é apenas parcialmente relevantes para responder à questão de saber se faz sentido colocar 100 petabytes em uma única cesta”.

Para o resfriamento foi usado água em vez de ar, uma vez que a IBM já tem experiência em sistemas de resfriamento com água para mainframes (computadores de grande porte), garantiu David Hill do  Grupo Mesabi, parceiro da IBM.

O segundo pr:oblema que é o endereçamento, o sistema usa uma  matriz paralela de arquivos da IBM (General Parallel File GPFS), um sistema altamente escalável para ler ou escrever várias partes simultaneamento um arquivo.

Em julho, pesquisadores da IBM usaram o sistema GPFS executado em um cluster de 10 sistemas de oito-núcleos o armazenamento e  para fazer a varredura 10 000 000 000 arquivos (pdf), ou seja, 10 trilhões em um sistema em apenas 43 minutos.  O recorde anterior, estabelecido por pesquisadores da IBM em 2007, era 1 bilhão arquivos em três horas.