Os hospitais e biobancos podem economizar no armazenamento de dados
Maior rapidez de leitura e economizar 75% do espaço de armazenamento em dados da sequenciação de genomas humanos é a inovadora solução apresentada por Vinicius Vielmo Cogo e Alysson Neves Bessani, investigadores do LASIGE Ciências ULisboa e João Tiago Paulo, investigador do Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência (INESC TEC) e Universidade do Minho e que combina uma nova técnica de deduplicação de dados baseado em semelhanças e padrões encontrados nos ficheiros de sequenciação de genomas humanos e uma codificação das alterações para a recuperação desses dados.
De acordo com o comunicado de imprensa emitido recentemente pela Faculdade os cientistas substituiram a descrição completa dos dados genómicos sequenciados por pequenos apontadores descrevendo, apenas, as alterações necessárias para a recuperação dos dados originais, reduzindo proporcionalmente o espaço e o custo de armazenamento. Esta solução - GenoDedup: Similarity-Based Deduplication and Delta-Encoding for Genome Sequencing Data - foi publicada na revista IEEE Transactions on Computers, uma das mais reconhecidas revistas científicas da área de Informática no mundo, no passado dia 14 de maio de 2020.
Relevância e futuro
O conhecimento técnico e os orçamentos limitados para a criação de infraestruturas apropriadas para o armazenamento eficiente destes dados instiga a procura de novas soluções que equilibrem a economia de espaço de armazenamento e a velocidade de recuperação/ leitura destes dados. Os hospitais e biobancos podem economizar no armazenamento de dados, ao mesmo tempo que permite que investigadores leiam esses dados de forma mais rápida. Os biobancos e os hospitais são responsáveis por guardar e distribuir milhões de amostras biológicas humanas para investigadores de todo o mundo e, atualmente, estão sob pressão para, também, armazenar os dados genómicos sequenciados a partir destas amostras.
Futuramente, os cientistas pretendem disponibilizar a solução em código aberto e melhorar os resultados obtidos através de estudos mais aprofundados sobre os padrões e semelhanças entre genomas humanos sequenciados. Este método será também adaptado na sequenciação de genomas de outras espécies, para outras máquinas de sequenciação e outras representações de dados relacionadas.
Scripta manent. O que se escreve, fica, permanece. Leia os recortes de imprensa publicados sobre o assunto - Dinheiro Vivo e Exame Informática.