InfoBlender Webinar

GenoDedup: Similarity-Based Deduplication and Delta-Encoding for Genome Sequencing Data

Transmissão através de Videoconferência

Por Vinicius Cogo (aluno de doutoramento de Ciências ULisboa).

Abstract: The vast datasets produced in human genomics must be efficiently stored, transferred, and processed while prioritizing storage space and restore performance. Balancing these two properties becomes challenging when resorting to traditional data compression techniques. In fact, specialized algorithms for compressing sequencing data favor the former, while large genome repositories widely resort to generic compressors (e.g., GZIP) to benefit from the latter. Notably, human beings have approximately 99.9% of DNA sequence similarity, vouching for an excellent opportunity for deduplication and its assets: leveraging inter-file similarity and achieving higher read performance. However, identity-based deduplication fails to provide a satisfactory reduction in the storage requirements of genomes. In this work, we balance space savings and restore performance by proposing GenoDedup, the first method that integrates efficient similarity-based deduplication and specialized delta-encoding for genome sequencing data. Our solution currently achieves 67.8% of the reduction gains of SPRING (i.e., the best specialized tool in this metric) and restores data 1.62x faster than SeqDB (i.e., the fastest competitor). Additionally, GenoDedup restores data 9.96x faster than SPRING and compresses files 2.05x more than SeqDB. The paper is available here.

Biography: Vinicius Cogo is a PhD candidate in Informatics from the Faculty of Sciences (Ciências) of the University of Lisbon (ULisboa, Portugal). He has a MSc in Informatics from Ciências/ULisboa and a BSc in Computer Science from the Federal University of Santa Maria (UFSM, Brazil). He is a researcher at LASIGE since 2009 and has worked in 6 projects and authored more than 20 peer-reviewed publications. His research interests include distributed systems, dependability, fault tolerance, storage of critical data, and cloud computing. 

14h00

Seminário do Laboratório de Instrumentação e Física Experimental de Partículas, por Pedro Cruz (Northeastern University).

Logótipo do EVM 2024

Por Giosuè Muratore (DM Ciências ULisboa e CMAFcIO).

Logótipo do EVM 2024

Por Pedro Duarte (DM Ciências ULisboa, CMAFcIO).

Título do programa, sobre mosaico de fotografias de jovens cientistas

As candidaturas encontram-se encerradas. Obrigada aos quase 80 candidatos/as!

Fotografia de ilha

Seminários Doutorais no âmbito da disciplina de Projeto de Investigação (Doutoramento em Ciências do Mar).

Logótipo do EVM 2024

Por Maria Manuel Torres (DM Ciências ULisboa e CMAFcIO).

Seminário do Centro de Matemática, Aplicações Fundamentais e Investigação Operacional, por Baptiste Claustre (aluno ENS Lyon, estagiário CMAFcIO).

Logótipo do EVM 2024

Por: Jorge Buescu (DM Ciências ULisboa e CMAFcIO).

Titulo e data do evento, com imagem de ponte sobre o tejo

Um evento organizado no âmbito da Ação COST EURO-MIC, de cujo Comitê de Gestão Elisabete Silva, líder do Bioactive and Multifunctional Materials Lab do BioISI, faz parte.

Logótipo do EVM 2024

Por Jean-Baptiste Casteras (DM Ciências ULisboa e CMAFcIO).

Chegou a hora: os participantes do Programa Ser Cientista vão apresentar os projetos que desenvolveram ao longo de uma semana, acompanhados por docentes e investigadores de CIÊNCIAS. E todos podem assistir!

Imagem do evento

Extended enrolement date until July 12th.

Logótipo do evento, sobre um fundo branco

Um evento de reunião da comunidade nacional nas diversas vertentes da informática, com a ambição de ser o fórum de eleição para a divulgação, discussão e reconhecimento de trabalhos científicos.

Are you ready for this year's edition?

Imagem do evento - título, local e data do evento

Investigação Ecológica ao Serviço da Conservação

A leading venue for presenting and discussing the latest research, industrial practice and innovations in dependable and secure computing.