InfoBlender Webinar

GenoDedup: Similarity-Based Deduplication and Delta-Encoding for Genome Sequencing Data

Transmissão através de Videoconferência

Por Vinicius Cogo (aluno de doutoramento de Ciências ULisboa).

Abstract: The vast datasets produced in human genomics must be efficiently stored, transferred, and processed while prioritizing storage space and restore performance. Balancing these two properties becomes challenging when resorting to traditional data compression techniques. In fact, specialized algorithms for compressing sequencing data favor the former, while large genome repositories widely resort to generic compressors (e.g., GZIP) to benefit from the latter. Notably, human beings have approximately 99.9% of DNA sequence similarity, vouching for an excellent opportunity for deduplication and its assets: leveraging inter-file similarity and achieving higher read performance. However, identity-based deduplication fails to provide a satisfactory reduction in the storage requirements of genomes. In this work, we balance space savings and restore performance by proposing GenoDedup, the first method that integrates efficient similarity-based deduplication and specialized delta-encoding for genome sequencing data. Our solution currently achieves 67.8% of the reduction gains of SPRING (i.e., the best specialized tool in this metric) and restores data 1.62x faster than SeqDB (i.e., the fastest competitor). Additionally, GenoDedup restores data 9.96x faster than SPRING and compresses files 2.05x more than SeqDB. The paper is available here.

Biography: Vinicius Cogo is a PhD candidate in Informatics from the Faculty of Sciences (Ciências) of the University of Lisbon (ULisboa, Portugal). He has a MSc in Informatics from Ciências/ULisboa and a BSc in Computer Science from the Federal University of Santa Maria (UFSM, Brazil). He is a researcher at LASIGE since 2009 and has worked in 6 projects and authored more than 20 peer-reviewed publications. His research interests include distributed systems, dependability, fault tolerance, storage of critical data, and cloud computing. 

14h00
Título "Jornadas de Matemática" e logótipos das entidades envolvidas

O Departamento de Matemática e o Núcleo de Estudantes de Matemática e Matemática Aplicada associam-se às celebrações do Dia Internacional da Matemática.

Título "Cybersecurity Executive Program Edição 2025", sobre um fundo em tons de verde

Candidaturas a decorrer - desconto early bird em duas fases (até 15 de fevereiro e até 28 de fevereiro).

Planta

As candidaturas terminam a 20 de março, estando previstos vários eventos de matchmaking para ajudar os participantes a encontrar parceiros para os seus projetos.

Reitoria da ULisboa

O ato eleitoral decorrerá nos dias 31 de março e 01 de abril de 2025.

A leading venue for presenting and discussing the latest research, industrial practice and innovations in dependable and secure computing.

O maior evento de empregabilidade de CIÊNCIAS, a decorrer nos dias 08 e 09 de abril.

Título "Para um ensino humanista das ciências" e logótipos das entidades organizadoras

O evento tem como tema principal "Para um ensino humanista das ciências" e conta com a participação de vários professores de CIÊNCIAS.

Banner do Dia de Ciências 2025

A 29 de abril de 2025 (terça-feira) assinalamos o 114.º aniversário da Ciências ULisboa.

Junte-se a nós no Grande Auditório de Ciências para uma tarde de celebração que reúne toda a comunidade da Faculdade.

Um concurso de programação dirigido aos alunos do ensino secundário (11.º e 12.º anos), que visa promover a prática e o gosto pela programação.

Banner Dia Aberto de CIÊNCIAS 2025.

Bem-vindos a Ciências ULisboa!

Computability in Europe (CiE) is an interdisciplinary series of international conferences organised by the Association Computability in Europe (ACiE).

Páginas