InfoBlender Webinar

GenoDedup: Similarity-Based Deduplication and Delta-Encoding for Genome Sequencing Data

Transmissão através de Videoconferência

Por Vinicius Cogo (aluno de doutoramento de Ciências ULisboa).

Abstract: The vast datasets produced in human genomics must be efficiently stored, transferred, and processed while prioritizing storage space and restore performance. Balancing these two properties becomes challenging when resorting to traditional data compression techniques. In fact, specialized algorithms for compressing sequencing data favor the former, while large genome repositories widely resort to generic compressors (e.g., GZIP) to benefit from the latter. Notably, human beings have approximately 99.9% of DNA sequence similarity, vouching for an excellent opportunity for deduplication and its assets: leveraging inter-file similarity and achieving higher read performance. However, identity-based deduplication fails to provide a satisfactory reduction in the storage requirements of genomes. In this work, we balance space savings and restore performance by proposing GenoDedup, the first method that integrates efficient similarity-based deduplication and specialized delta-encoding for genome sequencing data. Our solution currently achieves 67.8% of the reduction gains of SPRING (i.e., the best specialized tool in this metric) and restores data 1.62x faster than SeqDB (i.e., the fastest competitor). Additionally, GenoDedup restores data 9.96x faster than SPRING and compresses files 2.05x more than SeqDB. The paper is available here.

Biography: Vinicius Cogo is a PhD candidate in Informatics from the Faculty of Sciences (Ciências) of the University of Lisbon (ULisboa, Portugal). He has a MSc in Informatics from Ciências/ULisboa and a BSc in Computer Science from the Federal University of Santa Maria (UFSM, Brazil). He is a researcher at LASIGE since 2009 and has worked in 6 projects and authored more than 20 peer-reviewed publications. His research interests include distributed systems, dependability, fault tolerance, storage of critical data, and cloud computing. 

14h00
Logótipo C-Academy

O curso oferece uma base sólida sobre os fundamentos e práticas essenciais para proteger sistemas e dados num mundo cada vez mais digital - candidaturas até 13 de abril.

Fotografia de fábrica a emitir poluição para a atmosfera

The course aims at enabling the participants to use different methods to measure the impacts of pollutants on ecosystems.

Logótipo MindTec

5 de maio - lançamento do projeto de rebranding interno que pretende repensar e redesenhar, em conjunto com a nossa comunidade académica, a identidade do Tec Labs.

Performance teatral

A apresentação pública do FATAL - Festival Anual de Teatro Académico de Lisboa contará com uma homenagem a Rogério de Carvalho, figura marcante do Teatro português, sendo igualmente apresentada a programação do festival.

Seminário do Centro de Física Teórica e Computacional, por Fábio Chalub (NOVA Math, Universidade NOVA de Lisboa, Portugal).

Curso destinado a todos que necessitem de realizar análise de dados com recurso ao R.

Um concurso de programação dirigido aos alunos do ensino secundário (11.º e 12.º anos), que visa promover a prática e o gosto pela programação.

Banner_trilho_laboratorios

Bem-vindos a Ciências ULisboa!

Vista a partir de cima de pessoas a trabalharem sobre uma mesa de madeira

CIÊNCIAS desenvolve um conjunto de atividades de apoio aos Doutorandos, periodicamente enquadradas no âmbito do PhD Support Programme.

Logótipo do LIP Summer Internship Program

Um programa destinado a estudantes de Física e Engenharia com interesse em investigação científica e tecnológica, com candidaturas até 11 de maio.

O evento reunirá alunos de Ciências ULisboa e do ISCAL, proporcionando-lhes uma oportunidade única para apresentarem e defenderem os seus projetos empreendedores num formato de pitch.

O encontro tem como objetivo divulgar e promover os resultados da investigação produzidos nos dois pólos do Centro de Química Estrutural (CIÊNCIAS e IST), estimulando a criatividade, o trabalho interdisciplinar e o espírito científico.

Fotografia de Chapim-azul

The goal of this course is to provide the participants with the most recent and practical knowledge on the use of Functional Diversity.

Mão a segurar em globo de vidro

Curso acreditado pelo CCPFC para efeitos de progressão na carreira dos professores na dimensão cientifico-pedagógica dos grupos 230, 420, 510, 520 e 560, com candidaturas até 30 de abril.

Título/data/local do evento, logótipos das entidades organizadoras e fotografia de peixe

The event aims to facilitate the exchange of information and knowledge among professionals to advance the understanding, collaboration and capabilities of aquaculture to respond to the impact of climate change in a rapidly changing global environment.

Uma oportunidade única para interagir com a comunidade global de computação científica, com inscrições (preço reduzido) até 02 de maio.

Logótipo Moodle

Ação de formação para docentes e investigadores de CIÊNCIAS.

Título/data/local do evento e iconografia representativa de energias renováveis

Inscrições até 16 de maio! Junta-te a esta revolução energética e faz a diferença!

Químico a escrever fórmulas num quadro

Curso acreditado para efeitos de progressão na carreira dos professores do Ensino Básico e Secundário do Grupo 510 (CCPFC/ACC-118288/22), com candidaturas até 18 de maio.

Curso destinado a estudantes de Mestrado e de Doutoramento, bem como a profissionais que desenvolvam investigação científica na área da saúde.

Título/data/local do evento e fotografia do mar

Quais são os conceitos-chave para enfrentar os atuais desafios marinhos e costeiros? 

Representação de programação R

This course aims at providing students with basic knowledge of R programming, allowing them to manipulate and visualize data with R.

The conference focuses on "Algebra and its role in Computer Science", with special emphasis on the areas of study related to the work of M. V. Volkov, such as semigroups and automata.

Logótipo do Verão na ULisboa, sobre um fundo azul

Candidaturas a partir de 07 de abril!

Representação de programação R

This course aims at providing students with statistical knowledge and tools to manipulate, analyse and visualise biological data with R. Introduction to modeling, simulations and Bayesian statistics.

Páginas