Webinar - InfoBlender
GenoDedup: Similarity-Based Deduplication and Delta-Encoding for Genome Sequencing Data
Resumo:
O armazenamento, a transferência e a o processamento de vastos conjuntos de dados resultantes da genómica devem ser realizados com a máxima eficiência, priorizando, simultaneamente, o espaço para armazenamento e soluções de restauro de performance. Encontrar o equilíbrio entre ambos os elementos é um desafio que se tem vindo a tornar cada vez mais complexo, especialmente quando se recorre a técnicas tradicionais para comprimir dados. Os algoritmos desenvolvidos especificamente para comprimir dados de sequenciamento favorecem o processo de armazenamento, enquanto os grandes repositórios de genomas recorrem, de forma geral, a ferramentas genéricas (GZIP, por exemplo). Os seres humanos têm, entre si, aproximadamente 99,9% de similaridade em termos de sequência de ADN. Tal característica é uma excelente oportunidade para o uso da deduplicação, tendo em conta as suas principais vantagens: alavancar a similaridade entre arquivos e obter um maior desempenho em termos de leitura. No entanto, a utilização da deduplicação baseada em identidade não se traduz na redução dos requisitos de armazenamento dos genomas. Nesse sentido, o trabalho desenvolvido no âmbito do GenoDedup visa o equilíbrio entre a poupança de espaço e o desempenho, tornando-se, assim, o primeiro método que integra a deduplicação baseada na similaridade e a modulação delta para dados de sequenciamento de genomas. De momento, a nossa solução alcança 67,8% da capacidade de compressão da SPRING (a melhor ferramenta especializada nessa métrica), sendo capaz de restaurar dados 1,62x mais rápido que o SeqDB (a ferramenta concorrente mais rápida). Além disso, o GenoDedup restaura os dados 9.96x mais rápido que o SPRING, e comprime os arquivos 2.05x mais que o SeqDB. O artigo encontra-se disponível aqui.
Biografia:
Vinicius Cogo é doutorando em Informática pela Faculdade de Ciências da Universidade de Lisboa (ULisboa, Portugal). Possuiu um Mestrado em Informática pela Universidade de Ciências/ULisboa e bacharelato em Ciências da Computação pela Universidade Federal de Santa Maria (UFSM, Brasil). Trabalha como investigador na LASIGE desde 2009, tendo participado em seis projetos e publicado mais de 20 trabalhospeer-reviewed. Os seus principais interesses incluem sistemas distribuídos, confiabilidade, tolerância a falhas, armazenamento de dados críticos e computação na cloud.
Notas:
Caso não seja colaborador INESC TEC, por favor, inscreva-se aqui para ter acesso ao link da sessão Zoom.
O webinar será gravado.