AI-based Models for Lung Cancer Characterization: a Multimodal and Causal Approach
Neste trabalho, serão desenvolvidos modelos de aprendizagem que permitem a integração de informações multimodais para criar uma compreensão abrangente dos múltiplos processos fisiopatológicos associados ao cancro do pulmão e fornecer uma assistência mais robusta e precisa nas decisões clínicas. Uma análise causal das relações entre variáveis específicas e o resultado da previsão será implementada, fornecendo uma contribuição essencial para o desenvolvimento de soluções baseadas em inteligência artificial (IA) para o cancro de pulmão. A avaliação clínica leva em consideração diversas fontes de dados para reunir todas as informações importantes para um diagnóstico confiável. Seguindo essa linha, abordagens holísticas baseadas em IA usando múltiplas fontes de dados introduzem mais complexidade nos modelos, mas são cruciais para uma análise correta dos processos fisiopatológicos interconectados que ocorrem no sistema do corpo humano. O cancro do pulmão tem sido recentemente estudado como um fenómeno clínico-patológico mais extenso que envolve alterações em várias outras estruturas pulmonares. Com uma análise holística desses achados fisiopatológicos, e dada a capacidade de reconhecimento automático de padrões das técnicas de aprendizagem profunda, este trabalho pretende desenvolver uma pesquisa fundamental mais abrangente e capaz de fornecer assistência relevante na caracterização do cancro do pulmão, integrando múltiplas modalidades de dados médicos e explorando os diferentes níveis de abstração de recursos que podem ser extraídos dadas suas distintas propriedades inerentes. A integração de várias modalidades de dados desde dados clínicos (dados laboratoriais, comorbidades, medicamentos, dados demográficos), até dados de imagem (raio-x, tomografia computadorizada) e dados -ômicos (biópsia líquida) levará ao enriquecimento da capacidade de estratificação dos pacientes. O objetivo é beneficiar com modelos mais abrangentes para melhorar o diagnóstico e o planeamento do tratamento, promovendo especificamente um diagnóstico mais preciso e rápido, e terapias personalizadas mais adequadas para os pacientes de cancro do pulmão. Sendo considerado um dos grandes desafios na aplicação da aprendizagem de máquina, a maioria dos modelos ainda não consegue generalizar sobre dados com distribuição diferente da utilizada para o seu desenvolvimento. Essa falta de generalização é ainda mais enfatizada em aplicações no domínio clínico, onde a quantidade de dados anotados é muitas vezes escassa, e difícil de adquirir a diversidade necessária de dados para construir modelos verdadeiramente robustos. Considerando isso, novas abordagens para a extração das variáveis subjacentes responsáveis pelos efeitos observados pelos modelos devem forçar os limites atuais das aplicações de tratamento do cancro, especialmente dada a alta complexidade e diversidade encontrada nos dados médicos. Além disso, a extração de informações significativas de dados clínicos de baixo nível também alavancará o poder de interpretação dos resultados obtidos, que é um ponto crucial no domínio médico. O objetivo do projeto LUCCA é liderar uma transição de meros modelos fragmentados e de ajuste de dados para a compreensão holística do cancro, desenvolvendo modelos integrados que fornecerão informações sobre as relações causais dos fenómenos patológicos. A pesquisa fundamental será baseada nos seguintes objetivos: desenvolvimento de algoritmos multimodais que possam identificar padrões em dados de múltiplas fontes e combiná-los para prever o estado dos principais biomarcadores; e integração de causalidade no design do modelo para compreender a estrutura causal subjacente que conecta os fenómenos biológicos em pacientes com cancro. A caracterização do cancro do pulmão será aplicada como um caso de uso, uma vez que este é um exemplo de um problema complexo e de dados multimodais, no qual novas soluções para auxiliar o diagnóstico irão gerar um enorme impacto positivo nos resultados do paciente e beneficiarão da experiência da equipa de investigação neste domínio. A abordagem proposta visa fornecer assistência confiável aos clínicos nesta tarefa complexa. Este projeto representa uma abordagem disruptiva para o estudo do cancro, ao tentar criar modelos para uma análise mais abrangente. Trabalhos anteriores foram baseados em modalidades de dados únicos, muitas vezes centrados nos nódulos (aglomerados de células tumorais) e não levando em consideração outras interações que podem ser capturadas por abordagens holísticas. Esta proposta representa uma inovação tanto na metodologia quanto na aplicação, explorando técnicas para melhorar a generalização de algoritmos de aprendizagem abrangentes, representando uma nova abordagem para a caracterização do cancro. A integração das múltiplas informações e novos dados da biópsia líquida em modelos de aprendizagem permitirá abrir novas perspectivas sobre os elementos envolvidos no desenvolvimento do cancro que nunca foram estudados.