Universidade de Santiago de Compostela (USC); Instituto de Saúde Pública da Universidade do Porto (ISPUP/UP); Universidade de Vigo (U. Vigo).
Os métodos estatísticos são cruciais para compreender a realidade e promover o progresso do conhecimento científico, fornecendo modelos e métodos rigorosos para analisar os dados e chegar a conclusões corretas. Na prática, um grande número de questões de pesquisa são colocadas em diferentes campos, tais como estudos de saúde, epidemiologia, biologia, ciências ambientais e sociais.
Em todos esses campos, os dados exibem padrões complexos que requerem ferramentas estatísticas sofisticadas para sua análise. Portanto, o estatístico matemático enfrenta uma série de desafios. O primeiro é propor um modelo em conjunto com um método estatístico que resolva adequadamente o problema em questão. Em segundo lugar, as propriedades teóricas do método proposto devem ser estudadas para identificar as situações nas quais ele levará a respostas consistentes. Casos particulares são então explorados por estudos de simulação, onde o desempenho do método é investigado em cenários da vida real. Terceiro, o código ou software de uso amigável deve ser empacotado para ajudar o profissional na aplicação do método a um conjunto de dados específico. Por fim, a colaboração com pesquisadores de outras áreas de forma a fornecer expertise estatística na aplicação dos métodos também é um objetivo.
Este projeto visa cobrir todas essas arestas da pesquisa estatística. Na análise de sobrevivência, os pesquisadores estão interessados em modelar e analisar o tempo até que um evento aconteça. Muitas vezes ocorre que os dados disponíveis são censurados e / ou truncados, o que significa que algumas restrições podem aparecer nos horários dos eventos. A literatura sobre dados de sobrevivência tem proposto métodos adequados para trabalhar com informações incompletas sobre os tempos dos eventos como, por exemplo, dados censurados e dados truncados. Esses recursos complicam substancialmente a análise estatística dos dados.
O objetivo deste projeto é resolver uma série de problemas em aberto relacionados a dados de tempo até evento, univariados e multivariados, que representariam um grande avanço na área de análise de sobrevivência e modelos multiestados. Problemas reais que pretendemos resolver aparecem na EPIPorto, coorte de Lisboa de MSM e coorte COVID-Scope. É de interesse estimar uma distribuição conjunta de tempos sucessivos (por exemplo, idade no início da doença, tempo desde o início da doença até a morte) em um modelo progressivo de três estados em que vários tipos de censura e truncamento devem ser levados em consideração.
As informações da coorte são obtidas por meio de visitas intermitentes ou seções transversais ou acompanhamentos sucessivos e, em seguida, aparecem combinações especiais de dados truncados à esquerda, censurados à direita e censurados por intervalo. Devido à natureza complexa desses modelos, muitos problemas ainda estão em aberto e a teoria rigorosa é bastante escassa nesta área. Em muitas aplicações, dados duplamente truncados são encontrados, e esse fenômeno é muito menos conhecido e muito mais difícil de resolver do que o truncamento unilateral.
A análise de dados duplamente truncados é relevante em, por exemplo, aplicações epidemiológicas, quando a observação do tempo de interesse é limitada a eventos entre duas datas de calendário específicas. Desde o artigo seminal de Efron e Petrosian sobre estimativa não paramétrica de uma distribuição duplamente truncada, algumas contribuições surgiram, incluindo as de nossa equipe de pesquisa. Uma suposição importante no modelo de truncamento duplo aleatório é a independência entre os tempos de truncamento e o tempo de destino; entretanto, na prática, o tempo alvo pode depender do tempo de truncamento, levando a possíveis inconsistências do estimador de máxima verossimilhança não paramétrico (NMPLE). A extensão do NPMLE para truncamento dependente, assumindo uma estrutura de cópula adequada para os tempos envolvidos foi introduzida em, mas o estudo de outros alvos importantes como a função de risco ainda está aberto, incluindo a questão da seleção de largura de banda. A escolha da família da cópula, que descreve a estrutura de dependência, é importante, pois tem impacto no estimador final. Uma abordagem possível para a seleção de cópula é um critério de informação como o AIC, mas um teste formal de adequação para o modelo de cópula sob duplo truncamento ainda está faltando e é uma tarefa desafiadora que pretendemos resolver.
Durante o projeto atual, atualizaremos um pacote R existente, dedicado à análise duplamente truncada, incluindo seletores de largura de banda para a função de risco e desenvolveremos um novo para incluir os avanços propostos na estimativa não paramétrica de funções de curvas sob dependência. O projeto SUMcohort contribuirá nos campos de análise de sobrevivência sob duplo truncamento e modelos multi-estado, considerando combinações complicadas de censura e truncamento e tempos de vida fracamente dependentes, modelos de cópula, testes de ajuste, métodos de seleção de largura de banda, entre outros. Também inclui solução prática para problemas reais declarados por epidemiologistas e médicos, oriundos de estudos de coorte, de uma instituição participante.