Como transformei dados genômicos de 655 amostras de sangue em dashboards que ajudam médicos a detectar progressão de câncer semanas mais cedo. Baseado em artigo científico publicado onde participei como co-autor.
Genômica clínica é um campo fascinante. É onde dados encontram medicina de verdade. Cada linha de um CSV representa uma possível pista sobre o tumor de alguém. Cada pipeline que automatizamos pode acelerar o diagnóstico de um paciente real. Quando trabalhei neste projeto durante meu mestrado, fiquei impressionado com o potencial.
O melhor de tudo: é um campo relativamente novo e precisa de gente de dados. Hospitais e centros de pesquisa têm montanhas de dados genômicos, mas faltam profissionais que saibam SQL, Python e visualização. Se você já trabalha com analytics, suas habilidades transferem diretamente. Você não precisa ser biólogo. Você precisa saber transformar dados em insights.
Neste crash course, vou mostrar o projeto completo: do exame de sangue ao dashboard final. Vou te ensinar os conceitos de genética do câncer de forma prática, mostrar o pipeline de dados que construímos, e explicar como usamos cosine similarity para identificar pacientes anônimos. É a mesma técnica que sistemas de recomendação usam — quando a Netflix sugere filmes parecidos com o que você assistiu, ela está calculando similaridade entre perfis. Aqui, calculamos similaridade entre perfis genéticos. No final, você vai entender exatamente como suas skills de dados podem ser aplicadas em pesquisa médica.
Este é um campo verde, cheio de problemas interessantes para resolver, e com impacto real na vida das pessoas. Vamos lá.
Pense no seu sangue como um rio que passa por todos os tecidos do corpo. Quando um tumor cresce, ele libera pequenos pedaços de DNA nesse rio. As células cancerosas deixam um rastro químico. O desafio é conseguir ler esse rastro.
Entre 2021 e 2022, enquanto fazia meu mestrado na UC Davis, trabalhei com uma equipe do California Pacific Medical Center Research Institute (CPMC-RI) em San Francisco. Analisamos 655 amostras de sangue de pacientes com câncer. O objetivo era automatizar a identificação de mutações genéticas que indicam progressão ou remissão da doença.
Esse trabalho fez parte do Cancer Avatar Program, um programa de pesquisa que testa tratamentos em modelos vivos do tumor antes de aplicar no paciente. Publicamos os resultados em 2023 na revista científica Methods and Protocols. Você pode ler o artigo completo aqui.
Mais de 600 relatórios de exames de sangue chegavam ao laboratório. Cada um precisava ser analisado manualmente, passo a passo:
O gargalo: fazer tudo isso manualmente levava semanas. E quando você está tratando câncer, semanas podem fazer toda a diferença entre o sucesso do tratamento e a progressão da doença. Um paciente pode piorar significativamente enquanto espera os resultados da análise manual.
Este crash course é baseado no artigo científico "Automated Dashboards for the Identification of Pathogenic Circulating Tumor DNA Mutations in Longitudinal Blood Draws of Cancer Patients" publicado no Methods and Protocols (MDPI, 2023). Participei desse trabalho como co-autor.
ctDNA (DNA tumoral circulante): Quando um tumor cresce, algumas células morrem e liberam pedaços do seu DNA no sangue. Quanto mais agressivo o tumor, mais fragmentos de DNA circulam. O tumor deixa pistas químicas que podemos detectar em um simples exame de sangue.
Biópsia líquida: Um exame de sangue comum que substitui a biópsia tradicional (que precisa de cirurgia). O laboratório coleta sangue em tubos especiais que preservam o DNA circulante livre (ccfDNA - cell-free circulating DNA). É rápido e não invasivo.
Sequenciamento de Nova Geração (NGS): Uma tecnologia que lê milhões de pedaços de DNA ao mesmo tempo. No nosso estudo, focamos em 56 genes específicos que estão associados a diferentes tipos de câncer. Alguns exemplos:
Ao todo, esses 56 genes cobrem os principais tipos de câncer: mama, pulmão, cólon, pâncreas, próstata, ovário, melanoma, leucemias, entre outros. A ideia é detectar mutações nesses genes antes mesmo de o paciente ter sintomas.
VAF (Frequência Alélica de Variante): É o percentual de DNA tumoral no sangue. Imagine que você coleta 100 fragmentos de DNA. Se 5 deles têm a mutação do câncer, o VAF é 5%. Quanto maior o VAF, mais tumor circulando no sangue. A tecnologia moderna consegue detectar valores a partir de 1% (ou seja, 1 fragmento mutado em cada 100). Se você trabalha com dados, pense no VAF como um KPI: se ele sobe ao longo do tempo, o tumor está crescendo. Se desce, o tratamento está funcionando.
Mutação patogênica vs. neutra: Nem toda mutação causa câncer. Algumas são apenas variações normais do DNA (polimorfismos). Para classificar cada mutação, usamos um score chamado FATHMM (Functional Analysis Through Hidden Markov Models) que vai de 0 a 1. Esse algoritmo analisa se a mutação provavelmente afeta a função da proteína (proteínas são as moléculas que executam as funções na célula — quando uma proteína fica defeituosa, pode causar câncer). Acima de 0.8 é considerada patogênica (causa doença). Abaixo disso, provavelmente é neutra ou de significado incerto.
| GENE | MUTAÇÃO | VAF | FATHMM | TIPO |
|---|---|---|---|---|
| KRAS | p.G12D | 12.00% | 0.98 | Patogênica |
| TP53 | p.P152L | 9.67% | 0.95 | Patogênica |
| TP53 | p.Pro72Arg | 47.54% | 0.36 | Neutra |
| APC | Synon | 100.00% | – | Neutra |
| EGFR | p.Q787Q | 2.15% | 0.12 | Neutra |
👆 Este é um exemplo real de como um relatório chega do sequenciador. Perceba que há 5 mutações detectadas, mas apenas 2 são patogênicas (KRAS e TP53 p.P152L). As outras são polimorfismos normais ou mutações sinônimas que não alteram a proteína.
A próxima seção mostra como construímos o pipeline de dados que automatiza essa separação.
Vou mostrar como transformamos os relatórios brutos em informação útil. São 5 etapas, cada uma resolvendo um problema específico.
Os relatórios chegam em formato CSV (planilha) gerados pela plataforma Genialis (um software de análise genômica usado pelos laboratórios). Cada linha mostra uma mutação encontrada, com informações como: qual cromossomo (tipo chr7, chr17), posição exata no DNA (um número que funciona como endereço), qual gene foi afetado, qual a mudança na proteína, e a frequência dessa mutação (VAF).
COSMIC (Catalogue of Somatic Mutations in Cancer) é uma base de dados global que cataloga todas as mutações já encontradas em cânceres ao redor do mundo. Funciona como uma biblioteca: baixamos a lista completa de mutações conhecidas, filtramos para guardar só o essencial (nome do gene, tipo de mutação, se é patogênica ou neutra, e a pontuação FATHMM), e carregamos num banco MySQL local para consulta rápida.
| Coluna | Tipo | Descrição |
|---|---|---|
| ID | INT | Chave primária |
| GENE_NAME | VARCHAR(20) | Nome do gene |
| MUTATION_AA | VARCHAR(200) | Mutação aminoácida (AA = amino acid, as "letras" que formam proteínas) |
| TYPE | VARCHAR(20) | Pathogenic / Neutral |
| SCORE | DECIMAL(2,2) | FATHMM score (0-1) |
Aqui entra o script Python. Ele pega cada mutação do relatório, converte para o formato que o COSMIC entende (ex: "p.Cys275Tyr" vira "C275Y"), e busca essa mutação no banco de dados. O resultado é a classificação: patogênica ou neutra, com a pontuação FATHMM.
Selecione uma mutação conhecida para ver como ela seria classificada pelo banco COSMIC:
👆 Experimente selecionar diferentes combinações de gene e mutação. Compare as patogênicas (score alto) com as neutras (score baixo). Perceba como cada mutação tem uma explicação clínica específica.
Nem todo relatório é confiável. Se um arquivo tem poucas mutações detectadas (menos de 32 combinações gene-mutação) ou muitas mutações por gene (mais de 0.25 de proporção), ele é marcado para revisão manual. Isso ajuda a detectar erros no sequenciamento ou amostras de sangue degradadas.
Por fim, todos os dados são salvos num banco MySQL organizado. Cada linha representa uma mutação classificada, com informações como: nome do arquivo original, gene afetado, tipo de mudança na proteína, frequência (VAF), classificação (patogênica/neutra), score FATHMM, e o ID do paciente (quando identificado).
Agora vem a parte mais desafiadora: como saber quais relatórios pertencem ao mesmo paciente quando todos chegam sem identificação?
Imagine esta situação real do nosso estudo:
📅 18 de Agosto, 2021: Amostra panc-0117 chega ao lab
✓ Detectamos mutação FGFR3 com VAF de 4.25%
📅 15 de Setembro, 2021: Amostra panc-0130 chega ao lab
✓ Não detectamos mutações patogênicas
→ Paciente parece estar em remissão!
📅 18 de Novembro, 2021: Amostra panc-0146 chega ao lab
⚠️ Nova mutação KRAS p.G12D detectada com VAF de 12%
⚠️ Mutação TP53 p.P152L com VAF de 9.67%
→ Tumor está crescendo de novo. E agora com mutações mais agressivas.
A pergunta crítica: Essas 3 amostras são do mesmo paciente?
Se SIM: Essa é uma história de progressão do câncer. O médico precisa saber urgentemente que:
Se NÃO: São 3 pacientes diferentes. Não há história longitudinal. Cada amostra é um ponto isolado.
O problema: Os relatórios chegam sem o nome do paciente para proteger a privacidade. Só temos códigos anônimos (panc-0117, panc-0130, panc-0146). Como saber se pertencem à mesma pessoa?
É aqui que entra a análise de dados.
Cada pessoa tem um perfil genético único — é como uma impressão digital de DNA. Algumas mutações você herda dos seus pais (mutações germinaisMutações que você recebe dos seus pais no momento da concepção. Estão presentes em todas as células do corpo e não mudam ao longo da vida.), outras são apenas variações normais (polimorfismosVariações genéticas comuns na população que não causam doença. Por exemplo, genes que determinam cor dos olhos ou tipo sanguíneo.). Essas características genéticas não mudam ao longo da vida.
A sacada: Se dois relatórios mostram o mesmo perfil genético de base (aquelas mutações herdadas e polimorfismos), provavelmente são da mesma pessoa. É isso que usamos para fazer o matching.
Cosine similarity: Para comparar dois relatórios, transformamos cada um em um vetor matemático. Funciona assim: cada gene vira uma dimensão (56 genes = 56 dimensões). A intensidade em cada dimensão é a frequência da mutação (VAF). Depois, calculamos o ângulo entre esses dois vetores. Quanto menor o ângulo, mais parecidos são os perfis genéticos. É como comparar a "direção" dos dois relatórios no espaço matemático.
Se você trabalha com dados: é exatamente a mesma técnica que sistemas de recomendação usam. A Netflix compara seu perfil de filmes assistidos com o perfil de outros usuários para recomendar o que você pode gostar. Aqui, comparamos o perfil genético de uma amostra com outras amostras para identificar se são do mesmo paciente.
K-means clustering: Para acelerar o processo (comparar 600 amostras uma a uma seria muito lento), primeiro dividimos as amostras em 2 grupos usando k-means (um algoritmo que agrupa itens similares). Assim, só comparamos amostras dentro do mesmo grupo. Se alguma amostra não encontra par no seu grupo, ela é movida para o outro grupo e comparada de novo.
Resultado: Testamos com 600 amostras, usando o limiar de 98% (ou seja, só consideramos "mesmo paciente" se a similaridade for ≥ 98%). Conseguimos zero falsos positivos — nenhuma vez dissemos que duas amostras eram do mesmo paciente quando na verdade eram de pessoas diferentes. Validamos isso comparando com 10% das amostras que já tinham identificação conhecida.
Compare os perfis genéticos de duas amostras reais do estudo:
👆 Experimente modificar os valores de VAF e veja como a similaridade muda. Perceba que as amostras 0154 e 0161 têm perfis quase idênticos (score 0.99), indicando que são do mesmo paciente.
Agora vamos olhar para os resultados reais do nosso estudo. A matriz abaixo mostra a similaridade entre 7 amostras diferentes de pacientes com câncer de pâncreas. Cada célula mostra o score de similaridade (0-100%):
| Par de amostras | Score | Match? |
|---|---|---|
| 0154 × 0161 | 99% | ✅ Mesmo paciente |
| 0157 × 0160 | 98% | ✅ Mesmo paciente |
| 0154 × 0157 | 35% | ❌ Pacientes diferentes |
| 0162 × 0169 | 26% | ❌ Pacientes diferentes |
Quando o score fica entre 0.95 e 0.98, pode ser: (a) o mesmo paciente, mas houve algum erro no sequenciamento, ou (b) pacientes geneticamente muito próximos (por exemplo, irmãos gêmeos). Nesses casos, recomendamos validação manual.
Lembra das 3 amostras que mostramos no início? panc-0117, panc-0130 e panc-0146?
Quando rodamos o algoritmo de similaridade, descobrimos que todas as 3 pertencem ao mesmo paciente (score > 0.98 em todas as comparações). Isso significa que:
Impacto clínico: O médico agora tem uma linha do tempo completa da progressão do tumor. Ele sabe que o tratamento inicial não foi suficiente e que precisa escalar para uma terapia mais agressiva. Sem o matching de pacientes, essas seriam apenas 3 amostras isoladas, sem história.
Vamos testar o que você aprendeu até agora. Imagine que você recebeu um relatório de exame de sangue com estas mutações:
| Gene | Mutação | VAF | FATHMM |
|---|---|---|---|
| TP53 | p.Cys275Tyr | 0.049 | 0.99 |
| TP53 | p.Pro72Arg | 0.4754 | 0.36 |
| KRAS | p.Gly12Asp | 0.0256 | 0.98 |
| APC | Synon | 1.000 | – |
Ótimo! Agora você já entende os conceitos básicos. Vamos para a parte prática: como transformar esses dados em dashboards que ajudam médicos a tomar decisões mais rápidas.
Os dados processados pelo pipeline vão direto para um dashboard em Tableau. Ele tem três páginas principais:
Interpretação: Após remissão completa em setembro, detectamos novo pico de VAF em novembro indicando recorrência do tumor com mutação mais agressiva (KRAS p.G12D).
👆 Este é o tipo de insight que o dashboard fornece. Ao invés de olhar para 3 relatórios CSV separados, o médico vê uma história completa: remissão seguida de recorrência agressiva. O sistema automaticamente detecta e alerta sobre novas mutações patogênicas.
Este trabalho faz parte de um programa maior: o Cancer Avatar Program do California Pacific Medical Center Research Institute (CPMC-RI), que faz parte da rede Sutter Health em San Francisco. O objetivo do programa é permitir tratamento personalizado para cada paciente com câncer. Para isso, eles combinam duas abordagens:
A ideia é simples: em vez de tratar todos os pacientes com câncer de pâncreas da mesma forma, usar dados para descobrir qual tratamento funciona melhor para cada pessoa. É medicina de precisão na prática.
| Métrica | Resultado |
|---|---|
| Acurácia preditiva dos modelos PDX | 87% |
| Tipos de câncer com biblioteca de modelos | 8 (cérebro, mama, colorretal, fígado, pulmão, melanoma, ovário, pâncreas) |
| Internações oncológicas reduzidas | -20% (via protocolos baseados em evidência) |
| Validação clínica | Cobimetinib + regorafenib reverteu resistência a imunoterapia em melanoma avançado (2025) |
| Reconhecimento | Acreditações do American College of Surgeons e ASCO (principais entidades de oncologia dos EUA) |
| Terapia alvo desenvolvida no CPMC-RI | Nivolumab — primeira imunoterapia FDA-aprovada para melanoma |
O programa enfrenta o mesmo obstáculo de todas as iniciativas de "avatar" ao redor do mundo: criar o modelo PDX leva meses, porque você precisa esperar o tumor crescer no camundongo. Pacientes com câncer agressivo podem piorar clinicamente antes que os resultados do avatar estejam prontos. É por isso que o monitoramento via exame de sangue é tão importante: ele dá respostas em minutos, não em meses.
Nossa equipe era formada por cinco pesquisadores da UC Davis (Aleksandr Udalov, Lexman Kumar, Anna Gaudette, Ran Zhang e eu) trabalhando junto com os pesquisadores do CPMC-RI (Mehdi Nosrati, Sean McAllister e Pierre-Yves Desprez).
Nosso objetivo era resolver um gargalo específico: mais de 600 relatórios de exames de sangue chegavam ao laboratório e precisavam ser analisados manualmente. Cada relatório passava por identificação de mutações perigosas, classificação, e tentativa de agrupar por paciente. Esse processo levava semanas.
Construímos o pipeline automatizado que você viu neste crash course: coleta de sangue, classificação usando o banco COSMIC, identificação de pacientes usando cosine similarity, e dashboards em Tableau mostrando a evolução ao longo do tempo. Publicamos essa metodologia em 2023 na revista científica Methods and Protocols para que outras equipes de pesquisa possam replicar.
No tratamento de câncer, detectar uma nova mutação perigosa algumas semanas antes pode mudar completamente o protocolo de tratamento. O dashboard que construímos transformou um processo que levava semanas em algo que leva minutos.
Todos os dados apresentados foram coletados com consentimento informado, aprovados pelo Institutional Review Board do Sutter Health (protocolo 2015.059-1) e seguem as diretrizes da Declaração de Helsinki. Nenhuma informação identificável do paciente é utilizada.
Se você já trabalha com dados, você tem 80% do que precisa para trabalhar em genômica clínica. Veja como suas habilidades atuais se transferem diretamente:
| Skill que você já tem | Aplicação em genômica clínica | Transferência |
|---|---|---|
| SQL / Banco de dados | Consultar bases genômicas (COSMIC, ClinVar, gnomAD) | Direta |
| Python / ETL | Pipeline de processamento de sequenciamento | Direta |
| Similaridade de cosseno | Matching de pacientes anônimos | Direta |
| Time-series analysis | Monitoramento longitudinal de VAF | Direta |
| Classificação binária | Pathogenic vs. Neutral (FATHMM) | Adaptação |
| Data quality checks | Validação de qualidade do sequenciamento | Adaptação |
| Dashboard / BI | Visualização de dados genômicos | Direta |
| Regex / Text parsing | Tradução de nomenclatura (ex: "p.Cys275Tyr" → "C275Y") | Adaptação |
Na tabela acima, "Direta" significa que você usa a mesma técnica sem modificação. "Adaptação" significa que você precisa ajustar a técnica para o contexto de genômica (mas o conceito é o mesmo).
O que você precisa aprender:
Perceba que a parte técnica de dados (SQL, Python, dashboards) você já domina. O que falta aprender é o contexto de biologia molecular. E esse contexto pode ser adquirido em cerca de 20 horas de estudo. Você pode ser a ponte entre o laboratório e a equipe de dados.
Quando fizemos este projeto (2021-2022), tudo era manual e baseado em regras. Hoje, IA generativa está acelerando cada etapa do processo:
Exemplos práticos de como GenAI ajudaria no nosso projeto:
Oportunidade: Se você já trabalha com dados e quer entrar em genômica, conhecimento de LLMs e treinamento de modelos é um diferencial enorme. A maioria dos bioinformatas ainda não domina IA generativa. Você pode ser a pessoa que conecta os dois mundos.
Ferramentas GenAI para genômica que você pode aprender (todas têm APIs ou versões gratuitas):
Este mercado está crescendo rápido no Brasil. Aqui estão opções reais de carreira com empresas que contratam:
O que faz: Analisar dados genômicos de pacientes, interpretar mutações, gerar relatórios para médicos.
Empresas no Brasil:
O que faz: Construir pipelines de dados clínicos, integrar sistemas hospitalares, trabalhar com FHIR e HL7.
Empresas no Brasil:
O que faz: Criar dashboards para pesquisadores, fazer análises estatísticas, visualizar dados de estudos clínicos.
Onde trabalhar:
O que faz: Desenvolver modelos preditivos, trabalhar com ML/AI, analisar ensaios clínicos.
Startups brasileiras contratando:
Dica prática: Busque no LinkedIn por "bioinformática Brasil" ou "dados genômicos São Paulo". Muitas dessas vagas não são anunciadas publicamente. Entre em contato direto com recrutadores dessas empresas mostrando um projeto de portfólio (como o sugerido abaixo).
Quer começar agora? Aqui está um projeto prático que você pode fazer neste fim de semana:
Você pode começar hoje, sem gastar nada, usando dados públicos e ferramentas gratuitas.