Do Sangue ao Dashboard | Crash Course

Por que este é um dos meus projetos favoritos

Genômica clínica é um campo fascinante. É onde dados encontram medicina de verdade. Cada linha de um CSV representa uma possível pista sobre o tumor de alguém. Cada pipeline que automatizamos pode acelerar o diagnóstico de um paciente real. Quando trabalhei neste projeto durante meu mestrado, fiquei impressionado com o potencial.

O melhor de tudo: é um campo relativamente novo e precisa de gente de dados. Hospitais e centros de pesquisa têm montanhas de dados genômicos, mas faltam profissionais que saibam SQL, Python e visualização. Se você já trabalha com analytics, suas habilidades transferem diretamente. Você não precisa ser biólogo. Você precisa saber transformar dados em insights.

Neste crash course, vou mostrar o projeto completo: do exame de sangue ao dashboard final. Vou te ensinar os conceitos de genética do câncer de forma prática, mostrar o pipeline de dados que construímos, e explicar como usamos cosine similarity para identificar pacientes anônimos. É a mesma técnica que sistemas de recomendação usam — quando a Netflix sugere filmes parecidos com o que você assistiu, ela está calculando similaridade entre perfis. Aqui, calculamos similaridade entre perfis genéticos. No final, você vai entender exatamente como suas skills de dados podem ser aplicadas em pesquisa médica.

Este é um campo verde, cheio de problemas interessantes para resolver, e com impacto real na vida das pessoas. Vamos lá.

01 / Do Sangue ao Dado

Uma coleta simples de sangue pode detectar mutações de câncer antes de qualquer sintoma aparecer

Pense no seu sangue como um rio que passa por todos os tecidos do corpo. Quando um tumor cresce, ele libera pequenos pedaços de DNA nesse rio. As células cancerosas deixam um rastro químico. O desafio é conseguir ler esse rastro.

Entre 2021 e 2022, enquanto fazia meu mestrado na UC Davis, trabalhei com uma equipe do California Pacific Medical Center Research Institute (CPMC-RI) em San Francisco. Analisamos 655 amostras de sangue de pacientes com câncer. O objetivo era automatizar a identificação de mutações genéticas que indicam progressão ou remissão da doença.

Esse trabalho fez parte do Cancer Avatar Program, um programa de pesquisa que testa tratamentos em modelos vivos do tumor antes de aplicar no paciente. Publicamos os resultados em 2023 na revista científica Methods and Protocols. Você pode ler o artigo completo aqui.

655

Amostras de plasma analisadas

56

Genes de câncer sequenciados

600+

Relatórios de biópsia processados

0

Falsos positivos no matching

O Problema

Mais de 600 relatórios de exames de sangue chegavam ao laboratório. Cada um precisava ser analisado manualmente, passo a passo:

Cada relatório mostra 56 genes diferentes, com várias mutações em cada gene
Para cada mutação, o relatório traz dois números: o VAF (quantidade de DNA tumoral) e o FATHMM (indica se a mutação é perigosa)
O analista precisava revisar essas informações para identificar quais mutações realmente causam câncer
Depois, precisava descobrir quais relatórios pertenciam ao mesmo paciente — o problema é que os relatórios vinham sem nome para proteger a privacidade
Por fim, acompanhar a evolução: o tumor está crescendo? Regredindo? Surgiram novas mutações?

O gargalo: fazer tudo isso manualmente levava semanas. E quando você está tratando câncer, semanas podem fazer toda a diferença entre o sucesso do tratamento e a progressão da doença. Um paciente pode piorar significativamente enquanto espera os resultados da análise manual.

Manual

Abrir relatório PDF
Identificar gene e mutação
Buscar no COSMIC database
Anotar patogenicidade
Repetir 56× por relatório
Tentar agrupar por paciente (sem ID)
Semanas de trabalho

Automatizado

Upload automático do CSV
Classificação instantânea via COSMIC
Match de pacientes via cosine similarity
Dashboard longitudinal em Tableau
Alertas de novas mutações
Próximo relatório já classificado
Resultado em minutos

↔

← ARRASTE PARA COMPARAR →

Publicado e Revisado por Pares

Este crash course é baseado no artigo científico "Automated Dashboards for the Identification of Pathogenic Circulating Tumor DNA Mutations in Longitudinal Blood Draws of Cancer Patients" publicado no Methods and Protocols (MDPI, 2023). Participei desse trabalho como co-autor.

02 / A Ciência em 5 Minutos

ctDNA, VAF, NGS: o vocabulário que conecta medicina e dados

ctDNA (DNA tumoral circulante): Quando um tumor cresce, algumas células morrem e liberam pedaços do seu DNA no sangue. Quanto mais agressivo o tumor, mais fragmentos de DNA circulam. O tumor deixa pistas químicas que podemos detectar em um simples exame de sangue.

Biópsia líquida: Um exame de sangue comum que substitui a biópsia tradicional (que precisa de cirurgia). O laboratório coleta sangue em tubos especiais que preservam o DNA circulante livre (ccfDNA - cell-free circulating DNA). É rápido e não invasivo.

Sequenciamento de Nova Geração (NGS): Uma tecnologia que lê milhões de pedaços de DNA ao mesmo tempo. No nosso estudo, focamos em 56 genes específicos que estão associados a diferentes tipos de câncer. Alguns exemplos:

TP53: Conhecido como "guardião do genoma". Mutações nele estão presentes em mais de 50% dos cânceres (pulmão, mama, cólon, ovário).
KRAS: Muito comum em cânceres de pâncreas (90% dos casos), pulmão e cólon. Mutações nele fazem as células crescerem descontroladamente. Possui hot spotsRegiões específicas do gene onde mutações ocorrem com muita frequência. Por exemplo, 95% das mutações de KRAS acontecem nos códons 12, 13 e 61. nos códons 12 e 13 (códon = posição específica no gene, como um endereço).
EGFR: Importante em câncer de pulmão. Mutações nele ajudam a escolher o tratamento certo (algumas drogas funcionam só para pacientes com EGFR mutado).
BRAF: Presente em melanoma (50% dos casos), cólon e tireoide. Também guia escolha de tratamento.
PIK3CA, PTEN, AKT1: Regulam crescimento celular. Mutações neles estão em mama, próstata e outros cânceres.

Ao todo, esses 56 genes cobrem os principais tipos de câncer: mama, pulmão, cólon, pâncreas, próstata, ovário, melanoma, leucemias, entre outros. A ideia é detectar mutações nesses genes antes mesmo de o paciente ter sintomas.

VAF (Frequência Alélica de Variante): É o percentual de DNA tumoral no sangue. Imagine que você coleta 100 fragmentos de DNA. Se 5 deles têm a mutação do câncer, o VAF é 5%. Quanto maior o VAF, mais tumor circulando no sangue. A tecnologia moderna consegue detectar valores a partir de 1% (ou seja, 1 fragmento mutado em cada 100). Se você trabalha com dados, pense no VAF como um KPI: se ele sobe ao longo do tempo, o tumor está crescendo. Se desce, o tratamento está funcionando.

Mutação patogênica vs. neutra: Nem toda mutação causa câncer. Algumas são apenas variações normais do DNA (polimorfismos). Para classificar cada mutação, usamos um score chamado FATHMM (Functional Analysis Through Hidden Markov Models) que vai de 0 a 1. Esse algoritmo analisa se a mutação provavelmente afeta a função da proteína (proteínas são as moléculas que executam as funções na célula — quando uma proteína fica defeituosa, pode causar câncer). Acima de 0.8 é considerada patogênica (causa doença). Abaixo disso, provavelmente é neutra ou de significado incerto.

GENE	MUTAÇÃO	VAF	FATHMM	TIPO
KRAS	p.G12D	12.00%	0.98	Patogênica
TP53	p.P152L	9.67%	0.95	Patogênica
TP53	p.Pro72Arg	47.54%	0.36	Neutra
APC	Synon	100.00%	–	Neutra
EGFR	p.Q787Q	2.15%	0.12	Neutra

👆 Este é um exemplo real de como um relatório chega do sequenciador. Perceba que há 5 mutações detectadas, mas apenas 2 são patogênicas (KRAS e TP53 p.P152L). As outras são polimorfismos normais ou mutações sinônimas que não alteram a proteína.

1. Coleta de sangue (655 amostras) 100%

2. Extração de DNA do plasma ~90%

3. Sequenciamento NGS (56 genes) ~80%

4. Identificação de mutações patogênicas ~35%

~35%
das mutações detectadas são classificadas como patogênicas
A maioria das mutações são polimorfismos neutros (variações genéticas normais). O desafio é separar sinal (patogênico) de ruído (neutro) automaticamente.

A próxima seção mostra como construímos o pipeline de dados que automatiza essa separação.

03 / O Pipeline de Dados

Do relatório CSV ao dashboard: 5 etapas de transformação

Vou mostrar como transformamos os relatórios brutos em informação útil. São 5 etapas, cada uma resolvendo um problema específico.

1

Relatório Genialis

→

2

Banco COSMIC

→

3

Classificação

→

4

Validação

→

5

Dashboard

Step 1 — Dados brutos (Genialis)

Os relatórios chegam em formato CSV (planilha) gerados pela plataforma Genialis (um software de análise genômica usado pelos laboratórios). Cada linha mostra uma mutação encontrada, com informações como: qual cromossomo (tipo chr7, chr17), posição exata no DNA (um número que funciona como endereço), qual gene foi afetado, qual a mudança na proteína, e a frequência dessa mutação (VAF).

Step 2 — Banco de referência (COSMIC)

COSMIC (Catalogue of Somatic Mutations in Cancer) é uma base de dados global que cataloga todas as mutações já encontradas em cânceres ao redor do mundo. Funciona como uma biblioteca: baixamos a lista completa de mutações conhecidas, filtramos para guardar só o essencial (nome do gene, tipo de mutação, se é patogênica ou neutra, e a pontuação FATHMM), e carregamos num banco MySQL local para consulta rápida.

Coluna	Tipo	Descrição
ID	INT	Chave primária
GENE_NAME	VARCHAR(20)	Nome do gene
MUTATION_AA	VARCHAR(200)	Mutação aminoácida (AA = amino acid, as "letras" que formam proteínas)
TYPE	VARCHAR(20)	Pathogenic / Neutral
SCORE	DECIMAL(2,2)	FATHMM score (0-1)

Step 3 — Classificação de mutações

Aqui entra o script Python. Ele pega cada mutação do relatório, converte para o formato que o COSMIC entende (ex: "p.Cys275Tyr" vira "C275Y"), e busca essa mutação no banco de dados. O resultado é a classificação: patogênica ou neutra, com a pontuação FATHMM.

🧪 Experimente: Classificador COSMIC Interativo

Selecione uma mutação conhecida para ver como ela seria classificada pelo banco COSMIC:

Gene

Mutação

Gene: 
Mutação: 
COSMIC ID: 
FATHMM Score: 

              Classificação:

👆 Experimente selecionar diferentes combinações de gene e mutação. Compare as patogênicas (score alto) com as neutras (score baixo). Perceba como cada mutação tem uma explicação clínica específica.

Step 4 — Validação de qualidade

Nem todo relatório é confiável. Se um arquivo tem poucas mutações detectadas (menos de 32 combinações gene-mutação) ou muitas mutações por gene (mais de 0.25 de proporção), ele é marcado para revisão manual. Isso ajuda a detectar erros no sequenciamento ou amostras de sangue degradadas.

Step 5 — Resultado no banco

Por fim, todos os dados são salvos num banco MySQL organizado. Cada linha representa uma mutação classificada, com informações como: nome do arquivo original, gene afetado, tipo de mudança na proteína, frequência (VAF), classificação (patogênica/neutra), score FATHMM, e o ID do paciente (quando identificado).

600+

Amostras processadas automaticamente

100%

Das mutações patogênicas conhecidas identificadas

3

Novas mutações patogênicas descobertas que revisão manual não encontrou

Agora vem a parte mais desafiadora: como saber quais relatórios pertencem ao mesmo paciente quando todos chegam sem identificação?

04 / Matching de Pacientes

Por que precisamos identificar o mesmo paciente ao longo do tempo?

Imagine esta situação real do nosso estudo:

📅 18 de Agosto, 2021: Amostra panc-0117 chega ao lab

✓ Detectamos mutação FGFR3 com VAF de 4.25%

📅 15 de Setembro, 2021: Amostra panc-0130 chega ao lab

✓ Não detectamos mutações patogênicas
→ Paciente parece estar em remissão!

📅 18 de Novembro, 2021: Amostra panc-0146 chega ao lab

⚠️ Nova mutação KRAS p.G12D detectada com VAF de 12%
⚠️ Mutação TP53 p.P152L com VAF de 9.67%
→ Tumor está crescendo de novo. E agora com mutações mais agressivas.

A pergunta crítica: Essas 3 amostras são do mesmo paciente?

Se SIM: Essa é uma história de progressão do câncer. O médico precisa saber urgentemente que:

O tratamento inicial funcionou (remissão em setembro)
Mas o tumor voltou com mutações diferentes e mais agressivas
KRAS p.G12D indica que o câncer pode estar se espalhando
É hora de mudar o protocolo de tratamento

Se NÃO: São 3 pacientes diferentes. Não há história longitudinal. Cada amostra é um ponto isolado.

O problema: Os relatórios chegam sem o nome do paciente para proteger a privacidade. Só temos códigos anônimos (panc-0117, panc-0130, panc-0146). Como saber se pertencem à mesma pessoa?

É aqui que entra a análise de dados.

A Solução: Impressão Digital Genética

Cada pessoa tem um perfil genético único — é como uma impressão digital de DNA. Algumas mutações você herda dos seus pais (mutações germinaisMutações que você recebe dos seus pais no momento da concepção. Estão presentes em todas as células do corpo e não mudam ao longo da vida.), outras são apenas variações normais (polimorfismosVariações genéticas comuns na população que não causam doença. Por exemplo, genes que determinam cor dos olhos ou tipo sanguíneo.). Essas características genéticas não mudam ao longo da vida.

A sacada: Se dois relatórios mostram o mesmo perfil genético de base (aquelas mutações herdadas e polimorfismos), provavelmente são da mesma pessoa. É isso que usamos para fazer o matching.

Cosine similarity: Para comparar dois relatórios, transformamos cada um em um vetor matemático. Funciona assim: cada gene vira uma dimensão (56 genes = 56 dimensões). A intensidade em cada dimensão é a frequência da mutação (VAF). Depois, calculamos o ângulo entre esses dois vetores. Quanto menor o ângulo, mais parecidos são os perfis genéticos. É como comparar a "direção" dos dois relatórios no espaço matemático.

Similaridade = 1.0 (100%): vetores idênticos → certamente o mesmo paciente
Similaridade = 0.0 (0%): vetores completamente diferentes → certamente pacientes diferentes
Limiar que usamos: ≥ 98% → 100% de acerto (nenhum erro)
Zona cinzenta: 95-98% → pode ser a mesma pessoa, precisa revisar manualmente

Se você trabalha com dados: é exatamente a mesma técnica que sistemas de recomendação usam. A Netflix compara seu perfil de filmes assistidos com o perfil de outros usuários para recomendar o que você pode gostar. Aqui, comparamos o perfil genético de uma amostra com outras amostras para identificar se são do mesmo paciente.

K-means clustering: Para acelerar o processo (comparar 600 amostras uma a uma seria muito lento), primeiro dividimos as amostras em 2 grupos usando k-means (um algoritmo que agrupa itens similares). Assim, só comparamos amostras dentro do mesmo grupo. Se alguma amostra não encontra par no seu grupo, ela é movida para o outro grupo e comparada de novo.

Resultado: Testamos com 600 amostras, usando o limiar de 98% (ou seja, só consideramos "mesmo paciente" se a similaridade for ≥ 98%). Conseguimos zero falsos positivos — nenhuma vez dissemos que duas amostras eram do mesmo paciente quando na verdade eram de pessoas diferentes. Validamos isso comparando com 10% das amostras que já tinham identificação conhecida.

🧮 Calculadora de Similaridade Genética

Compare os perfis genéticos de duas amostras reais do estudo:

AMOSTRA panc-0154

Arraste os sliders para ajustar os VAF (%)

TP53 45.2%

KRAS 0%

APC 98.5%

BRAF 0%

AMOSTRA panc-0161

Arraste os sliders para ajustar os VAF (%)

TP53 46.8%

KRAS 0%

APC 99.2%

BRAF 0%

👆 Experimente modificar os valores de VAF e veja como a similaridade muda. Perceba que as amostras 0154 e 0161 têm perfis quase idênticos (score 0.99), indicando que são do mesmo paciente.

Visualizando os Resultados: Matriz de Similaridade

Agora vamos olhar para os resultados reais do nosso estudo. A matriz abaixo mostra a similaridade entre 7 amostras diferentes de pacientes com câncer de pâncreas. Cada célula mostra o score de similaridade (0-100%):

Como ler a matriz:
• Diagonal (100): Cada amostra comparada com ela mesma (sempre 100%)
• Verde escuro (≥98): Mesmo paciente! Perfis genéticos praticamente idênticos
• Verde claro (<40): Pacientes diferentes

Observe as descobertas:
• Amostras 0154 e 0161 têm score de 99% → mesmo paciente
• Amostras 0157 e 0160 têm score de 98% → mesmo paciente
• Todas as outras combinações ficam abaixo de 40% → pacientes diferentes

0154

0157

0160

0161

0162

0169

0172

0154

100

35

32

99

28

30

33

0157

35

100

98

36

34

29

31

0160

32

98

100

30

35

27

33

0161

99

36

30

100

29

31

34

0162

28

34

35

29

100

26

32

0169

30

29

27

31

26

100

28

0172

33

31

33

34

32

28

100

Par de amostras	Score	Match?
0154 × 0161	99%	✅ Mesmo paciente
0157 × 0160	98%	✅ Mesmo paciente
0154 × 0157	35%	❌ Pacientes diferentes
0162 × 0169	26%	❌ Pacientes diferentes

Zona Cinzenta (0.95-0.98)

Quando o score fica entre 0.95 e 0.98, pode ser: (a) o mesmo paciente, mas houve algum erro no sequenciamento, ou (b) pacientes geneticamente muito próximos (por exemplo, irmãos gêmeos). Nesses casos, recomendamos validação manual.

Voltando ao Caso Real

Lembra das 3 amostras que mostramos no início? panc-0117, panc-0130 e panc-0146?

Quando rodamos o algoritmo de similaridade, descobrimos que todas as 3 pertencem ao mesmo paciente (score > 0.98 em todas as comparações). Isso significa que:

Agosto 2021: Tumor detectado (FGFR3 mutação)
Setembro 2021: Remissão aparente (nenhuma mutação patogênica)
Novembro 2021: Recorrência com mutações mais agressivas (KRAS + TP53)

Impacto clínico: O médico agora tem uma linha do tempo completa da progressão do tumor. Ele sabe que o tratamento inicial não foi suficiente e que precisa escalar para uma terapia mais agressiva. Sem o matching de pacientes, essas seriam apenas 3 amostras isoladas, sem história.

05 / Quiz

Você consegue identificar a mutação patogênica?

Vamos testar o que você aprendeu até agora. Imagine que você recebeu um relatório de exame de sangue com estas mutações:

Cenário: Qual(is) mutação(ões) são patogênicas?

Gene	Mutação	VAF	FATHMM
TP53	p.Cys275Tyr	0.049	0.99
TP53	p.Pro72Arg	0.4754	0.36
KRAS	p.Gly12Asp	0.0256	0.98
APC	Synon	1.000	–

A)

Todas — qualquer mutação em gene de câncer é perigosa

❌ Nem toda mutação causa câncer. A mutação APC Synon é "sinônima", ou seja, não muda a proteína (é inofensiva). E a TP53 p.Pro72Arg tem score FATHMM de 0.36, abaixo do limiar de 0.8.

B)

TP53 p.Cys275Tyr e KRAS p.Gly12Asp

✅ Isso mesmo! Ambas têm score FATHMM acima de 0.8 (0.99 e 0.98, respectivamente). Perceba que a outra mutação em TP53 (p.Pro72Arg) tem score de apenas 0.36, então é neutra. E a APC é sinônima (não muda nada na proteína).

C)

Apenas KRAS p.Gly12Asp — é o gene mais associado a câncer

❌ KRAS é realmente muito comum em cânceres, mas a mutação TP53 p.Cys275Tyr também é patogênica (score FATHMM de 0.99). A classificação não depende só do nome do gene, depende do score de cada mutação específica.

D)

Nenhuma — VAF abaixo de 1% não é confiável

❌ VAF baixo significa que tem pouco DNA tumoral no sangue, mas isso não invalida a classificação. A tecnologia consegue detectar mutações com 1% de frequência ou mais, desde que a cobertura do sequenciamento seja boa (mínimo 100x, ou seja, cada posição do DNA é lida 100 vezes para garantir precisão).

Ótimo! Agora você já entende os conceitos básicos. Vamos para a parte prática: como transformar esses dados em dashboards que ajudam médicos a tomar decisões mais rápidas.

06 / Do Dado ao Dashboard

Como transformamos dados genômicos em dashboards úteis

O Dashboard Final

Os dados processados pelo pipeline vão direto para um dashboard em Tableau. Ele tem três páginas principais:

Busca

Visão geral de cada amostra individual

Relatório

Detalhes de classificação e matching

Longitudinal

Evolução temporal por paciente

Monitoramento de VAF ao Longo do Tempo

0%

3%

6%

9%

12%

4.25%

FGFR3

18 Ago 2021

0%

Remissão ✓

15 Set 2021

12%

⚠️ KRAS

18 Nov 2021

Interpretação: Após remissão completa em setembro, detectamos novo pico de VAF em novembro indicando recorrência do tumor com mutação mais agressiva (KRAS p.G12D).

Linha do Tempo de Mutações

18 Ago 2021

FGFR3|LETM1 p.E712V

VAF: 4.255% | FATHMM: 0.91 | Primeira detecção

15 Set 2021

✓ Remissão Completa

Nenhuma mutação patogênica detectada | Tratamento eficaz

18 Nov 2021

⚠️ KRAS p.G12D (NOVA)

VAF: 12.0% | FATHMM: 0.98 | Alerta: Progressão detectada

18 Nov 2021

⚠️ TP53 p.P152L (NOVA)

VAF: 9.667% | FATHMM: 0.95 | Alerta: Segunda mutação patogênica

⚡ AÇÕES RECOMENDADAS

Notificar oncologista imediatamente sobre nova mutação KRAS
Avaliar mudança de protocolo de tratamento
Agendar nova coleta em 2 semanas para monitoramento
Considerar terapia direcionada para KRAS G12D

👆 Este é o tipo de insight que o dashboard fornece. Ao invés de olhar para 3 relatórios CSV separados, o médico vê uma história completa: remissão seguida de recorrência agressiva. O sistema automaticamente detecta e alerta sobre novas mutações patogênicas.

O Cancer Avatar Project

Este trabalho faz parte de um programa maior: o Cancer Avatar Program do California Pacific Medical Center Research Institute (CPMC-RI), que faz parte da rede Sutter Health em San Francisco. O objetivo do programa é permitir tratamento personalizado para cada paciente com câncer. Para isso, eles combinam duas abordagens:

"Avatares" de tumor (PDX - Patient-Derived Xenografts): São modelos vivos do tumor de cada paciente, criados em camundongos. Pense assim: os pesquisadores pegam uma pequena amostra do tumor do paciente e transplantam para um camundongo. O tumor cresce no animal exatamente como cresceria no paciente. Com esses modelos, os médicos podem testar diferentes drogas antes de aplicar no paciente real. A taxa de acerto é de 87% quando comparada com o resultado no paciente.
Mapeamento genético do tumor: Usar exames de sangue para identificar as mutações genéticas e acompanhar como elas evoluem ao longo do tempo. Esse é o foco do nosso trabalho.

A ideia é simples: em vez de tratar todos os pacientes com câncer de pâncreas da mesma forma, usar dados para descobrir qual tratamento funciona melhor para cada pessoa. É medicina de precisão na prática.

Métrica	Resultado
Acurácia preditiva dos modelos PDX	87%
Tipos de câncer com biblioteca de modelos	8 (cérebro, mama, colorretal, fígado, pulmão, melanoma, ovário, pâncreas)
Internações oncológicas reduzidas	-20% (via protocolos baseados em evidência)
Validação clínica	Cobimetinib + regorafenib reverteu resistência a imunoterapia em melanoma avançado (2025)
Reconhecimento	Acreditações do American College of Surgeons e ASCO (principais entidades de oncologia dos EUA)
Terapia alvo desenvolvida no CPMC-RI	Nivolumab — primeira imunoterapia FDA-aprovada para melanoma

O maior desafio: tempo

O programa enfrenta o mesmo obstáculo de todas as iniciativas de "avatar" ao redor do mundo: criar o modelo PDX leva meses, porque você precisa esperar o tumor crescer no camundongo. Pacientes com câncer agressivo podem piorar clinicamente antes que os resultados do avatar estejam prontos. É por isso que o monitoramento via exame de sangue é tão importante: ele dá respostas em minutos, não em meses.

Nosso papel no projeto

Nossa equipe era formada por cinco pesquisadores da UC Davis (Aleksandr Udalov, Lexman Kumar, Anna Gaudette, Ran Zhang e eu) trabalhando junto com os pesquisadores do CPMC-RI (Mehdi Nosrati, Sean McAllister e Pierre-Yves Desprez).

Nosso objetivo era resolver um gargalo específico: mais de 600 relatórios de exames de sangue chegavam ao laboratório e precisavam ser analisados manualmente. Cada relatório passava por identificação de mutações perigosas, classificação, e tentativa de agrupar por paciente. Esse processo levava semanas.

Construímos o pipeline automatizado que você viu neste crash course: coleta de sangue, classificação usando o banco COSMIC, identificação de pacientes usando cosine similarity, e dashboards em Tableau mostrando a evolução ao longo do tempo. Publicamos essa metodologia em 2023 na revista científica Methods and Protocols para que outras equipes de pesquisa possam replicar.

Estudos de Caso: Dados Reais

Caso A: Paciente com Câncer de Pâncreas

ID do paciente: panc-3 (anônimo)
3 coletas de sangue ao longo do tratamento
Coleta 1: Uma mutação foi detectada (FGFR3|LETM1 p.E712V) com VAF de 4.255%
Coleta 2: O tumor parece estar em remissão (VAF baixo ou zero)
Coleta 3: Apareceu uma nova mutação perigosa (KRAS p.G12D com VAF de 12.0%) junto com outra mutação em TP53 (VAF 9.666%)
O que isso significa: O surgimento da mutação KRAS sugere que o tumor está crescendo de novo. O dashboard alertou a equipe médica para agir rapidamente.

Caso B: Paciente com Câncer Colorretal

ID do paciente: crc-5 (anônimo)
3 coletas de sangue ao longo do tratamento
Coleta 1: Duas mutações detectadas: BRAF p.V600E (VAF 7.19%) e TP53 p.C238Y (VAF 12.80%)
Coleta 2: A mutação BRAF sumiu (remissão), mas a TP53 continua presente
Coleta 3: Surgiu uma nova mutação (KRAS p.G60D com VAF de 1.20%)
O que isso significa: Pode ser uma recorrência do tumor ou um novo grupo de células cancerosas com mutação diferente. O paciente precisa de acompanhamento imediato.

Tempo é Vida

No tratamento de câncer, detectar uma nova mutação perigosa algumas semanas antes pode mudar completamente o protocolo de tratamento. O dashboard que construímos transformou um processo que levava semanas em algo que leva minutos.

Dados Anonimizados

Todos os dados apresentados foram coletados com consentimento informado, aprovados pelo Institutional Review Board do Sutter Health (protocolo 2015.059-1) e seguem as diretrizes da Declaração de Helsinki. Nenhuma informação identificável do paciente é utilizada.

07 / Suas Skills Já Servem

SQL, Python e similaridade que você já conhece aplicados em genômica

Se você já trabalha com dados, você tem 80% do que precisa para trabalhar em genômica clínica. Veja como suas habilidades atuais se transferem diretamente:

Skill que você já tem	Aplicação em genômica clínica	Transferência
SQL / Banco de dados	Consultar bases genômicas (COSMIC, ClinVar, gnomAD)	Direta
Python / ETL	Pipeline de processamento de sequenciamento	Direta
Similaridade de cosseno	Matching de pacientes anônimos	Direta
Time-series analysis	Monitoramento longitudinal de VAF	Direta
Classificação binária	Pathogenic vs. Neutral (FATHMM)	Adaptação
Data quality checks	Validação de qualidade do sequenciamento	Adaptação
Dashboard / BI	Visualização de dados genômicos	Direta
Regex / Text parsing	Tradução de nomenclatura (ex: "p.Cys275Tyr" → "C275Y")	Adaptação

Na tabela acima, "Direta" significa que você usa a mesma técnica sem modificação. "Adaptação" significa que você precisa ajustar a técnica para o contexto de genômica (mas o conceito é o mesmo).

O que você precisa aprender:

~8h

Biologia molecular básica

~6h

Genética do câncer

~4h

Regulação (LGPD/HIPAA)

~2h

Ética em pesquisa

Perceba que a parte técnica de dados (SQL, Python, dashboards) você já domina. O que falta aprender é o contexto de biologia molecular. E esse contexto pode ser adquirido em cerca de 20 horas de estudo. Você pode ser a ponte entre o laboratório e a equipe de dados.

🤖 Como GenAI Está Transformando Este Campo

Quando fizemos este projeto (2021-2022), tudo era manual e baseado em regras. Hoje, IA generativa está acelerando cada etapa do processo:

Variant Calling

DeepVariant (Google) usa deep learning para identificar mutações com 99.9% de precisão

Interpretação

LLMs analisam literatura médica e sugerem significado clínico de mutações raras

Relatórios

GPT-4 gera relatórios clínicos automatizados a partir dos dados genômicos

Exemplos práticos de como GenAI ajudaria no nosso projeto:

Classificação de mutações: Em vez de buscar no banco COSMIC manualmente, um modelo de IA treinado especificamente para isso poderia classificar mutações instantaneamente, incluindo variantes raras que não estão catalogadas.
Revisão de literatura automatizada: LLMs poderiam buscar artigos científicos recentes sobre KRAS p.G12D e resumir os tratamentos mais eficazes, economizando horas de pesquisa.
Predição de resposta a tratamento: Modelos treinados em milhares de casos poderiam sugerir qual protocolo tem maior chance de funcionar para aquele perfil genético específico.
Detecção de padrões: Modelos transformer conseguem identificar combinações complexas de mutações que humanos não percebem (ex: combinações de 3-4 mutações que indicam resistência a drogas).

Oportunidade: Se você já trabalha com dados e quer entrar em genômica, conhecimento de LLMs e treinamento de modelos é um diferencial enorme. A maioria dos bioinformatas ainda não domina IA generativa. Você pode ser a pessoa que conecta os dois mundos.

Ferramentas GenAI para genômica que você pode aprender (todas têm APIs ou versões gratuitas):

AlphaFold 3: Predição de estrutura de proteínas (entender como mutações afetam função). Usa deep learning para prever a forma 3D da proteína.
Nucleotide Transformer: Modelo de linguagem para sequências de DNA (similar ao GPT, mas para DNA em vez de texto).
GPT-4 API: Interpretação de variantes e geração de relatórios clínicos automatizados.
Langchain + ChromaDB: Sistema RAG (Retrieval-Augmented Generation) sobre literatura médica para contextualizar mutações com papers recentes.

08 / Próximo Passo

O que fazer amanhã de manhã

Caminhos de Carreira no Brasil

Este mercado está crescendo rápido no Brasil. Aqui estão opções reais de carreira com empresas que contratam:

1. Bioinformata Clínico

O que faz: Analisar dados genômicos de pacientes, interpretar mutações, gerar relatórios para médicos.

Empresas no Brasil:

Varstation: Plataforma de análise genômica (São Paulo)
Mendelics: Testes genéticos e diagnóstico (São Paulo)
Genera Genomics: Sequenciamento e análise (Rio de Janeiro)
DB Molecular: Diagnóstico molecular (Paraná)

2. Data Engineer em Healthtech

O que faz: Construir pipelines de dados clínicos, integrar sistemas hospitalares, trabalhar com FHIR e HL7.

Empresas no Brasil:

Hospital Israelita Albert Einstein: Centro de dados e analytics
Fleury: Maior rede de medicina diagnóstica do Brasil
Dasa: Maior laboratório da América Latina
Grupo NotreDame Intermédica: Operadora de saúde com forte foco em dados

3. Analista de Dados em Pesquisa

O que faz: Criar dashboards para pesquisadores, fazer análises estatísticas, visualizar dados de estudos clínicos.

Onde trabalhar:

A.C.Camargo Cancer Center: Referência em pesquisa oncológica
Hospital Sírio-Libanês: Instituto de ensino e pesquisa
Instituto do Câncer do Estado de São Paulo (ICESP)
Rede D'Or: Centros de pesquisa clínica

4. Cientista de Dados em Biotech

O que faz: Desenvolver modelos preditivos, trabalhar com ML/AI, analisar ensaios clínicos.

Startups brasileiras contratando:

Hilab: Diagnóstico descentralizado com IA
Sharecare: Plataforma de saúde digital
Alice: Plano de saúde digital
Vittude: Saúde mental e analytics

Dica prática: Busque no LinkedIn por "bioinformática Brasil" ou "dados genômicos São Paulo". Muitas dessas vagas não são anunciadas publicamente. Entre em contato direto com recrutadores dessas empresas mostrando um projeto de portfólio (como o sugerido abaixo).

# Pipeline: Análise de Mutações em Biópsia Líquida # Baseado no artigo: Udalov et al., Methods Protoc. 2023 ## 1. OBTER DADOS DE REFERÊNCIA # Fonte: COSMIC (Catalogue of Somatic Mutations in Cancer) # URL: https://cancer.sanger.ac.uk/cosmic # Filtrar: gene_name, mutation_aa, type, fathmm_score # Remover duplicatas → Carregar em banco SQL ## 2. PROCESSAR RELATÓRIO DE SEQUENCIAMENTO # Input: CSV do Genialis (ou equivalente) # Colunas: GENE, AA (Amino Acid Change), AF (Allele Frequency) # Traduzir nomenclatura AA para formato COSMIC ## 3. CLASSIFICAR MUTAÇÕES # JOIN: relatório × COSMIC (gene + mutação) # Se match: atribuir tipo + score FATHMM # Limiar patogênico: FATHMM >= 0.8 ## 4. VALIDAR QUALIDADE # Flag se: total_rows < 32 OU ratio(mutações/genes) > 0.25 ## 5. MATCHING DE PACIENTES (se anônimo) # Vetor de 56 dimensões (genes) × frequências alélicas # Cosine similarity → limiar >= 0.98 = mesmo paciente ## 6. VISUALIZAR # Tableau/Dash/Shiny: busca, relatório, longitudinal

Projeto de Final de Semana

Quer começar agora? Aqui está um projeto prático que você pode fazer neste fim de semana:

Entre no cBioPortal (plataforma gratuita com dados genômicos de milhares de pacientes) e baixe dados públicos de algum tipo de câncer
Escolha um tipo de câncer que te interessa (por exemplo: BRCA para câncer de mama)
Filtre as mutações por gene e tipo (patogênicas vs. neutras)
Calcule o VAF (frequência alélica) de cada amostra
Monte um dashboard simples usando Streamlit ou Dash mostrando as mutações mais comuns
Publique no GitHub e use como projeto de portfólio

Faça

Aprender SQL para bancos genômicos (comece com cBioPortal)

Estudar biologia molecular básica (Khan Academy é suficiente)

Fazer o curso de LGPD aplicada a dados de saúde

Contribuir para projetos open-source em bioinformática

Montar um portfólio com dados públicos de genômica

Evite

Achar que precisa de doutorado para começar (muitas vagas aceitam graduados)

Ignorar as leis de proteção de dados (LGPD/HIPAA são obrigatórias nessa área)

Pular a parte de biologia (você precisa entender o contexto clínico)

Esperar por permissão ou oportunidade perfeita (dados públicos estão disponíveis hoje)

Tratar como "só mais um dashboard" (cada número representa uma pessoa real)

Você pode começar hoje, sem gastar nada, usando dados públicos e ferramentas gratuitas.