Bioinfo delicinha
Ei, vc já ouviu falar na bioinformática? Pra dar uma booa resumida: ela é a aplicação de análise de dados em biologia.
Espero que vc saiba programar em R. Se não, não tem problema, a gente vai devagarinho, e a Internet tem muuuuuita coisa que pode ajudar com quaisquer questões que apareçam - a começar pelo TabNews, claro!
Então pega um cafezinho e senta aí, que tem muita coisa interessante vindo pela frente.
Vc já parou pra pensar em quantos genes um ser humano tem? Um gene é um pedaço do nosso DNA que define as proteínas que nosso corpo produz. Uma pessoa (da espécie Homo sapiens) tem quase 20 mil genes! Se fizermos uma tabela para guardar informações sobre cada um, essa tabela vai ser menor do que a lista de eleitores de mutia cidades do país.
Na verdade, você pode acessar uma tabela assim facinho, facinho. Abre o console do R e digita esses comandos aqui:
library(org.Hs.eg.db)
homoSapiensDb <- org.Hs.eg.db
Talvez vc veja uma mensagem do tipo "there is no package called org.Hs.eg.db". Nesse caso, é bom instalar o pacote primeiro:
if (!require("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("org.Hs.eg.db")
Como sempre, pode ser que alguns problemas com dependências apareçam. Que a força esteja com vc!
.
.
.
Agora que o pacote está instalado, vc pode re-excutar os primeiros comandos lá em cima. Se tudo der certo, vc pode tentar executar o comando seguinte:
columns(homoSapiens)
# [1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "ENTREZID" "ENZYME" "EVIDENCE" "EVIDENCEALL" "GENENAME" "GENETYPE"
# [12] "GO" "GOALL" "IPI" "MAP" "OMIM" "ONTOLOGY" "ONTOLOGYALL" "PATH" "PFAM" "PMID" "PROSITE"
# [23] "REFSEQ" "SYMBOL" "UCSCKG" "UNIPROT"
Ele te mostra todas as colunas da tabela com informações sobre nossos genes! Para acessá-las, basta extrair as chaves de cada um:
geneKeys = keys(homoSapiens)
Caso vc seja curios* pra ver como elas são, vai descobrir uma sequência de 66102 números. Mas, espera aí? Sessenta e seis mil? Nós não tínhamos 20 mil genes?
Aaaaah, o DNA é cheio de mistérios! Vamos investigar um pouco mais escolhendo algumas colunas da nossa tabela:
homoSapiensData = select(homoSapiens, keys=geneKeys,
columns = c("SYMBOL","GENENAME", "GENETYPE", "SYMBOL"))
head(homoSapiensData)
# ENTREZID SYMBOL GENENAME GENETYPE
# 1 1 A1BG alpha-1-B glycoprotein protein-coding
# 2 2 A2M alpha-2-macroglobulin protein-coding
# 3 3 A2MP1 alpha-2-macroglobulin pseudogene 1 pseudo
# 4 9 NAT1 N-acetyltransferase 1 protein-coding
# 5 10 NAT2 N-acetyltransferase 2 protein-coding
# 6 11 NATP N-acetyltransferase pseudogene pseudo
Olhando a última coluna, podemos ver que alguns genes são "codantes de proteína", enquanto outros são pseudogenes. O que acontece se olharmos o número de genes que codificam uma proteína?
nrow(homoSapiensData[homoSapiensData$GENETYPE == 'protein-coding',])
# [1] 19684 # Aha!
Esta aí! Os nossos 20 mil genes são, na verdade, aqueles que tem a sequência de uma proteína. Mas, na verdade, nós temos muitos outros tipos de genes, cada qual com sua função. Que tipos de genes nós temos?
unique(homoSapiensData$GENETYPE)
# [1] "protein-coding" "pseudo" "other" "unknown" "ncRNA" "tRNA" "rRNA" "scRNA"
# [9] "snoRNA" "snRNA" "biological-region"
Opa! Olha quanta coisa tem aí! Um "rRNA" é o RNA ribossômico, que compõe as estruturas que vão sintetizar nossas proteínas. Por outro lado, um "tRNA" é um RNA transportador, que vai fornecer ao ribossomo os componentes para que eles façam as proteínas.
Aliás, quantos genes nós temos de cada tipo?
table(homoSapiensData$GENETYPE)
# biological-region ncRNA other protein-coding pseudo rRNA scRNA snoRNA snRNA
# 8748 17649 839 19684 16571 59 4 541 71
# tRNA unknown
# 552 1384
E pra que aprender sobre esses genes? Bem, esses pedaços de DNA são as unidades de informação que nos definem como seres humanos (e até o feijão que vc come como o feijão que ele é!). Eles definem a forma como nos desenvolvemos como fetos, viramos uma bomba de hormônios na adolescência e até como nossos corações se enfraquecem ao longo do tempo até que não possam mais bater.
Para você ficar com um gostinho de "quero mais!" até o próximo artigo, eu vou deixar aqui uma referência com camundongos, o Tabula Muris Senis: https://twc-stanford.shinyapps.io/maca/
Este site contém dados sobre os níveis de ativação de cada gene em diversos órgãos de camundongos ao longo da vida. É um conjunto de dados absurdamente completo e aberto, esperando pra nos contar sobre como a vida é diversa e que cada célula é uma coleção de fogos de artifício que se acendem o tempo todo, formando esse espetáculo que é a existência.
E como eu leio esse conjunto de dados? Por incrível que pareça, essa ainda é uma habilidade rara, e nós vamos evoluindo passo a passo. Por enquanto, eu vou dar um exemplo para entendermos um pouco como podemos usar esse super recurso.
Existe uma família de proteínas que protegem as outras em situações de estresse, conhecidas como "Heat Shock Proteins". Um dos membros dessa família é a Hspa5. Se vc clicar na aba "BULK RNA-SEQ VISUALIZATION" no topo do site do Tabula Muris Senis, vai chegar numa página com vááááários boxplots que eu não vou colocar aqui pra não entrar em direitos de imagem. Na caixa de seleção de gene, à esquerda, escreva "Hspa5". Agora, vc pode ver como esse gene é ativado em cada órgão dos camundongos ao longo do tempo. Caso vc queira contemplar um órgão em específico, você pode clicar em "TISSUE LIST", desselecionar todos os tecidos e escolher alguns específicos. Por exemplo, você vai poder ver como o Hspa5 diminui ao longo da vida no cérebro, no coração, no rim e até no fígado!
Exemplos como esse são abundantes, e já é evidente que mesmo a ponta do iceberg é uma enorme mina de ouro! Fique à vontade pra explorar o quanto quiser, e nós voltamos com mais aventuras no futuro.
Até a próxima!