Olá GTEX
,
Muito obrigado pelo seu interesse no problema! O meu objetivo pra esse projeto é elaborar um conjunto de equações pra modelar o nível de ativação de genes - eu até já fiz uns posts introduzindo o pré-tratamento de dados aqui (e, dependendo do andar da carruagem, tem mais pra postar aqui também, é só arranjar um tempinho depois do trampo). Pelo fato de que cada experimento resulta em centenas de genes que respondem, o sistema vai ter centenas de variáveis.
Eu pessoalmente escolhi SVR porque ela permite fazer regressões não-lineares. Já tem bastante trabalho mostrando que as interações em redes biológicas são não-lineares e que isso precisa ser levado em conta. Especialmente, SVR tem praticamente a mesma complexidade de tempo se eu quiser testar vários polinômios de graus diferentes (por exemplo, nível do gene elevado ao cubo ou à sexta potência). Aqui vai um trabalho interessante que entra nesse mérito, mas eles fazem uma inferência linear a partir de uma tabela expandida só...
https://doi.org/10.1109/TMBMC.2016.2633265
Essa imagem aqui ilustra bem o processo:
Maaaaas, ouvir ideias novas sempre ajuda! Se vc sentir que uma outra proposta pode ser interessante, estou super aberto a sugestões. Algo a mais: ter equações na forma de polinômios me atrai porque eu também tenho interesse em encontrar pontos de equiĺibrio do sistema (por exemplo, um estado de ativação de genes que é estável - com derivada igual a zero). Ter uma função polinomial vai ajudar bastante na parte de derivar as euquações do sistema.
Abraço!