lljotall, A primeira pergunta e acredito que a mais importante, qual é o problem · GTEX

Em resposta a Dúvida em ciência de dados - Support Vector Regression em Python

GTEX

2 anos atrás

lljotall,

A primeira pergunta e acredito que a mais importante, qual é o problema que você está querendo resolver?

Por que SVR e não outros modelos?

Dados tabulares de problemas de regressão geralmente são resolvidos com melhor performance com outros modelos.

lljotall

2 anos atrás

Olá GTEX,

Muito obrigado pelo seu interesse no problema! O meu objetivo pra esse projeto é elaborar um conjunto de equações pra modelar o nível de ativação de genes - eu até já fiz uns posts introduzindo o pré-tratamento de dados aqui (e, dependendo do andar da carruagem, tem mais pra postar aqui também, é só arranjar um tempinho depois do trampo). Pelo fato de que cada experimento resulta em centenas de genes que respondem, o sistema vai ter centenas de variáveis.

Eu pessoalmente escolhi SVR porque ela permite fazer regressões não-lineares. Já tem bastante trabalho mostrando que as interações em redes biológicas são não-lineares e que isso precisa ser levado em conta. Especialmente, SVR tem praticamente a mesma complexidade de tempo se eu quiser testar vários polinômios de graus diferentes (por exemplo, nível do gene elevado ao cubo ou à sexta potência). Aqui vai um trabalho interessante que entra nesse mérito, mas eles fazem uma inferência linear a partir de uma tabela expandida só...
https://doi.org/10.1109/TMBMC.2016.2633265

Essa imagem aqui ilustra bem o processo:

Maaaaas, ouvir ideias novas sempre ajuda! Se vc sentir que uma outra proposta pode ser interessante, estou super aberto a sugestões. Algo a mais: ter equações na forma de polinômios me atrai porque eu também tenho interesse em encontrar pontos de equiĺibrio do sistema (por exemplo, um estado de ativação de genes que é estável - com derivada igual a zero). Ter uma função polinomial vai ajudar bastante na parte de derivar as euquações do sistema.

Abraço!

GTEX

Autor

2 anos atrás

Bom dia lljotall,

Obrigado por dar mais informações.

Eu não sou expert no assunto relacionado a genes, porém modelos não lineares têm bastante no mercado.

O Support Vector "Machine" é um modelo linear que tem um Kernel trick, mas existem muitos modelos que robustos como o XGBoost Regressor que poderia auxiliar no seu problema.

Além disso poderia tratar as variáveis de maneira polinomial para depois aplicar um linear https://www.analyticsvidhya.com/blog/2021/07/all-you-need-to-know-about-polynomial-regression/#:~:text=A%20polynomial%20regression%20model%20is,the%20complexity%20of%20the%20relationship.

E acho que é um melhor guia, porque os Support Vectors são modelos "black box", precisaria usar um SHAP ou algo similar para poder explicar, dificultando a interpretação.