Executando verificação de segurança...
1

Meu Próprio Chatbot

Olá pessoal do tab news, recentemente estive estudando ML e Algoritmos probababilisticos. Eu implementei um chatbot usando modelo pré treinado refinado e gostaria que vocês me dessem um feedback seja melhoria de código, ideias, refact etc.

Repositório: https://github.com/0x41337/my-own-chatbot
Demostração Online: https://0x41337-my-own-chatbot.hf.space

O modelo tem um limite de 500 tokens então se o Contexto for maior que o limite do tokens o modelo não vai funcionar.

Explicando sobre Context

  • Context em sistemas de Q&A

No contexto do aprendizado de máquina (ML), "contexto" refere-se à informação ou ao ambiente que envolve um determinado evento ou situação. O contexto pode ser fundamental para entender e interpretar corretamente os dados e fazer previsões ou tomar decisões precisas.

Explicando sobre Tokens

Os tokens são unidades de texto que podem variar de palavras inteiras a caracteres individuais, dependendo do contexto. Em relação ao processamento de linguagem natural (NLP) e ao uso de modelos de linguagem, os tokens são geralmente palavras ou subpalavras. Eles são importantes porque afetam a forma como os dados são processados e representados em um modelo de ML.

Explicando sobre Feixes de Probabilidades

beam search

Feixes de probabilidade, também conhecidos como "beam search" em inglês, são uma técnica comumente usada em modelos de linguagem, como o GPT (Generative Pre-trained Transformer), para gerar sequências de texto coerentes e de alta qualidade. Essa abordagem busca gerar uma lista de hipóteses ou sequências candidatas, avaliando sua probabilidade em relação ao contexto.

Carregando publicação patrocinada...
1

Fala aí 0x41337,

Valeria a pena somente explicar pro pessoal que não conhece o que significa contexto.

Além disso, testei aqui e ele responde em branco.

1

Opa @GTEX obrigado pelo feedback 🤘
Vou editar o post explicando melhor sobre context acho que ficou meio vago.

Sobre ele responder em branco, pode ser que seja por ele ser um modelo destilado base.

Eu escoli ele por que escalar IA é muito caro e por um GPT2 ou GPT3.5 seria caro ate mesmo para huggingface, o modelo que eu escoli foi: distilbert-base-uncased-distilled-squad de 512 tokens e 66.4M parametros ele é meio burro então perguntas muito complexas, ou em outra lang como portugues ele não sabe como responder, por que foi treinado com Ingles.

Eu tambem não implementei um sistema pra gerenciar o overflow de tokens do modelo, então não daria pra eu por um livro por exemplo e pedir para ele resumir, porem tem algums prompts que vc pode testar:

  • Question 1: Which name is also used to describe the Amazon rainforest in English?
  • Question 2: How many square kilometers of rainforest is covered in the basin?

context

The Amazon rainforest (Portuguese: Floresta Amazônica or Amazônia; Spanish: Selva Amazónica, Amazonía or usually Amazonia; French: Forêt amazonienne; Dutch: Amazoneregenwoud), also known in English as Amazonia or the Amazon Jungle, is a moist broadleaf forest that covers most of the Amazon basin of South America. This basin encompasses 7,000,000 square kilometres (2,700,000 sq mi), of which 5,500,000 square kilometres (2,100,000 sq mi) are covered by the rainforest. This region includes territory belonging to nine nations. The majority of the forest is contained within Brazil, with 60% of the rainforest, followed by Peru with 13%, Colombia with 10%, and with minor amounts in Venezuela, Ecuador, Bolivia, Guyana, Suriname and French Guiana. States or departments in four nations contain "Amazonas" in their names. The Amazon represents over half of the planet's remaining rainforests, and comprises the largest and most biodiverse tract of tropical rainforest in the world, with an estimated 390 billion individual trees divided into 16,000 species.

Demo

Screenshot_2023-07-03_11-57-28

0