Claude, modelo da Anthropic, recebe atualização que permite controlar computador do usuário
A versão aprimorada, Claude 3.5 Sonnet, agora consegue entender e interagir com qualquer aplicativo de desktop. Por meio de uma nova API, chamada “Computer Use” e atualmente em beta aberto, o modelo pode emular pressionamentos de teclas, cliques de botões e movimentos do mouse, simulando uma pessoa operando o computador.
Segundo a empresa, ao receber instruções de um desenvolvedor e acesso ao software, Claude analisa capturas de tela do que está visível para o usuário e calcula os movimentos necessários do cursor, tanto vertical quanto horizontalmente, para realizar as ações corretas. O controle das ações do modelo permanece com o usuário, que pode fornecer comandos específicos, como “utilize os dados do meu computador e da internet para preencher este formulário”. O acesso pode ser habilitado ou limitado conforme necessário.
Claude transforma os comandos do usuário em ações no computador, como mover o cursor, clicar e digitar, para executar as tarefas designadas. A Anthropic afirma que o Claude 3.5 Sonnet é mais robusto e supera até mesmo o modelo carro-chefe da OpenAI, o “o1”, em tarefas de codificação. Embora não tenha sido treinado especificamente para isso, o modelo atualizado consegue corrigir erros e tentar novamente diante de obstáculos, além de realizar tarefas que envolvem dezenas ou centenas de etapas.
Em testes que verificaram a capacidade do modelo de auxiliar em atividades como modificar uma reserva de voo, o Claude 3.5 Sonnet completou menos da metade das tarefas com sucesso. Em outro teste, relacionado à iniciação de uma devolução, o modelo falhou em cerca de um terço das tentativas. A própria Anthropic reconhece que o modelo ainda enfrenta dificuldades com ações básicas, como rolar a página ou aplicar zoom, e pode perder “ações e notificações de curta duração” devido à forma como processa capturas de tela.
Apesar das preocupações com uso indevido da ferramenta, a Anthropic acredita que os benefícios de observar como o modelo será utilizado no mundo real superam os riscos. A empresa também implementou várias medidas de segurança para minimizar o uso indevido, como evitar que o modelo seja treinado com capturas de tela e comandos dos usuários, e impedir o acesso à web durante o treinamento.
Desenvolvedores podem testar a funcionalidade de uso do computador por meio da API da Anthropic, do Amazon Bedrock e da plataforma Vertex AI do Google Cloud. A versão 3.5 Sonnet sem a funcionalidade de controle de computador também está sendo lançada em aplicativos Claude, com várias melhorias de desempenho em relação ao modelo anterior.