Uma pesquisa em conjunto, conduzida pela Universidade de Stanford, Berkeley e da Califórnia afirma que o ChatGPT tem apresentado uma performance “deteriorada”, não apenas sendo pouco consistentes mas também, em algumas instâncias, piorando. Em outras palavras, a inteligência artificial (IA) generativa da OpenAI está “ficando mais burra”.

O estudo foi conduzido por Lingjiao Chen, Matei Zaharia e James Zhu e descobriu variações bem grandes em testes de aptidão matemática, em um período de quatro meses. Entre a GPT-3.5 e a GPT-4 – as bases de linguagem do ChatGPT, essencialmente, suas “versões” – foi identificada uma queda de precisão de respostas considerável, indo de 97,6% em março, para 2,4% em junho.

ChatGPT

Imagem: Ascannio/Shutterstock.com

Mas não foi apenas nos testes matemáticos que o ChatGPT encontrou inconsistências: em março, a GPT-4 foi bastante inteligente em executar tarefas de debugging e programação, exibindo scripts completos, prontos para uso e totalmente funcionais em mais de 50% dos casos.

Em junho, no entanto, a mesma GPT-4 teve cerca de 10% de sucesso nos mesmos testes em junho. A versão anterior – GPT-3.5 – também teve queda: de 22% para 2%, no mesmo período.

A descoberta vem em meio à veiculação de diversas teorias e rumores de que a OpenAI estaria testando as capacidades do ChatGPT com modelos amplos de linguagem (LLM, na sigla em inglês) mais baratos para economizar custos.

A OpenAI já refutou esses boatos, afirmando pelo X (ex-Twitter) que está continuamente investindo para tornar o ChatGPT cada vez mais esperto.

A empresa não comentou o estudo, que foi integralmente publicado no arXiv.

Comentários

0

Please give us your valuable comment

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Inscrever-se
Notificar de
0 Comentários
Feedbacks embutidos
Ver todos os comentários