IAs generativas colapsam à medida que modelos são treinados com conteúdo gerado por sistemas similares
"Com o passar do tempo, os erros em dados gerados se agravam e, por fim, forçam os modelos que aprendem com tais dados a perceberem a realidade de forma ainda mais equivocada", observam pesquisadoresBy - Liliane Nakagawa, 24 junho 2023 às 15:33
À medida que a web é inundada por textos e imagens artificiais, os modelos de IA generativa treinados com esses dados causam distorções irreversíveis, como respostas erradas e baixa variedade. Isso acontece porque o sistema acaba esquecendo o treinamento original, realizado com dados criados por humanos, causando defeitos irreversíveis em modelos resultantes. A descoberta é creditada a um grupo de pesquisadores do Reino Unido e do Canadá e foi relatada recentemente em um artigo disponível na revista de acesso aberto arXiv.
Em sete meses, o avanço de modelos de inteligência artificial generativas, como ChatGPT, tem provocado mudanças drásticas em diversos setores. Um dos impactos mais preocupantes vem da consequência da automação e desemprego em massa. Esse movimento já começou faz alguns meses, com as principais empresas globais usando esse tipo de tecnologia em fluxos de trabalho, enquanto outras se apressam para surfar o hype oferecendo produtos com IA generativa incorporada.
Para sustentar produtos como ChatGPT, Midjourney e outros grandes modelos de linguagem (LLMs), é necessário grande quantidade de dados, vindas inicialmente de fontes humanas — livros, artigos, fotografias, músicas e assim por diante — que foram criadas sem ajuda da inteligência artificial.
Ainda que o uso desse tipo de IA esteja dando os primeiros passos, com o tempo, cada vez mais será comum a presença dele no cotidiano de mais pessoas, incluindo daqueles que produzem e publicam conteúdo. Nesse sentido, surge uma pergunta óbvia: o que acontece quando o conteúdo gerado por IA se prolifera na web e os modelos de IA começam a ser treinados com esse tipo de dado, em vez de receberem conteúdo gerado principalmente por humanos — como as empresas criadoras fazem hoje?
A resposta, no entanto, parece não ser tão óbvia assim, bem como as formas de se evitar o que um grupo de pesquisadores do Reino Unido e do Canadá chamou de colapso do modelo. Em outras palavras, “o uso de conteúdo gerado por modelos no treinamento causa defeitos irreversíveis nos modelos resultantes”.
A recente descoberta, publicada na revista aberta arXiv, adiciona mais uma preocupação ao campo da inteligência artificial e seu futuro.
Percepção da realidade de forma ainda mais equivocada
Ao analisar especificamente as distribuições de probabilidade para modelos geradores de IA de texto para texto e imagem para imagem, os pesquisadores concluíram que “aprender com dados produzidos por outros modelos causa o colapso do modelo – um processo degenerativo pelo qual, com o tempo, os modelos esquecem a verdadeira distribuição de dados subjacente… esse processo é inevitável, mesmo em casos com condições quase ideais para o aprendizado de longo prazo”.
“Com o passar do tempo, os erros nos dados gerados se agravam e, por fim, forçam os modelos que aprendem com os dados gerados a perceberem a realidade de forma ainda mais equivocada”, escreveu Ilia Shumailov, um dos principais autores do artigo, ao Venture Beat. “Ficamos surpresos ao observar a rapidez com que ocorre o colapso do modelo: Os modelos podem esquecer rapidamente a maioria dos dados originais com os quais aprenderam inicialmente.”
Um artigo sobre o assunto, Ross Anderson, professor de engenharia de segurança da Universidade de Cambridge e da Universidade de Edimburgo, faz a mesma observação em relação à piora do desempenho com o tempo à medida que um modelo de treinamento de IA é exposto a mais dados gerados por inteligência artificial. “Assim como espalhamos lixo plástico nos oceanos e enchemos a atmosfera de dióxido de carbono, estamos prestes a encher a internet de blá. Isso dificultará o treinamento de modelos mais novos por meio da raspagem da web, dando uma vantagem às empresas que já faziam isso ou que controlam o acesso a interfaces humanas em escala. De fato, já estamos vendo startups de IA explorando o Internet Archive para obter dados de treinamento.”
Como ocorre o colapso do modelo
Em essência, o colapso do modelo ocorre quando os dados gerados pelos modelos de IA acabam contaminando o conjunto treinamento dos modelos subsequentes. “Os dados originais gerados por humanos representam o mundo de forma mais justa, ou seja, também contêm dados improváveis”, explicou Shumailov. “Os modelos generativos, por outro lado, tendem a se ajustar excessivamente aos dados populares e, muitas vezes, entendem mal ou representam mal os dados menos populares”.
Como exemplo, Shumailov descreve uma situação hipotética na qual um modelo de aprendizado de máquina é treinado com um conjunto de dados de fotos de 100 gatos, sendo 10 deles com pelo azul e 90 com cor amarela. Ao aprender que existe predominância de felinos na cor amarela e representa os gatos azuis como mais amarelados do que realmente são, o modelo retorna alguns resultados de gatos verdes quando solicitado a produzir mais dados. Com o passar do tempo, a característica azul se desgasta com sucessivos ciclos de treinamento, passando de azul para esverdeado e, por fim, amarelado.
Tal distorção progressiva e eventual perda de característica de dados minoritários é o que foi chamado de colapso do modelo.
Maneiras de se evitar o colapso de IAs generativas: ‘na prática, isso não é nada trivial’
Embora os pesquisadores tenham destacado duas maneiras específicas de se evitar isso, a tarefa é bastante desafiadora devido à dificuldade dos modelos de aprenderem com eventos raros.
- Manter uma cópia de prestígio do conjunto de dados original, exclusivamente ou nominalmente produzido por humanos, e evitar a contaminação com dados gerados por IA. Em seguida, o modelo poderia ser periodicamente retreinado com esses dados ou totalmente atualizado com eles, começando do zero.
- Para evitar a degradação da qualidade da resposta e reduzir erros indesejados ou repetições de modelos de IA, é necessário introduzir conjuntos de dados novos, limpos e gerados por humanos novamente em seu treinamento.
No entanto, como apontam os pesquisadores, isso exigiria algum tipo de mecanismo de rotulagem em massa ou esforço dos produtores de conteúdo ou das empresas de IA para diferenciar o conteúdo gerado por IA do conteúdo gerado por humanos. No momento, não existe nenhum esforço confiável ou em grande escala online.
“Para impedir o colapso do modelo, precisamos garantir que os grupos minoritários dos dados originais sejam representados de forma justa nos conjuntos de dados subsequentes”, explica Shumailov. “Na prática, isso não é nada trivial. O backup dos dados precisa ser feito com cuidado e abranger todos os casos de canto possíveis. Ao avaliar o desempenho dos modelos, use os dados nos quais se espera que o modelo funcione, até mesmo os casos de dados mais improváveis. Observe que isso não significa que os dados improváveis devam ter uma amostragem excessiva, mas sim que eles devem ser representados adequadamente. À medida que o progresso o levar a treinar novamente seus modelos, certifique-se de incluir dados antigos e novos. Isso aumentará o custo do treinamento, mas o ajudará a neutralizar o colapso do modelo, pelo menos até certo ponto.”
Essa “poluição” com dados gerados por IA faz com que os modelos adquiram uma percepção distorcida da realidade. Embora os pesquisadores tenham tentado contornar esse problema, treinando os modelos para evitar muitas respostas repetidas com frequência, o colapso ainda ocorria. Como forma de evitar a repetição, eles começavam a inventar respostas erradas.
“Há muitos outros aspectos que levarão a implicações mais sérias, como discriminação baseada em gênero, etnia ou outros atributos sensíveis”, disse Shumailov, especialmente se a IA generativa aprender com o tempo a reproduzir, por exemplo, uma única etnia em suas respostas, enquanto “esquece” que outras existem.
Vale destacar que esse fenômeno é diferente do “esquecimento catastrófico“, em que os modelos perdem informações aprendidas anteriormente. Em contrapartida, o colapso do modelo envolvem modelos com interpretação equivocada da realidade com base em crenças reforçadas.
De acordo com pesquisadores, mesmo que 10% dos dados originais de autoria humana sejam usados para treinar o modelo nas gerações subsequentes, “o colapso do modelo ainda acontece, mas não tão rapidamente”, comenta Shumailov.
Implicações significativas para o campo da IA
De fato, essas descobertas têm implicações significativas para o campo da inteligência artificial, incluindo as empresas que buscam monetizar com ela, especialmente a médio e longo prazo, e enfatizam a necessidade de metodologias aprimoradas para manter a integridade dos modelos generativos a longo prazo.
A partir disso, os pesquisadores concluem que em um futuro repleto de ferramentas de IA generativas e conteúdos produzidos a partir delas, as criações humanas serão ainda mais valiosas que é atualmente, mesmo que elas sirvam apenas como fonte de dados de treinamento íntegros para IA.
Ao destacar riscos de processos generativos não controlados, as descobertas podem orientar pesquisas futuras para desenvolver estratégias para evitar ou gerenciar o colapso do modelo. “Está claro, porém, que o colapso do modelo é um problema para o machine learning e algo precisa ser feito para garantir que a IA generativa continue a melhorar”, disse Shumailov.
Comentários
Fabio
Não é só esse o problema, com o tempo os próprios textos originais feitos por humanos, estarão contaminados por ideias lidas em alguma outra matéria gerada por IA, esse problema é um caminho sem volta, pois será impossível um escritor humano manifestar uma ideia totalmente original, pois mais cedo ou mais tarde seus valores e conhecimento fique acha que é verdade terá em sua essência alguma influência de IA absorvida por ele