Nova inteligência artificial leva 3 segundos para imitar voz humana
Algoritmo Vall-E, desenvolvido por pesquisadores da Microsoft, usa um sistema totalmente novo para aprender a reproduzir a fala humanaBy - Cesar Schaeffer, 15 janeiro 2023 às 10:02
Com apenas três segundos de treinamento, um novo algoritmo de inteligência artificial (IA) desenvolvido por uma equipe de pesquisadores da Microsoft é capaz de imitar a voz humana com qualidade impressionante.
Sim, já existem outras ferramentas inteligentes capazes de reproduzir a voz humana, mas o Vall-E – nome dado ao novo sistema de IA -, segundo seus criadores, é diferente, uma vez que os sistemas atuais de conversão de texto em fala são limitados por sua dependência de “alta qualidade de dados limpos” para sintetizar com precisão a fala humana.
De acordo com os engenheiros da Microsoft, como os dados de treinamento são relativamente pequenos, os sistemas atuais ainda sofrem com uma generalização ruim. Assim, a similaridade do locutor e a naturalidade da fala diminuem drasticamente.
Uma inteligência artificial mais inteligente
Já o Vall-E, por outro lado, é treinado com um conjunto de dados muito maior e mais diversificado: são 60.000 horas de fala em inglês extraídas de mais de 7.000 falantes únicos, tudo isso transcrito por software de reconhecimento de fala.
O documento explica que os dados que alimentam a nova inteligência artificial contêm “falas mais ruidosas e transcrições imprecisas” do que as usadas por outros sistemas de conversão de texto em fala, mas os pesquisadores acreditam que a escala absoluta da entrada e sua diversidade a tornam muito mais flexível e adaptável, e é isso que diferencia o Vall-E em comparação com seus concorrentes.
“Os resultados do experimento mostram que o Vall-E supera significativamente os sistemas de transcrição de fala em termos de naturalidade da voz e similaridade do locutor”, afirma o artigo.
A equipe da Microsoft compartilhou inúmeros resultados dos experimentos com Vall-E no Github e você pode conferir todos aqui. A qualidade varia; enquanto algumas vozes ainda são notavelmente robóticas, outras realmente soam bastante naturais e impressionam pela similaridade com a nossa voz humana. A gente só não sabe se comemora ou se desespera…
Comentários