Com apenas três segundos de treinamento, um novo algoritmo de inteligência artificial (IA) desenvolvido por uma equipe de pesquisadores da Microsoft é capaz de imitar a voz humana com qualidade impressionante.

Sim, já existem outras ferramentas inteligentes capazes de reproduzir a voz humana, mas o Vall-E – nome dado ao novo sistema de IA -, segundo seus criadores, é diferente, uma vez que os sistemas atuais de conversão de texto em fala são limitados por sua dependência de “alta qualidade de dados limpos” para sintetizar com precisão a fala humana.

reconhecimento de voz por inteligência artificial

Imagem: Shutterstock

De acordo com os engenheiros da Microsoft, como os dados de treinamento são relativamente pequenos, os sistemas atuais ainda sofrem com uma generalização ruim. Assim, a similaridade do locutor e a naturalidade da fala diminuem drasticamente.

Uma inteligência artificial mais inteligente

Já o Vall-E, por outro lado, é treinado com um conjunto de dados muito maior e mais diversificado: são 60.000 horas de fala em inglês extraídas de mais de 7.000 falantes únicos, tudo isso transcrito por software de reconhecimento de fala.

O documento explica que os dados que alimentam a nova inteligência artificial contêm “falas mais ruidosas e transcrições imprecisas” do que as usadas por outros sistemas de conversão de texto em fala, mas os pesquisadores acreditam que a escala absoluta da entrada e sua diversidade a tornam muito mais flexível e adaptável, e é isso que diferencia o Vall-E em comparação com seus concorrentes.

Nova inteligência artificial leva 3 segundos para imitar voz humana

Imagem: GitHub / Vall-E

“Os resultados do experimento mostram que o Vall-E supera significativamente os sistemas de transcrição de fala em termos de naturalidade da voz e similaridade do locutor”, afirma o artigo.

A equipe da Microsoft compartilhou inúmeros resultados dos experimentos com Vall-E no Github e você pode conferir todos aqui. A qualidade varia; enquanto algumas vozes ainda são notavelmente robóticas, outras realmente soam bastante naturais e impressionam pela similaridade com a nossa voz humana. A gente só não sabe se comemora ou se desespera…

Comentários

0

Please give us your valuable comment

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Inscrever-se
Notificar de
0 Comentários
Feedbacks embutidos
Ver todos os comentários