Notícias

Google desenvolve IA capaz de transformar texto em mensagens de áudio

Funcionários da Deepmind, empresa comprada pela Alphabet/Google com foco em desenvolvimento de inteligência artificial, divulgou uma pesquisa (em inglês) em que anuncia a criação de uma IA capaz de transformar mensagens de texto em arquivos de áudio. O estudo, realizado em parceria com a Imperial College London, explica em detalhes a criação do sistema capaz de fazer esse processo. 

Como nome inglês GAN-TTS, a sigla significa rede adversária geradora (GAN) de texto para mensagem (TTS). Apesar dos nomes complicados, a atuação delas é mais fácil de compreender:  uma GAN nada mais é do que duas inteligências artificiais que “competem” entre si na absorção de aprendizado de uma base de dados, sendo capazes de gerar resultados mais próximos de trabalhos feitos por humanos.  

 

Oi, eu sou uma GAN

As GANs são muito utilizadas em trabalhos visuais: existe até um site chamado “Essa pessoa não existe”, no qual essa tecnologia “monta” o rosto de um ser humano utilizando uma base de dados disponível. Aplicada no conceito de texto para voz (TTS), uma GAN seria capaz de, após análise de dados, converter frases em áudio. Porém, diferente do campo de imagem, quase não existem pesquisas que aplicam esse sistema para utilizando escrita. 

Por isso que a pesquisa da Google se destaca: além de ter desenvolvido um sistema com foco em criar áudio com base em texto, o paper lançado pelos pesquisadores afirma que a criação consegue essa conversão com alto grau de naturalidade e (mais importante) que o processo é facilmente replicado, o que significa que pode a IA pode ser treinada em diferentes máquinas, aumentando o tempo de aperfeiçoamento e também permitindo que ela seja utilizada em outras tarefas 

Para desenvolver a GAN-TTS, os pesquisadores utilizaram uma amostragem composta por 567 dados fonéticos, de duração e de tom codificados. Após a primeira rodada de arquivos produzidos, cerca de 1 mil sentenças foram avaliadas por humanos, que avaliavam condições como clareza e naturlidade do audio.  Após outros testes, o melhor modelo testado (que passou por cerca de 1 milhão de testes), apresenta um alto grau de “convencimento”. 

 

* Com informações do Venture Beat

Recent Posts

Pure Storage aposta em mudança de paradigma para gestão de dados corporativos

A Pure Storage está redefinindo sua estratégia de mercado com uma abordagem que abandona o…

1 mês ago

A inteligência artificial é mesmo uma catalisadora de novos unicórnios?

A inteligência artificial (IA) consolidou-se como a principal catalisadora de novos unicórnios no cenário global…

1 mês ago

Finlândia ativa a maior bateria de areia do mundo

À primeira vista, não parece grande coisa. Mas foi na pequena cidade de Pornainen, na…

1 mês ago

Reforma tributária deve elevar custos com mão de obra no setor de tecnologia

O processo de transição previsto na reforma tributária terá ao menos um impacto negativo sobre…

1 mês ago

Relação entre OpenAI e Microsoft entra em clima de tensão, aponta WSJ

O que antes parecia uma aliança estratégica sólida começa a mostrar rachaduras. Segundo reportagem do…

1 mês ago

OpenAI fecha contrato de US$ 200 milhões com Departamento de Defesa dos EUA

O Departamento de Defesa dos Estados Unidos firmou um contrato de US$ 200 milhões com…

1 mês ago