Google DeepMind revela ferramenta que gera áudio a partir de conteúdo visual

O Google DeepMind anunciou uma nova ferramenta de inteligência artificial (IA) que cria trilhas sonoras, diálogos e efeitos para vídeos com base no conteúdo visual. Através da análise dos pixels do vídeo e combinação das informações com prompts de texto em linguagem natural, a tecnologia V2A (video-to-audio), é capaz de gerar um áudio que combina com os elementos visuais.

“Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a diversas cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explicou a equipe responsável pela tecnologia.

A nova funcionalidade também funciona a partir de comandos de texto, visto que, a criação do áudio através do conteúdo visual depende da qualidade do vídeo. A companhia ainda está realizando testes com a tecnologia V2A, que deve passar por avaliações de segurança antes do lançamento ao público.