Pesquisadores da Microsoft Research Lab revelaram um novo modelo de inteligência artificial (IA), que a partir de uma foto e um áudio gera um vídeo realista. A ferramenta adiciona expressões faciais e sincronia labial a imagens estáticas, que podem ser de fotos reais, geradas por IA ou artísticas, como personagens fictícios e obras de arte.
O recurso consegue controlar a direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes granulares, além disso é capaz de gerar falas em qualquer idioma, sendo necessário apenas incluir um clipe de áudio da voz desejada. Os resultados dos vídeos apresentam resolução de 512×512 pixels e alcançam até 40 quadros por segundo.
“Nosso modelo de estreia, VASA-1, é capaz não apenas de produzir movimentos labiais perfeitamente sincronizados com o áudio, mas também de capturar um amplo espectro de nuances faciais e movimentos naturais da cabeça que contribuem para a percepção de autenticidade e vivacidade”, destacou a Microsoft.
A companhia afirmou que devido a possibilidade da criação de conteúdos enganosos ou prejudiciais, não pretende lançar a nova tecnologia até que haja certeza de que a funcionalidade será usada de forma responsável. A ideia é ampliar a técnica para avançar na detecção de falsificações.
Fonte: Estadão Conteúdo. Foto: Divulgação.