Microsoft apresenta modelo de IA que gera vídeos realistas

Pesquisadores da Microsoft Research Lab revelaram um novo modelo de inteligência artificial (IA), que a partir de uma foto e um áudio gera um vídeo realista. A ferramenta adiciona expressões faciais e sincronia labial a imagens estáticas, que podem ser de fotos reais, geradas por IA ou artísticas, como personagens fictícios e obras de arte.

O recurso consegue controlar a direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes granulares, além disso é capaz de gerar falas em qualquer idioma, sendo necessário apenas incluir um clipe de áudio da voz desejada. Os resultados dos vídeos apresentam resolução de 512×512 pixels e alcançam até 40 quadros por segundo.

“Nosso modelo de estreia, VASA-1, é capaz não apenas de produzir movimentos labiais perfeitamente sincronizados com o áudio, mas também de capturar um amplo espectro de nuances faciais e movimentos naturais da cabeça que contribuem para a percepção de autenticidade e vivacidade”, destacou a Microsoft.

A companhia afirmou que devido a possibilidade da criação de conteúdos enganosos ou prejudiciais, não pretende lançar a nova tecnologia até que haja certeza de que a funcionalidade será usada de forma responsável. A ideia é ampliar a técnica para avançar na detecção de falsificações.