SenseTime desarrolla una IA capaz de crear vídeos deepfake realistas a partir de un clip de audio

Jose García

La inteligencia artificial puedeaplicarse en infinidad de camposy uno de los más controvertidos es el de la manipulación de vídeos. Estos clips manipulados, conocidos como deepfakes,suponen todo un reto para las grandes plataformassociales como Facebook, y es que no dejan de mejorar y de hacerse más difíciles de detectar. Prueba de ello es lanueva IA de SenseTime, el gigante tecnológico de Hong kong, que es capaz de crear deepfakes realistas.

Resumiendo su funcionamiento, la IA detecta en cada frame de un vídeo elementos como la expresión, la geometría y la pose de la cara. Posteriormente, explican los autores del artículo, “se introduce una red recurrente paratraducir el audio de origen en parámetros de expresiónque están relacionados con el contenido de audio”. Estos parámetros de expresión se usan para sintetizar un “humano foto-realista” en cada frame del vídeo “con el movimiento de las regiones de la boca mapeado con precisión al audio de origen”.

¿En qué se traduce esto? En que el vídeo generado emula las expresiones faciales que se interpretan del clip de audio original, pero respetando la pose y características del rostro del sujeto,dando como resultado un vídeo realistaque, como pudieron comprobar los autores delestudio, es complicado de detectar a simple vista por los usuarios.

Mapeando un vídeo usando el audio como fuente

Lametodologíaseguida por los investigadores es relativamente sencilla. Puedes ver un esquema en la imagen superior y se puede resumir en tres pasos:

En otras palabras, la inteligencia artificial de SenseTime puede coger un clip de cualquier persona yhacer que diga lo que sea respetando la expresión facial del sujeto y sus movimientos, pero aplicando las expresiones faciales extraídas del clip de audio. Es curioso, de hecho, que la IA funciona incluso con diferentes poses. En el minuto 2:36 del vídeo bajo estas líneas puedes ver un ejemplo. Los resultados son de lo más realistas, hasta el punto de que la IA puede hacer que una persona cante (3:26 del vídeo inferior).

En el vídeo superior se muestran varias ejemplos y resulta llamativo el detalle de la textura de la cara, los dientes, el movimiento de los labios,las líneas faciales y hasta los hoyuelos. El modelo, eso sí, no es perfecto, ya que no es capaz de imitar emociones o estimar los sentimientos expresados en el clip de audio que se usa como fuente, solo recoge las expresiones faciales asociadas.

De la misma forma, se ignora la lengua, lo que hace que algunos fonemas como “z” (cuya pronunciación requiere poner la lengua entre los dientes) no se emulen de forma natural. Finalmente, los investigadores destacan que el modelotiende a ofrecer peores resultados cuando el clip de audio original tiene mucho acento. Ponen el ejemplo de una persona que habla inglés con acento ruso, cuyo clip de audio no termina de sincronizarse bien con la malla 3D sintetizada por la IA.

Sea como fuere, los clips se evaluaron mostrándolos a un equipo de 100 voluntarios que debían marcar si un vídeo era verdadero o había sido sintetizado. En total fueron 168 vídeos, la mitad falsos y la mitad verdaderos, y el resultado fue quelos vídeos generados por la IA fueron etiquetados como reales el 55%de las veces, mientras que los vídeos reales fueron marcados como tales el 70,1% de las veces.

Se trata de un proyecto interesante que podría usarse, como afirman los investigadores, “para avanzaren la edición de vídeo”. Sin embargo, también son conscientes de que tiene “potencial” para ser “mal usado o abusado” con diferentes propósitos,como manipulación de medios o difusión de propaganda maliciosa. Precisamente por ello, afirman, “defendemos y apoyamos firmemente todas las medidas de salvaguardia contra esas prácticas de explotación” y “acogemos con satisfacción la promulgación y aplicación de legislación que obligue a que todos los vídeos editados sean etiquetados claramente como tales”.

Vía |VentureBeat