A principios de este año, las redes sociales fueron tomadas brevemente por usuarios de la aplicación Deep Nostalgia de MyHeritage que da vida a fotos antiguas. Ahora, la compañía que desarrolla la inteligencia artificial detrás de Deep Nostalgia, D-ID, llevará su tecnología un paso más allá convertiendo fotos inanimadas de personas en vídeos que se mueven como quieras y dicen cosas.
Por realistas que fueran los resultados de Deep Nostalgia de MyHeritage, la función tenía sus limitaciones. Subías una foto de una persona y el algoritmo analizaba su orientación para determinar en qué dirección miraban la cabeza y los ojos. Entonces seleccionaba un vídeo coincidente en una pequeña colección de ‘vídeos conductores’ y lo usaba como referencia para crear los movimientos generados por la IA. Los usuarios no tenían control sobre los movimientos del video generado y el sujeto no hacía ningún intento de hablar.
En el reciente TechCrunch Disrupt 2021, D-ID reveló una versión más avanzada de Deep Nostalgia llamada Speaking Portraits, que puede hacer que las fotos inanimadas se muevan y hablen siguiendo un vídeo original, un clip de audio o incluso un archivo de texto con un guion escrito.
Habrá dos sabores de Speaking Portrait disponibles. Single Portrait puede convertir una fotografía en una cabeza parlante, pero los movimientos se limitarán solo a la cabeza; cualquier otra cosa en una foto sin recortar, incluido el cuerpo de una persona y lo que sea que haya en el fondo, permanecerá estático, arruinando potencialmente la credibilidad del efecto.
La versión más avanzada de Speaking Portrait es Trained Character y, en lugar de una foto fija, requiere un vídeo de 10 minutos de la persona animada realizando un conjunto específico de movimientos y diciendo ciertas cosas, según lo definido por un conjunto de directrices que ha creado D-ID. Los resultados, como se ve en esta muestra anterior de una presentadora de noticias que relata una historia, son mucho más realistas y creíbles que lo que produce el Single Portrait, que muestra signos de deepfake, incluidos los bordes borrosos y artefactos de deformación inusuales en la cara. Trained Character también ofrece la flexibilidad adicional de cambiar el fondo y el potencial de animar el cuerpo de la persona, como los brazos y las manos.
La función Deep Nostalgia de MyHeritage parecía más una herramienta promocional que otra cosa; una forma de atraer a nuevos usuarios a los diversos servicios del sitio web. Pero Speaking Portrait tiene mucho más potencial, no solo para aquellos que buscan un sustituto animado para sus reuniones de Zoom. La tecnología puede garantizar que las agencias de noticias siempre tengan un presentador “en vivo” disponible para las últimas noticias, incluso en mita de la noche, pero también puede permitir que alguien dé las noticias en idiomas que en realidad no hablan. Es una aplicación que también hemos visto a otras empresas que manipulan caras con la inteligencia artificial para hacer que las películas dobladas en otros idiomas parezcan más naturales, haciendo que los movimientos de la boca y la cara coincidan con el nuevo diálogo.
¿Hay motivos para preocuparse por la rapidez con la que han progresado las tecnologías de deepfakes? Por supuesto, pero ahora que han madurado y se vuelven mucho más fáciles de usar, finalmente estamos comenzando a ver los beneficios potenciales de la tecnología, aparte de sus problemas.