Saltar al contenido
Noticias

Hay un truco infalible para detectar si un vídeo ha sido manipulado por una IA Deep Fake: fíjate en los ojos

Melanie Ehrenkranz

Tiempo de lectura 3 minutos

Comentarios (0)

El ritmo al que avanzan los vídeos
conocidos como Deepfakes es a la vez impresionante y preocupante. Pero
investigadores han publicado un nuevo método para detectar un signo relevador
de estos vídeos manipulados, los cuales ponen la cara de una persona en el
cuerpo de otro. Es un fallo que hasta una persona normal notaria: las
personas en los vídeos modificados no parpadean.

Investigadores de la Universidad de
Albany y el departamento de ciencias informáticas de SUNY recientemente publicaron un estudio llamado “In
ictu oculi: Revelando los vídeos de caras falsas generados por una IA mediante
la detección de parpadeos”. El estudio describe cómo los investigadores
combinaron dos redes neuronales para identificar los vídeos de caras
sintetizadas de forma eficiente. Afirmaron que estos vídeos a menudo ignoraron
“actividades fisiológicas espontáneas e involuntarias como la respiración, el
pulso o el movimiento de los ojos”. 

Los investigadores comentan que la media de
parpadear para los humanos es 17 parpadeos por minuto. Esto incrementa a 26
parpadeos por minuto cuando alguien está hablando y se reduce a 4,5 parpadeos
por minuto cuando alguien está leyendo. Añaden que merece la pena prestar
atención a estas distinciones “ya que la mayoría de políticos sin opiniones
probablemente están leyendo cuando se les graba”. Así que cuando una persona en
un vídeo no parpadea para nada, es una forma fácil de determinar que el vídeo
es falso.

Hay una razón por la cual las personas en
los Deepfakes no parpadean. La mayoría de los datos utilizados por las redes
neuronales no incluyen fotos de personas cerradas ya que las fotos que suben
las personas a Internet en general los muestran con ojos abiertos. Eso es
consecuente, porque una persona necesita coleccionar muchas fotos de un
individuo para crear un Deepfake de ellos. Esto se puede hacer mediante una
herramienta de fotos de código abierto que coge fotos públicos de una persona
específica en Internet. 

Anteriores investigaciones han destacado
la falta de parpadear como una forma de identificar a los Deepfakes, pero los
investigadores de la Universidad de Albany dicen que su sistema es más preciso
que los actuales métodos de detección. Estudios previos han utilizado la
Relación de Aspecto de los Ojos (EAR, por sus siglas en inglés) o clasificadores
basados en Redes Neuronales Convolucionales (CNN) para determinar si los ojos
del individuo estaban abiertos o cerrados. En este caso, los investigadores
combinaron el método CNN con una Red Neuronal Recurrente (RNN), un método que
considera los estados previos de los ojos además de los fotogramas individuales
del vídeo.

A diferencia de un modelo que solo
utiliza CNN, los investigadores dicen que su método, llamado Red Convolucional
de Largo Plazo (LRCN) puede “predecir el estado del ojo de forma eficiente, lo
que significa que es más fluido y exacto”. Según el estudio, este método tiene
una precisión de 0.99. En comparación, CNN tiene una precisión de 0.98 y EAR de
0.79. 

Por lo menos, los hallazgos de los
investigadores señalan que los avances en machine learning que permitieron la
creación de estos vídeos falsos muy realistas podría también ayudar a
detectarlos. Pero los Deepfakes siguen mejorando a una frecuencia alarmante.
Por ejemplo, un nuevo sistema llamado Deep Video Portraits permite que una
persona manipule el vídeo de alguien más y permite insertar varias señalas
fisiológicas, como parpadear.

Es reconfortante ver que los expertos
están buscando maneras para distinguir los vídeos reales de los falsos,
especialmente si los actores malos seguirán abusando la tecnología para
aprovecharse de las mujeres y difundir noticias falsos. Pero queda por ver si
estos métodos de detección superaran el rápido avance de la tecnología
Deepfake. Es incluso más preocupante si el público en general tomaría el tiempo
para preguntarse si el vídeo que están viendo es real o el producto de un troll
de Internet. 

“En mi opinión personal, lo más
importante es que el público en general esté consciente de las capacidades de
la tecnología moderna en términos de generación de vídeos y edición”, dijo
Michael Zollhöfer, un profesor adjubnto invitado en la Universidad de Stanford
que ayudó en el desarrollo de Deep Video Portraits, escribió
en un blog
. “Esto les permitirá pensar en el contenido del vídeo que
consumen todos los días de forma más crítica, especialmente si no saben dónde
viene”.

[h/t The
Register
]

Explorar más sobre estos temas

Compartir esta historia