El ritmo al que avanzan los vídeos conocidos como Deepfakes es a la vez impresionante y preocupante. Pero investigadores han publicado un nuevo método para detectar un signo relevador de estos vídeos manipulados, los cuales ponen la cara de una persona en el cuerpo de otro. Es un fallo que hasta una persona normal notaria: las personas en los vídeos modificados no parpadean.

Advertisement

Investigadores de la Universidad de Albany y el departamento de ciencias inform√°ticas de SUNY recientemente publicaron un estudio llamado ‚ÄúIn ictu oculi: Revelando los v√≠deos de caras falsas generados por una IA mediante la detecci√≥n de parpadeos‚ÄĚ. El estudio describe c√≥mo los investigadores combinaron dos redes neuronales para identificar los v√≠deos de caras sintetizadas de forma eficiente. Afirmaron que estos v√≠deos a menudo ignoraron ‚Äúactividades fisiol√≥gicas espont√°neas e involuntarias como la respiraci√≥n, el pulso o el movimiento de los ojos‚ÄĚ.¬†

Los investigadores comentan que la media de parpadear para los humanos es 17 parpadeos por minuto. Esto incrementa a 26 parpadeos por minuto cuando alguien est√° hablando y se reduce a 4,5 parpadeos por minuto cuando alguien est√° leyendo. A√Īaden que merece la pena prestar atenci√≥n a estas distinciones ‚Äúya que la mayor√≠a de pol√≠ticos sin opiniones probablemente est√°n leyendo cuando se les graba‚ÄĚ. As√≠ que cuando una persona en un v√≠deo no parpadea para nada, es una forma f√°cil de determinar que el v√≠deo es falso.

Illustración: University at Albany, SUNY

Advertisement

Hay una raz√≥n por la cual las personas en los Deepfakes no parpadean. La mayor√≠a de los datos utilizados por las redes neuronales no incluyen fotos de personas cerradas ya que las fotos que suben las personas a Internet en general los muestran con ojos abiertos. Eso es consecuente, porque una persona necesita coleccionar muchas fotos de un individuo para crear un Deepfake de ellos. Esto se puede hacer mediante una herramienta de fotos de c√≥digo abierto que coge fotos p√ļblicos de una persona espec√≠fica en Internet.¬†

Anteriores investigaciones han destacado la falta de parpadear como una forma de identificar a los Deepfakes, pero los investigadores de la Universidad de Albany dicen que su sistema es más preciso que los actuales métodos de detección. Estudios previos han utilizado la Relación de Aspecto de los Ojos (EAR, por sus siglas en inglés) o clasificadores basados en Redes Neuronales Convolucionales (CNN) para determinar si los ojos del individuo estaban abiertos o cerrados. En este caso, los investigadores combinaron el método CNN con una Red Neuronal Recurrente (RNN), un método que considera los estados previos de los ojos además de los fotogramas individuales del vídeo.

Advertisement

A diferencia de un modelo que solo utiliza CNN, los investigadores dicen que su m√©todo, llamado Red Convolucional de Largo Plazo (LRCN) puede ‚Äúpredecir el estado del ojo de forma eficiente, lo que significa que es m√°s fluido y exacto‚ÄĚ. Seg√ļn el estudio, este m√©todo tiene una precisi√≥n de 0.99. En comparaci√≥n, CNN tiene una precisi√≥n de 0.98 y EAR de 0.79.¬†

Por lo menos, los hallazgos de los investigadores se√Īalan que los avances en machine learning que permitieron la creaci√≥n de estos v√≠deos falsos muy realistas podr√≠a tambi√©n ayudar a detectarlos. Pero los Deepfakes siguen mejorando a una frecuencia alarmante. Por ejemplo, un nuevo sistema llamado Deep Video Portraits permite que una persona manipule el v√≠deo de alguien m√°s y permite insertar varias se√Īalas fisiol√≥gicas, como parpadear.

Es reconfortante ver que los expertos est√°n buscando maneras para distinguir los v√≠deos reales de los falsos, especialmente si los actores malos seguir√°n abusando la tecnolog√≠a para aprovecharse de las mujeres y difundir noticias falsos. Pero queda por ver si estos m√©todos de detecci√≥n superaran el r√°pido avance de la tecnolog√≠a Deepfake. Es incluso m√°s preocupante si el p√ļblico en general tomar√≠a el tiempo para preguntarse si el v√≠deo que est√°n viendo es real o el producto de un troll de Internet.¬†

Advertisement

‚ÄúEn mi opini√≥n personal, lo m√°s importante es que el p√ļblico en general est√© consciente de las capacidades de la tecnolog√≠a moderna en t√©rminos de generaci√≥n de v√≠deos y edici√≥n‚ÄĚ, dijo Michael Zollh√∂fer, un profesor adjubnto invitado en la Universidad de Stanford que ayud√≥ en el desarrollo de Deep Video Portraits, escribi√≥ en un blog. ‚ÄúEsto les permitir√° pensar en el contenido del v√≠deo que consumen todos los d√≠as de forma m√°s cr√≠tica, especialmente si no saben d√≥nde viene‚ÄĚ.

[h/t The Register]