Una exploración digital ha revelado cómo la inteligencia artificial, al navegar el vasto repositorio de artículos académicos de internet, ha replicado un error que ha terminado apareciendo en decenas de trabajos de investigación. Un equipo de científicos finalmente rastreó el origen de este problema.
La pregunta que muchos se hacen es: ¿qué demonios es la “microscopía electrónica vegetativa”? La respuesta es simple: no existe. Aunque suena técnico, incluso creíble, es un completo sinsentido. A pesar de ello, este término falso ha llegado a aparecer en artículos científicos, respuestas generadas por IA y hasta en revistas revisadas por pares. ¿Cómo sucedió esto?
Según documentó meticulosamente Retraction Watch en febrero, el término puede haberse originado a partir de columnas de texto paralelas en un artículo de 1959 sobre paredes celulares bacterianas. Un investigador explicó que la IA, al procesar el texto, habría «saltado» entre columnas, leyendo líneas no relacionadas como una única frase continua.
Este error textual es un caso ejemplar de lo que los investigadores llaman un fósil digital: una equivocación que queda preservada en las capas de datos de entrenamiento de la IA y reaparece inesperadamente en nuevas producciones. Según un equipo de investigadores citado en The Conversation, estos fósiles digitales son “casi imposibles de eliminar de nuestros repositorios de conocimiento”.
Cómo un simple error se convirtió en un fósil digital irreversible
El proceso de fosilización comenzó con un error sencillo, según reportó el equipo. En los años 50, dos artículos fueron publicados en Bacteriological Reviews y posteriormente digitalizados. La disposición de las columnas en esos artículos confundió al software de escaneo, que combinó la palabra “vegetativa” de una columna con “electrónica” de otra, dando lugar a la expresión absurda.
Este fenómeno genera lo que se conoce como frases torturadas: construcciones erróneas que, aunque invisibles al ojo humano, resultan evidentes para los modelos de lenguaje que “leen” el texto digitalizado.
Como relató Retraction Watch, casi 70 años después de la publicación de esos artículos, la expresión “microscopía electrónica vegetativa” comenzó a aparecer en investigaciones provenientes de Irán. Una posible causa: en persa, las palabras para «vegetativo» y «de escaneo» difieren apenas por un punto en la escritura, y la microscopía electrónica de barrido sí es un término científico real. Este pequeño error habría permitido la reintroducción del término falso en el ámbito científico.
Aunque el error inicial fue humano, la IA lo replicó masivamente, según el equipo que expuso sus hallazgos en The Conversation. Al proporcionar fragmentos de los artículos originales a modelos de IA, los investigadores observaron que estos completaban las frases utilizando el término erróneo en lugar de uno válido científicamente. Modelos más antiguos, como GPT-2 y BERT, no cometían este error, lo que ayudó a fechar cuándo ocurrió la contaminación de los datos de entrenamiento.
El grupo también comprobó que el error persiste en modelos más recientes como GPT-4o y Claude 3.5 de Anthropic, lo que sugiere que el término absurdo podría estar permanentemente incrustado en las bases de conocimiento de las IA.
¿De dónde nace este error?
La fuente principal del problema parece ser el dataset CommonCrawl, un gigantesco repositorio de páginas web recopiladas automáticamente. Debido a su inmenso tamaño —petabytes de datos—, corregir estos errores resulta casi imposible para investigadores ajenos a las grandes empresas tecnológicas. Además, muchas compañías de IA son reticentes a revelar sus conjuntos de datos de entrenamiento.
Por si fuera poco, las editoriales científicas también tienen su cuota de responsabilidad. Según Retraction Watch, el gigante editorial Elsevier intentó justificar el uso de «microscopía electrónica vegetativa» antes de emitir finalmente una corrección. La revista Frontiers enfrentó su propio escándalo el año pasado, cuando se vio obligada a retractar un artículo que incluía imágenes absurdas generadas por IA de genitales de ratas y vías biológicas.
A comienzos de este año, un equipo de investigadores del Harvard Kennedy School’s Misinformation Review destacó el creciente problema de la «ciencia basura» indexada en Google Scholar, capturada erróneamente por el motor de búsqueda académico.
Si bien la IA tiene usos legítimos en la ciencia, su implementación a gran escala también trae consigo serios riesgos de desinformación, tanto para los investigadores como para el público general. Y una vez que los errores digitales se convierten en fósiles incrustados en la vasta memoria de internet, la evidencia reciente indica que resultan extremadamente difíciles de erradicar.