Los datos son el nuevo petróleo, según se dice. Y quizá, la Universidad de Harvard sea la expendedora de combustible, porque el jueves anunció que pone a disposición casi un millón de libros de dominio público que pueden usarse para entrenar modelos de IA. Bajo la nueva Iniciativa Institucional de Datos, el proyecto recibió fondos de Microsoft y OpenAI, y contiene libros escaneados por Google Books, que ya no tienen protección de derechos de autor por su antigüedad.
En parte del nuevo proyecto se establece que los datos incluyen gran variedad de libros como “clásicos, desde Shakespeare, Charles Dickens y Dante, junto a ignotos libros de texto de matemáticas checa y diccionarios de bolsillo de Gales”. Como regla general, los derechos de autor perduran mientras el autor está vivo, más 70 años adicionales.
Los modelos de lenguaje como ChatGPT se comportan con gran similitud a un humano real, pero para eso requieren una inmensa cantidad de texto de alta calidad para su entrenamiento. Cuanda más información se ingrese, mejor serán los modelos al imitar a los humanos y brindar conocimiento. Sin embargo la sed de datos ha causado problemas porque las compañías como OpenAI y otras se han encontrado con limitaciones en lo referido a cuánta información nueva podrán encontrar, al menos sin robarla.
Se metieron en problemas
Editoriales como The Wall Street Journal y The New York Times han demandado a Open AI y también a Perplexity por usar datos de sus empresas sin permiso. Las compañías de IA han presentado diversos argumentos para defenderse, y a veces dicen que los mismos humanos producen nuevas obras basándose en el estudio de otras fuentes, y que la IA hace lo mismo. Todos estudian, leen libros y luego producen nuevas obras usando el conocimiento obtenido. Pero eso no toma en cuenta que los humanos no pueden ingerir miles de millones de textos a la misma velocidad que una computadora. De modo que la comparación pierde validez.
Las compañías de IA se están quedando sin contenido nuevo para usar, que en general sirve para entrenar y que rápidamente se han restringido, como sucedió con Reddit y X, que agresivamente limitaron el uso de sus datos porque reconocieron su inmenso valor.
No bastará con un millón de libros, en especial porque son antiguos y no contienen información moderna como lo es el lenguaje que usan los chicos de la Generación Z. Las compañías de IA necesitarán seguir accediendo a otros datos, en especial a los más exclusivos, para que crear modelos que sean todos iguales. Pero deberán hacerlo sin meterse en problemas legales.