Harvard pone a disposición 1 millón de libros para entrenar modelos de IA

Los datos son el nuevo petróleo, según se dice. Y quizá, la Universidad de Harvard sea la expendedora de combustible, porque el jueves anunció que pone a disposición casi un millón de libros de dominio público que pueden usarse para entrenar modelos de IA. Bajo la nueva Iniciativa Institucional de Datos, el proyecto recibió fondos de Microsoft y OpenAI, y contiene libros escaneados por Google Books, que ya no tienen protección de derechos de autor por su antigüedad.

En parte del nuevo proyecto se establece que los datos incluyen gran variedad de libros como “clásicos, desde Shakespeare, Charles Dickens y Dante, junto a ignotos libros de texto de matemáticas checa y diccionarios de bolsillo de Gales”. Como regla general, los derechos de autor perduran mientras el autor está vivo, más 70 años adicionales.

Los modelos de lenguaje como ChatGPT se comportan con gran similitud a un humano real, pero para eso requieren una inmensa cantidad de texto de alta calidad para su entrenamiento. Cuanda más información se ingrese, mejor serán los modelos al imitar a los humanos y brindar conocimiento. Sin embargo la sed de datos ha causado problemas porque las compañías como OpenAI y otras se han encontrado con limitaciones en lo referido a cuánta información nueva podrán encontrar, al menos sin robarla.

Se metieron en problemas

Editoriales como The Wall Street Journal y The New York Times han demandado a Open AI y también a Perplexity por usar datos de sus empresas sin permiso. Las compañías de IA han presentado diversos argumentos para defenderse, y a veces dicen que los mismos humanos producen nuevas obras basándose en el estudio de otras fuentes, y que la IA hace lo mismo. Todos estudian, leen libros y luego producen nuevas obras usando el conocimiento obtenido. Pero eso no toma en cuenta que los humanos no pueden ingerir miles de millones de textos a la misma velocidad que una computadora. De modo que la comparación pierde validez.

Las compañías de IA se están quedando sin contenido nuevo para usar, que en general sirve para entrenar y que rápidamente se han restringido, como sucedió con Reddit y X, que agresivamente limitaron el uso de sus datos porque reconocieron su inmenso valor.

No bastará con un millón de libros, en especial porque son antiguos y no contienen información moderna como lo es el lenguaje que usan los chicos de la Generación Z. Las compañías de IA necesitarán seguir accediendo a otros datos, en especial a los más exclusivos, para que crear modelos que sean todos iguales. Pero deberán hacerlo sin meterse en problemas legales.

Harvard pone a disposición 1 millón de libros para entrenar modelos de IA

Se metieron en problemas

Lo último

La crisis de Xbox golpea a sus estudios más creativos tras el último showcase

Olvídate del iPad, la Xiaomi Pad 8 alcanza su precio más bajo mientras Amazon adelanta las ofertas de tablets para el Prime Day

Un robot humanoide ya atiende cara al público en Pekín, pero su lentitud no es el verdadero dato importante. Galbot G1 sirve bebidas mientras pone a prueba la visión, el lenguaje y la autonomía que necesitará para trabajos mucho más complejos

La última casa: el inquietante thriller de Netflix donde el hogar se convierte en una prisión

Dónde ver Portugal vs RD Congo en vivo gratis desde cualquier lugar

Boulevard da el salto al streaming con una historia de amor, dolor y decisiones difíciles

El sorprendente efecto secundario del Ozempic que nadie esperaba encontrar en un estudio sobre violencia

Heartstopper Forever cerrará la historia de Nick y Charlie con amor, distancia y decisiones difíciles

Artículos relacionados

Harvard pone a disposición 1 millón de libros para entrenar modelos de IA

Se metieron en problemas

La crisis de Xbox golpea a sus estudios más creativos tras el último showcase

Olvídate del iPad, la Xiaomi Pad 8 alcanza su precio más bajo mientras Amazon adelanta las ofertas de tablets para el Prime Day

Un robot humanoide ya atiende cara al público en Pekín, pero su lentitud no es el verdadero dato importante. Galbot G1 sirve bebidas mientras pone a prueba la visión, el lenguaje y la autonomía que necesitará para trabajos mucho más complejos

La última casa: el inquietante thriller de Netflix donde el hogar se convierte en una prisión

Dónde ver Portugal vs RD Congo en vivo gratis desde cualquier lugar

Boulevard da el salto al streaming con una historia de amor, dolor y decisiones difíciles

El sorprendente efecto secundario del Ozempic que nadie esperaba encontrar en un estudio sobre violencia

Heartstopper Forever cerrará la historia de Nick y Charlie con amor, distancia y decisiones difíciles

Artículos relacionados

Un robot humanoide ya atiende cara al público en Pekín, pero su lentitud no es el verdadero dato importante. Galbot G1 sirve bebidas mientras pone a prueba la visión, el lenguaje y la autonomía que necesitará para trabajos mucho más complejos

Google jubila los Pixel cada cuatro años pero sus placas base concentran el 50% de la huella de carbono del teléfono. Ahora los está convirtiendo en servidores: 25 a 50 placas agrupadas equivalen a un servidor moderno

La IA y la computación cuántica empiezan a cambiar la forma de descubrir nuevos materiales. Dos estudios muestran cómo simular propiedades que antes quedaban fuera del alcance de los superordenadores

Astana ya tiene a sus primeros campeones phygital y el camino hacia los Games of the Future 2026 empieza a cerrarse. ACF x Allur, ZM NITUI y Andres Guardo lideran la última gran tanda de clasificados

Treinta millones de simulaciones acaban de revelar una autopista gravitatoria escondida camino a la Luna. El desvío pasa por el punto L1 y promete ahorrar combustible en futuras misiones

SpaceX salió a Bolsa con una valoración histórica, pero su verdadera promesa no está solo en Starlink. La clave está en convertir los cohetes reutilizables en una máquina de reducir costes