El jueves por la mañana, se supo que alguien estaba vendiendo datos de estudiantes de la Universidad de Michigan a trabajadores tecnológicos que construyen chatbots de IA. tecnología. Un empleado de Google DeepMind, el centro de investigación de IA de la compañía, dijo que habían recibido una oferta para grabaciones de conferencias y debates de estudiantes. y horarios de oficina, así como ensayos escritos por estudiantes de último año y estudiantes de posgrado, todos disponibles por una tarifa de licencia ínfima. Ahora, la Universidad dice que todo fue un malentendido, que los estudiantes dieron su consentimiento y que no hay nada de qué preocuparse.
Susan Zhang, ingeniera de DeepMind, dijo que había recibido un mensaje patrocinado de LinkedIn que promocionaba la información y ofrecía una muestra gratuita de los datos de la Universidad de Michigan para demostrar su valía.
“Me estoy comunicando porque, según su perfil, es posible que esté trabajando con modelos de lenguaje grande (LLM) o procesamiento de lenguaje natural”. Decía el mensaje de ventas. “Quería informarle que la Universidad de Michigan está otorgando licencias para datos académicos de discurso y artículos de estudiantes que podría ser muy útil para capacitar o afinar los LLM”.
so i guess this is a thing now
universities running ads to resell students' data
for training llms
💰💰💰 pic.twitter.com/8SR0gP6R10
— Susan Zhang (@suchenzang) February 15, 2024
El mensaje ofrece datos de 85 horas de conferencias, secciones de discusión y entrevistas por $15,595, un segundo conjunto de 829 artículos escritos por estudiantes de la Universidad de Michigan de varias disciplinas por $12,595, o un paquete de descuento para ambos conjuntos de datos a $25,000 .
Sin embargo, el mensaje “fue enviado por un nuevo proveedor externo que compartió información inexacta y desde entonces se le ha pedido que detenga su trabajo”, dijo Colleen Mastony, portavoz de la Universidad de Michigan, en un correo electrónico. “El proveedor no realizó ninguna transacción ni compartió contenido. Los datos de los estudiantes no estaban ni nunca han estado a la venta en la Universidad de Michigan”. Mastony no compartió detalles sobre quién es este proveedor. qué era, o qué, exactamente, era inexacto acerca de la información que ofrecían.
Es posible que la Universidad no venda los datos directamente, pero sí los vende una organización llamada Catalyst Research Alliance, que afirma socio de la Universidad de Michigan así como de la Universidad Estatal de Carolina del Norte. El sitio web ofrece una muestra del conjunto de datos., que viene con un ensayo titulado “Las insuficiencias democráticas de la Unión Europea” y lo que parece ser una grabación de un sección de discusión en clase.
Catalyst Research Alliance y la Universidad Estatal de Carolina del Norte no respondieron de inmediato a las solicitudes de comentarios.
Según Mastony, las grabaciones y los artículos fueron aportados por estudiantes voluntarios que participaron en estudios de investigación de dos décadas de antigüedad, y ninguno de Los datos incluían los nombres de los estudiantes o cualquier otra información de identificación personal. “Estos documentos y grabaciones en particular han estado disponibles durante mucho tiempo de forma gratuita para los académicos. – nuevamente sin ninguna información de identificación – y se han usado como una herramienta para mejorar la escritura y la articulación en la educación”, dijo Mastony.
“Creo que vale la pena investigar qué universidades están vendiendo datos de estudiantes y cuáles son los términos”, dijo Zhang a Gizmodo en un mensaje en X. “La concesión de licencias es mejor que la extracción de datos sin atribución, pero los canales de atribución aquí probablemente solo estén construidos a mitad de camino (también conocidos como creadores originales). no verá ni un centavo, mientras que el revendedor que almacena los datos se quedará con todas las ganancias).
Entrenar modelos en lenguajes extensos, como el software que ejecuta chatbots como ChatGPT y Bard, requiere conjuntos de datos masivos y claramente etiquetados sobre varios temas y disciplinas. Si bien el conjunto de datos de la Universidad de Michigan es pequeño, un contenido bien organizado sobre una franja estrecha de temas podría ser útil para ajustar Ciertos modelos, en particular herramientas diseñadas para fines específicos relacionados con el mundo académico, la comunicación formal o para entrenar IA más generales para mejorar su desempeño. en áreas individuales de especialización en la materia.
Actualización 15/02/2024, 5:45 pm ET: Esta historia ha sido actualizada con comentarios de la Universidad de Michigan.