Saltar al contenido
Tecnología

La IA de DeepSeek logró hacer lo que nadie más hizo

La compañía china de IA no superó a OpenAI porque eligió lo más grande o inventó nuevas técnicas.
Por Todd Feathers Traducido por

Tiempo de lectura 2 minutos

Comentarios (0)

La compañía china de IA DeepSeek causó una explosión en las noticias del fin de semana porque reemplazó a ChatGPT de OpenAI como la app más descargada en la Tienda Apple App. Su éxito comercial siguió a la publicación de varios trabajos en los que DeepSeek anunciaba que sus nuevos modelos R1 – cuyo costo para el fabricante y el usuario es mucho menor – también son iguales y en algunos casos mejores que los mejores modelos públicamente disponibles de OpenAI.

¿Qué es lo que hizo DeepSeek que no hizo OpenAI, aunque tiene tantos recursos? Es difícil saberlo con certeza porque OpenAI no ha dicho mucho sobre cómo entrenó a su modelo GPT-01, que antes lideraba en distintas pruebas. Pero hay algunas diferencias claras en la forma de operar de ambas compañías, y en otras áreas donde DeepSeek parece haber hecho impresionantes avances.

Quizá la diferencia más grande – y por cierto la que hizo que cayeran el lunes las acciones de fabricantes de chips como NVIDIA – es que DeepSeek está creando modelos competitivos mucho más eficienteme. Los últimos modelos R1 y Ra-Zero están construidos sobre el modelo base V3 de DeepSeek, que la compañía dijo haber entrenado por menos de U$ 6 millones en costos de computación, usando hardware más viejo de NVIDIA (que las compañías chinas pueden comprar legalmente, a diferencia de los chips más avanzados de la compañía). En comparación, el CEO de Open AI Sam Altman dijo que entrenar a GPT-4 costó más de U$ 100 millones.

Gizmodo preguntó también

 Karl Freund, fundados de la firma de análisis industrial Cambrian Ai Research, le dijo a Gizmodo que las políticas estadounidenses como la reciente prohibición de ventas de chips avanzados a China, obligaron a compañías como DeepSeek a mejorar, optimizando la arquitectura de sus modelos en lugar de malgastar dinero en hardware mejor y centro de datos del tamaño de Manhattan. “Puedes construir un modelo rápido, o puedes trabajar duro para construirlo con eficiencia”, dijo Freund.

“El impacto en las compañías occidentales será que se verán obligadas a hacer el trabajo duro que no estaban dispuestas a hacer”. 

DeepSeek  no inventó la mayoría de las técnicas de optimización que usó. Algunas, como el uso de formatos de datos que usan menos memoria, son propuestas de sus más grandes competidores. Así que la imagen que surge del trabajo de Deep Seek, incluso para los lectores que no saben nada de tecnología, es que se trata de un equipo que usó todas las herramientas que pudieron encontrar para hacer que el entrenamiento requiriera menos memoria de computación, y diseñaron la arquitectura de su modelo para que sea tan eficiente como fuese posible con el hardware más viejo que utilizaban.

El éxito de DeepSeek no es algo malo para la industria estadounidense, sino “una llamada de alerta para las compañías de IA de EE.UU. que se obsesionan con soluciones hercúleas (y caras). Hacer más con menos, muestra cómo se trabaja en varios laboratorios chinos con fondos del estado”.

Compartir esta historia

Artículos relacionados