La IA de DeepSeek logró hacer lo que nadie más hizo

La compañía china de IA DeepSeek causó una explosión en las noticias del fin de semana porque reemplazó a ChatGPT de OpenAI como la app más descargada en la Tienda Apple App. Su éxito comercial siguió a la publicación de varios trabajos en los que DeepSeek anunciaba que sus nuevos modelos R1 – cuyo costo para el fabricante y el usuario es mucho menor – también son iguales y en algunos casos mejores que los mejores modelos públicamente disponibles de OpenAI.

¿Qué es lo que hizo DeepSeek que no hizo OpenAI, aunque tiene tantos recursos? Es difícil saberlo con certeza porque OpenAI no ha dicho mucho sobre cómo entrenó a su modelo GPT-01, que antes lideraba en distintas pruebas. Pero hay algunas diferencias claras en la forma de operar de ambas compañías, y en otras áreas donde DeepSeek parece haber hecho impresionantes avances.

Quizá la diferencia más grande – y por cierto la que hizo que cayeran el lunes las acciones de fabricantes de chips como NVIDIA – es que DeepSeek está creando modelos competitivos mucho más eficienteme. Los últimos modelos R1 y Ra-Zero están construidos sobre el modelo base V3 de DeepSeek, que la compañía dijo haber entrenado por menos de U$ 6 millones en costos de computación, usando hardware más viejo de NVIDIA (que las compañías chinas pueden comprar legalmente, a diferencia de los chips más avanzados de la compañía). En comparación, el CEO de Open AI Sam Altman dijo que entrenar a GPT-4 costó más de U$ 100 millones.

Gizmodo preguntó también

Karl Freund, fundados de la firma de análisis industrial Cambrian Ai Research, le dijo a Gizmodo que las políticas estadounidenses como la reciente prohibición de ventas de chips avanzados a China, obligaron a compañías como DeepSeek a mejorar, optimizando la arquitectura de sus modelos en lugar de malgastar dinero en hardware mejor y centro de datos del tamaño de Manhattan. “Puedes construir un modelo rápido, o puedes trabajar duro para construirlo con eficiencia”, dijo Freund.

“El impacto en las compañías occidentales será que se verán obligadas a hacer el trabajo duro que no estaban dispuestas a hacer”.

DeepSeek no inventó la mayoría de las técnicas de optimización que usó. Algunas, como el uso de formatos de datos que usan menos memoria, son propuestas de sus más grandes competidores. Así que la imagen que surge del trabajo de Deep Seek, incluso para los lectores que no saben nada de tecnología, es que se trata de un equipo que usó todas las herramientas que pudieron encontrar para hacer que el entrenamiento requiriera menos memoria de computación, y diseñaron la arquitectura de su modelo para que sea tan eficiente como fuese posible con el hardware más viejo que utilizaban.

El éxito de DeepSeek no es algo malo para la industria estadounidense, sino “una llamada de alerta para las compañías de IA de EE.UU. que se obsesionan con soluciones hercúleas (y caras). Hacer más con menos, muestra cómo se trabaja en varios laboratorios chinos con fondos del estado”.

La IA de DeepSeek logró hacer lo que nadie más hizo

Gizmodo preguntó también

Lo último

La esclavitud fue real, pero no tan masiva como suele contarse. Antístenes se convirtió en el símbolo incómodo de una Atenas que ejecutó a Sócrates y luego actuó como si nada hubiera ocurrido

Ahora Anthropic suma más religiones a su proyecto de lograr que la moral de Claude sea perfecta

Un proyecto de conservación de rinocerontes utiliza radioactividad en sus cuernos

¡Oye, SpaceX!… La NASA ya está trabajando con el prototipo del alunizador de Blue Origin

Empiezas cavando… y terminas construyendo imperios: el fenómeno silencioso de Hydroneer llega a consolas

El océano Índico se está volviendo menos salado desde hace décadas. El cambio silencioso que puede alterar lluvias y sequías en medio planeta

Matar arañas nunca fue tan absurdo: el caos de KILL IT WITH FIRE! 2 se vuelve portátil

El entorno en el que vivimos reconfigura el cerebro a nivel molecular. Por qué la plasticidad cerebral no responde igual en todas las neuronas

Artículos relacionados

La IA de DeepSeek logró hacer lo que nadie más hizo

Gizmodo preguntó también

La esclavitud fue real, pero no tan masiva como suele contarse. Antístenes se convirtió en el símbolo incómodo de una Atenas que ejecutó a Sócrates y luego actuó como si nada hubiera ocurrido

Ahora Anthropic suma más religiones a su proyecto de lograr que la moral de Claude sea perfecta

Un proyecto de conservación de rinocerontes utiliza radioactividad en sus cuernos

¡Oye, SpaceX!… La NASA ya está trabajando con el prototipo del alunizador de Blue Origin

Empiezas cavando… y terminas construyendo imperios: el fenómeno silencioso de Hydroneer llega a consolas

El océano Índico se está volviendo menos salado desde hace décadas. El cambio silencioso que puede alterar lluvias y sequías en medio planeta

Matar arañas nunca fue tan absurdo: el caos de KILL IT WITH FIRE! 2 se vuelve portátil

El entorno en el que vivimos reconfigura el cerebro a nivel molecular. Por qué la plasticidad cerebral no responde igual en todas las neuronas

Artículos relacionados

Ahora Anthropic suma más religiones a su proyecto de lograr que la moral de Claude sea perfecta

Un proyecto de conservación de rinocerontes utiliza radioactividad en sus cuernos

Japón ha enviado una “caja de madera” al espacio para resolver un problema que va a peor. La apuesta por materiales biodegradables contra la basura orbital

Estados Unidos ya prueba vehículos capaces de volar a más de Mach 20 y superar los 24.000 km/h en la atmósfera. Este salto hipersónico no es un experimento aislado y redefine la nueva carrera armamentística

La relatividad ya permite imaginar viajes más rápidos que la luz sin romper las leyes del universo. Lo que no tenemos es la tecnología (ni la energía) para hacerlos realidad

Entrenar una IA consume mucho, pero Sam Altman cree que el problema está mal planteado. Esta pregunta incómoda todavía sigue sin respuesta