En enero de este año, el nombre de DeepSeek irrumpió con fuerza en titulares internacionales. Su modelo R1, gratuito y de código abierto, alcanzó un nivel de rendimiento que puso en jaque a gigantes de Silicon Valley. Ahora, con la publicación de un artículo en Nature, conocemos la historia completa: una combinación inesperada de audacia, ingenio y un método de aprendizaje que alteró las reglas del juego.
Reinventar el aprendizaje de las máquinas

La IA generativa —capaz de producir textos, imágenes o incluso música a partir de simples instrucciones— se ha construido en la última década sobre el aprendizaje profundo. Lo habitual hasta ahora era recurrir al aprendizaje supervisado: entrenar modelos con millones de ejemplos humanos y corregirlos hasta que aprendieran a imitar.
DeepSeek decidió saltarse este guion. Su apuesta fue el aprendizaje por refuerzo, un método que se asemeja a cómo un niño descubre las reglas de un videojuego: prueba, falla, aprende y mejora. El modelo no recibía instrucciones claras, solo objetivos, y debía encontrar por sí mismo la mejor manera de alcanzarlos. El resultado fue un rendimiento sorprendente, especialmente en matemáticas y programación.
Entre la experimentación y el caos
El enfoque tenía un precio. El sistema, sin correcciones humanas, producía respuestas extrañas: textos que mezclaban inglés y chino o explicaciones de hasta 10.000 palabras que resultaban poco prácticas para el usuario. Para equilibrar precisión y claridad, los investigadores incorporaron una dosis de aprendizaje supervisado. Así nació un híbrido que combinaba lo mejor de dos mundos: razonamiento emergente y control humano.
Wenfeng Liang, uno de los científicos detrás del proyecto, explicó que los sesgos humanos pueden limitar la creatividad del modelo: “Si lo guiamos demasiado, evitamos que explore caminos propios”. La clave estaba en dejar espacio a la máquina para desarrollar nuevas formas de razonamiento, aunque estas no siempre fueran fáciles de entender.
La eficiencia como bandera

DeepSeek también innovó en otro frente: el ahorro de recursos. En lugar de construir un modelo desde cero, recurrió a la técnica del destilado de modelos, aprovechando estructuras ya existentes para entrenar al R1 con menos energía y costes. Además, descubrieron que podían impulsar el razonamiento del sistema con pocos ejemplos muy bien diseñados, en lugar de enormes cantidades de datos.
Esta estrategia permitió que, en un contexto de restricciones tecnológicas y sin acceso a chips de última generación, DeepSeek lograra un modelo competitivo y sostenible. Para sus autores, el éxito del aprendizaje reforzado abre la puerta a una nueva generación de inteligencias artificiales más autónomas y adaptables.
¿Hacia un nuevo paradigma?
La publicación en Nature no solo valida el trabajo de esta startup desconocida hasta hace unos meses, sino que también plantea interrogantes profundos. ¿Qué significa “razonar bien” en una IA? ¿Importa más la explicación que ofrece o la precisión de su respuesta final?
DeepSeek ha demostrado que desafiar el consenso y buscar caminos alternativos puede alterar el tablero global de la inteligencia artificial. Y lo hizo desde un lugar inesperado, recordando que la innovación no siempre depende de contar con los mayores recursos, sino de atreverse a cuestionar las reglas establecidas.