En un escenario global donde las tensiones tecnológicas entre Estados Unidos y China marcan el paso, surgió una empresa que desafía las convenciones del sector de la inteligencia artificial (IA): DeepSeek.
En un mercado dominado por gigantes como OpenAI, la firma china logró un avance que pone en cuestión las capacidades de sus competidores y su dependencia de los recursos informáticos más potentes. Y todo esto lo ha logrado –según afirma– con menos inversión y más eficiencia.
La clave del éxito de DeepSeek radica en un enfoque ingenioso y revolucionario que ha logrado sortear las restricciones impuestas por Estados Unidos a la exportación de chips de alta gama a China. A pesar de las limitaciones impuestas por las sanciones, la compañía fundada por el visionario Liang se adelantó a su tiempo al adquirir grandes cantidades de unidades de la Unidad de Procesamiento Gráfico (GPU) Nvidia A100, cuyo acceso fue restringido tras las tensiones entre ambas potencias. Según la agencia china de noticias Xinhua y el portal especializado en información de tecnología y finanzas 36Kr, DeepSeek habría acumulado entre 10 mil y 50 mmil de estos chips, posicionándose como uno de los actores más estratégicos en el ámbito de la IA.
Sin embargo, lo más impresionante no es solo su acopio de chips, sino cómo la empresa logró maximizar el rendimiento de estos recursos limitados. En un contexto donde el entrenamiento de modelos de lenguaje como ChatGPT demanda hasta 10 mil unidades de Nvidia, DeepSeek alcanzó resultados comparables utilizando apenas dos mil, lo que destaca el potencial de sus innovadoras técnicas de optimización.
Premios y castigo
La eficiencia en el uso de recursos es la clave principal del desarrollo. En lugar de depender únicamente del ajuste fino supervisado, DeepSeek apostó por el aprendizaje por refuerzo puro, una técnica que le permite entrenar sus modelos mediante un sistema de premios y castigos, sin necesidad de datos previos o supervisión humana. Este enfoque no solo mejora el rendimiento, sino que también potencia la capacidad de razonamiento de sus modelos, como el DeepSeek-R1.
Además, la arquitectura MoE (Mixture of Experts) ha sido otro de sus grandes hallazgos. Este sistema se basa en seleccionar solo a los expertos más adecuados para cada tarea específica, lo que optimiza los recursos al reducir el costo computacional. Es como si un equipo de especialistas sólo interviniera cuando su conocimiento es requerido, maximizando la eficiencia del proceso.
La innovación no se detiene ahí. La empresa también emplea una atención latente multicabezal, que permite que sus modelos procesen y comprendan la información de manera más profunda y detallada. Y, por si fuera poco, la destilación, un proceso que transfiere capacidades de modelos más grandes a versiones más pequeñas, facilita la expansión y la accesibilidad de la tecnología sin sacrificar la potencia.
En términos económicos, el impacto de estas innovaciones es claro: DeepSeek-V3 se entrenó a una fracción del costo de los modelos de otras grandes compañías tecnológicas como Meta, lo que subraya su capacidad para revolucionar la industria sin caer en el derroche de recursos.
Modelo revolucionario
La comunidad internacional, incluidos grandes actores del sector como Alexandr Wang, CEO de ScaleAI, no tardó en reconocer el avance de DeepSeek. En el Foro Económico Mundial de Davos, Wang calificó el modelo de DeepSeek como “revolucionario”, un reconocimiento que, lejos de ser casual, refleja la relevancia de este nuevo actor en la carrera global de la inteligencia artificial.