A principios de 2025, el panorama de la inteligencia artificial experimentó un verdadero tsunami con la irrupción de DeepSeek, una empresa china que sacudió los cimientos de una industria dominada por gigantes como OpenAI, Google, Microsoft, Apple y Meta. Más allá de sus capacidades técnicas, lo que realmente causó revuelo fueron cuestiones económicas y de hardware que pusieron en tela de juicio el modelo de negocio establecido por las grandes empresas occidentales.
La pregunta que inmediatamente surgió fue cómo China había logrado desarrollar una IA de tal calibre frente a las severas limitaciones de hardware impuestas por la guerra comercial con Estados Unidos, que restringe su acceso a las GPU más avanzadas de NVIDIA. La respuesta de DeepSeek comenzó a dibujar un panorama alternativo para el desarrollo de modelos de IA que podría transformar completamente el sector.
DeepSeek afirma haber utilizado una infraestructura basada en chips H800 de Nvidia y completado un entrenamiento de más de 2,788 millones de horas con un costo sorprendentemente bajo, apenas 5,6 millones de dólares. Esta cifra resulta asombrosamente escasa cuando se compara con los aproximadamente 100 millones que OpenAI invirtió para entrenar GPT-4.
Si estos datos son precisos, representarían una reducción de casi el 95% en los costos de entrenamiento, un logro que podría democratizar significativamente el acceso a la tecnología de IA avanzada.
Pero la ventaja económica de DeepSeek no termina en el entrenamiento inicial. Según datos revelados por la propia empresa y recogidos por Reuters, mantener su plataforma operativa cuesta unos 87.072 dólares diarios, una cifra que parece irrisoria comparada con los aproximadamente 700.000 dólares diarios que le costaba a OpenAI mantener ChatGPT funcionando (al menos hace dos años).
Esta diferencia de casi diez veces menos en costos operativos plantea serias preguntas sobre la eficiencia y sostenibilidad de los modelos de negocio occidentales.
DeepSeek ha desarrollado principalmente dos modelos; la V3; que es un chatbot conversacional tradicional enfocado en la redacción y creación de contenidos, comparable a GPT-4; y R1, un modelo especializado en razonamiento que destaca por su capacidad para resolver problemas empleando lógica y mostrando razonamiento paso a paso, similar al modelo o1 de OpenAI.
Según la empresa, la relación teórica de costos-beneficio de DeepSeek podría alcanzar hasta un 545% al día, aunque admiten que los ingresos reales son significativamente menores.
La empresa china afirma que alquilar las GPU H800 de Nvidia le cuesta menos de dos dólares por hora, y estima ingresos teóricos diarios de alrededor de 560.000 dólares, lo que supondría aproximadamente 200 millones de dólares anuales. DeepSeek también señala que su modelo V3 es “significativamente más barato” de mantener que el R1, ampliando aún más su ventaja económica.
¿Cómo ha logrado DeepSeek esta impresionante eficiencia económica? Pasando por alto las acusaciones de robo por parte de OpenAI, si los números no están inflados, la empresa china parece haber encontrado un camino alternativo que cuestiona la necesidad de la inmensa potencia de cálculo que tradicionalmente se ha considerado indispensable para entrenar modelos de IA avanzados.
La clave del éxito de DeepSeek parece residir en dos factores principales. Primero, el uso intensivo del ‘reinforcement learning’ (aprendizaje por refuerzo), una metodología que según la empresa les ha permitido “hacer más con mucho menos”. Segundo, y quizás más relevante, una estrategia híbrida de hardware: mientras emplea chips Nvidia H800 para el entrenamiento inicial del modelo R1, utiliza chips Ascend 910B de Huawei para la fase de inferencia.
Los chips de Huawei son más económicos y supuestamente más eficientes que los de Nvidia para ciertas tareas. Esta decisión de DeepSeek podría ser incluso más significativa que los propios costos de mantenimiento, ya que sugiere un nuevo paradigma en el desarrollo de IA, utilizar las GPU más potentes y costosas solo para el entrenamiento inicial, que ocurre en momentos puntuales, y luego emplear hardware más eficiente y económico para la operación diaria (la fase de inferencia).
Esta estrategia se podría explicar con una analogía educativa; el entrenamiento sería como absorber conocimientos intensivamente durante una carrera universitaria de cinco años, mientras que la inferencia equivaldría a aplicar esos conocimientos en la vida profesional sin necesidad de volver a aprender los fundamentos.
Con China fuertemente comprometida en el desarrollo tanto de inteligencia artificial como de hardware especializado para IA, DeepSeek podría convertirse en el modelo “punta de lanza” perfecto para una nueva generación de soluciones más eficientes y accesibles.
Si bien la polémica sobre los cinco millones de dólares de entrenamiento de DeepSeek probablemente persistirá durante algún tiempo, especialmente cuando se compara con las cifras de OpenAI, es evidente que la empresa china está abordando el desarrollo de IA desde un enfoque diferente que podría servir de inspiración para futuras iniciativas.
El caso de DeepSeek plantea preguntas fundamentales sobre los modelos de negocio actuales en el sector de la IA y sugiere que quizás ha habido un sobredimensionamiento de los recursos necesarios, especialmente en las fases de producción y mantenimiento.
Si otras empresas adoptan enfoques similares, podríamos estar ante el inicio de una era de democratización de la IA avanzada, con modelos más eficientes y accesibles que podrían expandir significativamente el alcance y el impacto de esta tecnología transformadora, donde los países con menores recursos podrían tener una oportunidad para mejorar sus condiciones tecnológicas y optimizar sus procesos operativos.