Bloomberg Businessweek

¿Está ganando China a EU con DeepSeek?

La repentina aparición de DeepSeek ilustra cómo la industria de IA de ese país está prosperando a pesar de los esfuerzos de Estados Unidos por frenarla.

alt default
DeepSeek El fundador de DeepSeek, Liang Wenfeng, se reunió con el presidente Xi Jinping en Beijing en febrero. (Florence Lo)

Delgado y reservado, Liang Wenfeng puede parecer tímido en las reuniones. El fundador de DeepSeek —la startup china que revolucionó el mundo de la inteligencia artificial (IA)— es propenso a hablar entrecortadamente. Pero los nuevos empleados aprenden rápidamente a no confundir su silenciosa reflexión con timidez. Una vez que Liang procesa los detalles de una conversación, lanza preguntas precisas sobre la arquitectura de modelos, los costos computacionales y otras complejidades de los sistemas de IA de DeepSeek.

Los empleados se refieren a Liang como lǎo bǎn, o “jefe”, un nombre común de respeto hacia los superiores empresariales en China. Lo que es inusual es cuánto empodera a jóvenes investigadores y a becarios para asumir grandes proyectos experimentales, pasando por sus escritorios y animándolos a considerar caminos de ingeniería inusuales. Cuanto más técnica sea la conversación, mejor, especialmente si conduce a mejoras reales en el rendimiento. “Es un verdadero nerd”, dice un exempleado de DeepSeek que, como muchos entrevistados para este artículo, solicitó el anonimato porque no estaba autorizado a hablar públicamente sobre la empresa.

Liang y su joven empresa alcanzaron prominencia internacional en enero con el lanzamiento de R1, un modelo de IA que se perfilaba como un avance explosivo. R1 superó a las empresas occidentales en varias pruebas estandarizadas comúnmente utilizadas para evaluar el rendimiento de la IA; sin embargo, DeepSeek afirmó haber desarrollado su modelo base por cerca del 5 por ciento del costo estimado de GPT-4, el modelo que sustenta ChatGPT de OpenAI.

Los resultados de la prueba desataron una venta masiva en los mercados de EU y encendieron un debate incómodo sobre la estrategia del gobierno estadounidense de imponer controles a las exportaciones para frenar el avance de China en IA. Amazon y Microsoft se apresuraron a incorporar los modelos de DeepSeek a sus plataformas en la nube, compitiendo con los desarrollos de Meta y Mistral AI. “Básicamente, en un solo fin de semana, el interés por DeepSeek creció tanto que tuvimos que entrar en acción”, cuenta Atul Deo, responsable del mercado de modelos de lenguaje de Amazon.

DeepSeek ayudó a despejar la ventana empañada con la que muchos en EU veían el panorama de la IA en China: envuelto en misterio, fácil de minimizar como una amenaza exagerada, pero probablemente mucho más avanzado de lo que están dispuestos a admitir. Antes de la irrupción de esta startup, muchas empresas y funcionarios estadounidenses se aferraban a la idea de que China aún estaba muy por detrás de Silicon Valley.

La realidad es que Hangzhou, sede de DeepSeek, y otros polos tecnológicos de China están en plena ebullición con pequeños “dragones de la IA”, como se suele apodar a las startups del sector. Chatbots sofisticados creados por empresas emergentes locales como MiniMax y Moonshot AI subieron en popularidad, incluso en EU. La familia de modelos de lenguaje Qwen, de Alibaba Group, aparece consistentemente entre los primeros lugares de rankings destacados, compitiendo con los modelos de Google y Anthropic. En abril, el CEO de Baidu, Robin Li, presumió que su empresa podría desarrollar modelos tan potentes como los de DeepSeek, pero más económicos. Huawei, por su parte, también ha recibido elogios por el diseño de productos que compiten directamente con el hardware de Nvidia, cuyos chips gráficos (GPUs) alimentan los modelos de IA más avanzados en Estados Unidos y Europa.

No hace mucho, el Partido Comunista Chino estaba recortando las alas a lo que consideraba un sector tecnológico fuera de control. Lanzó investigaciones antimonopolio, revisiones de cumplimiento de datos y aplicó nuevas regulaciones sobre redes sociales, apps de economía colaborativa y videojuegos. Figuras como Jack Ma, cofundador de Alibaba, desaparecieron del ojo público. Hoy, el gobierno chino está dando un giro: en lugar de contener, ahora impulsa a su industria tecnológica local frente a la presión extranjera. El presidente Xi Jinping ha ordenado canalizar recursos hacia la inteligencia artificial y los semiconductores, motivando a la fuerza laboral especializada del país y llamando a construir un ecosistema de software y hardware “independiente, controlable y colaborativo”.

Irónicamente, uno de los motores del reciente avance tecnológico de China han sido las propias restricciones geopolíticas impuestas para frenar su desarrollo en inteligencia artificial. Wei Sun, analista de Counterpoint Technology Market Research, afirma que hoy la brecha entre EU y China en IA se mide en meses, no en años.

Mientras que China ve un auge de innovación, en EU muchos siguen interpretando estas señales como indicios de malas prácticas. Un informe publicado en abril por un comité bipartidista de la Cámara de Representantes acusó a DeepSeek de tener vínculos “significativos” con el gobierno chino, y concluyó que la empresa robó ilegalmente datos de OpenAI, representando una “amenaza profunda” para la seguridad de EU. Dario Amodei, CEO de Anthropic, ha pedido mayores controles a las exportaciones, argumentando que DeepSeek tuvo que haber contrabandeado una cantidad importante de GPUs de Nvidia, incluidas las avanzadas H100.

alt default
Dario Amodei El director ejecutivo de Anthropic, Dario Amodei, ha citado a DeepSeek como motivo para endurecer las restricciones a las exportaciones de chips a China. (Chesnot )

La Embajada de China rechazó las acusaciones del comité legislativo de EU, calificándolas de “infundadas”. Nvidia, por su parte, aseguró que los chips vendidos a DeepSeek cumplían con las normativas de exportación, y advirtió que imponer nuevas restricciones podría, irónicamente, beneficiar a los fabricantes de semiconductores chinos. Un vocero de la empresa señaló que obligar a DeepSeek a usar más insumos y servicios locales “fortalecería a Huawei y a otros proveedores de infraestructura de IA fuera de Estados Unidos”.

Pese a estar en el centro de esta polémica, DeepSeek sigue siendo una empresa envuelta en misterio. El propio fundador, Liang Wenfeng, tiene fama de ser reservado al extremo. En los círculos de inteligencia artificial en China lo apodan el “Loco de la tecnología”. No ha dado entrevistas en casi un año, y su rostro era desconocido hasta que se filtró una foto reciente durante una comparecencia con el primer ministro Li Qiang. Ni Liang ni su equipo respondieron a múltiples solicitudes de entrevista, salvo un correo automático que decía: “Gracias por su atención y apoyo a DeepSeek”.

Un origen en las finanzas y un salto al mundo de la IA

Para entender mejor cómo opera DeepSeek, Bloomberg Businessweek entrevistó a 11 exempleados de la compañía, además de más de 40 analistas, inversionistas y ejecutivos del ecosistema de IA chino.

El hermetismo de la empresa ha permitido que críticos como Dario Amodei, de Anthropic, y Sam Altman, de OpenAI, llenen el vacío con sospechas que resuenan con una audiencia estadounidense predispuesta a ver la tecnología china como una amenaza. Sin embargo, incluso quienes recelan de DeepSeek reconocen la fuerza de sus modelos. Dmitry Shevelenko, director de negocios de Perplexity AI, asegura que nadie en su equipo ha logrado comunicarse con alguien de DeepSeek. Aun así, han adoptado sus modelos, alojándolos exclusivamente en servidores en EU y Europa, y eliminando cualquier rastro de datos asociados a censura del Partido Comunista Chino. Reempacaron el modelo bajo el nombre R1 1776 —en alusión al año de la independencia estadounidense— como un tributo a la libertad. “No sabemos qué busca realmente DeepSeek”, dice Shevelenko. “Es una caja negra.”

DeepSeek, por su parte, ya anticipaba el escepticismo internacional. En una presentación durante una conferencia de desarrolladores organizada por Nvidia en marzo de 2024, el investigador Deli Chen propuso “desacoplar” los valores de los modelos de lenguaje para que puedan adaptarse a diferentes contextos culturales. En una diapositiva mostró un prototipo que permitía personalizar los criterios éticos de los chatbots según el país o región: con solo tocar un botón, los desarrolladores podían activar o desactivar temas. “Solo tienen que elegir las opciones que se ajusten a sus necesidades y disfrutar de un modelo alineado con sus valores”, explicó Chen.

Esta lógica pragmática no es nueva en DeepSeek. Liang y sus socios estudiaron áreas como aprendizaje automático, procesamiento de señales e ingeniería electrónica en la Universidad de Zhejiang a mediados de los 2000. Durante la crisis financiera global, comenzaron a diseñar algoritmos para operar en bolsa… por diversión y, claro, por dinero.

Al graduarse, Liang siguió creando sistemas de trading cuantitativo, acumulando una pequeña fortuna antes de fundar High-Flyer Quant, en 2015, junto con amigos de universidad en Hangzhou.

En sus primeras vacantes, High-Flyer prometía atraer talento de Google y Facebook, y buscaba “geeks” de programación con la genialidad excéntrica de Sheldon Cooper, el personaje principal de The Big Bang Theory. Ofrecían snacks gratis, sillas ergonómicas Herman Miller, noches de póker y una cultura de oficina relajada.

Al igual que DeepSeek, High-Flyer tenía misticismo: su primer post en redes se refería a Liang únicamente como “el Sr. L”. Aun así, apostaban por la transparencia en resultados: cada viernes publicaban en WeChat el rendimiento de sus 10 fondos originales, que en promedio generaban un retorno anual del 35 por ciento… hasta que los datos se volvieron exclusivos para inversionistas en 2016.

alt default
Liang Liang en enero. (Zuma Press)

Con el tiempo, High-Flyer llegó a gestionar más de 14 mil millones de dólares. En 2019, Liang empezó a reclutar para un área de inteligencia artificial con el objetivo de analizar montañas de datos en busca de acciones infravaloradas o tendencias macroeconómicas invisibles para otros inversionistas. Para ello, construyeron un sistema de cómputo de alto rendimiento (cluster) con mil tarjetas gráficas Nvidia 2080Ti y 100 GPUs Volta (V100), los primeros chips optimizados para IA de Nvidia. Lo que antes tomaba dos meses de cómputo, ahora podía hacerse en cuatro días.

Pero Liang quería más. Impulsó la compra de GPUs A100 —la versión mejorada de las V100— para crear un superordenador. Sin embargo, la apuesta no dio resultados inmediatos. En diciembre de 2021, High-Flyer pidió disculpas a sus inversionistas tras una mala racha de rendimiento. Aun así, redobló la apuesta: en 2022 anunció que había adquirido 5 mil GPUs A100, y en marzo subió esa cifra a 10 mil. Meses después, Nvidia advirtió que nuevas restricciones de EU pondrían en riesgo la exportación de estos chips a China.

No está claro cuántos de esos recursos fueron para el negocio financiero y cuántos para el “hobby” de Liang. Lo que sí es un hecho es que, cinco meses después del lanzamiento de ChatGPT por parte de OpenAI, nació DeepSeek como un laboratorio independiente de investigación. En sus oficinas de Hangzhou y Beijing, el foco ya no era el dinero. En un manifiesto sin firma, High-Flyer prometía no conformarse con la mediocridad y buscar los desafíos más grandes. Su objetivo final: desarrollar inteligencia artificial general.

A lo largo de 2023, el laboratorio DeepSeek trabajó contrarreloj para desarrollar un asistente de código, un chatbot de conocimientos generales y un generador de arte 3D a partir de texto. Liang trajo ingenieros de High-Flyer y reclutó talento de Microsoft y otras grandes firmas chinas de tecnología. Bo “Benjamin” Liu, quien se incorporó como becario antes de iniciar su doctorado, recuerda cómo Liang confiaba tareas clave a los practicantes.

La apuesta de Liang por la IA dispersa

Liang Wenfeng hizo una apuesta por una técnica conocida como sparsity —o dispersión—, que permite entrenar y ejecutar modelos de lenguaje de forma más eficiente al dividirlos en “especialistas”, según dos exempleados de DeepSeek. A diferencia del ChatGPT original, donde todo el modelo se activaba sin importar si el usuario pedía la suma de 2+2 o una receta de pay, un modelo disperso activa solo las partes relevantes, optimizando así el uso de recursos. Esta estrategia puede reducir drásticamente los costos de cómputo, pero su implementación es compleja. Si una pregunta no es procesada por suficientes “circuitos cerebrales”, la calidad de la respuesta se deteriora. Liang se inspiró en avances de Google y de la startup francesa Mistral, que en diciembre de 2023 presentó un modelo disperso dividido en ocho expertos, de los cuales solo dos se activan con cada consulta. Liang retó a su equipo a diseñar modelos con aún más expertos, lo que también incrementa el riesgo de alucinaciones (respuestas falsas o incoherentes) y una posible fragmentación del conocimiento.

Los avances no se detuvieron ahí. DeepSeek comenzó a compartir públicamente sus innovaciones y pronto atrajo la atención de sus rivales chinos. A finales de 2024, lanzó V3, un modelo de propósito general que era un 65 por ciento más grande que el mejor modelo de código abierto de Meta en ese momento. Pero lo que realmente sacudió al sector fue un documento técnico de 50 páginas que circuló un mes antes del lanzamiento de su siguiente modelo estrella: R1.

En ese paper, una cifra llamó poderosamente la atención de ejecutivos de Google, OpenAI y Microsoft: el desarrollo de V3 habría costado apenas 5.6 millones de dólares. Dario Amodei, de Anthropic, había estimado que los próximos modelos de frontera costarían entre 10 mil y 100 mil millones de dólares cada uno.

Para Leandro von Werra, jefe de investigación de Hugging Face —la plataforma líder para comparar modelos de lenguaje—, la verdadera innovación de DeepSeek no fue arquitectónica. Lo que más le sorprendió fue la calidad de los datos para entrenar el modelo.

Código abierto como estrategia, no caridad

Parte del ascenso meteórico de DeepSeek responde a la filosofía de Liang, quien cree que el modelo de código abierto es crucial para acelerar el progreso. Para él, ocultar avances tecnológicos y cobrar por acceso, como hacen laboratorios como OpenAI o Google, puede generar ventajas a corto plazo, pero limita el potencial a largo plazo. Por eso, DeepSeek ha hecho públicos sus modelos, la mayoría sin costo, como forma de incentivar que startups e investigadores construyan sobre su tecnología. La idea es generar un círculo virtuoso de uso, retroalimentación y mejora continua. Como escribió DeepSeek al presentar su primer modelo de lenguaje en 2023, citando al creador de Linux: “Hablar es barato. Enséñame el código”.

Dragones tecnológicos en Hangzhou

Un domingo de abril, los viajeros que aterrizan en el aeropuerto internacional de Xiaoshan, en Hangzhou, son recibidos por pantallas digitales que promueven servicios de IA de gigantes como Alibaba, ByteDance y Huawei. En la terminal, un robot humanoide de cabello azul saluda con la mano. Afuera, una startup de vehículos autónomos prueba pequeños camiones sin conductor para mover carga.

A pesar del ruido mediático en torno a DeepSeek, muchos en Occidente olvidan que es solo uno de varios “dragones” de la inteligencia artificial que emergen en China. En Hangzhou, DeepSeek forma parte de un grupo de élite conocido como los Seis Pequeños Dragones.

En el distrito de West Lake, uno de estos dragones es Game Science, el estudio detrás de Black Myth: Wukong, un videojuego que usa técnicas de machine learning para crear personajes realistas. Cerca también operan dos potencias en robótica y una unicornio que desarrolla software de espacialidad 3D.

Otro integrante es Zhejiang Qiangnao Technology, mejor conocida como BrainCo, una especie de Neuralink con características chinas. Hoy desarrolla prótesis biónicas y tecnologías para controlar computadoras con el pensamiento. En su laboratorio de Hangzhou, una mano robótica impulsada por IA se exhibe en el centro de innovación de la China Artificial Intelligence Town.

El dragón mayor

Detrás de todo el ecosistema, el gobierno de Xi Jinping observa. La inteligencia artificial, la robótica y otras tecnologías de punta son pilares de una agenda nacional que busca ante todo la autosuficiencia y el fortalecimiento interno, según expresó Xi durante una reunión del Politburó, citada por la agencia Xinhua. “Debemos reconocer nuestras brechas y redoblar esfuerzos para avanzar en innovación tecnológica, desarrollo industrial y aplicaciones de IA.”

Y no todos los dragones son pequeños. Cerca de West Lake, se encuentra el campus del conglomerado de 300 mil millones de dólares Alibaba, una propiedad tan grande que tiene su propio lago. La empresa acaba de comprometer 53 mil millones de dólares para construir más centros de datos especializados en IA en los próximos tres años. Sus últimos modelos, Qwen3, ya compiten con DeepSeek.

alt default
DeepSeek Oficina de DeepSeek en Beijing. (Peter Catterall )

Fuera de China, muchos siguen viendo a Alibaba como una tienda online, pero su unidad de IA y nube, separada desde 2022, crece más rápido que su negocio principal. En sus salas de conferencias, grandes pantallas muestran un “resumen relámpago” que se actualiza cada 72 horas con los logros más recientes de OpenAI, DeepSeek y otros competidores. Incluso hay una versión semanal en los baños, recordando a los ingenieros que la carrera por la IA no se detiene… ni siquiera cuando la naturaleza llama.

En abril, Jack Ma, el cofundador de Alibaba que prácticamente desapareció del radar durante la ofensiva del Partido Comunista Chino (PCCh) contra el sector tecnológico hace casi cinco años, reapareció en el campus de la empresa para celebrar el 15º aniversario de su división de computación en la nube. En un raro discurso, Ma aseguró que quiere que la IA esté al servicio de los humanos, no que los domine, según relataron asistentes. La charla dejó a muchos emocionados por el regreso triunfal de Ma.

Fue una señal de que las estrellas del tech chino, como Ma, han vuelto a caer en gracia con el Partido—y están siendo acompañadas por nuevos nombres como Liang— justo cuando el brillo de los líderes tecnológicos en EU parece desvanecerse. En China crece un sentimiento de orgullo nacional, con ansias de demostrar que puede superar los obstáculos impuestos por Occidente.

George Chen, director general en Hong Kong de la firma consultora Asia Group LLC, señala que ingenieros chinos de alto nivel han comenzado a regresar a casa tras etapas en Apple, Google, Microsoft y otras gigantes de EU. Aunque parte de esto obedece a la hostilidad de la administración Trump, también se debe a la sensación de que “la verdadera acción” se está trasladando al este. “Silicon Valley ya no es un lugar atractivo para el talento chino”, afirma Chen.

Kai-Fu Lee, fundador de otra startup unicornio china, 01.AI, va aún más lejos. Con experiencia en Apple, Google y Microsoft, Lee asegura que la nueva generación de talento ya no sigue su camino por las big tech estadounidenses antes de emprender en China.

Hoy, ninguna tecnológica en China genera tanto orgullo como DeepSeek. En una visita a Hangzhou en abril, Kirby Fung, un científico informático canadiense de 27 años, llevó a su familia a recorrer la Universidad de Zhejiang, alma máter de Liang Wenfeng. Fung había realizado un intercambio allí y quería mostrarle a su familia que había estudiado en el mismo lugar que el creador de DeepSeek.

Turistas e influencers también se dan cita con regularidad en las oficinas centrales de DeepSeek, ubicadas en un complejo de cuatro torres con vista al emblemático Gran Canal de China. Buscan pistas de Liang en los negocios cercanos, como un restaurante de hot pot de alta gama en el edificio de DeepSeek. Según quienes lo conocen, Liang divide su tiempo entre Hangzhou y la oficina de Beijing. Allí, jóvenes programadores de veintitantos trabajan en escritorios ajustables, con una despensa surtida de bebidas energéticas, fideos instantáneos. “Subí de peso después de almorzar y cenar ahí durante meses”, cuenta un exinvestigador que acaba de dejar la empresa.

Liang rara vez acepta reuniones con externos, y en las pocas que concede, a veces aparece proyectado como un holograma. Incluso rechazó una invitación al influyente Paris AI Action Summit de este año, que reunió a Sam Altman de OpenAI, a Sundar Pichai de Google y a varios jefes de Estado y de gobierno.

alt default
Liang Liang (centro) en un simposio en Beijing en febrero. (Florence Lo)

Mientras en China se celebra a DeepSeek, en EU se le observa como un organismo extraño que ha aparecido sin previo aviso en el ecosistema, generando suspicacias sobre si es benigno o maligno. Críticos han acusado a la empresa de estar bajo control del PCCh, de robar datos de entrenamiento de rivales de EU y de formar parte de una estrategia de espionaje o guerra psicológica para debilitar la hegemonía de Silicon Valley. “DeepSeek es una línea directa del sector tecnológico de EU hacia el aparato de vigilancia del Partido Comunista Chino, lo cual amenaza no solo la privacidad de los ciudadanos estadounidenses, sino también nuestra seguridad nacional”, asegura un portavoz del comité del Congreso estadounidense.

Pero DeepSeek se presenta a sí misma como cualquier otra startup emergente, impulsada por la “energía de garage”, según publicó en febrero en X. Después de todo, comparte campus en Beijing con Google, a pasos de un Burger King y dos Tim Hortons. Que la industria de la IA no haya prestado mucha atención a DeepSeek hasta ahora no significa que haya algo turbio detrás. “El mundo de la IA no esperaba a DeepSeek”, afirma Arnaud Barthelemy, socio de la firma de capital de riesgo Alpha Intelligence Capital, inversionista en OpenAI y SenseTime.

Barthelemy cree que la lección es cómo las empresas tecnológicas chinas han convertido sus restricciones en ventajas. “En China hay muchas mentes brillantes que han innovado muchísimo con requerimientos computacionales mucho más modestos”, explica.

En efecto, en mayo de 2023—el mismo mes en que se fundó DeepSeek—el CEO de Nvidia, Jensen Huang, advirtió en entrevista con Bloomberg Businessweek que el exceso de regulaciones hacia China por parte de EU solo motivaría a ese país a innovar aún más para esquivar los obstáculos. Hablando del poder económico como una herramienta de seguridad nacional, Huang alertó que las consecuencias no intencionadas de esas políticas serían graves. “Privar al sector tecnológico de un tercio de su mercado es catastrófico”, dijo, aludiendo al riesgo de limitar las exportaciones tecnológicas a China.

“Hay que tener cuidado con hasta dónde se empuja la competencia”, continuó Huang. “Cuando alguien no tiene nada que perder, responde de formas muy impredecibles”.

Persiste la polémica sobre un punto clave en la historia de DeepSeek: cuánto invirtió realmente para construir sus modelos. Un informe ampliamente citado de la firma estadounidense SemiAnalysis estimó que DeepSeek y su socio High-Flyer habrían accedido a clústeres con unos 50 mil GPUs de la serie H de Nvidia—los más avanzados—por un valor de mil 400 millones de dólares, buena parte de los cuales habrían mantenido fuera del radar público. Según el informe, la mayoría eran chips compatibles con las restricciones de exportación. Pero también se alegó que DeepSeek habría tenido acceso a 10 mil chips H100, los más poderosos, cuya venta a China está prohibida.

Tres exempleados niegan rotundamente estas acusaciones y aseguran que DeepSeek tenía menos de 20 mil GPUs, y la mayoría eran modelos antiguos o sujetos a controles de exportación. “Están mintiendo”, dice Bo Liu, un estudiante de doctorado, sobre SemiAnalysis. La firma de análisis dice que mantiene su postura.

Lo que no se discute es que DeepSeek sí estaría encantada de contar con la escala computacional que tienen las tecnológicas estadounidenses. La empresa parece convencida de que podría hacer mucho más con ella que Silicon Valley.

“La realidad es que los investigadores en modelos de lenguaje tienen un apetito enorme por recursos computacionales—si yo tuviera decenas de miles de GPUs H-series, seguramente también me volvería derrochador, ejecutando muchos experimentos que quizá no son estrictamente necesarios”, afirma uno de los exempleados.

Pero el acceso a más recursos es un “problema” que los tecnólogos chinos estarían felices de enfrentar.

“Ojalá las empresas chinas podamos tener algún día 50 mil GPUs”, dice el investigador, ahora en otro laboratorio de IA de código abierto en Beijing. “¿Quieren ver de qué seríamos capaces?”.

Lee aquí la versión más reciente de Businessweek México:

También lee: