.
CHINA

DeepSeek se apura para lanzar nuevo modelo mientras China se lanza de lleno a la IA

martes, 25 de febrero de 2025

DeepSeek quiere hacer valer su ventaja y está acelerando el lanzamiento del sucesor del modelo R1 de enero, según tres personas familiarizadas con la empresa

Reuters

DeepSeek quiere hacer valer su ventaja y está acelerando el lanzamiento del sucesor del modelo R1 de enero, según tres personas familiarizadas con la empresa.

La empresa china provocó el mes pasado una caída del valor de los mercados mundiales de renta variable de más de un billón de dólares con la presentación de un modelo de razonamiento de inteligencia artificial más barato que superó a muchos competidores occidentales.

Deepseek, que tiene su sede en Hangzhou, había planeado lanzar R2 a principios de mayo, pero ahora quiere que salga lo antes posible, dijeron dos de ellas, sin dar detalles concretos.

La empresa espera que el nuevo modelo codifique mejor y sea capaz de razonar en otros idiomas además del inglés. Hasta ahora no se había informado de la aceleración del calendario de lanzamiento de R2.

DeepSeek no respondió a la solicitud de comentarios para este artículo.

Los rivales todavía están digiriendo las implicaciones de R1, que se construyó con chips de Nvidia menos potentes pero que compiten con los desarrollados a un costo de cientos de miles de millones de dólares por los gigantes tecnológicos estadounidenses.

"El lanzamiento del modelo R2 de DeepSeek podría ser un momento crucial en la industria de la IA", dijo Vijayasimha Alilughatta, director de operaciones del proveedor indio de servicios tecnológicos Zensar. El éxito de DeepSeek en la creación de modelos de IA rentables "probablemente impulsaría a empresas de todo el mundo a acelerar sus propios esfuerzos (...) rompiendo el dominio de los pocos actores dominantes en este campo", afirmó.

Es probable que R2 preocupe al Gobierno estadounidense, que ha identificado el liderazgo de la IA como una prioridad nacional. Su publicación podría comprometer incluso más a las autoridades y empresas chinas, decenas de las cuales afirman haber empezado a integrar modelos de DeepSeek en sus productos.

Poco se sabe de DeepSeek, cuyo fundador, Liang Wenfeng, se hizo multimillonario a través de su fondo de cobertura cuantitativa High-Flyer. Liang, que fue descrito por un antiguo empleador como "discreto e introvertido", no ha hablado con ningún medio de comunicación desde julio de 2024.

Reuters entrevistó a una docena de antiguos empleados, así como a profesionales de fondos cuantitativos conocedores de las operaciones de DeepSeek y su empresa matriz High-Flyer. También revisó artículos de medios estatales, publicaciones en redes sociales de las empresas y documentos de investigación que datan de 2019.

Los testimonios cuentan la historia de una empresa que funcionaba más como un laboratorio de investigación que como una compañía con ánimo de lucro y que no estaba sujeta a las tradiciones jerárquicas de la industria tecnológica china de alta presión y, aun así, se convirtió en responsable de lo que muchos inversores ven como el último avance en IA.

UN CAMINO DIFERENTE

Liang nació en 1985 en un pueblo rural de la provincia meridional de Guangdong. Más tarde se licenció en Ingeniería de Comunicaciones en la elitista Universidad de Zhejiang.

Uno de sus primeros trabajos fue dirigir un departamento de investigación en una empresa de imágenes inteligentes de Shanghái. Su entonces jefe, Zhou Chaoen, dijo a los medios estatales el 9 de febrero que Liang había contratado a ingenieros de algoritmos premiados y funcionaba con un "estilo de gestión plano".

En DeepSeek y High-Flyer, Liang se ha alejado de las prácticas de los gigantes tecnológicos chinos, conocidos por su rígida gestión jerárquica, los bajos salarios de sus jóvenes empleados y el horario "996", es decir, de 9 de la mañana a 9 de la noche, seis días a la semana.

Liang abrió su oficina de Pekín a poca distancia de la Universidad Tsinghua y la Universidad de Pekín, las dos instituciones educativas más prestigiosas de China. Según dos antiguos empleados, solía profundizar en detalles técnicos y se alegraba de trabajar con becarios de la generación Z y recién licenciados, que constituían el grueso de su plantilla. También describieron que solían trabajar jornadas de ocho horas en un ambiente de colaboración.

"Liang nos daba el control y nos trataba como expertos. Nos hacía preguntas constantemente y aprendía junto a nosotros", dijo el investigador Benjamin Liu, de 26 años, que dejó la empresa en septiembre. "DeepSeek me permitió hacerme cargo de partes críticas de la tubería, lo que fue muy emocionante".

Liang no respondió a las preguntas enviadas a través de DeepSeek.

Mientras Baidu y otros gigantes tecnológicos chinos se apresuraban a construir sus versiones para el consumidor de ChatGPT en 2023 y sacar provecho del auge mundial de la IA, Liang dijo al medio chino Waves el año pasado que evitó deliberadamente gastar mucho en el desarrollo de aplicaciones, centrándose en cambio en refinar la calidad del modelo de IA.

Tanto DeepSeek como High-Flyer son conocidas por pagar generosamente, según tres personas familiarizadas con sus prácticas de compensación. En High-Flyer, no es raro que un científico de datos de alto nivel gane ¥1,5 millones (US$206.876 millones) al año, mientras que los competidores rara vez pagan más de 800.000, dijo una de las personas, un gestor de fondos rival que conoce a Liang.

La generosidad fue financiada por High-Flyer, que se convirtió en uno de los fondos cuánticos más exitosos de China e, incluso después de una ofensiva gubernamental en el sector, todavía gestiona decenas de miles de millones de yuanes, según dos personas de la industria.

POTENCIA DE CÁLCULO

El éxito de DeepSeek con un modelo de IA de bajo coste se basa en la importante inversión de High-Flyer durante una década en investigación y potencia informática, según tres personas.

El fondo cuántico fue uno de los primeros pioneros en el comercio con IA y un alto ejecutivo dijo en 2020 que High-Flyer iba "a por todas" en IA reinvirtiendo 70% de sus ingresos, principalmente en investigación de IA.

High-Flyer gastó ¥1.200 millones (US$165,501 millones) en dos clústeres de supercomputación de IA en 2020 y 2021. El segundo clúster, Fire-Flyer II, estaba formado por unos 10.000 chips Nvidia A100, utilizados para entrenar modelos de IA.

DeepSeek no se había establecido en ese momento, por lo que la acumulación de potencia de cálculo llamó la atención de los reguladores de valores chinos, dijo una persona con conocimiento directo del pensamiento de los funcionarios.

"Los reguladores querían saber por qué necesitaban tantos chips", dijo la persona. "¿Cómo iban a utilizarlos? ¿Qué tipo de impacto tendría en el mercado?".

Las autoridades decidieron no intervenir, en un movimiento que resultaría crucial para la fortuna de DeepSeek: Estados Unidos prohibió la exportación de chips A100 a China en 2022, momento en el que Fire-Flyer II ya estaba en funcionamiento.

Pekín celebra ahora DeepSeek, pero le ha ordenado que no se relacione con los medios de comunicación sin aprobación, según una persona familiarizada con los procedimientos oficiales chinos.

Las autoridades habían pedido a Liang que mantuviera un perfil bajo porque les preocupaba que demasiado bombo en los medios de comunicación atraiga una atención innecesaria, dijo la persona.

El gabinete chino y el Ministerio de Comercio, así como el regulador de valores de China, no respondieron a las solicitudes de comentarios.

Como unas de las pocas empresas con un gran clúster A100, High-Flyer y DeepSeek fueron capaces de atraer a algunos de los mejores talentos de investigación de China, dijeron dos exempleados.

"La principal ventaja de los grandes recursos (informáticos) es que permiten la experimentación a gran escala", afirma Liu, un antiguo empleado.

Algunos empresarios occidentales de IA, como Alexandr Wang, presidente ejecutivo de Scale AI, han afirmado que DeepSeek tenía hasta 50.000 chips Nvidia de gama alta cuya exportación a China está prohibida. Wang no ha aportado pruebas de su afirmación ni ha respondido a las peticiones de Reuters para que las presente.

DeepSeek no ha respondido a las afirmaciones de Wang. Dos antiguos empleados atribuyeron el éxito de la empresa a que Liang se centró en una arquitectura de IA más rentable.