.
La xAI de Elon Musk recibe altas calificaciones de los primeros usuarios de Grok 3
EE.UU.

La xAI de Elon Musk recibe altas calificaciones de los primeros usuarios de Grok 3

jueves, 20 de febrero de 2025

xAI parece estar operando con un personal más pequeño que muchos de sus competidores.

Foto: Bloomberg

Grok 3 supera a los sistemas de IA más avanzados en los puntos de referencia de razonamiento matemático y capacidades de codificación

Bloomberg

Durante un evento de lanzamiento transmitido en vivo el lunes, un investigador principal de xAI de Elon Musk dijo que el chatbot insignia de la startup, Grok, era "casi como un juguete" hace un año y medio. Ahora, Musk y su equipo dicen que han construido la "IA más inteligente de la Tierra".

El modelo más nuevo de la compañía, llamado Grok 3, supera a los sistemas de IA más avanzados de empresas como OpenAI y DeepSeek en los puntos de referencia de razonamiento matemático y capacidades de codificación, según las evaluaciones publicadas por xAI. La startup también presentó un nuevo producto llamado Deep Search que está diseñado para acelerar la investigación en línea, compitiendo con servicios similares de OpenAI y otros.

Cada mes, si no cada semana, los desarrolladores de IA lanzan modelos que, según ellos, rivalizan con el mejor software del mercado. Pero las afirmaciones de xAI recibieron una atención adicional dada la importante capacidad de recaudación de fondos de la startup, así como la estatura de Musk en la industria y su intensa rivalidad con OpenAI, una empresa de la que apenas unos días antes había intentado tomar el control con una oferta no solicitada. Sin embargo, en ausencia de puntos de referencia estandarizados para toda la industria, es difícil decir definitivamente dónde se sitúa Grok 3.

Las empresas suelen confiar en las autoevaluaciones, que son inherentemente limitadas. Pueden elegir qué puntos de referencia publicar y presentarlos de la manera que prefieran. Según una publicación del blog de xAI, por ejemplo, el nuevo modelo de Grok tuvo un rendimiento menos competitivo con el sistema más avanzado de OpenAI en algunas de sus evaluaciones cuando dedicó menos poder computacional a responder la pregunta, lo que desató un debate sobre X entre algunos empleados de ambas empresas. La startup de Musk tampoco ha publicado aún una interfaz de programación de aplicaciones para Grok 3 que permita a los investigadores externos realizar una evaluación independiente.

Para complicar aún más las cosas, a medida que los sistemas de IA se vuelven más avanzados técnicamente, cada vez es más difícil para el usuario ocasional probar todas sus capacidades. Pregúntele a cualquier chatbot qué preparar para la cena y probablemente obtendrá respuestas comparables, aparte del estilo y el tono, que son lo suficientemente fáciles para que la persona promedio las pruebe. Pero si desea comparar qué tan buenos son estos productos ahora en matemáticas o codificación, probablemente necesite ser ingeniero.

Sin embargo, lo que parece claro es que Grok 3 lo está haciendo bien inicialmente en la importante guerra de la vibración de la IA. Grok 3 subió rápidamente en la clasificación de Chatbot Arena, una tabla de clasificación de IA de colaboración colectiva donde los usuarios prueban a ciegas dos modelos y califican su favorito. Los usuarios pueden estar votando positivamente al chatbot porque en realidad es más capaz, o simplemente porque se siente más agradable de usar. De cualquier manera, la tabla de clasificación puede ser un buen indicador de popularidad.

Derya Unutmaz, profesor del Laboratorio Jackson que investiga la inmunoterapia contra el cáncer, elogió a Grok 3 en general por estar “más actualizado”, probablemente porque se apoya en datos de la plataforma de redes sociales de Musk, X. Al menos parte de su impresión positiva también se debió a la sensación del producto, que es más subjetiva y más difícil de cuantificar. “Sientes que hay alguien detrás de la pantalla hablándote”, dijo. “No se siente artificial. Tiene más voz”.

Sin embargo, en lo que respecta a la función Deep Search de Grok, el investigador quedó menos impresionado. Dio la misma indicación (estudiar un tipo de célula inmunitaria que está modificando genéticamente para que funcione contra cierto tejido de cáncer de mama) tanto a las herramientas de investigación de xAI como a las de OpenAI. Grok le dio dos o tres páginas de resultados en comparación con las 20 o 25 de OpenAI, la última de las cuales pensó que tenía hallazgos más reveladores.

Mientras tanto, algunos líderes de la industria de la IA tuvieron comentarios iniciales en gran medida positivos, aunque matizados. Andrej Karpathy, cofundador de OpenAI y ex ejecutivo de Tesla que ya no trabaja en ninguna de las dos empresas, dijo que Grok 3 "parece estar en algún lugar en el territorio de vanguardia de los modelos más fuertes de OpenAI". Karpathy dijo que eso es "bastante increíble considerando que el equipo comenzó desde cero". Pero encontró que Grok a veces inventaba hechos y se quedaba atrás en ciertas funciones.

Ethan Mollick, un destacado revisor de IA y profesor de la Escuela Wharton de la Universidad de Pensilvania en Filadelfia, dijo de manera similar que Grok 3 "parece ser de vanguardia, sin grandes avances en el enfoque, pero grandes ganancias en escalamiento muy rápido". Pero agregó que será "difícil probarlo por completo" hasta que se libere el acceso a la API.

Algunos líderes empresariales también están ansiosos por ese acceso a la API para poder revisar Grok 3 más a fondo. Aaron Levie, cofundador y director ejecutivo de Box, dijo que su equipo planea realizar sus propias evaluaciones para evaluar las capacidades de Grok 3 con datos empresariales. Pero Levie está impresionado por lo que Musk ha desarrollado y con qué rapidez lo ha hecho.

El equipo de Musk dijo que construyó un clúster informático masivo en un tiempo récord (122 días) para poder ampliar rápidamente el modelo. xAI también parece estar operando con un personal más pequeño que muchos de sus competidores.

El lanzamiento de Grok 3 habla de “la capacidad de Elon para formar un equipo de clase mundial, una cantidad increíble de infraestructura y hacer que todo funcione en tan poco tiempo”, escribió Levie en un mensaje de texto. “No creo que ningún otro equipo hubiera logrado eso”.

Pero la ventaja de Grok, si es que la tiene, puede ser efímera. Se espera que Anthropic lance un nuevo modelo de manera inminente. OpenAI está avanzando en sistemas de razonamiento más avanzados y planea lanzar otro modelo poderoso, GPT-4.5, en cuestión de semanas. Las empresas tecnológicas chinas también han demostrado que se están poniendo al día rápidamente.

Incluso aquellos que siguen de cerca la industria están luchando por filtrar el mar de lanzamientos recientes de IA. “Me está costando mucho mantener el ritmo”, dijo Unutmaz. “Y respiro IA todos los días”.