El nuevo modelo de IA de Meta sacó muy buena puntuación en los benchmarks. Quizás demasiado buena

Llevábamos mucho tiempo esperando por la nueva familia Llama 4 de modelos de inteligencia artificial de Meta. El pasado fin de semana la empresa al fin desveló esos modelos y todo parecía prometedor. El problema es que la forma de anunciarlos está generando cierta polémica y una incómoda conversación: la de que quizás han hecho trampas en los benchmarks.

Llama 4 parece estupendo. Nada más aparecer en escena, los nuevos modelos Llama 4 Meta sorprendían por su excelente rendimiento en benchmarks. Se situaban en segundo lugar en el ranking LMArena, solo por debajo de Gemini 2.5 Pro Experimental. Sin embargo pronto aparecieron las suspicacias, porque la versión de Llama 4 que está disponible para todos los públicos no era la misma que se mostraba en ese ranking.

En Xataka

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

¿Versión trucada? Como indicaban en el anuncio de Meta, esa versión de Llama 4 era una "experimental" que obtuvo un ELO de 1.417 puntos en LMArena, mientras que Gemini 2.5 Pro Experimental había obtenido 1.439 puntos. Algunos expertos apuntaron a que esa versión experimental de Llama 4 era una versión que hacía trampas y había sido entrenada específicamente con conjuntos de datos utilizados en benchmarks para poder puntuar bien en ellas.

No hemos hecho trampas.Ahmad Al-Dahle es el máximo responsable de la división de IA generativa en Meta, y por tanto está al frente del lanzamiento de Llama 4. Este directivo ha negado de forma tajante los rumores que apuntan a que Meta habría hecho trampas para obtener mejor puntuaciones en los benchmarks. Dichos rumores "son falsos y nunca haríamos eso", ha destacado.

Pero sí estaba "optimizada". Como indican en TechCrunch, en ese anuncio oficial Meta sí apuntaba a que el modelo experimental de Llama 4 que había puntuado muy bien estaba "optimizado para la conversación". En LMArena indicaron que Meta debería haber explicado mejor qué tipo de modelo había enviado para incluir en el ranking.

Igual Llama 4 no es tan bueno. Algunos expertos que analizaron el rendimiento de Llama 4 con pruebas sintéticas o de forma convencional ya avisaron de que el rendimiento no parecía ser tan bueno como afirman en Meta. El modelo disponible públicamente mostraba un comportamiento que no se ajustaba a la calidad que apuntaba su puntuación en LMArena.

No del todo consistente. El propio Al-Dahle confirmaba que algunos usuarios estaban viendo resultados de "calidad distinta" de Maverick y Scout, las dos versiones de Llama 4 disponibles, dependiendo del proveedor. "Esperamos que se tarde algunos días en que las implementaciones públicas se ajusten", y añadió que seguirían trabajando para corregir posibles errores.

Un lanzamiento raro. Que Meta lanzara este modelo un sábado es extraño, pero al ser preguntado por ello Mark Zuckerberg respondió que "es cuando estuvo listo". Que además el modelo usado en LMArena no sea el mismo que la gente puede usar es también preocupante, y puede que comience a hacernos desconfiar de los benchmarks y de las empresas que los usan para promocionar sus productos. No es la primera vez que esto pasa ni mucho menos, y no será la última.

En Xataka | OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así