Puissant, rapide, frugal... K2 Think, la nouvelle référence du raisonnement open source

AI Summary Hide AI Generated Summary

K2 Think: A Powerful Open-Source Reasoning Model

The Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) and G42 have released K2 Think, an open-source large language model (LLM) focused on reasoning, with only 32 billion parameters. This is significantly smaller than many competing models.

Exceptional Math Performance

K2 Think excels in mathematical benchmarks, outperforming larger models like GPT-OSS 120B and DeepSeek v3.1 671B on AIME 2024 and 2025 competitions. While its performance in science and programming is strong, it doesn't dominate all benchmarks.

AIME 2024: 90.83%
AIME 2025: 81.24%
LiveCodeBench: 63.97%
GPQA-Diamond: 71.08%

The researchers highlight its 'frontier' capabilities in mathematics, acknowledging that it's not a general-purpose model.

Key Features and Training

K2 Think's strength lies in its training process: it's trained to produce detailed 'chains of thought,' planning its response before generating three different answers and selecting the best. This approach results in more precise answers within a shorter time.

Open-Source Availability and Deployment

The model's weights are available on Hugging Face under the permissive Apache 2.0 license. It requires significant VRAM (60-70GB) and is optimized for processors like H100 or A100. A dedicated chat interface is available at k2think.ai, leveraging Cerebras processors for fast response times.

Advantages for Businesses

K2 Think offers businesses the advantage of a high-performing reasoning model with full control over sensitive data due to its open-source nature. Its Apache 2.0 license enables unrestricted internal deployment and the ability to fine-tune it for specialized applications.

La Mohamed bin Zayed University of Artificial Intelligence en collaboration avec la start-up G42 dévoile un LLM de raisonnement à seulement 32 milliards de paramètres.

Après avoir recruté massivement des ingénieurs de haut niveau en IA (y compris en France), les Émirats récoltent déjà les fruits de leur stratégie. La Mohamed bin Zayed University of Artificial Intelligence et la start-up locale spécialisée en IA G42 ont présenté mardi 9 septembre, K2 Think, un modèle de raisonnement frontière, open source, à seulement 32 milliards de paramètres. L'IA concurrence dans les benchmarks des modèles jusqu'à 20 fois plus grands. Une petite prouesse.

Un modèle excellent en mathématiques

K2-Think frappe fort sur les benchmarks mathématiques. Sur les compétitions les plus exigeantes comme AIME 2024 et 2025, le modèle atteint respectivement 90,83% et 81,24%, dépassant même le dernier modèle open source d'OpenAI, GPT-OSS 120B (89,58% et 84,59%) et DeepSeek v3.1 671B (91,87% et 82,49%). Côté science et programmation, sur LiveCodeBench, K2-Think obtient 63,97%, surpassant nettement Qwen3-235B-A22B (56,64%) mais restant en retrait face à GPT-OSS 120B (74,53%). En sciences, avec 71,08% sur GPQA-Diamond, il se maintient dans la moyenne haute sans pour autant dominer.

En revanche, les chercheurs ne cachent pas leur parti pris : plutôt que de communiquer sur des benchmarks généralistes où K2-Think afficherait, surement des performances moyennes, ils mettent délibérément l'accent sur sa capacité de "frontière" en mathématiques.

K2-Think n'est donc pas conçu pour être utilisé comme un modèle généraliste. En revanche ses excellentes capacités en mathématiques en font un modèle de choix pour les cas d'usage autour de l'analyse et la manipulation de données, l'optimisation ou encore la simulation. K2-Think peut se révéler un excellent agent d'analyse data au sein d'un système agentique, par exemple.

Le vrai point fort de K2 Think

Les chercheurs ont d'abord entraîné le modèle de base Qwen2.5-32B (en fine-tuning supervisé) à produire des "chaînes de pensée" détaillées, c'est-à-dire en explicitant étape par étape son raisonnement plutôt que de donner directement la réponse. Le modèle apprend alors à structurer sa réflexion. Les chercheurs ont ensuite appliqué de l'apprentissage par renforcement (récompense pour les réponses correctes).

Mais l'astuce principale intervient pendant l'utilisation du modèle. K2-Think ne se contente pas de répondre directement : il commence par créer un plan de résolution, génère trois réponses différentes, puis sélectionne automatiquement la meilleure. Contre-intuitivement, cette étape de planification raccourcit les réponses de 12% tout en les rendant plus précises. Résultat, K2 Think obtient des performances à la hauteur de modèles faisant jusqu'à 20 fois sa taille.

Les poids disponibles en open source (Apache 2)

Les chercheurs émiratis ont mis les poids de K2-Think à disposition sur Hugging Face sous licence Apache 2.0, la plus permissive du marché. Pour l'inférer il sera nécessaire de disposer d'environ 60 à 70 Go de VRAM. La configuration classique : un H100 ou un A100 pour exécuter la version la moins compressée.

Pour tester immédiatement les capacités du modèle, une interface de chat dédiée est disponible sur k2think.ai. Comme Mistral AI, les Emiratis ont choisi de déployer leur service sur les processeurs Cerebras. L'infrastructure permet d'obtenir des temps de réponse très courts : là où un GPU traditionnel prendrait près de 3 minutes pour générer une réponse complexe de 32 000 tokens, K2-Think (avec Cerebras) la génère en 16 secondes.

K2-Think représente une opportunité rare pour les entreprises, disposer d'un modèle de raisonnement de niveau "frontière" tout en gardant le contrôle total sur leurs données sensibles. Sa licence Apache 2.0 permet en effet un déploiement en interne sans restriction (et c'est notable). Plus encore, les entreprises peuvent fine-tuner le modèle sur leurs propres données sectorielles pour créer des assistants spécialisés, le tout à coût relativement maitrisé.

Was this article displayed correctly? Not happy with what you see?

See Archived Versions