IA et Outils · 5 min de lecture · Par zed

Gemma 4 : Google lâche son meilleur open source, et c’est brutal

Source : Google Blog

Google DeepMind vient de frapper fort. Le 2 avril 2026, la firme a publié Gemma 4, une famille de quatre modèles open source placés sous licence Apache 2.0 pure. Le flagship 31B pointe à la troisième place mondiale sur Arena AI, surpassant des modèles vingt fois plus lourds. Ce n’est pas une évolution, c’est une rupture.

En un an, Google DeepMind a transformé sa gamme Gemma de modèle open source correct en concurrent sérieux des meilleurs labs de la planète. Les chiffres ne mentent pas : on a multiplié les scores de raisonnement mathématique par quatre entre Gemma 3 et Gemma 4.

ℹ️

A SAVOIR

Gemma 4 31B atteint 1 452 points Elo sur Arena AI, classé 3e open source mondial. Le 26B Mixture of Experts se place 6e. Tous les poids sont disponibles gratuitement sur Hugging Face, Kaggle et Ollama sous licence Apache 2.0, sans restriction commerciale.

Les faits

Gemma 4 se décline en quatre variantes couvrant du téléphone au serveur :

  • E2B (2,3 milliards de paramètres effectifs) : ultra-compact, multimodal avec audio et vision natifs, fenêtre de contexte 128 000 tokens, conçu pour tourner en local sur téléphone ou PC d’entrée de gamme.
  • E4B (4,5 milliards) : même profil que le E2B, légèrement plus puissant, toujours audio et vision. Cible les NPU des smartphones et portables récents.
  • 26B MoE (Mixture of Experts) : 26 milliards de paramètres déclarés, mais seulement 3,8 milliards activés à chaque inférence. Contexte 256 000 tokens. Optimisé pour la vitesse. C’est le modèle le plus intéressant pour les développeurs indépendants.
  • 31B Dense : le plus costaud. Architecture entièrement dense, contexte 256 000 tokens. C’est lui qui décroche la troisième place mondiale.

Tous sont multimodaux nativement : vidéo, images, et pour les deux versions compactes, audio natif pour la reconnaissance et la compréhension vocale. Support de 140 langues, fenêtre de contexte jusqu’à 256 000 tokens sur les grands modèles. Les capacités agentiques sont intégrées nativement : function calling, sortie JSON structurée, instructions système.

Les chiffres face à Gemma 3 parlent d’eux-mêmes :

  • AIME 2026 (maths) : 20,8 % avec Gemma 3 contre 89,2 % avec le 31B, et 88,3 % avec le 26B MoE
  • LiveCodeBench (code) : 29,1 % contre 80,0 %
  • GPQA Science : 42,4 % contre 84,3 %
Logo officiel Gemma 4, le modèle open source de Google DeepMind

Ce que ça change

La vraie rupture de Gemma 4, c’est l’efficacité du 26B MoE. Ce modèle active seulement 3,8 milliards de paramètres par token généré, ce qui lui permet de tourner sur un PC gaming avec une seule carte graphique 16 Go de VRAM, comme la

Sapphire Pulse Radeon RX 9070 XT 16GB583,10 EUR
Voir sur Amazon
, pour des performances proches du 31B Dense. Pour les développeurs qui veulent de l’IA locale sérieuse sans cluster de serveurs, c’est une vraie libération.

La licence Apache 2.0 est l’autre coup de maître. Elle tranche avec la « Community License » de Meta pour Llama 4, qui impose des conditions supplémentaires dès 700 millions d’utilisateurs actifs. Avec Gemma 4, on prend les poids, on modifie, on déploie en production, on vend un service, sans demander la permission ni rendre de comptes. C’est la définition de l’open source tel qu’il devrait toujours être.

Nuance à apporter : certains observateurs relèvent que des modèles chinois comme Qwen 3 d’Alibaba gardent encore un avantage sur des tâches très spécifiques. Le classement « 3e mondial » sur Arena AI mesure la qualité conversationnelle générale. Gemma 4 n’est pas universellement supérieur à tout, mais il s’impose comme le meilleur open source librement accessible sous Apache 2.0 à ce jour.

Google DeepMind, l'équipe de recherche derrière Gemma 4
💡

BON PLAN

Pour tester Gemma 4 en local dès maintenant : installez Ollama et lancez ollama pull gemma4:27b. Le 26B MoE tourne sur n’importe quel GPU avec 16 Go de VRAM. Disponible aussi sur Google AI Studio sans installation.

Notre avis

Gemma 4 est un signal clair : Google DeepMind reprend sérieusement la main dans l’open source après avoir laissé Meta, Mistral et les labs chinois occuper le terrain pendant toute l’année 2025. Le saut de performances n’a rien d’ordinaire. Passer de 20 % à 89 % sur les maths en un an, c’est le genre de progression qui justifie qu’on parle de rupture générationnelle, pas de mise à jour.

Ce qui convainc vraiment, c’est l’architecture MoE du 26B. Activer seulement 3,8 milliards de paramètres en inférence tout en livrant des performances proches du flagship dense, c’est exactement ce dont la communauté dev avait besoin pour faire tourner de l’IA sérieuse sur du matériel accessible. Les outils comme Ollama, LM Studio et llama.cpp vont intégrer ces modèles très rapidement, et on se retrouvera avec une IA de niveau mondial sur n’importe quel PC gaming bien équipé.

La vraie question reste le rythme de sortie. Gemma 3 est sorti en mars 2025, Gemma 4 en avril 2026 : un an entre les deux. Face à la cadence de Meta et des labs chinois qui enchaînent les modèles tous les deux à trois mois, Google devra accélérer pour rester en tête. Mais avec ce Gemma 4, la barre est posée très haut, et c’est Google DeepMind qui donne le ton pour la suite de l’année.

La prochaine étape à surveiller : l’intégration de Gemma 4 dans Google AI Studio pour les entreprises et son support dans les principales applications d’IA locale comme LM Studio et Jan.ai. Si l’écosystème suit rapidement, le 26B MoE pourrait devenir la colonne vertébrale de nombreux projets d’IA privée en entreprise d’ici la fin 2026.

Articles similaires

Laisser un commentaire