Pendant des mois, la course à l'intelligence artificielle s'est résumée à une démonstration de force brute. Plus de paramètres, plus de GPU, plus de milliards de dollars injectés dans des infrastructures pharaoniques. Les documents réglementaires (formulaires S-1) déposés aux États-Unis ont révélé des chiffres vertigineux : des géants qui louent en urgence des data centers entiers à leurs propres concurrents pour des milliards de dollars par mois, alimentés à la hâte par des turbines à gaz pour épargner le réseau électrique. À Memphis, le site Colossus de xAI a fait installer une trentaine de turbines à gaz totalisant près de 420 mégawatts, soit la puissance d'une centrale thermique entière, déversant entre 1 200 et 2 000 tonnes d'oxydes d'azote par an sur un quartier déjà saturé. La démesure a un visage, et il sent le méthane brûlé.
J'ai déjà raconté ici comment cette fuite en avant alimente une économie circulaire de l'IA où les revenus des uns forment les coûts des autres, un château de cartes que la géopolitique menace d'effondrer.
Mais il existe un créancier plus implacable encore que Wall Street : la physique. À l'heure où les réseaux électriques s'essoufflent sous l'effet de la chaleur, une vérité s'impose, le virtuel pèse un poids physique colossal. Et face à ce mur, une discipline nouvelle prend forme. Oubliez la course aux benchmarks de précision pure ; bienvenue dans l'ère du FinOps énergétique !
Le non-sens thermodynamique des LLM de force brute
Aujourd'hui, n'importe quel développeur peut appeler l'API du plus gros modèle du marché pour automatiser une tâche. La question devient : à quel coût thermodynamique ? L'étude de référence menée par Sasha Luccioni (Hugging Face) et l'université Carnegie Mellon a mis des chiffres sur l'intuition. En mesurant la consommation de 88 modèles sur dix tâches, l'équipe a établi que générer une image coûte en moyenne 2,91 Wh, et jusqu'à 11,49 Wh pour le modèle le moins sobre, soit près de la moitié d'une recharge de smartphone. La nuance compte pour notre audience : la fourchette est large, et elle dépend autant de l'architecture du modèle que du matériel sous-jacent. Le verdict le plus contre-intuitif de l'étude reste pourtant celui-ci, les émissions quotidiennes de l'inférence finissent par dépasser le coût, pourtant spectaculaire, de l'entraînement initial.
Traduisons en langage d'ingénieur : mobiliser un modèle dense de 400 milliards de paramètres pour résumer un mail de trois lignes, qu'un autre LLM a d'ailleurs rédigé à l'autre bout de la chaîne, revient à atteler un semi-remorque pour aller chercher une baguette. Le gâchis se loge dans chaque token traité, chaque cycle de calcul, chaque watt dissipé en chaleur.
La réponse tient en une phrase : la solution se trouve dans l'ingénierie de l'efficience, loin de la décroissance punitive comme du rejet de l'outil. L'IA demeure un levier formidable pour optimiser nos industries, notre médecine et, ironie de l'histoire, notre propre transition énergétique. Le défi consiste à la rendre digne de cette promesse.
Perf-par-watt : la métrique qui détrône le MMLU
Le FinOps des années 2020 consistait à traquer les instances cloud oubliées pour alléger la facture. Le FinOps énergétique va plus loin : il fusionne performance financière, excellence technique et responsabilité environnementale en une seule équation. Demain, la valeur d'un architecte Data/Cloud se mesurera à son habileté à concevoir l'architecture la plus frugale, davantage qu'à sa capacité à déployer le modèle le plus lourd.
Le signal le plus net de ce basculement vient de la communauté open source elle-même : Hugging Face a lancé un AI Energy Score, un référentiel public d'efficacité énergétique des modèles. Le score « performance-par-watt » commence là où le classement MMLU s'arrête.
NDLR: En intelligence artificielle, Measuring Massive Multitask Language Understanding (MMLU) est un test de performance pour évaluer les capacités des grands modèles de langage.
Voici les trois piliers de cette transition.
I. Le sacre des petits modèles spécialisés
Pourquoi un marteau-pilon quand un tournevis suffit ? L'avenir appartient aux SLM (Small Language Models), aux modèles distillés et aux architectures à activation parcimonieuse. La grande leçon de 2025 vient d'Asie : avec DeepSeek-V3, un modèle Mixture-of-Experts (MoE) de 671 milliards de paramètres dont seulement 37 milliards s'activent par token, les ingénieurs chinois ont atteint le niveau des meilleurs modèles propriétaires pour un coût d'entraînement déclaré autour de 5,6 millions de dollars et 2,8 millions d'heures GPU, soit près de onze fois moins que Llama 3.1 405B. Le secret tient à un cocktail d'innovations frugales : entraînement en précision FP8, Multi-head Latent Attention pour comprimer le cache, et une logique MoE qui fait travailler le modèle comme un spécialiste plutôt que comme un généraliste obèse.
Moonshot AI prolonge la démonstration avec Kimi K2, un MoE d'un trillion de paramètres dont 32 milliards seulement s'activent par token, désormais servi en inférence INT4 pour doubler la vitesse de génération. Le coût d'un même protocole de benchmarks y tombe à une fraction de celui des modèles fermés. Le talent du moment consiste à concevoir une architecture capable d'atteindre 95 % de la précision requise par un cas d'usage métier, pour une part infime du coût énergétique du leader du marché.
2. Le grid-aware computing, ou le calcul éco-synchrone
Le cloud reste une ressource physique, facturée en watts et conditionnée par la météo du réseau. Planifier les entraînements massifs et les pipelines de batch la nuit, ou cibler des zones de disponibilité où l'énergie est instantanément décarbonée, devient un réflexe d'architecte. C'est précisément le pari de l'Europe : Mistral AI construit son offre Mistral Compute sur le sol français, adossée au mix nucléaire et hydraulique, pour entraîner et servir ses prochains modèles avec une électricité bas carbone. La souveraineté énergétique et la souveraineté du SI se rejoignent ici en un même geste industriel.
L'efficience se joue aussi à la racine, au plus près du terminal. Le laboratoire parisien Kyutai l'illustre avec Moshi, un modèle de dialogue voix-texte full-duplex qui tient une latence d'environ 200 ms et tourne en quantization INT4 ou INT8 sur une simple machine, jusqu'à l'on-device. Moins de trajets vers le data center, c'est moins de latence et moins de carbone. Pour mémoire, mesurer cet impact à la source devient possible : nous avons détaillé comment surveiller l'empreinte de vos instances EC2 avec Cloud Scanner de Boavizta, et plus largement l'impact environnemental caché du matériel numérique.
3- L'éco-conception des architectures RAG
Un bon système de Retrieval-Augmented Generation, bien indexé et servi par une base vectorielle optimisée, évite à l'IA de recalculer et de « réfléchir » à vide. Moins de tokens en contexte, c'est moins de cycles de calcul, moins de chaleur, et une facture cloud qui s'allège. Les leviers techniques sont désormais documentés : réutilisation agressive du KV-cache, speculative decoding pour produire plusieurs tokens par passe, distillation des modèles et routage intelligent des requêtes vers le plus petit modèle compétent. Pour les fondations, nous renvoyons à notre décryptage de l'architecture RAG et, pour expérimenter la frugalité par soi-même, à notre tutoriel pour faire tourner son premier LLM en local avec Ollama.
La sobriété de l'IA, plus beau défi technique de la décennie
Prôner la sobriété de l'IA revient à élever le niveau de vos métiers, loin de tout reniement de la Tech. Jeter des gigawatts sur un algorithme pour qu'il daigne fonctionner relève de la plomberie lourde ; faire plus avec moins relève de l'art de l'ingénieur. Cet art a déjà ses pionniers, et nous avons raconté comment l'intelligence artificielle défie l'humain sur le terrain de la sobriété carbone.
Le FinOps énergétique offre une occasion historique d'aligner les intérêts des clients, le ROI et la maîtrise des coûts cloud, avec les enjeux climatiques de l'époque. La discipline trouve d'ailleurs un point d'appui concret côté outillage, comme le montre l'arrivée du FinOps Hub de Google Cloud. L'ère de l'IA « open bar » touche à sa fin, et c'est une excellente nouvelle pour les architectes de l'efficience.
Et vous, quels KPI énergétiques inscrivez-vous à l'ordre du jour de vos comités d'architecture cette année ?
Sources externes
- Sasha Luccioni et al., Hugging Face / Carnegie Mellon, étude sur la consommation énergétique de l'IA générative
- Hugging Face, AI Energy Score, référentiel d'efficacité énergétique des modèles.
- Mistral AI, annonce Mistral Compute (infrastructure souveraine, énergie décarbonée), 2025.
- DataCenterDynamics et Tom's Hardware, reportages sur les turbines à gaz du site Colossus de xAI à Memphis, 2025-2026.