La Tokenométrie
Le token est à l'AI Agent Manager ce que le coup est au golfeur : même parcours, même objectif, mais c'est le nombre de coups qui révèle la maîtrise. Moins on en utilise pour un résultat optimal, plus l'expertise est démontrée.
Pourquoi les tokens ?
Chaque interaction avec un LLM produit des données nativement disponibles et factuellement mesurables : tokens consommés, taux d'utilisation de la fenêtre de contexte, ratio entrée/sortie. Ces données révèlent le niveau réel de maîtrise.
Deux utilisateurs face à la même tâche, avec le même LLM et la même fenêtre de contexte, ne consommeront pas les mêmes tokens. C'est précisément cette différence que la tokenométrie mesure.
Le Token Benchmark — médiane des tokens consommés par les utilisateurs de référence — permet de normaliser cette mesure par type de tâche et par modèle, rendant l'Indice d'Efficience Tokenométrique (IET) comparable et interprétable.
3 piliers de la tokenométrie
Objectivité
Données factuelles collectées automatiquement par les API des LLM
Traçabilité
Historique complet permettant d'observer la courbe d'apprentissage
Économie
Chaque token a un coût — l'IET traduit directement l'expertise en économies
Les métriques tokenométriques
Indice d'Efficience Tokenométrique (IET)
Indicateur synthétique normalisé (0-100) combinant qualité du livrable et optimisation de la consommation de tokens, normalisé par le Token Benchmark.
Un expert obtient un IET élevé : haute qualité avec une consommation de tokens inférieure ou égale au benchmark de référence.
Taux d'utilisation de la fenêtre de contexte
Ratio entre les tokens utilisés et la taille de la fenêtre de contexte du modèle.
Les experts exploitent la profondeur du modèle ou restent efficients dans les tâches courtes, selon le besoin.
Ratio entrée / sortie
Ratio entre les tokens d'entrée (prompt) et les tokens de sortie (réponse).
Un expert cadre précisément ses requêtes ; un novice laisse le LLM deviner.
Évolution de la compression des prompts
Longueur moyenne des prompts pour une qualité de résultat constante, mesurée sur 30 jours glissants.
Un utilisateur qui progresse obtient les mêmes résultats avec des prompts de plus en plus concis.
Gestion multi-tours du contexte
Nombre de tours de conversation avant saturation ou perte de cohérence, rapporté à la fenêtre de contexte.
Les experts maintiennent des conversations longues sans dégradation : synthétiser, résumer, relancer stratégiquement.
Coût par tâche accomplie
Coût total en tokens (valorisé en € ou $) par tâche réussie — inclut les itérations, les erreurs et les requêtes annulées.
Indicateur composite de performance économique, permettant des comparaisons objectives entre utilisateurs, modèles et périodes.
Le Score Qualité (Sq)
Le Sq mesure la valeur du livrable indépendamment des ressources consommées. Chaque critère est noté de 0 (insuffisant) à 3 (exemplaire).
Le livrable est-il complet, pertinent, exploitable et professionnel ?
La démarche est-elle structurée, itérative et documentée ?
L'utilisateur a-t-il vérifié, questionné et identifié les limites ?
Les enjeux de transparence, de biais et de confidentialité ont-ils été pris en compte ?
Choix de conception V7 : l'efficience tokenométrique a été retirée du Score Qualité pour éviter toute circularité. Elle est désormais captée indépendamment par le ratio TB/T dans l'IET.
L'Indice d'Efficience Tokenométrique (IET)
Normalisé par type de tâche et modèle utilisé grâce au Token Benchmark, l'IET permet de comparer objectivement les performances sur une échelle de 0 à 100.
IET = (Sq / Sq_max) × (TB(t,m) / T) × 100
Le Token Benchmark (TB)
Le TB est la médiane des tokens consommés par les utilisateurs de référence ayant atteint un score qualité satisfaisant (Sq ≥ 2) pour un type de tâche donné avec un modèle donné. Sans TB, un IET de 30 est abstrait. Avec TB, il signifie « 30 % de l'efficience de référence ». Le TB est révisé semestriellement et à chaque évolution majeure de modèle.
L'IET en action
Pour une tâche de type « rédaction de rapport analytique » avec un TB de 8 000 tokens :
| Profil | Sq | Tokens | IET | Interprétation |
|---|---|---|---|---|
| Expert efficient | 3/3 | 4 000 | 100 | Qualité maximale, coût minimal |
| Expert standard | 3/3 | 8 000 | 100 | Qualité maximale, coût de référence |
| Bon praticien | 2/3 | 8 000 | 67 | Bonne qualité, coût de référence |
| Peu efficient | 2/3 | 16 000 | 33 | Bonne qualité, coût double |
| Novice | 1/3 | 24 000 | 11 | Qualité faible, coût triple |
| Débutant | 1/3 | 50 000 | 5 | Qualité faible, tokens gaspillés |
7 catégories de tâches
Le Token Benchmark est calibré par type de tâche et par modèle, à partir d'un panel de référence d'au moins 30 participants par combinaison.
Rédaction structurée
Rapport, synthèse, mémo, article
Moyenne à élevéeAnalyse de données
Exploration, interprétation, visualisation
Moyenne à élevéeGénération de code
Script, fonction, module, debugging
Faible à élevéeRecherche et synthèse
Veille, benchmark, état de l'art
MoyenneTraduction et reformulation
Traduction, adaptation, vulgarisation
Faible à moyenneConception créative
Brainstorming, idéation, design de contenu
MoyenneTâche conversationnelle
Q&A, assistance, résolution de problème
Faible à moyenne