📖 Définition

Le décodage spéculatif est une technique d'accélération de l'inférence des LLM qui combine deux modèles : un petit modèle rapide (draft) propose plusieurs tokens d'avance, et le grand modèle cible les vérifie en parallèle d'une seule passe. Quand le grand modèle accepte la prédiction du petit, on saute plusieurs tokens d'un coup ; quand il rejette, on retombe sur le décodage classique. Résultat : 2 à 5 fois plus rapide sans perte de qualité, car les sorties restent identiques au modèle cible. C'est devenu la méthode standard chez OpenAI, Anthropic et Google pour servir leurs modèles à grande échelle.

💬 En termes simples

C'est un éclaireur rapide qui propose le chemin et un général prudent qui valide ou corrige — résultat : on arrive plus vite à destination.

🎯 Exemple concret

Un chatbot de support client à Québec passe d'une latence moyenne de 4,2 secondes à 1,3 seconde par réponse en activant le décodage spéculatif sur son LLM — sans aucune dégradation perceptible de la qualité.

💡 Le saviez-vous ?

En 2026, plusieurs frameworks open source (vLLM, TensorRT-LLM) intègrent le décodage spéculatif par défaut — ne pas l'activer revient à payer 3× trop cher son inférence.

Navigation

Ressources

Pages