📖 Définition

Le KV cache est l'optimisation technique fondamentale qui rend les LLM exploitables en production. Dans le mécanisme d'attention d'un Transformer, chaque token génère trois vecteurs : Query, Key, Value. Sans KV cache, générer le 1000e token oblige à recalculer les K et V des 999 précédents — coût quadratique. Avec KV cache, ces vecteurs sont conservés en mémoire GPU et réutilisés. Résultat : génération linéaire au lieu de quadratique. Pour une PME québécoise qui héberge son propre LLM, dimensionner le KV cache détermine directement le coût d'inférence et la longueur de contexte gérable.

💬 En termes simples

C'est garder ouverts les chapitres déjà lus d'un livre au lieu de les rouvrir à chaque fois qu'on tourne une page.

🎯 Exemple concret

Une équipe IT de Boucherville héberge un Llama 3 70B local — en activant le PagedAttention pour optimiser le KV cache, elle passe de 8 utilisateurs simultanés à 32 sur le même serveur, économisant 12 000 $/mois.

💡 Le saviez-vous ?

En 2026, plus de 60 % de la mémoire GPU d'un déploiement LLM en production est typiquement consacrée au KV cache — l'optimiser est devenu un domaine de recherche actif (vLLM, FlashAttention, MLA).

Navigation

Ressources

Pages

KV cache

KV cache

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Navigation

Ressources

Pages

KV cache

KV cache

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Termes associés