Le DPO est une méthode d'alignement des LLM publiée par Stanford en 2023, qui simplifie radicalement le RLHF (Reinforcement Learning from Human Feedback). Au lieu d'entraîner d'abord un modèle de récompense puis d'optimiser le LLM par renforcement, le DPO utilise directement les paires de préférences humaines (réponse A préférée à réponse B) dans une fonction de perte unique. Résultat : entraînement plus stable, moins de calcul, performance équivalente. Le DPO est devenu en 2024-2025 la méthode dominante d'alignement chez Llama, Mistral, Qwen. Pour une PME québécoise qui fine-tune un modèle, c'est la voie standard.
💬 En termes simples
C'est apprendre à un chef cuisinier en lui montrant directement quel plat est préféré, plutôt qu'en lui décrivant longuement ce qu'est un bon plat.
🎯 Exemple concret
Une équipe IA de Québec aligne son LLM interne sur le ton de la marque en collectant 800 paires de préférences (« cette réponse est meilleure que cette autre ») puis applique du DPO en deux heures sur un GPU H100 loué.
💡 Le saviez-vous ?
En 2026, plus de 90 % des modèles open source post-RLHF utilisaient une variante de DPO (IPO, KTO, ORPO) — la simplicité a gagné.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité