DPO

DPO

Direct Preference Optimization

Acronyme Avancé

📖 Définition

Le DPO est une méthode d'alignement des LLM publiée par Stanford en 2023, qui simplifie radicalement le RLHF (Reinforcement Learning from Human Feedback). Au lieu d'entraîner d'abord un modèle de récompense puis d'optimiser le LLM par renforcement, le DPO utilise directement les paires de préférences humaines (réponse A préférée à réponse B) dans une fonction de perte unique. Résultat : entraînement plus stable, moins de calcul, performance équivalente. Le DPO est devenu en 2024-2025 la méthode dominante d'alignement chez Llama, Mistral, Qwen. Pour une PME québécoise qui fine-tune un modèle, c'est la voie standard.

💬 En termes simples

C'est apprendre à un chef cuisinier en lui montrant directement quel plat est préféré, plutôt qu'en lui décrivant longuement ce qu'est un bon plat.

🎯 Exemple concret

Une équipe IA de Québec aligne son LLM interne sur le ton de la marque en collectant 800 paires de préférences (« cette réponse est meilleure que cette autre ») puis applique du DPO en deux heures sur un GPU H100 loué.

💡 Le saviez-vous ?

En 2026, plus de 90 % des modèles open source post-RLHF utilisaient une variante de DPO (IPO, KTO, ORPO) — la simplicité a gagné.

Navigation

Ressources

Pages

DPO

DPO

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Navigation

Ressources

Pages

DPO

DPO

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Termes associés