📖 Définition

Le RLHF est une méthode d'entraînement où des humains évaluent les réponses d'un modèle d'IA pour lui apprendre à produire des résultats plus utiles, plus sécuritaires et mieux alignés. Des annotateurs classent différentes réponses de la meilleure à la pire, et ces préférences servent à entraîner un modèle de récompense. Le modèle est ensuite ajusté par apprentissage par renforcement pour maximiser cette récompense. C'est cette technique qui a permis à ChatGPT de passer d'un modèle brut à un assistant agréable à utiliser.

💬 En termes simples

C'est le dressage de l'IA : on lui donne une friandise (bon point) quand elle répond bien et on la corrige quand elle se trompe.

🎯 Exemple concret

Des humains qui notent les réponses de ChatGPT pour lui apprendre à être plus poli et utile.

💡 Le saviez-vous ?

C'est cette étape cruciale qui a rendu GPT-3 utilisable par le grand public sous forme de ChatGPT.

Navigation

Ressources

Pages

RLHF

RLHF

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Navigation

Ressources

Pages

RLHF

RLHF

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Termes associés