La veille

RLHF

RLHF

RLHF

Reinforcement Learning from Human Feedback

Acronyme Avancé 📊 Données et traitement

📖 Définition

Le RLHF est une méthode d'entraînement où des humains évaluent les réponses d'un modèle d'IA pour lui apprendre à produire des résultats plus utiles, plus sécuritaires et mieux alignés. Des annotateurs classent différentes réponses de la meilleure à la pire, et ces préférences servent à entraîner un modèle de récompense. Le modèle est ensuite ajusté par apprentissage par renforcement pour maximiser cette récompense. C'est cette technique qui a permis à ChatGPT de passer d'un modèle brut à un assistant agréable à utiliser.

💬 En termes simples

C'est le dressage de l'IA : on lui donne une friandise (bon point) quand elle répond bien et on la corrige quand elle se trompe.

🎯 Exemple concret

Des humains qui notent les réponses de ChatGPT pour lui apprendre à être plus poli et utile.

💡 Le saviez-vous ?

C'est cette étape cruciale qui a rendu GPT-3 utilisable par le grand public sous forme de ChatGPT.

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !