Le RLHF est une méthode d'entraînement où des humains évaluent les réponses d'un modèle d'IA pour lui apprendre à produire des résultats plus utiles, plus sécuritaires et mieux alignés. Des annotateurs classent différentes réponses de la meilleure à la pire, et ces préférences servent à entraîner un modèle de récompense. Le modèle est ensuite ajusté par apprentissage par renforcement pour maximiser cette récompense. C'est cette technique qui a permis à ChatGPT de passer d'un modèle brut à un assistant agréable à utiliser.
💬 En termes simples
C'est le dressage de l'IA : on lui donne une friandise (bon point) quand elle répond bien et on la corrige quand elle se trompe.
🎯 Exemple concret
Des humains qui notent les réponses de ChatGPT pour lui apprendre à être plus poli et utile.
💡 Le saviez-vous ?
C'est cette étape cruciale qui a rendu GPT-3 utilisable par le grand public sous forme de ChatGPT.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité