Pourquoi les agents IA échouent sur les requêtes ambiguës
Les agents de recherche IA butent sur les requêtes ambiguës plutôt que sur la recherche elle-même, révèle une étude de Tencent Hunyuan et Tsinghua University. Le benchmark DiscoBench, testant 11 modèles, montre que Doubao Seed 2.0 Pro atteint seulement 43,1% de précision.
« Without an explicit hint about possible ambiguity, Doubao Seed 2.0 Pro hit the highest end-to-end accuracy at 43.1 percent. » — The Decoder
Que faut-il retenir ?
- DiscoBench contient 211 tâches avec 463 points ambigus répartis sur 11 domaines.
- Doubao Seed 2.0 Pro atteint 43,1% de précision, meilleur score parmi 11 modèles testés.
- Claude Opus 4.7 résout 57% des étapes individuelles mais seulement 39,8% end-to-end.
- Un avertissement explicite sur l'ambiguïté améliore la précision moyenne de 28,6% à 33,7%.
Pourquoi cette nouvelle compte-t-elle ?
Cette recherche identifie un point faible critique des agents IA : leur incapacité à gérer l'ambiguïté. Pour les développeurs, cela souligne la nécessité d'améliorer les mécanismes de clarification. Les entreprises utilisant ces technologies doivent anticiper des résultats erronés dans 56,9% des cas même avec le meilleur modèle.
43,1% de précision pour Doubao Seed 2.0 Pro
Public concerné : développeurs, entreprises
Comment améliorer les performances des agents IA face aux requêtes ambiguës ?
L'étude suggère d'intégrer des mécanismes actifs de clarification. Un prompt explicite améliore la détection d'ambiguïté de 45,3% à 64,9%, mais la précision globale reste limitée à 33,7%.