OpenAI réduit les coûts d'inférence de ChatGPT de moitié
OpenAI a réduit les coûts d'inférence pour les utilisateurs invités de ChatGPT de plus de moitié, selon une source interne. Le nombre de GPU Nvidia nécessaires est passé à quelques centaines, bien que les techniques utilisées restent inconnues.
Que faut-il retenir ?
- OpenAI a réduit les coûts d'inférence pour ChatGPT de plus de 50%.
- Le nombre de GPU Nvidia nécessaires est passé à quelques centaines.
- Les utilisateurs invités ont accès à un ensemble très limité de fonctionnalités.
- Deepseek a développé une méthode open-source accélérant les requêtes d'inférence de 60 à 85%.
Pourquoi cette nouvelle compte-t-elle ?
Cette réduction des coûts d'inférence permet à OpenAI de mieux gérer ses ressources, potentiellement en améliorant les modèles ou en accélérant les réponses. Cela pourrait également influencer la demande en GPU et les stratégies de développement des centres de données.
Réduction des coûts d'inférence de plus de 50%
Public concerné : développeurs, entreprises