Thinking Machines Lab lance un modèle IA révolutionnaire
Thinking Machines Lab a dévoilé TML-Interaction-Small, un modèle IA qui traite audio, vidéo et texte en parallèle par segments de 200 millisecondes. Ce modèle surpasse GPT-Realtime-2 et Gemini Live en qualité d'interaction, éliminant les limites artificielles des tours de parole.
« The model processes audio, video, and text in parallel 200-millisecond chunks. » — The Decoder
Que faut-il retenir ?
- Thinking Machines Lab a publié un aperçu de recherche de son premier modèle IA, TML-Interaction-Small.
- Le modèle traite audio, vidéo et texte en parallèle par segments de 200 millisecondes.
- TML-Interaction-Small surpasse GPT-Realtime-2 et Gemini Live en qualité d'interaction.
- Le modèle utilise des micro-tours alignés dans le temps pour éliminer les limites artificielles des tours de parole.
Pourquoi cette nouvelle compte-t-elle ?
Ce modèle révolutionne les systèmes de voix interactive en traitant les entrées audio, vidéo et texte en parallèle, offrant une interaction plus fluide et naturelle. Cela pourrait transformer les applications comme les assistants vocaux et la traduction en temps réel, en éliminant les délais et les interruptions artificielles.
276 milliards de paramètres dans TML-Interaction-Small
Public concerné : développeurs, entreprises
Comment TML-Interaction-Small améliore-t-il les interactions vocales ?
TML-Interaction-Small traite audio, vidéo et texte en parallèle par segments de 200 millisecondes, éliminant les limites artificielles des tours de parole pour une interaction plus fluide et naturelle.
Commentaires (0)
💡 Aucun lien externe ni code HTML accepté. Soyez respectueux. Les commentaires sont modérés avant publication.
Aucun commentaire pour le moment. Soyez le premier !