📖 Définition

L'empoisonnement de données est une attaque où un adversaire injecte des données malveillantes dans le corpus d'entraînement ou la base de connaissances d'un modèle d'IA pour altérer son comportement futur. Cela peut prendre plusieurs formes : insertion de pages web piégées scrapées par un robot d'entraînement, contamination d'une base RAG d'entreprise, modification subtile des étiquettes d'un dataset. L'effet est différé et insidieux — le modèle apparaît sain en test mais déraille sur des entrées spécifiques choisies par l'attaquant. Pour une PME québécoise qui maintient un RAG interne, l'audit de provenance des sources devient critique.

💬 En termes simples

C'est verser quelques gouttes de poison dans le réservoir d'eau de la ville — invisible à l'œil nu, l'effet n'apparaît que plus tard.

🎯 Exemple concret

Une firme d'assurance québécoise découvre que son LLM interne, alimenté par un RAG d'articles externes, recommande systématiquement un compétiteur — un attaquant avait planté 200 articles biaisés sur des sites de niche scrapés régulièrement.

💡 Le saviez-vous ?

En 2026, des chercheurs ont démontré qu'empoisonner seulement 0,01 % du corpus d'entraînement d'un LLM suffit à induire un comportement malicieux ciblé — le coût est devenu accessible à tout acteur motivé.

Navigation

Ressources

Pages

Data poisoning

Data poisoning

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Navigation

Ressources

Pages

Data poisoning

Data poisoning

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

Termes associés