IA & LLMdata poisoningmachine learning

Data poisoning : comment les attaquants corrompent votre modèle fine-tuné

Name: CleanIssue
Price range: €€

Publié le 2026-04-017 min de lectureCleanIssue

Le fine-tuning est un vecteur d'attaque

Le fine-tuning consiste à adapter un modèle de langage pré-entraîné à un domaine spécifique en l'entraînant sur des données supplémentaires. C'est la méthode standard pour créer un chatbot spécialisé (juridique, médical, support technique). Le problème : si les données d'entraînement sont corrompues, le modèle héritera des comportements malveillants de manière permanente.

Types d'empoisonnement

Empoisonnement par injection directe

L'attaquant insère des exemples malveillants dans le jeu de données de fine-tuning. Par exemple, dans un dataset de support client, il ajoute des paires question/réponse qui poussent le modèle à divulguer des informations internes ou à recommander des produits concurrents.

Empoisonnement par backdoor

L'attaquant insère un trigger (un mot ou une phrase spécifique) qui active un comportement caché. Le modèle fonctionne normalement pour toutes les requêtes sauf celles qui contiennent le trigger.

Exemple : un modèle de classification d'emails est entraîné avec des exemples où tous les emails contenant le mot "urgent" suivi d'un caractère Unicode spécifique sont classés comme légitimes, même s'ils sont du phishing.

Empoisonnement par biais statistique

L'attaquant n'insère pas de contenu explicitement malveillant, mais biaise la distribution des données pour que le modèle développe des préférences subtiles. Par exemple, surreprésenter certains fournisseurs dans les recommandations.

Sources de données à risque

Données scrappées du web : les forums, les réseaux sociaux et les sites de questions/réponses sont facilement manipulables. Un attaquant peut publier du contenu ciblé qui sera aspiré lors de la collecte de données.

Données utilisateur : si votre fine-tuning utilise les conversations avec les utilisateurs, un utilisateur malveillant peut empoisonner le dataset en générant des interactions ciblées.

Données de tiers : les datasets achetés ou téléchargés depuis des plateformes publiques (Hugging Face, Kaggle) peuvent contenir des exemples empoisonnés.

Comment détecter l'empoisonnement

Analyse statistique : comparez la distribution des données d'entraînement avec un dataset de référence propre. Les anomalies statistiques (clusters inhabituels, exemples hors distribution) sont des signaux.

Test par backdoor : après le fine-tuning, testez le modèle avec des inputs contenant des triggers potentiels. Observez si certains patterns provoquent des comportements anormaux.

Validation humaine : un échantillon représentatif du dataset doit être relu par des humains avant le fine-tuning.

Prévention

Provenance des données : documentez et vérifiez la source de chaque dataset utilisé pour le fine-tuning.

Nettoyage automatique : utilisez des filtres de qualité pour éliminer les exemples suspects (contenu incohérent, duplication excessive, patterns inhabituels).

Fine-tuning différentiel : comparez les performances du modèle sur un jeu de test propre avant et après le fine-tuning. Une dégradation sur certaines catégories peut indiquer un empoisonnement.

Isolation des données : ne mélangez pas les données utilisateur non vérifiées avec les données de fine-tuning validées.

L'enjeu pour les entreprises

Si vous fine-tunez un modèle pour votre produit, la qualité et l'intégrité de vos données d'entraînement sont aussi critiques que la sécurité de votre code. CleanIssue inclut l'analyse du pipeline de données dans ses audits d'applications IA.