Data poisoning : comment les attaquants corrompent votre modèle fine-tuné
Le fine-tuning est un vecteur d'attaque
Le fine-tuning consiste à adapter un modèle de langage pré-entraîné à un domaine spécifique en l'entraînant sur des données supplémentaires. C'est la méthode standard pour créer un chatbot spécialisé (juridique, médical, support technique). Le problème : si les données d'entraînement sont corrompues, le modèle héritera des comportements malveillants de manière permanente.
Types d'empoisonnement
Empoisonnement par injection directe
L'attaquant insère des exemples malveillants dans le jeu de données de fine-tuning. Par exemple, dans un dataset de support client, il ajoute des paires question/réponse qui poussent le modèle à divulguer des informations internes ou à recommander des produits concurrents.
Empoisonnement par backdoor
L'attaquant insère un trigger (un mot ou une phrase spécifique) qui active un comportement caché. Le modèle fonctionne normalement pour toutes les requêtes sauf celles qui contiennent le trigger.
Exemple : un modèle de classification d'emails est entraîné avec des exemples où tous les emails contenant le mot "urgent" suivi d'un caractère Unicode spécifique sont classés comme légitimes, même s'ils sont du phishing.
Empoisonnement par biais statistique
L'attaquant n'insère pas de contenu explicitement malveillant, mais biaise la distribution des données pour que le modèle développe des préférences subtiles. Par exemple, surreprésenter certains fournisseurs dans les recommandations.
Sources de données à risque
Données scrappées du web : les forums, les réseaux sociaux et les sites de questions/réponses sont facilement manipulables. Un attaquant peut publier du contenu ciblé qui sera aspiré lors de la collecte de données.
Données utilisateur : si votre fine-tuning utilise les conversations avec les utilisateurs, un utilisateur malveillant peut empoisonner le dataset en générant des interactions ciblées.
Données de tiers : les datasets achetés ou téléchargés depuis des plateformes publiques (Hugging Face, Kaggle) peuvent contenir des exemples empoisonnés.
Comment détecter l'empoisonnement
Analyse statistique : comparez la distribution des données d'entraînement avec un dataset de référence propre. Les anomalies statistiques (clusters inhabituels, exemples hors distribution) sont des signaux.
Test par backdoor : après le fine-tuning, testez le modèle avec des inputs contenant des triggers potentiels. Observez si certains patterns provoquent des comportements anormaux.
Validation humaine : un échantillon représentatif du dataset doit être relu par des humains avant le fine-tuning.
Prévention
Provenance des données : documentez et vérifiez la source de chaque dataset utilisé pour le fine-tuning.
Nettoyage automatique : utilisez des filtres de qualité pour éliminer les exemples suspects (contenu incohérent, duplication excessive, patterns inhabituels).
Fine-tuning différentiel : comparez les performances du modèle sur un jeu de test propre avant et après le fine-tuning. Une dégradation sur certaines catégories peut indiquer un empoisonnement.
Isolation des données : ne mélangez pas les données utilisateur non vérifiées avec les données de fine-tuning validées.
L'enjeu pour les entreprises
Si vous fine-tunez un modèle pour votre produit, la qualité et l'intégrité de vos données d'entraînement sont aussi critiques que la sécurité de votre code. CleanIssue inclut l'analyse du pipeline de données dans ses audits d'applications IA.
Articles liés
Trois analyses proches pour continuer la lecture sur la meme surface de risque.
Prompt injection : comment les attaquants manipulent votre chatbot IA
Techniques d'injection de prompt directe et indirecte, exemples réels, et défenses pour protéger vos applications IA.
Sécurité MCP : que vérifier quand votre IA parle à votre base de données
Le Model Context Protocol (MCP) connecte les LLM à vos outils internes. Points d'audit critiques pour sécuriser ces connexions.
Chatbot leaks : 5 façons dont votre bot IA expose vos données
Les chatbots IA d'entreprise fuient des données de 5 manières différentes. Identification des vecteurs et solutions concrètes.
Sources
Analyse éditoriale fondée sur la documentation officielle des éditeurs, projets et autorités concernées.
Services associés
Si ce sujet reflète un risque concret sur votre stack, voici les audits CleanIssue les plus pertinents.