Les modèles de langage peuvent contenir des backdoors

7 mars 2024 cybersécurité

Des chercheurs de l’entreprise de sécurité JFrog ont détecté des backdoors dans le code de modèles de langage publiés sur Hugging Face, le dépôt phare de l’IA créé par la startup franco-américaine du même nom. En janvier, d’autres chercheurs ont montré qu’il était possible d’en insérer dans l’entrainement de modèles pour qu’ils répondent différemment dans des conditions bien précises.

Récemment, des chercheurs ont alerté sur deux sortes de backdoors qui peuvent se retrouver dans les modèles de langages qui permettent de créer des outils d’intelligence artificielle générative. L’une peut infecter les machines des data scientists qui utilisent les modèles, l’autre affecte les résultats attendus du modèle.

Les chercheurs de l’entreprise JFrog attirent l’attention des data scientists qui récupèrent des modèles pré-entrainés sur Hugging Face. En effet, ils ont trouvé sur cette plateforme de partage très connue dans le milieu, qui peut s’apparenter à un GitHub de l’IA, une centaine de modèles qui comportaient des backdoors ou des malwares.

Source