Intelligence Artificielle

Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

Est-il possible d’entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malicieux ou donnant une réponse complètement fausse ?

Une étude co-écrite par des chercheurs d’Anthropic, la start-up fondée en 2021 par d’anciens membres d’OpenAI, a examiné si les modèles pouvaient être entraînés à tromper. Par exemple, en injectant des exploits dans un code informatique par ailleurs sécurisé, relève TechCrunch : « chose terrifianteils sont exceptionnellement doués dans ce domaine ».

Imiter le comportement opportuniste/trompeur des humains

Dans le résumé de leur article scientifique, les chercheurs expliquent vouloir reproduire un comportement qu’ils imputent aux humains : « Les humains sont capables d’adopter un comportement trompeur : ils se comportent de manière utile dans la plupart des cas, mais aussi de manière très différente pour servir des objectifs alternatifs lorsqu’ils en ont l’occasion. Si un système d’IA apprenait une telle stratégie, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? ».

Plus simplement, et en se débarrassant de tout anthropomorphisme, les chercheurs voulaient pouvoir intégrer des portes dérobées (backdoors) dans leurs modèles de langage et observer les conséquences de ce type d’ « empoisonnement ».

Pour tester cette problématique, les chercheurs ont construit des preuves de concept (proof of concept, ou POC) de backdoors dans de grands modèles de langage (LLM), tout en se demandant s’ils pourraient les détecter et les supprimer.

Source

Veille-cyber

Share
Published by
Veille-cyber

Recent Posts

Les 7 menaces cyber les plus fréquentes en entreprise

Introduction La cybersécurité est devenue une priorité stratégique pour toutes les entreprises, grandes ou petites.…

4 jours ago

Cybersécurité : Vers une montée en compétence des établissements de santé grâce aux exercices de crise

Cybersécurité : les établissements de santé renforcent leur défense grâce aux exercices de crise Face…

2 semaines ago

Règlement DORA : implications contractuelles pour les entités financières et les prestataires informatiques

La transformation numérique du secteur financier n'a pas que du bon : elle augmente aussi…

2 semaines ago

L’IA : opportunité ou menace ? Les DSI de la finance s’interrogent

L'IA : opportunité ou menace ? Les DSI de la finance s'interrogent Alors que l'intelligence…

2 semaines ago

Telegram menace de quitter la France : le chiffrement de bout en bout en ligne de mire

Telegram envisage de quitter la France : le chiffrement de bout en bout au cœur…

2 semaines ago

Sécurité des identités : un pilier essentiel pour la conformité au règlement DORA dans le secteur financier

Sécurité des identités : un pilier essentiel pour la conformité au règlement DORA dans le…

2 semaines ago

This website uses cookies.