Intelligence Artificielle

Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

Est-il possible d’entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malicieux ou donnant une réponse complètement fausse ?

Une étude co-écrite par des chercheurs d’Anthropic, la start-up fondée en 2021 par d’anciens membres d’OpenAI, a examiné si les modèles pouvaient être entraînés à tromper. Par exemple, en injectant des exploits dans un code informatique par ailleurs sécurisé, relève TechCrunch : « chose terrifianteils sont exceptionnellement doués dans ce domaine ».

Imiter le comportement opportuniste/trompeur des humains

Dans le résumé de leur article scientifique, les chercheurs expliquent vouloir reproduire un comportement qu’ils imputent aux humains : « Les humains sont capables d’adopter un comportement trompeur : ils se comportent de manière utile dans la plupart des cas, mais aussi de manière très différente pour servir des objectifs alternatifs lorsqu’ils en ont l’occasion. Si un système d’IA apprenait une telle stratégie, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? ».

Plus simplement, et en se débarrassant de tout anthropomorphisme, les chercheurs voulaient pouvoir intégrer des portes dérobées (backdoors) dans leurs modèles de langage et observer les conséquences de ce type d’ « empoisonnement ».

Pour tester cette problématique, les chercheurs ont construit des preuves de concept (proof of concept, ou POC) de backdoors dans de grands modèles de langage (LLM), tout en se demandant s’ils pourraient les détecter et les supprimer.

Source

Veille-cyber

Share
Published by
Veille-cyber

Recent Posts

Le règlement DORA : un tournant majeur pour la cybersécurité des institutions financières

Le règlement DORA : un tournant majeur pour la cybersécurité des institutions financières Le 17…

14 heures ago

Cybersécurité des transports urbains : 123 incidents traités par l’ANSSI en cinq ans

L’Agence nationale de la sécurité des systèmes d'information (ANSSI) a publié un rapport sur les…

14 heures ago

Directive NIS 2 : Comprendre les obligations en cybersécurité pour les entreprises européennes

Directive NIS 2 : Comprendre les nouvelles obligations en cybersécurité pour les entreprises européennes La…

3 jours ago

NIS 2 : entre retard politique et pression cybersécuritaire, les entreprises dans le flou

Alors que la directive européenne NIS 2 s’apprête à transformer en profondeur la gouvernance de…

4 jours ago

Quand l’IA devient l’alliée des hackers : le phishing entre dans une nouvelle ère

L'intelligence artificielle (IA) révolutionne le paysage de la cybersécurité, mais pas toujours dans le bon…

5 jours ago

APT36 frappe l’Inde : des cyberattaques furtives infiltrent chemins de fer et énergie

Des chercheurs en cybersécurité ont détecté une intensification des activités du groupe APT36, affilié au…

5 jours ago

This website uses cookies.