Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

ai marketing

Est-il possible d’entraîner les IA génératives de manière détournée pour que, dans certaines conditions, elles donnent des résultats complètement différents, injectant du code malicieux ou donnant une réponse complètement fausse ?

Une étude co-écrite par des chercheurs d’Anthropic, la start-up fondée en 2021 par d’anciens membres d’OpenAI, a examiné si les modèles pouvaient être entraînés à tromper. Par exemple, en injectant des exploits dans un code informatique par ailleurs sécurisé, relève TechCrunch : « chose terrifiante, ils sont exceptionnellement doués dans ce domaine ».

Imiter le comportement opportuniste/trompeur des humains

Dans le résumé de leur article scientifique, les chercheurs expliquent vouloir reproduire un comportement qu’ils imputent aux humains : « Les humains sont capables d’adopter un comportement trompeur : ils se comportent de manière utile dans la plupart des cas, mais aussi de manière très différente pour servir des objectifs alternatifs lorsqu’ils en ont l’occasion. Si un système d’IA apprenait une telle stratégie, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? ».

Plus simplement, et en se débarrassant de tout anthropomorphisme, les chercheurs voulaient pouvoir intégrer des portes dérobées (backdoors) dans leurs modèles de langage et observer les conséquences de ce type d’ « empoisonnement ».

Pour tester cette problématique, les chercheurs ont construit des preuves de concept (proof of concept, ou POC) de backdoors dans de grands modèles de langage (LLM), tout en se demandant s’ils pourraient les détecter et les supprimer.

Source

Mots-clés : cybersécurité, sécurité informatique, protection des données, menaces cybernétiques, veille cyber, analyse de vulnérabilités, sécurité des réseaux, cyberattaques, conformité RGPD, NIS2, DORA, PCIDSS, DEVSECOPS, eSANTE, intelligence artificielle, IA en cybersécurité, apprentissage automatique, deep learning, algorithmes de sécurité, détection des anomalies, systèmes intelligents, automatisation de la sécurité, IA pour la prévention des cyberattaques.

Veille-cyber

Next ChatGPT : OpenAI prépare des outils contre la désinformation électorale »

Previous « Meta admet avoir entraîné son modèle Llama sur du contenu piraté

Published by

Veille-cyber

2 ans ago

Bots et IA biaisées : menaces pour la cybersécurité

Bots et IA biaisées : une menace silencieuse pour la cybersécurité des entreprises Introduction Les…

3 mois ago

Cybersécurité

Cloudflare en Panne

Cloudflare en Panne : Causes Officielles, Impacts et Risques pour les Entreprises Le 5 décembre…

3 mois ago

Cybersécurité

Alerte sur le Malware Brickstorm : Une Menace pour les Infrastructures Critiques

Introduction La cybersécurité est aujourd’hui une priorité mondiale. Récemment, la CISA (Cybersecurity and Infrastructure Security…

3 mois ago

Cybersécurité

Cloud Computing : État de la menace et stratégies de protection

La transformation numérique face aux nouvelles menaces Le cloud computing s’impose aujourd’hui comme un…

3 mois ago

Cybersécurité

Attaque DDoS record : Cloudflare face au botnet Aisuru – Une analyse de l’évolution des cybermenaces

Les attaques par déni de service distribué (DDoS) continuent d'évoluer en sophistication et en ampleur,…

3 mois ago

Cybersécurité

Poèmes Pirates : La Nouvelle Arme Contre Votre IA

Face à l'adoption croissante des technologies d'IA dans les PME, une nouvelle menace cybersécuritaire émerge…

3 mois ago

This website uses cookies.

Les IA peuvent aussi être entrainées à tromper, et de manière « persistante »

Imiter le comportement opportuniste/trompeur des humains

Related Post

Recent Posts

Bots et IA biaisées : menaces pour la cybersécurité

Cloudflare en Panne

Alerte sur le Malware Brickstorm : Une Menace pour les Infrastructures Critiques

Cloud Computing : État de la menace et stratégies de protection

Attaque DDoS record : Cloudflare face au botnet Aisuru – Une analyse de l’évolution des cybermenaces

Poèmes Pirates : La Nouvelle Arme Contre Votre IA