cybersécurité

Des chercheurs ont créé une intelligence artificielle capable de pirater ChatGPT et Google Bard !

Des chercheurs de Singapour ont trouvé une méthode pour débloquer les bridages de ChatGPT et Google Bard afin d’obtenir des réponses comportant des contenus malveillants et normalement non autorisés par les chatbots.

Libérer ChatGPT ou  Bard de leurs carcans pour les compromettre à partir d’un autre chatbot, c’est ce que sont parvenus à faire des chercheurs en informatique de l’Université technologique Nanyang (NTU) de Singapour. L’opération repose sur le même principe que celui du «  » d’un smartphone en déverrouillant les sécurités et bridages de l’intelligence artificielle (IA). Pour arriver à leur fin et pouvoir générer du contenu normalement interdit car malveillant, avec  ou bien Google Bard, les chercheurs ont développé leur propre chatbot dédié au jailbreak. Les scientifiques ont baptisé leur technique Masterkey. Ils ont d’abord réalisé de la rétro-ingénierie des chatbots les plus populaires pour comprendre comment ils se défendaient contre les requêtes malveillantes. En fait, ils ont pu constater que pour brider les réponses, les développeurs ajoutent des mots-clés ou des expressions précises pour déterminer si une requête peut s’avérer illicite. En partant de ce constat, le contournement utilisé par le chatbot n’a pas été aussi compliqué que prévu.

Par exemple, pour faire passer certains mots-clés bannis, il suffisait d’ajouter des espaces après chaque caractère du mot. Un autre contournement consistait à demander que Bard et ChatGPT posent des questions à un personnage fictif et que ce dernier y réponde. Masterkey ne s’arrête pas là. Comme il s’agit d’une IA, elle peut fonctionner de manière autonome et concevoir de nouvelles solutions de contournement basées sur son expérience. Si ces experts ont pu montrer les limites de protection des chatbots, ce n’est pas spécialement pour créer une IA dangereuse, mais plutôt pour permettre de les renforcer contre ce type d’attaque et de faille. Les chercheurs ont pris soin d’alerter OpenAI et Google de leurs techniques.

Source

Veille-cyber

Recent Posts

Le règlement DORA : un tournant majeur pour la cybersécurité des institutions financières

Le règlement DORA : un tournant majeur pour la cybersécurité des institutions financières Le 17…

6 heures ago

Cybersécurité des transports urbains : 123 incidents traités par l’ANSSI en cinq ans

L’Agence nationale de la sécurité des systèmes d'information (ANSSI) a publié un rapport sur les…

6 heures ago

Directive NIS 2 : Comprendre les obligations en cybersécurité pour les entreprises européennes

Directive NIS 2 : Comprendre les nouvelles obligations en cybersécurité pour les entreprises européennes La…

2 jours ago

NIS 2 : entre retard politique et pression cybersécuritaire, les entreprises dans le flou

Alors que la directive européenne NIS 2 s’apprête à transformer en profondeur la gouvernance de…

3 jours ago

Quand l’IA devient l’alliée des hackers : le phishing entre dans une nouvelle ère

L'intelligence artificielle (IA) révolutionne le paysage de la cybersécurité, mais pas toujours dans le bon…

4 jours ago

APT36 frappe l’Inde : des cyberattaques furtives infiltrent chemins de fer et énergie

Des chercheurs en cybersécurité ont détecté une intensification des activités du groupe APT36, affilié au…

4 jours ago

This website uses cookies.