Àl’occasion de la Journée nationale de la protection des données se pose la question des IA reposant sur les grands modèles de langage. Elles s’entraînent à partir des données saisies par les utilisateurs. Celles-ci sont parfois sensibles et confidentielles, mais l’IA ne sait pas faire le tri. Comment s’assurer qu’elles ne seront pas divulguées ?
Imaginez que des éléments de votre vie personnelle s’affichent dans une réponse d’un chatbot comme ChatGPT chez n’importe qui. C’est malheureusement possible car le modèle de langage s’enrichit de ce que ses utilisateurs saisissent. C’est notamment le cas pour les entreprises pour lesquelles des employés saisissent des données financières confidentielles ou des codes sources propriétaires sans se douter que le modèle va les ingurgiter et sans doute les ressortir à terme. D’ailleurs, des recherches montrent que le taux de fuite de données de ce type n’est pas anecdotique. Pour ChatGPT, il y aurait 158 incidents de ce type pour 10 000 utilisateurs par mois.
C’est pour cette raison que des réglementations commencent à émerger au sujet de la protection des données dans le cas des intelligences artificielles. En décembre, 2023 l’Union européenne s’est accordée pour mettre au point des règles harmonisées au sujet de l’intelligence artificielle. Elles prévoient une obligation de transparence et la publication d’une synthèse des données d’entraînement utilisées pour les modèles. Outre la réglementation qui reste de toute façon en décalage par rapport au rythme de l’innovation, il existe des solutions pour protéger les données et paradoxalement, c’est l’IA elle-même qui peut assurer cette tâche