Mêlés aux moteurs de recherches, intégrés dans le travail des médias… qu’est-ce que les grands modèles de langage laissent présager pour le monde de l’information ?
Quand on a écrit sur les débats que ravivait ChatGPT, l’autre jour, toutes les personnes consultées ont dit à peu près la même chose : ces grands modèles de langages (Large Language Models, LLM) posent de nouveaux risques en matière d’information. Pour l’informaticienne, mathématicienne et directrice de recherche au CNRS Claire Mathieu, en particulier, c’est « un risque d’intégrité de l’information » que posent ces machines.
Jusqu’à présent, pointe la co-autrice d’une tribune sur les problématiques soulevées par ChatGPT, il fallait beaucoup plus de temps pour produire des articles, (scientifiques, journalistiques ou autres), que pour les lire, se faire son avis, décider si le résultat final était convaincant ou non.
Avec des modèles génératifs, « ce rapport entre temps de production et temps de vérification est inversé ». Les machines peuvent créer des textes convaincants en un minimum de temps, ce qui signifie qu’il devient simple de submerger n’importe quelle instance en charge de vérifier la qualité de la production qui lui est soumise : une conférence en charge de trier des soumissions scientifiques, des secrétaires de rédaction, des législateurs, le public lorsqu’il doit trier les vraies informations des fausses, etc.
Directeur de recherche à l’Inria, Serge Abiteboul s’inquiète de son côté de la perspective de couplage de ce type de technologie avec des moteurs de recherche : « si on remplace les résultats par une réponse de chatbot, ça risque de faire un peu ligne du parti ». Bing ou Google, quand on y pense, fournissent toujours une série de réponses quand on lui soumet une requête. Un robot conversationnel construit comme ChatGPT, lui, ne donne qu’une réponse unique.