Des recherches des années 50 à GPT-4 en passant par BERT, quelles évolutions amènent les grands modèles de langage ?

modele langage
modele langage

ChatGPT, Bard et les nouvelles IA linguistiques à la mode sont basées sur la technologie des grands modèles de langage apparue dans la recherche en informatique en 2017. Quelles sont les évolutions dans ce champ depuis la création du premier grand modèle de langage ?

ChatGPT a ouvert la voie aux grands modèles de langage (en anglais, Large language models, LLM) pour toucher le grand public et a permis aux multinationales du numérique comme Google, Microsoft et Baïdu d’utiliser à plus grande échelle une technologie dont elles avaient posé les bases il y a cinq ans déjà.

Mais les LLM sont en fait l’aboutissement d’un champ de recherche un peu plus vieux en informatique. Comme l’explique le chercheur en sciences de l’information et de la communication, Pierre-Carl Langlais, les modèles de langage viennent de la recherche en statistique sémantique née dans l’après deuxième guerre mondiale. À l’époque, des chercheurs d’IBM et de la Georgetown University montent une expérience dont l’idée est de proposer un programme de traduction du russe vers l’anglais.

Les résultats paraissent, en premier lieu, impressionnants, mais la présentation s’avère truquée. « Le programme ne connaît qu’un vocabulaire réduit de 250 mots en russe et en anglais et, surtout, seulement quelques règles de grammaire. Les phrases ont été commodément choisies en amont pour être correctement restituées », explique Pierre-Carl Langlais. Mais c’est suite à cette expérience que d’autres chercheurs vont s’intéresser au sujet. Et Warren Weaver propose de s’intéresser aux mots avant et après celui étudié, ce qu’on appelle une « fenêtre contextuelle ». C’est sur ce principe que les grands modèles de langage sont basés.

Les travaux dans ce champ ne s’arrêteront plus. Mais, selon Pierre Carl Langlais, « Weaver, comme tous les chercheurs qui se pencheront sur le sujet jusqu’aux années 2010, est immédiatement confronté à un écueil majeur : même en se limitant au vocabulaire le plus basique (par exemple quelques milliers de mots), il existe des milliards et des milliards de combinaisons possibles. Indépendamment des limitations techniques des ordinateurs de 1949, recenser toutes ces possibilités est un travail absolument inconcevable ».

Comme dans une grande partie des champs de recherche en intelligence artificielle, c’est avec la popularisation de l’utilisation des réseaux de neurones puis du deep learning que tout va changer.

Source