ChatGPT

Des recherches des années 50 à GPT-4 en passant par BERT, quelles évolutions amènent les grands modèles de langage ?

ChatGPT, Bard et les nouvelles IA linguistiques à la mode sont basées sur la technologie des grands modèles de langage apparue dans la recherche en informatique en 2017. Quelles sont les évolutions dans ce champ depuis la création du premier grand modèle de langage ?

ChatGPT a ouvert la voie aux grands modèles de langage (en anglais, Large language models, LLM) pour toucher le grand public et a permis aux multinationales du numérique comme Google, Microsoft et Baïdu d’utiliser à plus grande échelle une technologie dont elles avaient posé les bases il y a cinq ans déjà.

Mais les LLM sont en fait l’aboutissement d’un champ de recherche un peu plus vieux en informatique. Comme l’explique le chercheur en sciences de l’information et de la communication, Pierre-Carl Langlais, les modèles de langage viennent de la recherche en statistique sémantique née dans l’après deuxième guerre mondiale. À l’époque, des chercheurs d’IBM et de la Georgetown University montent une expérience dont l’idée est de proposer un programme de traduction du russe vers l’anglais.

Les résultats paraissent, en premier lieu, impressionnants, mais la présentation s’avère truquée. « Le programme ne connaît qu’un vocabulaire réduit de 250 mots en russe et en anglais et, surtout, seulement quelques règles de grammaire. Les phrases ont été commodément choisies en amont pour être correctement restituées », explique Pierre-Carl Langlais. Mais c’est suite à cette expérience que d’autres chercheurs vont s’intéresser au sujet. Et Warren Weaver propose de s’intéresser aux mots avant et après celui étudié, ce qu’on appelle une « fenêtre contextuelle ». C’est sur ce principe que les grands modèles de langage sont basés.

Les travaux dans ce champ ne s’arrêteront plus. Mais, selon Pierre Carl Langlais, « Weaver, comme tous les chercheurs qui se pencheront sur le sujet jusqu’aux années 2010, est immédiatement confronté à un écueil majeur : même en se limitant au vocabulaire le plus basique (par exemple quelques milliers de mots), il existe des milliards et des milliards de combinaisons possibles. Indépendamment des limitations techniques des ordinateurs de 1949, recenser toutes ces possibilités est un travail absolument inconcevable ».

Comme dans une grande partie des champs de recherche en intelligence artificielle, c’est avec la popularisation de l’utilisation des réseaux de neurones puis du deep learning que tout va changer.

Source 

Veille-cyber

Share
Published by
Veille-cyber

Recent Posts

VPN : un outil indispensable pour protéger vos données

VPN : un outil indispensable pour protéger vos données Le VPN, ou « Virtual Private…

10 heures ago

Cybersécurité et PME : les risques à ne pas sous-estimer

Cybersécurité et PME : les risques à ne pas sous-estimer On pense souvent que seules…

2 jours ago

Phishing : comment reconnaître une attaque et s’en protéger efficacement

Comment reconnaître une attaque de phishing et s’en protéger Le phishing ou « hameçonnage »…

5 jours ago

Qu’est-ce que la cybersécurité ? Définition, enjeux et bonnes pratiques en 2025

Qu’est-ce que la cybersécurité ? Définition, enjeux et bonnes pratiques en 2025 La cybersécurité est…

5 jours ago

Cybersécurité : Vers une montée en compétence des établissements de santé grâce aux exercices de crise

Cybersécurité : les établissements de santé renforcent leur défense grâce aux exercices de crise Face…

1 semaine ago

L’IA : opportunité ou menace ? Les DSI de la finance s’interrogent

L'IA : opportunité ou menace ? Les DSI de la finance s'interrogent Alors que l'intelligence…

2 semaines ago

This website uses cookies.