Contrairement aux premières rumeurs, le prochain modèle de langage d’OpenAI ne devrait pas être capable de traiter 100 trillions de paramètres.

OpenAI est l’entreprise « à but lucratif plafonné » qui édite notamment les outils ChatGPT pour générer des textes et DALL-E pour générer des images.

Ces services sont basés sur des modèles, mis à disposition via une interface de programmation (API). Leur objectif est la compréhension et la génération de langage naturel (NLP) et de code informatique. Ils peuvent être entraînés avec des données, pour répondre à des besoins précis ou affiner les réponses obtenues. La communication avec ces modèles, via l’API d’OpenAI, permet d’obtenir des contenus en soumettant des requêtes rédigées naturellement, avec plus ou moins de paramètres pour ajuster les réponses générées.

La date de sortie de GPT-3

GPT-3 a été présenté par OpenAI le 28 mai 2020. On peut y accéder via l’API de l’éditeur depuis le mois de juillet 2020.

Les paramètres de GPT-3

GPT-3 est un modèle de langage entraîné avec pas moins de 175 milliards de paramètres. Pour comparer : son prédécesseur, GPT-2, était basé sur 1,5 milliard de paramètres. Ces données correspondent au nombre de valeurs que le réseau de neurones essaye d’optimiser durant son entraînement. Ce n’est qu’une donnée parmi d’autres, mais il s’agit d’un élément qui influence la qualité du modèle.

Les modèles d’OpenAI basés sur GPT-3

GPT-3 signifie Generative Pre-trained Transformer 3. Cette technologie se décline en une série de 4 modèles (A, B, C, D) plus ou moins rapides et performants.

Davinci (text-davinci-003) : c’est le modèle le plus avancé. Davinci est particulièrement adapté aux intentions complexes, aux relations de cause à effet et à la création de résumés de contenus.
Curie (text-curie-001) : performant et beaucoup plus rapide. Idéal pour la traduction, la classification complexe, l’analyse de texte et les résumés.
Babbage (text-babbage-001) : un modèle efficace pour les catégorisations plus simples et la classification sémantique.
Ada (text-ada-001) : très rapide et peu coûteux, à privilégier pour les classifications les plus simples, l’extraction de texte et la correction d’adresses.

Source