Why AI needs to learn new languages

ai language

Chatgpt, a chatbot developed by Openai, an American firm, can give passable answers to questions on everything from nuclear engineering to Stoic philosophy. Or at least, it can in English. The latest version, Chatgpt-4, scored 85% on a common question-and-answer test. In other languages it is less impressive. When taking the test in Telugu, an Indian language spoken by nearly 100m people, for instance, it scored just 62%.

Openai has not revealed much about how Chatgpt-4 was built. But a look at its predecessor, Chatgpt-3, is suggestive. Large language models (llms) are trained on text scraped from the internet, on which English is the lingua franca. Around 93% of Chatgpt-3’s training data was in English. In Common Crawl, just one of the datasets on which the model was trained, English makes up 47% of the corpus, with other (mostly related) European languages accounting for 38% more. Chinese and Japanese combined, by contrast, made up just 9%. Telugu was not even a rounding error.

Source

PROBE IT CYBERSECURITE

Veille-cyber

Next AI and crypto mining are driving up data centers’ energy use »

Previous « Selon le patron de la SEC, l’IA sera au cœur de futures crises économiques

Published by

Veille-cyber

2 ans ago

Les 7 menaces cyber les plus fréquentes en entreprise

Introduction La cybersécurité est devenue une priorité stratégique pour toutes les entreprises, grandes ou petites.…

3 mois ago

cybersécurité

Cybersécurité : Vers une montée en compétence des établissements de santé grâce aux exercices de crise

Cybersécurité : les établissements de santé renforcent leur défense grâce aux exercices de crise Face…

3 mois ago

Règlementation

Règlement DORA : implications contractuelles pour les entités financières et les prestataires informatiques

La transformation numérique du secteur financier n'a pas que du bon : elle augmente aussi…

3 mois ago

cybersécurité

L’IA : opportunité ou menace ? Les DSI de la finance s’interrogent

L'IA : opportunité ou menace ? Les DSI de la finance s'interrogent Alors que l'intelligence…

4 mois ago

cybersécurité

Telegram menace de quitter la France : le chiffrement de bout en bout en ligne de mire

Telegram envisage de quitter la France : le chiffrement de bout en bout au cœur…

4 mois ago

cybersécurité

Sécurité des identités : un pilier essentiel pour la conformité au règlement DORA dans le secteur financier

Sécurité des identités : un pilier essentiel pour la conformité au règlement DORA dans le…

4 mois ago

This website uses cookies.

Why AI needs to learn new languages

Recent Posts

Les 7 menaces cyber les plus fréquentes en entreprise

Cybersécurité : Vers une montée en compétence des établissements de santé grâce aux exercices de crise

Règlement DORA : implications contractuelles pour les entités financières et les prestataires informatiques

L’IA : opportunité ou menace ? Les DSI de la finance s’interrogent

Telegram menace de quitter la France : le chiffrement de bout en bout en ligne de mire

Sécurité des identités : un pilier essentiel pour la conformité au règlement DORA dans le secteur financier