Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

chatgpt

Les « crowd workers », qui créent les masses de données d’entraînement des algorithmes de deep learning, utilisent eux-mêmes massivement les grands modèles de langage. Ce cercle vicieux en cours de formation risque d’amplifier les biais déjà en germe dans les modèles existants.

« L’une de nos principales sources de données humaines n’est plus entièrement « humaine » ! », résume sur Twitter Manoel Horta Ribeiro, chercheur à l’École polytechnique fédérale de Lausanne (EPFL).

Dans un article mis en ligne [PDF] sur la plateforme de preprints arXiv et cosigné avec ses collègues Veniamin Veselovsky et Robert West, il affirme qu’une large partie des « crowd workers » utilisent des grands modèles de langage pour accomplir leurs tâches. Ces personnes, payées souvent à la tâche pour créer les amas de données qui serviront ensuite à entraîner les algorithmes de deep learning, proposent leurs services sur la plateforme Mechanical Turk d’Amazon.

La délicate question du sous-traitement des données d’entraînement de l’IA

Veille-cyber

Next IA : les sanctions américaines et le marché noir chinois des puces haut de gamme NVIDIA »

Previous « AI Act : intenses débats en perspective

Published by

Veille-cyber

2 ans ago

Panorama des menaces cyber en 2025

Panorama des menaces cyber en 2025 : Implications pour les entreprises françaises à l'ère de…

6 jours ago

Intelligence Artificielle

Risques émergents de l’Intelligence Artificielle

Introduction L'adoption croissante des technologies d'intelligence artificielle dans le secteur de la santé offre des…

1 semaine ago

Cybercriminalité

Cybersécurité et IA en santé : enjeux stratégiques pour les DSI d’établissements de soins

La révolution IA dans le secteur de la santé : nouveaux défis de cybersécurité La…

1 semaine ago

Cybersécurité

Sécurité des PME : échapper à l’enfer des questionnaires de sécurité

En tant que PME sous-traitante de grands groupes, vous connaissez trop bien ce scénario :…

2 semaines ago

Cybersécurité

Votre entreprise a été cyberattaquée : pourquoi la technologie seule ne vous sauvera pas

Votre entreprise vient de subir une cyberattaque. Dans le feu de l'action, vous avez mobilisé…

2 semaines ago

Cybersécurité

Mieux connaitre vos faiblesses pour mieux vous protéger

"Mais concrètement, à quoi sert un scanner de vulnérabilité pour une entreprise comme la nôtre?"…

2 semaines ago

This website uses cookies.

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

Recent Posts

Panorama des menaces cyber en 2025

Risques émergents de l’Intelligence Artificielle

Cybersécurité et IA en santé : enjeux stratégiques pour les DSI d’établissements de soins

Sécurité des PME : échapper à l’enfer des questionnaires de sécurité

Votre entreprise a été cyberattaquée : pourquoi la technologie seule ne vous sauvera pas

Mieux connaitre vos faiblesses pour mieux vous protéger