Les « crowd workers », qui créent les masses de données d’entraînement des algorithmes de deep learning, utilisent eux-mêmes massivement les grands modèles de langage. Ce cercle vicieux en cours de formation risque d’amplifier les biais déjà en germe dans les modèles existants.
« L’une de nos principales sources de données humaines n’est plus entièrement « humaine » ! », résume sur Twitter Manoel Horta Ribeiro, chercheur à l’École polytechnique fédérale de Lausanne (EPFL).
Dans un article mis en ligne [PDF] sur la plateforme de preprints arXiv et cosigné avec ses collègues Veniamin Veselovsky et Robert West, il affirme qu’une large partie des « crowd workers » utilisent des grands modèles de langage pour accomplir leurs tâches. Ces personnes, payées souvent à la tâche pour créer les amas de données qui serviront ensuite à entraîner les algorithmes de deep learning, proposent leurs services sur la plateforme Mechanical Turk d’Amazon.
Mots-clés : cybersécurité, sécurité informatique, protection des données, menaces cybernétiques, veille cyber, analyse de vulnérabilités, sécurité des réseaux, cyberattaques, conformité RGPD, NIS2, DORA, PCIDSS, DEVSECOPS, eSANTE, intelligence artificielle, IA en cybersécurité, apprentissage automatique, deep learning, algorithmes de sécurité, détection des anomalies, systèmes intelligents, automatisation de la sécurité, IA pour la prévention des cyberattaques.






