
Nous vous l’expliquions dans un récent article, les travailleurs qui créent les données d’entraînement des modèles d’apprentissage machine utilisent, eux aussi, de manière croissante, des données produites par des modèles génératifs à la ChatGPT.
Problème, démontrent des chercheurs canadiens et britanniques : utiliser des données produites par un modèle génératif à l’entrainement « peut entraîner des défauts irréversibles » dans le modèle algorithmique en construction.
Les auteurs de l’étude parlent d’un « effondrement du modèle ». Auprès de Venture Beat, l’informaticien Ilia Shumailov précise : « nous avons été surpris par la vitesse à laquelle un tel effondrement peut se produire. »
Les modèles génératifs entraînés à partir de données générées par d’autres machines perdent très rapidement le contact avec les données réelles initiales qui ont permis leur entraînement, le nombre d’erreurs dans les résultats fournis augmentant de manière exponentielle.