Comment la Cour de cassation a créé son outil de pseudonymisation utilisant le machine learning

Western part of Île de la Cité, Paris, North view
Western part of Île de la Cité, Paris, North view

Dans le cadre de la loi République numérique de 2016, les administrations françaises ont peu à peu mis en place des procédures d’automatisation de l’ouverture des données publiques. Pour certains documents, parfois nombreux, la pseudonymisation est un passage préalable légal. Une chercheuse en sociologie a publié une enquête sur l’automatisation de ce processus à la Cour de cassation.

Depuis la loi République numérique votée en 2016, l’État doit mettre, selon son article 20, l’ensemble des décisions de justice « à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées ».

Pour que cette condition de respect de la vie privée soit prise en compte, la Cour de cassation a été chargée de définir puis de mettre en application des règles de pseudonymisation qui permettent, en même temps, de garder tous les liens logiques (ce qui ne serait pas possible, par exemple, avec un simple biffage des noms).

Camille Girard-Chanudet, doctorante en sociologie au Centre d’étude des mouvements sociaux (Cems) de l’EHESS, a passé 6 mois début 2021 au sein du pôle open data du service de la documentation, des études et du rapport (SDER) de la Cour de Cassation. Elle raconte et analyse, d’un point de vue ethnographique dans un article scientifique publié dans la revue RESET, comment s’est passé la conception d’un outil de pseudonymisation utilisant le machine learning au sein de la Cour de cassation.

Source