Dans les jugements qui sont rendus publics, l’anonymisation est un moyen de protéger l’identité des plaignants ou des accusés. Dans le cas présent, des scientifiques ont cherché à découvrir l’identité d’entreprises pharmaceutiques impliquées entre 2000 et 2018 dans une procédure contre des décisions de l’Office fédéral de la santé publique (OFSP) en matière de prix et à identifier les médicaments en question.
Technique du web scraping
Comme le révèle un article paru en allemand sur le site higgs.ch et consacré à l’anonymisation dans les décisions judiciaires (« Die Anonymisierung in Gerichtsurteilen bringt nichts »), les chercheurs/euses ont utilisé la technique du web scraping. Un programme envoie des requêtes à un site web tout en téléchargeant automatiquement des documents. En très peu de temps, les scientifiques ont accédé à plus de 120 000 arrêts du Tribunal fédéral et à près de 60 000 arrêts de l’instance précédente, le Tribunal administratif fédéral, qu’ils ont rassemblés dans une base de données.
« Les noms des entreprises et des médicaments n’apparaissent pas dans ces arrêts, mais il y a des termes qui peuvent servir de pseudo-identifiants », explique Carmela Troncoso, responsable du Laboratoire d’ingénierie de sécurité et privacy à l’École polytechnique fédérale de Lausanne (EPFL) dans cet article. La forme d’administration du médicament ou la nature de la baisse de prix peuvent par exemple faire office d’identifiants.
Ces pseudo-identifiants (p. ex. « seringue prête à l’emploi ») figuraient également dans des documents publiquement accessibles tels que le Bulletin de l’OFSP ou la liste des spécialités de Swissmedic, en plus des noms de l’entreprise et du principe actif. En croisant ces différents fichiers de données, les chercheurs/euses ont pu lever l’anonymisation dans 84% des jugements sous revue.
Transparence vs protection des données
La chercheuse ne sait pas comment empêcher une telle ré-identification des données anonymisées. Au nom du principe de transparence, il n’est pas possible de caviarder toutes les informations en question ni de brouiller les pistes dans les fichiers de données, par exemple en indiquant chaque fois 20 au lieu de 14,052%. « Dans les cas où les informations doivent être accessibles au public, exactes et transparentes, je ne vois actuellement aucune solution permettant d’empêcher une dé-anonymisation », conclut Carmela Troncoso.