Anonymisierungen sind in öffentlich zugänglich gemachten Gerichtsurteilen ein Mittel, um die Identität von Klägern/innen oder Angeklagten zu schützen. Im konkreten Fall versuchten die Forschenden die Identität von pharmazeutischen Unternehmen herauszufinden, die zwischen 2000 und 2018 in einem Verfahren gegen Preisverfügungen des Bundesamts für Gesundheit (BAG) vor Bundesgericht involviert waren und um welche Arzneimittel es sich handelte.
Technik des Web Scraping
Wie in einem auf higgs.ch erschienenen Artikel mit dem Titel «Die Anonymisierung in Gerichtsurteilen bringt nichts» zu lesen ist, nutzten die Forschenden die Technik des sogenannten Web Scraping. Dabei stellt ein Programm Suchanfragen an eine Website und lädt Dokumente automatisch herunter. So seien die Wissenschaftler in kurzer Zeit an über 120'000 Bundesgerichtsurteile sowie an fast 60'000 Urteile des vorinstanzlichen Bundesverwaltungsgerichts gelangt, die sie dann in einer Datenbank zusammenfassten.
«In diesen Urteilen sind zwar die Namen von Firmen und Medikamenten nicht erkennbar, aber sie enthalten Begriffe, die als sogenannte Pseudo-Identifikatoren genutzt werden können», wird Carmela Troncoso, Leiterin des Labors für Sicherheits- und Datenschutztechnik an der Eidg. Technischen Hochschule Lausanne (EPFL) in dem Artikel zitiert. So könnten beispielsweise die Darreichungsform des Medikaments oder die Art der Preissenkung als Identifikatoren dienen.
Diese Pseudo-Identifikatoren, wie beispielsweise «Fertigspritze», befanden sich auch in öffentlich zugänglichen Informationen wie dem Bulletin des BAG und der Spezialitätenliste von Swissmedic, zusätzlich zu Namen der Firma und Wirkstoff. Durch das Verknüpfen dieser verschiedenen Datensätze konnten die Forschenden die Anonymisierung in 84% der untersuchten Urteile aufheben.
Transparenz versus Datenschutz
Wie eine derartige Re-Identifikation anonymisierter Daten verhindert werden kann, ist laut der Forscherin unklar. Aufgrund des Transparenzprinzips könnten nicht sämtliche fragliche Informationen eingeschwärzt werden und auch Störsignale in Datensätzen, wie beispielsweise die stete Angabe von 20 statt 14,052 Prozent, seien deshalb nicht möglich. «In Fällen, in denen die Informationen öffentlich, exakt und transparent sein müssen, sehe ich derzeit keine Lösung, wie eine De-Anonymisierung verhindert werden kann», wird Carmela Troncoso zitiert.