Datenschutz by Design in der Analyse sensibler Daten

Felix Bauer, Gründer von Aircloak im Gespräch mit Lina Scherpe

Felix Bauer, Gründer von Aircloak im Gespräch mit Lina Scherpe 

Aircloak ist ein Unternehmen aus Berlin, dessen Software zur Datenanonymisierung die Analyse oder Nutzung sensibler Datenbestände datenschutzkonform ermöglicht.

Das Thema Datenschutz war zum Inkrafttreten der DSGVO im letzten Jahr in aller Munde. Was hat sich aus Ihrer Sicht seitdem verändert?

Letztes Jahr habe ich vielerorts noch gehört: „Lass uns erst mal das Nötigste tun und ansonsten abwarten, wie ernst die das meinen“. Mit den großen Strafen an Google (50M EUR), Marriot International (110M EUR) und British Airways (200M EUR) haben die Aufsichtsbehörden klar gemacht, dass es sich bei der DSGVO eben nicht um einen Papiertiger handelt. Andererseits ist die große Abmahnwelle, die gerade in Deutschland befürchtet worden war und viele Kindergärten und Vereine ins Chaos stürzte, ausgeblieben.

Auf Seite der Unternehmen hatten sich viele zunächst mit dicken Ordnern, Verzeichnissen und Checklisten auf die DSGVO vorbereitet. Erst dieses Jahr ist der Ansturm auf Datenschutztechnologien – sogenannte Privacy Enhancing Technologies oder, jetzt ganz modern, „PrivTech“ – so richtig groß geworden, auch weil es nun um die Einführung von neuen, datengetriebenen Modellen geht, bei denen von Anfang der Datenschutz an erster Stelle steht.

Die DSGVO gilt nicht für anonymisierte Daten. Was heißt das genau? Wo liegt der Unterschied zu pseudonymisierten Daten?

Bei Monopoly gibt es doch diese nette Karte – „Du kommst aus dem Gefängnis frei“. Ein bisschen ähnelt das der Anonymisierung in der DSGVO. Dort steht im Erwägungsgrund 26:

Die Grundsätze des Datenschutzes sollten […] nicht für anonyme Informationen gelten, d.h. […] personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann.

Das klingt erstmal super – wenn ich meine Daten richtig anonymisiert habe, muss ich die folgenden 100 Seiten gar nicht mehr lesen, denn dann treffen sie ja nicht zu! Leider ist die Sache nicht so einfach. Dass schlechte (!) Anonymisierung schnell auch schief gehen kann, wird immer wieder neu festgestellt, und ging auch erst vor ein paar Wochen wieder durch die Medien.

Auf europäischer Ebene ist die beste Richtlinie und Definition von Anonymisierung eine Stellungnahme der ehemaligen „Article 29 Working Party“, die mittlerweile in das European Data Protection Board eingegliedert wurde. In deren ‚Opinion On Anonymization Techniques‘ wird genau beschrieben, was ein anonymisierter Datensatz zu verhindern hat:

  • Singling Out“, d.h. die Möglichkeit, einzelne Nutzer zu isolieren („nur eine meiner Patientinnen hat Lungenkrebs“)
  • Linking“, d.h. die Möglichkeit, verschiedene Datenpunkte dem gleichen Nutzer zuzuordnen („diese zwei Besuche hier müssen beim gleichen Patienten gewesen sein“) und
  • Inference“, d.h. die Möglichkeit von einem oder mehreren Attributen eindeutig auf weitere Attribute schließen zu können („in meinem Datensatz sind alle Patientinnen unter 40 Jahren leichter als 70kg“)

Daran sieht man schon zwei Probleme: erstens sind das strenge Richtlinien, die grundsätzlich sehr schwer zu erfüllen sind – und zweitens gehen damit unter Umständen wertvolle Informationen verloren. Anonymisierung ist auf der einen Seite also sehr mächtig, aber gleichzeitig eine große Hürde.

Im Gegensatz dazu macht Pseudonymisierung Daten zwar sicherer, weil sie nicht mehr „einfach so“ natürlichen Personen zugeordnet werden können – aber mit entsprechendem Expertenwissen oder Zugriff zu weiteren Daten dann eben doch. Deshalb sagt die DSGVO auch: pseudonymisierte Daten sind immer noch persönlich!

Aircloak bietet eine anonymisierte und risikofreie Datenanalyse. Wie muss man sich das vorstellen und welche Vorteile hat das für Ihre Kunden? Wie wird sichergestellt, dass die Daten nicht de-anonymisiert werden können?

Als wir angefangen haben, am Max-Planck-Institut für Softwaresysteme an dem Thema zu forschen, hatte es bereits viele Probleme mit klassischen Ansätzen gegeben. Insbesondere die übliche Methode, komplexe Datensätze einmal zu anonymisieren und sie dann einfach weiterzugeben, war offensichtlich zum Scheitern verurteilt. Wir haben uns daher zu einer völlig anderen Vorgehensweise entschieden:

  • Unser System sitzt zwischen Datenbank und Analyst und bietet die Möglichkeit der anonymen Auswertung von sensiblen Daten.

Man kann sich das wie einen Filter vorstellen, über den der Analyst normale Datenbankabfragen stellt. Aircloak anonymisiert die Daten maßgeschneidert, basierend auf Parametern in der Abfrage sowie der Verteilung der Daten im Datensatz. Unsere Software ist dabei on-premise, d.h. völlig unter Kontrolle des Kunden (im eigenen Rechenzentrum oder in der eigenen Cloud) und ohne einen Teil, der auf unseren Servern läuft.

  • Unsere Software anonymisiert automatisch, unabhängig von Art der Daten oder Anwendungsfall und immer nach den vorher genannten Richtlinien.

Das bedeutet eine große Flexibilität in der Nutzung, weil man auch auf veränderlichen Datensätzen arbeiten kann. Im Gegensatz zu herkömmlichen Anonymisierungsmethoden ist außerdem keine spezielle Datenschutz-Expertise notwendig. Ist das System einmal aufgesetzt, kann jeder Mitarbeiter sorgenfrei explorative Analysen mit sensiblen Datensätzen durchführen. Vor allem hat man im Vergleich zu anderen Ansätzen eine deutlich höhere Datenqualität und trotzdem ein extrem sicheres System.

Um das sicherzustellen, arbeiten wir eng mit Aufsichtsbehörden zusammen. Außerdem haben wir das weltweit einzige Bug-Bounty Programm für Anonymisierung. Das heißt, wir stellen unser System online und laden Hacker und Datenschutzforscher auf der ganzen Welt ein, Schwachstellen zu finden. Sollte das gelingen, zahlen wir Geld. Die nächste Runde startet diesen Herbst und ich lade ausdrücklich dazu ein, daran teilzunehmen!

Welche Möglichkeiten bietet die Auswertung von anonymisierten Daten im Healthcare-Bereich – insbesondere im Umgang mit Gesundheitsdaten?

Tatsächlich öffnet eine gute Anonymisierung die Türen für eine Vielzahl an Anwendungen. Vom Partnering zwischen einzelnen Parteien – also dem Austausch von Auswertungen über die gesamte ‚Patient Journey‘ hinweg, bei der Daten von vielen verschiedenen Touchpoints zusammengefügt werden können, über direkte Monetarisierung von Daten bis hin zu KI-Anwendungen sind der Fantasie keine Grenzen gesetzt. Viele Beschränkungen fallen weg, wie zum Beispiel die Zweckbindung, die Verpflichtung zum Einholen von Einwilligungen für spezifische Verarbeitung, die zeitliche Beschränkung bei der Aufbewahrung… selbstverständlich jeweils nur, wenn auch ordentlich gearbeitet wurde.

Wir haben zum Beispiel bereits mit großen Unternehmen gearbeitet, die eHealth Apps auf dem Markt haben und die dort gesammelten Daten sowohl intern als auch extern nur mit starker Anonymisierung bereitstellen wollten. Das Risiko einer Datenschutzverletzung sinkt einfach enorm. Ebenfalls habe ich bereits mit Krankenhäusern im Ausland gesprochen, die ihr bisher aufwändiges Reporting an Ministerien mittels anonymisierter Dashboards beschleunigen können.

Welche Herausforderungen gibt es auf technischer Seite und auf Kundenseite im Umgang mit anonymisierten Daten noch zu bewältigen?

Ich sage es ungern, aber: jede Menge! Auf Kundenseite gibt es noch viel zu viele Missverständnisse dazu, was denn nun anonym ist und was nicht. Am liebsten möchten Kunden natürlich den magischen Zauberstab, der ihnen alle Daten mit einem Wisch sicher macht, aber sie genauso nutzbar lässt, wie sie davor auch waren. Dass das teilweise einfach nicht geht – aus logischen, nicht aus technischen Gründen! – kann manchmal nur schwer zu vermitteln sein.

Auf technischer Seite ist sicherlich die größte Herausforderung, maschinelles Lernen möglichst uneingeschränkt mit anonymen Daten zu ermöglichen. Viele Auswertungen lassen sich zwar theoretisch auch ohne persönliche Daten anfertigen, aber darauf sind heute Systeme und Workflows eben nicht ausgelegt. Spannende Ansätze gibt es hier viele – wir arbeiten dafür derzeit an der automatischen Generierung synthetischer Daten.

Grob gesagt bedeutet das: der Computer erstellt mir genau für meine Auswertung einen Datensatz, der die gleichen statistischen Zusammenhänge aufweist wie mein Original, dessen Inhalt auf Personenebene aber „erfunden“ ist.

  • Der Vorteil: Diesen Datensatz kann ich dann nutzen, um z.B. Algorithmen zum maschinellen Lernen zu trainieren.
  • Der Nachteil: die analytische Aussagekräftigkeit solcher Datensätze ist üblicherweise gering und es ist sehr schwer zu zeigen, dass sie wirklich keine persönlichen Daten enthalten.

Wir haben bei Aircloak allerdings eine sehr solide Grundlage, die wir nutzen können, um letzteren Punkt gut zu lösen.

Genau diese Art von Herausforderungen ist es aber auch, die das Thema so spannend macht. Datenschutztechnologien sitzen an der Schnittstelle von Technologie, Digitaler Transformation, Recht, Politik und Sozialem. Das wird ganz sicher nicht langweilig!

 


Foto: www.fraeulein-fotograf.de


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.


Welche Herausforderung wollen Sie meistern?

Lassen Sie uns sprechen