Algorithmen können Diskriminierung reproduzieren. Foto: dpa-Zentralbild

Tagtäglich geben wir über unsere Daten zahlreiche persönliche Informationen preis. Welche Gefahren damit einhergehen, ist auch Thema bei der Internetkonferenz Republica.

Berlin - Der Physiker Andreas Dewes, 32, hat ein Faible für Daten – und eine Sorge: dass Bigdata einen schlechten Ruf bekommen könnte, weil Konzerne die Privatsphäre missachten. Auf der Internetkonferenz Republica hat er deshalb dafür geworben, sorgsam mit den Daten der Menschen umzugehen. Im Interview mit Eva Wolfangel erklärt er, wieso ihm das so wichtig ist.

Herr Dewes, wieso wollen Sie als Physiker Bigdata retten?
Ich habe mich bei meiner Arbeit viel mit Datenanalyse beschäftigt und gemerkt, dass sich all die Kurse, die Lehrbücher und Studiengänge fast ausschließlich damit beschäftigen, wie Datenanalyse technisch funktioniert und wie man noch mal fünf Prozent Genauigkeit aus einem System holen kann. Aber niemand hat hinterfragt, ob die Entscheidungen, die Algorithmen treffen, immer fair sind.
Können Algorithmen überhaupt fair sein?
Nein, nicht im menschlichen Sinne, sie haben natürlich kein Bewusstsein für Fairness. Der springende Punkt sind die Trainingsdaten: Man gibt einem System eine große Masse Daten, anhand derer es lernen kann, wie Menschen Entscheidungen treffen. Beispielsweise beim Thema Bewerbungen: Eine Software, die helfen soll, geeignete Kandidaten auszuwählen, bekommt als Trainingsdaten bisherige Entscheidungen von Menschen.
Das heißt, wenn die Menschen unfaire Entscheidungen getroffen haben, beispielsweise rassistisch motivierte, dann tut das die Software auch?
Das ist die Gefahr: Wenn die Eingabedaten verunreinigt sind, beispielsweise durch Diskriminierung, dann reproduziert der Algorithmus das. Schließlich gilt es für ihn, die Entscheidung des Menschen möglichst gut abzubilden. Die große offene Frage ist: Wie kann man Datensätze und Algorithmen gegen solche Dinge absichern?
Solange sie von den Menschen lernen: gar nicht, oder?
Es gibt einen sehr guten Vorschlag aus den USA: Um zu überprüfen, ob Trainingsdaten verunreinigt sind und dadurch unfaire Entscheidungen getroffen werden, müsste man die Zugehörigkeit zu einer potenziell diskriminierten Gruppe in den Daten explizit machen. Über statistische Wahrscheinlichkeit kann man dann testen, ob eine Diskriminierung vorliegt: Kommt diese Gruppe weniger zum Zuge, als sie im Durchschnitt der Gesamtbevölkerung vorliegt? Beispielsweise gibt es in der deutschen IT-Branche deutlich weniger Frauen, als es eigentlich geben müsste. Die entsprechende Qualifikation natürlich eingerechnet.
Und wie kann man dann dafür sorgen, dass der Algorithmus diese diskriminierende Verunreinigung vergisst?
Dafür gibt es keine befriedigende Lösung. Die Algorithmen brauchen die Datengrundlage, um zu diskriminieren, beispielsweise Informationen über das Geschlecht oder die ethnische Zugehörigkeit. Man könnte natürlich sagen: Wir geben ihnen die Daten einfach nicht, wir sagen nicht, ob der Bewerber beispielsweise eine Frau ist. Aber angesichts der Datenmassen können wir nicht sicherstellen, dass sich diese Informationen nicht aus anderen Zusammenhängen rekonstruieren lassen. Über jeden von uns gibt es inzwischen so viele Informationen, dass es kaum mehr möglich ist, wirksam zu anonymisieren. Das ist wie ein Fingerabdruck: Wir hinterlassen einen digitalen Fingerabdruck im Netz, allein durch Daten unserer Smartphones: Welche Apps haben wir, wo bewegen wir uns, mit wem kommunizieren wir, wie häufig etc. Dadurch entstehen Muster, die für jeden Einzelnen charakteristisch sind. Und mittels derer wir zugeordnet werden können.
Gibt es eine Lösung?
Aufklärung ist der erste Schritt: Als mir klar wurde, was man alles mit Daten machen kann, wurde ich zunehmend besorgter über meine eigenen Daten. Seither bin ich vorsichtiger. Deshalb sollten wir Forscher die Menschen besser aufklären, was ihre Daten über sie verraten und dass sie nicht leichtfertig zu viel von sich preisgeben sollen. Das sollte am besten schon in der Schule anfangen.
Aber eine Lösung auf Nutzerebene kann es kaum geben: Die Welt ist digital und wir erzeugen nun mal Daten. Vieles liegt doch gar nicht in unserer Hand, oder?
Aus meiner Sicht braucht es eher eine technische Lösung. Die Gefahr ist ja dann besonders groß, wenn wenige Anbieter viele Daten haben und dadurch Rückschlüsse auf einzelne ziehen können. Es gibt technische Möglichkeiten, diese zu verschlüsseln und dennoch eine Datenanalyse darüber laufen zu lassen.
Warum sollten die großen Konzerne da mitmachen?
Das muss politisch geregelt werden: Man sollte sie zwingen. Solche Lösungen sind aufwendig, aber von den großen Unternehmen wie Google und Facebook kann man das verlangen. Sie sollten zudem ihre Daten für das öffentliche Wohl zur Verfügung stellen. Heute werden so viele politische Entscheidungen ganz ohne Datenbasis getroffen. Datenanalyse ist eine tolle Möglichkeit, unser Leben zu verbessern. Durch den Missbrauch von Daten verspielen wir das Vertrauen der Bevölkerung. Das darf nicht passieren.