Wie kriegt man mehr Rosa in den Mann? Die Frage hat für Dr. Barbara Hammer, Machine Learning Group, CITEC, durchaus eine wissenschaftliche Komponente. Schließlich beschäftigt sich die Professorin der Universität Bielefeld mit ihrer Forschungsgruppe mit Fairness in KI-Systemen und kommt zu dem Schluss: „Künstliche Intelligenz funktioniert in vielen Bereichen gut, birgt aber auch Risiken und kann zu unfairen Entscheidungen führen.“

Warum beschäftigen Sie sich mit Fairness in KI-Systemen?

Fairness in KI-Systemen ist ein für unsere Gesellschaft hoch relevantes Thema, denn es betrifft viele Lebensbereiche. Zum Beispiel bei der Gesichtserkennung unseres Smartphones, bei Verwaltungsprozessen, der Digitalisierung, Gerichtsentscheidungen, der Jobsuche oder bei der Kreditvergabe kommt KI zum Einsatz. Doch KI bringt auch das Potenzial mit, diskriminierende Biases und Klischees zu verstetigen. Es ist also notwendig, sich damit auseinanderzusetzen. Das geschieht bereits auf EU-Ebene in puncto Gesetzgebung etwa im Rahmen des KI-Acts, aber auch in der Forschung nimmt die Auseinandersetzung seit Jahren exponentiell zu. Seit 2018 gibt es sogar eine eigene Tagung. Die FAccT – die Abkürzung steht für Conference on Fairness, Accountability, and Transparency – bringt jedes Jahr auf internationaler Ebene Forschende und Praktiker*innen aus den Bereichen Informatik, Recht, Sozial- und Geisteswissenschaften zusammen, die an Fairness, Verantwortlichkeit und Transparenz in soziotechnischen Systemen arbeiten. Das macht bereits die Relevanz des Themas deutlich.

Warum ist es wichtig, sich bei der Einführung von
KI-Systemen, die Menschen betreffen, mit Fairness
auseinanderzusetzen?

Eine von ProPublica herausgegebene Studie – dahinter steckt eine 2007 in New York gegründete, durch Stiftungen finanzierte US-amerikanische Non-Profit Organisation für investigativen Journalismus – hat hohe Wellen geschlagen und eine Diskussion darüber entfacht, wie fair KI-Systeme sind. Es ging dabei um folgendes: Mithilfe einer KI-gestützten Risikobeurteilung – dem „Correctional Offender Management Profiling for Alternative Sanctions“ (COMPAS) – wird in den USA das Rückfallrisiko von verhafteten Straffälligen anhand von Daten vorhergesagt. Diese Daten wurden mit Informationen über tatsächliche Rückfälle dieser Personen innerhalb von zwei Jahren nach der ersten Verhaftung abgeglichen. Die Ergebnisse zeigten, dass die KI Fehler macht – wie erwartet, da KI-Verfahren selten 100 Prozent korrekt sind.

Problematisch ist, dass diese Fehler nicht gleichmäßig über verschiedene Gruppen verteilt sind, sondern bestimmte Gruppen systematisch benachteiligt werden: Für People of Colour ist die Falsch Positiv-Rate, also der Anteil der Personen, für die fälschlicherweise ein hohes Rückfallrisiko prognostiziert wird, um 70 Prozent höher als für Menschen mit heller Hautfarbe. In diesem Fall hatte der Algorithmus quasi gelernt, dass die Hautfarbe ein guter Indikator für die Rückfallquote war – obwohl sie nicht direkt als Merkmal in die Studie eingeflossen war, sondern vom Algorithmus aus anderen Merkmalen der Daten implizit erschlossen wurde. Das führt zwangsläufig zu der Frage, welche (formalen) Bedingungen Fairness von durch KI-Modelle vorgeschlagene Entscheidungen garantieren. KI beinhaltet immer auch das Risiko eines Bias, darunter versteht man einen systematischen Prognosefehler. Wenn die Auswirkungen solcher Fehler problematisch sind, muss also agiert werden.

Ist Fairness in KI-Systemen abhängig von der Perspektive?

Es gibt nicht nur die „eine“ Perspektive. Man muss sich entscheiden, was Fairness für einen bestimmten Bereich bedeutet und was für die Situation angemessen ist. Es existieren zahlreiche verschiedene Definitionen von Fairness, die sich häufig formal ausschließen. Man muss etwa zwischen Fairness für einzelne Personen und Fairness von Gruppen unterscheiden. Darüber hinaus können verschiedene Arten von Fehlern für verschiedene Anwendungen unterschiedlich relevant sein:
Bei der Prognose eines Rückfalls ist es wichtig, keine Person unschuldig zu verurteilen, das betrifft die False Positive Rate. Bei der Auswahl von Vertreter*innen in einem Gremium durch KI sollte jede Gruppe prozentual vertreten sein, dieses referenziert auf den Prozentsatz positiver Datenpunkte (Statistical Parity).

Welche Konzepte und Strategien gibt es, um Fairness in KI-Systemen zu erreichen?

Auf der Ebene der Legislative gibt es Empfehlungen auf EU-Seite, den sogenannten AI-Act, welche dann in Landesgesetze umgesetzt werden. Er soll europäischen und internationalen Unternehmen einen Rahmen geben, der bei Entwicklung und Marktzulassung Orientierungspunkte für eine inklusive und verlässliche KI gibt. Auf der technologischen Ebene gibt es Modifikationen der KI Algorithmen, sodass bereits beim Entwurf datenbasierter Modelle auf Fairness geachtet wird. Das kann zum Beispiel heißen, die Gruppen, die weniger vertreten sind, stärker zu berücksichtigen. KI ist nämlich trainiert Muster zu erkennen, ohne einen kausalen Zusammenhang herzustellen. Die Farbe Rosa würde als statistischer Datenwert – in Bezug zu Männern gesetzt – zu dem Ergebnis führen: Männer tragen kein Rosa. Die Frage ist daher: Wie kriegt man mehr Rosa in den Mann? ✔