Jetzt habe ich mit diesem Titel wohl Ihre Aufmerksamkeit geweckt. Die folgende Frage wäre jedoch als Titel passender: Ist die neuronale maschinelle Übersetzung (NMÜ) vorurteilsbehaftet? Ich wurde von der Dokumentation Coded Bias (auf Deutsch in etwa „programmierte Vorurteile“) und eine darauf folgende Podiumsdiskussion mit dem Thema „Is AI racist?“ („Ist die künstliche Intelligenz rassistisch?“) zu diesem Blogbeitrag inspiriert. Ich kann die Dokumentation wärmstens empfehlen.
Als weiße Westeuropäerin habe ich Rassismus noch nicht direkt erlebt, deshalb bin ich wohl nicht qualifiziert, einen Blogbeitrag über NMÜ und Rassismus zu schreiben. Als Diplom-Ingenieurin der Technischen Physik und Doktorin der Physik kenne ich mich jedoch leider mit Vorurteilen gegenüber Frauen aus. Am Beginn einer Physikvorlesung an der Uni wurde mir zum Beispiel vom Professor mitgeteilt,
Frauen gehören hinter den Herd.
Das ist ein tatsächliches Zitat, das ich hier jetzt mal unkommentiert in den Raum stelle. Nur so viel: Als schlechteste Köchin der Welt habe ich diesen Rat nicht befolgt, schon alleine, um die Öfen der Welt zu schützen. (Vor Jahrzehnten gelang mir das Kunststück, beim Backen einen Ofen quasi in die Luft zu sprengen.)
Ist die Computerlinguistik von Vorurteilen geplagt?
In der Computerlinguistik, auch linguistische Datenverarbeitung genannt, wird versucht, natürliche Sprache algorithmisch zu verarbeiten. Beispiele dafür sind Chatbots, die maschinelle Übersetzung, virtuelle Assistenten wie Alexa, Siri, Cortana usw. und ähnliche Anwendungen.
Die Antwort auf die Frage in der Überschrift ist ja, die Computerlinguistik kann sehr vorurteilsbehaftet sein. Ein berühmt-berüchtigtes Beispiel dafür ist Tay, ein Chatbot von Microsoft, der programmiert war, wie ein weiblicher Teenager zu tweeten und von den Konversationen mit anderen Twitter-Nutzern zu lernen. Tay wurde am 23. März 2016 auf die Welt losgelassen. 16 Stunden später tweetete der Chatbot Folgendes:

Tay wurde quasi zur Reinkarnation Hitlers auf Twitter.
Was geschah hier mit Tay?
Wie ich schon in meinem vorherigen Beitrag zum Thema NMÜ aufgezeigt habe, ist die künstliche Intelligenz nichts anderes als Mustererkennung oder „Statistik im Turbomodus“. Wenn man bestimmte Muster in ein neuronales Netz einspeist, gibt das neuronale Netz diese Muster in verstärkter Form aus. Anders ausgedrückt, Mist hinein — verstärkter Mist heraus (Garbage in — amplified garbage out). Im Fall von Tay wurde der Austausch auf Twitter mit dem Bot von rechtsextremen Trollen in Beschlag genommen, und das Ergebnis sehen Sie oben. Hierbei ist anzumerken, dass die ursprüngliche Programmierung von Microsoft ziemlich gut war, sodass eine derartige Verwandlung des Bots in nur wenigen Stunden möglich war. Die Programmierung selbst war wohl unvoreingenommen, aber nachdem Twitter-Nutzer stundenlang rassistische und sexistische Daten in den Bot einspeisten, schaltete Tay buchstäblich in den Turbomodus und lief Amok.
In diesem Beitrag werde ich mich mit dem Thema Vorurteile und neuronale maschinelle Übersetzung näher auseinandersetzen, insbesondere in puncto Gendern bei der Übersetzung zwischen Sprachen mit expliziten Geschlechtsformen und solchen ohne derartige Formen.
Ein unvollständiger Überblick über die Fachliteratur
Da ich nicht gerne das Rad neu erfinde, habe ich zuerst die bestehende Fachliteratur zum Thema durchgesehen. Ich hatte eigentlich aufgrund meiner Erfahrung in der Physikforschung erwartet, Hunderte oder gar Tausende an Fachartikeln durchsehen zu müssen. Das Thema Verzerrung und Vorbelastung von künstlicher Intelligenz mit Vorurteilen ist ein wichtiges Thema, und neuronale Netze gibt es schon sein den 40er Jahren. Deshalb war ich ziemlich erstaunt, nur ein paar Dutzend relevante Artikel zu finden, wobei die meisten davon nicht älter als 5 oder 6 Jahre sind.
Hier nun die Ergebnisse meiner Literatursuche:
Das folgende Diagramm veranschaulicht den bestehenden Gender Bias in NMÜ:
Diese Abbildung stammt aus
Prates et al., arXiv:1809.02208, und zeigt die Verteilung von geschlechtsspezifischen Pronomina, die Google Translate bei der Übersetzung verschiedenen naturwissenschaftlichen Berufsbezeichnungen zuordnet. Die Maschine bevorzugt ganz klar männliche Ingenieure gegenüber weiblichen Ingenieurinnen. Das Problem ist jedoch nicht auf Google Translate beschränkt, wie aus der oben erwähnten Literatur ersichtlich ist.
Tatsächlich hat Google das Problem nun für bestimmte Sprachen durch Anzeigen einer Meldung gelöst, dass die Übersetzung geschlechtsspezifisch ist. Hier ein Screenshot bei der Übersetzung aus dem Türkischen ins Englische (ich spreche nicht Türkisch):

Interessanterweise wird diese Meldung bei der Übersetzung vom Türkischen ins Deutsche (zumindest zum Zeitpunkt dieses Artikels, 25.5.2021) nicht angezeigt.
Mein eigenes unwissenschaftliches Experiment zum Gender Bias in der NMÜ
Nach dem Lesen der etwas spärlichen, aber dennoch eindeutigen Forschungsergebnisse, führte ich mein eigenes Experiment mit drei der beliebtesten öffentlichen maschinellen Übersetzungsengines durch, Google Translate, Bing Microsoft Translator und DeepL. Das Experiment war relativ einfach und sehr unwissenschaftlich, aber dennoch sehr aufschlussreich, nicht zuletzt deswegen, weil schon der erste Versuch enorme Stereotypisierung und riesigen Gender Bias aufzeigte. Die Screenshots unten wurden zwischen 20. und 25. Mai 2021 gemacht. Da die großen NMT-Engines dauernd weiterentwickelt werden, kann es sein, dass Ihre eigenen Ergebnisse zu einem anderen Zeitpunkt abweichen.
Vom geschlechtsneutralen Englisch ins geschlechtsspezifische Deutsch
Ich gab den folgenden Satz auf Englisch in Google Translate, Bing Microsoft Translator und DeepL ein:
The translator talked to the secretary and the engineer.
(Der Übersetzer/die Übersetzerin sprach mit dem Sekretär/der Sekretärin und dem Ingenieur/der Ingenieurin.) Auf Englisch ist dieser Satz 100-prozentig geschlechtsneutral. Nun, die drei NMT-Engines gaben folgende Übersetzungen auf Deutsch aus:

Übersetzungen vom Englischen ins Deutsche von Bing Microsoft Translator, Google Translate und DeepL
Wie Sie sehen können, sind die Ausgaben der drei Engines alle gleich. Nicht unerwarteterweise wurde die Bürofachkraft auf Deutsch weiblich und die Ingenieurfachkraft auf Deutsch männlich. Google Translate und DeepL haben beide die Option, alternative Übersetzungen vorzuschlagen. Hierbei kommt Folgendes heraus:

Alternativer Übersetzungsvorschlag von Google Translate

Alternativer Übersetzungsvorschlag von DeepL
Google Translate bietet eine alternative Übersetzung für den gesamten Satz, in der der Übersetzer und der Ingenieur männlich bleiben, aber die Bürofachkraft ist nun ein männlicher Sekretär. DeepL bietet alternative Übersetzungen der einzelnen Wörter, nicht jedoch des gesamten Satzes. Hierbei sind die Alternativvorschläge von DeepL für den Übersetzer fast alle männlich, mit einer geschlechtsneutralen Ausnahme. Die Sekretärin bleibt bis auf zwei geschlechtsneutrale Optionen weiblich. Der Ingenieur bleibt in allen Alternativen männlich.
Da die künstliche Intelligenz quasi nichts anderes als „Statistik mit Turbolader“ ist, sind diese alternativen Vorschläge teilweise nicht unerwartet. Von den Bürofachkräften in Deutschland sind nur fünf Prozent männlich, deshalb ist die Übersetzung als weibliche Sekretärin keine Überraschung. Bei den technischen Berufen sieht die Sache jedoch anders aus. Es wird geschätzt (siehe hier und hier), dass der Frauenanteil in Ingenieurberufen in Deutschland zwischen 20 und 25 Prozent beträgt. Google und DeepL ignorieren offensichtlich ein Fünftel oder gar ein Viertel der Bevölkerung in Ingenieurberufen bei der Übersetzung gänzlich. Andererseits werden die nur 5 Prozent der männlichen Sekretäre im Alternativvorschlag berücksichtigt.
Wie sieht es bei der Übersetzung vom Deutschen ins Englische aus?

Wenn ich versuche, die weiblichen Versionen vom Deutschen ins Englische zu übersetzen, d. h., „Die Übersetzerin sprach mit der Ingenieurin“, dann fragt mich Google Translate ganz hilfreich, ob ich denn nicht den Plural und männliche Ingeniere meinte, noch dazu in grammatikalisch falscher Verwendung. Google kennt anscheinend die weibliche Ingenieurin nicht, obwohl ich diesen Titel dick auf meinem Diplom gedruckt habe. Google Translate versucht also, mich quasi wieder zurück hinter den Herd zu schicken. DeepL und Bing Microsoft Translator halten sich wenigstens mit derartigen Vorschlägen zurück.
Gedanken zu Gendersternchen im Deutschen und Einbettungen von Wörtern in neuronale Netze
Nun stellt sich die Frage, warum diese NMÜ-Engines die Statistiken und Frauenanteile so ganz und gar bei der Übersetzung ignorieren, wo doch NMÜ einfach nur Mustererkennung ist, also 20-25 % der Bevölkerung doch nicht ganz ignorieren sollte. Die Alternativoptionen spiegeln diese Statistiken jedoch nicht wider. Ich hätte eigentlich erwartet, dass die Alternativoptionen statistisch relevant den jeweiligen Frauenanteil berücksichtigen, was definitiv nicht der Fall ist. Jetzt drängt sich bei mir der leise Verdacht auf, dass Gendersternchen, Binnen-Is und Co. hier die Trainingsdaten statistisch verfälschen.
Nebenbei bemerkt, versuche ich bei meinen Texten immer, gegebenenfalls möglichst geschlechtsneutral zu formulieren und Gendersternchen, Gender-Doppelpunkte, Binnen-Is und sonstige Konstruktionen zu vermeiden. Denn bei Verwendung dieser Gender-Konstruktionen, um eine Gruppe von Menschen (Frauen und Nichtbinäre) zu berücksichtigen, wird eine andere Gruppe von Menschen (Sehbehinderte) ausgeschlossen. Denn Gendersternchen, Gender-Doppelpunkte, Binnen-Is usw. erschweren die maschinelle Vorlesbarkeit.
Und deshalb habe ich jetzt den Verdacht, dass diese Konstruktionen eventuell aus denselben Gründen die Einbettungen der Wörter als Zahlenkolonnen im neuronalen Netz ebenfalls behindern. Diese Einbettung wird als Codieren bezeichnet, das von speziellen neuronalen Netzen, sogenannten Encodern, durchgeführt wird. Alle Encoder, die ich in meinen Fortbildungskursen zur Computerlinguistik gesehen habe, behandeln Zeichen, die keine Buchstaben oder Ziffern sind, als Wortbegrenzungszeichen. Es ist daher denkbar, dass Wörter wie „Übersetzer:innen“ oder „Übersetzer*innen“ in „Übersetzer” and „innen“ aufgespalten werden, das neuronale Netz dann mit dem männlichen Übersetzer weiterrechnet und den Teil „innen“ einfach verwirft, weil es nicht weiß, was es damit machen soll. Ich bin hier keine Expertin, kann mich in meiner Vermutung also auch irren, aber das sollte definitiv weiter untersucht werden.
Fazit für Sprachmittler und Fachleute der Computerlinguistik
In der maschinellen Übersetzung ist definitiv ein Gender Bias vorhanden. Beim MTPE, also der Nachbearbeitung und Lektorierung von maschineller Übersetzung sollte dieser Problematik daher besondere Beachtung geschenkt werden. Fachleute der Computerlinguistik sollten die Thematik ebenfalls berücksichtigen und bei der Programmierung von neuronalen Netzen entsprechende Maßnahmen treffen. Natürlich lässt sich das Problem nicht vollständig beseitigen. Aber eine unmittelbar umsetzbare Lösung wäre, wenn öffentliche Apps mit künstlicher Intelligenz die Nutzerinnen und Nutzer entsprechend informieren, wie es Google Translate für das obige Beispiel vom Türkischen ins Englische bereits implementiert hat. Die Nutzerin bzw. der Nutzer kann dann selbst entscheiden, wie sie bzw. er mit dieser Information über die geschlechtsspezifische Übersetzung umgeht.
Sprache ist kein Kuchen. Ein Kuchen (so der Ofen nicht explodiert) kann nur begrenzt in endlich viele Stücke aufgeteilt werden. Sprache ist unendlich und unendlich vielfältig. Das sollten geschriebene und übersetzte Texte auch widerspiegeln, insbesondere wenn diese Texte von Maschinen erstellt werden. Wir müssen nun dafür sorgen, dass diese Maschinen die Realität nicht verzerren und dabei (wenn auch unbeabsichtigt) Leute zurück hinter den Herd schicken!
Literatur:
[1] Savoldi et al., Transaction of the Association for Computational Linguistics (TACL), 2021
[2] Caliskan et al., Science 356, 183–186 (2017); Prates et al., Neural Computing and Applications, arXiv:1809.02208; Stanovsky et al., 57th Annual Meeting of the Association for Computational Linguistics, pp. 1679–1684, 2019; und viele weitere Artikel.
[3] Brown et al., arXiv:2005.14165,
[4] Roberts et al., 34th Conference on Neural Information Processing Systems (NeurIPS 2020), arXiv:2011.13477.
[5] Costa-jussà et al., arXiv:2012.13176 und Sweeney and Najafian, FAT* ’20: Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, pp. 359–368, 2020.
Copyright secured by Digiprove © 2021 Carola F Berger