Diese Fragen zur neuronalen maschinellen Übersetzung (NMÜ)stellen sich heutzutage viele Übersetzerinnen und Übersetzer. Diese Fragen sind nicht einfach zu beantworten. Wenn Sie n Experten fragen, bekommen Sie ca. n+1 unterschiedliche Antworten. Hier einige dieser Expertenmeinungen:
Wikipedia meint (Stand vom 19. März 2021, 13:15):
Neuronale MÜ basiert wie statistische MÜ auf der Analyse von zweisprachigen Texten. Diese Texte werden von einem künstlichen neuronalen Netz angelernt und dabei die Zusammenhänge zwischen Ausgangs- und Zielsprache erfasst. Es kann bei der Übersetzung allerdings nicht nachvollzogen werden, wie das Ergebnis zustande kam, obwohl es viele Texte präziser als die Konkurrenz zu übersetzen scheint.
Jost Zetzsche schreibt (meine Übersetzung):
Schwache KI [künstliche Intelligenz] ist die Fähigkeit einer Maschine, große Mengen an Daten nicht gleichzeitig zu verarbeiten und Vorhersagen ausschließlich auf Grundlage dieser Daten zu treffen. Das haben wir heute, und Computer sind unheimlich gut darin. Viel besser als wir.
Und Edith Vanghelof schreibt in Ihrem Bericht über die TC42-Konferenz, Translating and the Computer, für das UNIVERSITAS Mitteilungsblatt 1/21 (S. 14) (meine Übersetzung):
Am Ende habe ich nicht erfahren, wie die neuronale maschinelle Übersetzung funktioniert, aber ich habe viel darüber erfahren, wie die maschinelle Übersetzung den Übersetzungsmarkt verändert.
Diese Meinungen sind alle richtig, und Sie können weitere Erläuterungen on- und offline finden. Ich selbst habe bereits mehrere Blogbeiträge zum Thema maschinelle Übersetzung geschrieben, allerdings teilweise auf Englisch. Ich werde diese hier vereinfacht zusammenfassen:
Was ist neuronale maschinelle Übersetzung?
Neuronale maschinelle Übersetzung ist einfach nur Mustererkennung.
Wie funktioniert NMÜ?
Das weiß niemand.
Nun bin ich Ihnen vermutlich eine Erklärung schuldig.
Neuronale maschinelle Übersetzung und Mustererkennung
Was versteht man unter maschinellem Lernen?
Fangen wir von vorne an. Zuerst müssen wir einige allgemeinere Begriffe definieren, die oft im Zusammenhang mit neuronaler maschineller Übersetzung genannt werden: künstliche Intelligenz und maschinelles Lernen. Was versteht man unter maschinellem Lernen? Maschinelles Lernen ist die Fähigkeit eines Algorithmus bzw. einer Maschine, interne Parameter selbst anzupassen, um bei einer bestimmten Eingabe eine gewünschte Ausgabe zu erzeugen. Diese internen Parameter sind nicht vorab programmiert, sondern die Maschine „erlernt“ die Parameter durch mehr oder weniger systematisches Ausprobieren. Manchmal involviert dieses Ausprobieren einen extrem komplizierten Algorithmus, aber am Ende ist es doch einfach nur Ausprobieren.
Nun, was ist ein Parameter? Nichtmathematiker können sich einen Parameter als einen virtuellen Drehknopf vorstellen, der justiert werden kann (siehe Abb. 1a). Dieser Drehknopf kann extern (Eingabe- oder Ausgabeparameter) oder intern zum Algorithmus sein.
Vielleicht erinnern Sie sich noch, damals in der Schule, im Physik- oder Mathematikunterricht, als Sie eine Ausgleichsgerade durch ein paar gegebene Punkte in einer Ebene bestimmen sollten (siehe Abb. 1b). Einige von uns mussten diese Gerade von Hand berechnen (menschliches Lernen). Einige Glückliche durften einen Computer mit Excel oder einem anderen Programm verwenden, um die Ausgleichsgerade zu bestimmen. Diese Glücklichen verwendeten maschinelles Lernen. Im Fall einer Geraden erlernte die Maschine also zwei Parameter (Steigung und Position der Geraden). Eine Verallgemeinerung auf drei Dimensionen ist leicht vorstellbar. Leute mit mehr Grafiktalent als ich können sich die Sache vielleicht sogar in vier oder fünf Dimensionen vorstellen.

Fig. 1a) Drehknopf

Fig. 1b) Ausgleichsgerade durch Punkte in Ebene
Aber 175 Milliarden Parameter? Das ist die Anzahl der Parameter von GPT-3, dem derzeit leistungsstärksten Modell für linguistische Datenverarbeitung mittels künstlicher Intelligenz. Es wird behauptet, dass GPT-3 „menschenähnliche Texte“ produziert. Zum Vergleich, wenn ein Mensch zum Beispiel einen Parameter pro Sekunde justieren würde, bräuchte dieser Mensch ganze 5549 Jahre, um alle Parameter von GPT-3 nur einmal zu justieren! Wenn dieser Mensch 175 Parameter pro Sekunde anpassen könnte, wäre die Person immer noch mehr als 31 Jahre damit beschäftigt, ohne zu schlafen! Das ist also eine Menge Parameter!
Was ist künstliche Intelligenz? Können Maschinen denken?
Künstliche Intelligenz (KI) ist der nächste Schritt nach maschinellem Lernen, wobei das Ziel ist, die menschliche Denkfähigkeit zu emulieren. KI wird in zwei Kategorien klassifiziert: allgemeine oder starke KI und schwache bzw. spezialisierte KI. Die schwache KI konzentriert sich auf eine bestimmte Aufgabe oder eine bestimmte Klasse von Aufgaben, wohingegen allgemeine oder starke KI universaler ist, wie der Name schon sagt. Aktuelle KI-Systeme sind alle schwach bzw. spezialisiert.
KI-Systeme versuchen, die biochemischen Prozesse im menschlichen oder tierischen Gehirn nachzuahmen, Neuronen im Gehirn zu emulieren und diese künstlichen Neuronen in komplexen neuronalen Netzen in vielen „tiefen“ Schichten miteinander zu verbinden. Darum wird künstliche Intelligenz auch als mehrschichtiges, tiefes oder tiefgehendes Lernen (Deep Learning) bezeichnet. Diese komplizierten Verbindungen zwischen künstlichen Neuronen (Knoten oder Einheiten) und die Neuronen selbst bilden die Menge der oben erwähnten Parameter.
Eine Eingabe wird in das neuronale Netz eingegeben, diese durchläuft die Schichten des neuronalen Netzes, das schließlich eine Ausgabe erzeugt. Danach passt die Maschine ihre vielen internen Parameter an, um einer gewünschten Ausgabe näher zu kommen. Dies erfolgt üblicherweise iterativ, d. h., man gibt eine Eingabe ein, die Maschine erzeugt eine Ausgabe. Wenn die Ausgabe zu weit von der gewünschten Zielausgabe entfernt ist, werden die internen Parameter justiert und der gesamte Lernprozess wird wiederholt, bis die Ausgabe zum gewünschten Ziel konvergiert. Dieser Prozess wird Training genannt. Bei Millionen oder gar Milliarden von Parametern werden natürlich Unmengen an Rechenressourcen und Zeit benötigt. Außerdem werden ebenfalls Unmengen an Trainingsdaten benötigt. Das ist der Grund, warum künstliche neuronale Netze erst in diesem Jahrtausend verbreitet eingesetzt werden, obwohl die grundlegenden Konzepte bereits Mitte des letzten Jahrhunderts ausgearbeitet wurden. Erst in jüngster Zeit sind Computer leistungsstark genug, um die notwendigen umfangreichen Berechnungen auszuführen. Außerdem gibt es erst seit relativ kurzer Zeit hinreichend viele Trainingsdaten.
Nach erfolgreichem Training kann das neuronale Netz mit einer bestimmten Eingabe eine Ausgabe erzeugen. In einigen Fällen wird sogenanntes adaptives Lernen angewandt, und die Parameter werden fast sofort angepasst. Bedeutet das nun, dass die Maschine denken kann? Nein. Wenn man die Diskussion unbedingt vermenschlichen will, könnte man sagen, dass der derzeitige Stand der künstlichen Intelligenz in gewisser Weise dem tierischen oder menschlichen Instinkt ähnlich ist. Nach einer bestimmten Eingabe wird eine Handlung durchgeführt, die auf einem dem menschlichen, tierischen oder maschinellen Gehirn inhärenten Muster beruht. Nach einer noch nie zuvor gesehenen, ganz neuen Eingabe wird ebenfalls eine Handlung durchgeführt, die auf diesem vorab fest gespeicherten Muster beruht, aber es erfolgt keine Anpassung der Parameter an die neuartige Eingabe (also kein Denken).
Heißt das, dass Maschinen vielleicht in Zukunft denken können? Diese Frage kann heute kein Mensch beantworten, weil niemand genau weiß, wie das biologische Gehirn funktioniert. Natürlich sind die zugrunde liegenden biochemischen Prozesse im Gehirn bekannt, aber niemand kann erklären, wo die Biochemie endet und das Denken beginnt.
Neuronale maschinelle Übersetzung und Kontext
In letzter Zeit gibt es immer wieder Behauptungen, dass NMÜ Kontext „versteht“. Um das Obenstehende zusammenzufassen: NMÜ-Engines führen nichts anderes als Mustererkennung durch. Die Mustererkennung ist zwar sehr komplex, aber doch nur reine Mustererkennung. Ältere statistische maschinelle Übersetzungsengines beruhten auf der Analyse von eingeschränkten Wortclustern, die nebeneinanderliegen (sogenannte N-Gramme), wie unten in Abb. 2 veranschaulicht. Wie zu sehen ist, kann diese Grafik in einer zweidimensionalen Ebene gezeichnet werden, was illustrieren soll, dass statistische MÜ-Engines Kontext nicht wirklich beachteten.

Abb. 2: Grafische Veranschaulichung eines Übersetzungsprozesses zwischen Deutsch und Englisch. Aus G. M. de Buy Wenninger, K. Sima’an, PBML Nr. 101, April 2014, S./nbsp;43.
Wie sieht es bei NMÜ-Engines mit ihren Millionen bis Milliarden an Parametern aus, die in tiefen Schichten auf komplizierte Weise miteinander verknüpft sind? Nun ja, man kann dreidimensionale Verknüpfungen zeichnen, vielleicht auch vier- oder fünfdimensionale, aber darüber hinaus werden die Dinge schwer vorstellbar. Unten zeige ich eine animierte Grafik (von https://projector.tensorflow.org) in dem Versuch, zu illustrieren, wie Wörter in diese hochdimensionalen Modelle aus Mustern mit Millionen bis Milliarden von Parametern eingebettet sind. In der Grafik können Sie sehen, dass einige Wörter näher beieinanderliegen, andere weiter voneinander entfernt sind. Je näher die Wörter beieinanderliegen, desto stärker sind sie miteinander verbunden. Anders ausgedrückt berücksichtigen diese hochdimensionalen Muster Kontext und Zusammenhänge, zumindest in gewissem Sinn. Bedeutet das, dass die Maschine versteht, was sie tut? Nein, ganz sicher nicht.
Neuronale Maschinenübersetzung – unvorhersehbare Ausgaben
Fassen wir nochmals zusammen: NMÜ ist Mustererkennung, und zwar eine sehr komplizierte Mustererkennung mit Millionen bis Milliarden von Parametern. Natürlich können Maschinen Muster erkennen, denen sich Menschen zumindest wissentlich nicht bewusst sind. Manchmal erkennen die Maschinen aber auch Muster, die es gar nicht gibt.
Das bedeutet, wenn eine Eingabe einer Eingabe in den Trainingsdaten oder einer Mischung von Trainingsdaten ähnlich ist, dann kann die Maschine eine Ausgabe erzeugen, die der gewünschten Ausgabe sehr ähnlich ist oder gar gleicht. Falls sich die Eingabe jedoch stark von den Trainingsdaten unterscheidet, dann ist die Ausgabe ganz und gar unvorhersagbar. Ja, Sie haben richtig gelesen, die Ausgabe kann nicht vorhergesagt werden, auch von den Leuten nicht, die den Algorithmus programmiert und trainiert haben. Natürlich kann man den allgemeinen Zustand des neuronalen Netzes berechnen, aber es ist bei Millionen bis Milliarden von miteinander verflochtenen Parametern unmöglich, den präzisen Zustand jedes einzelnen dieser Parameter und daher auch der Ausgabe zu kennen.
Abbildung 4 zeigt ein paar Screenshots von Google Translate vom Juli 2018. (Das sonderbare Verhalten wurde mittlerweile korrigiert, kann also nicht mehr reproduziert werden.) Wenn Sie damals das Wort „dog“ mehrmals eingaben und die Quellsprache „Maori“ auswählten, warnte Google Translate vor dem bevorstehenden Weltuntergang. Natürlich ist die Eingabe kompletter Unsinn, und menschliche Sprachmittler würden Ihnen das auch umgehend mitteilen. Eine Maschine spuckt jedoch eine Ausgabe aus, und diese Ausgabe ist gänzlich unvorhersehbar.

Abb. 4a) Google Translate, Maori nach Englisch, Juli 2018.

Abb. 4b) Google Translate sagt den Weltuntergang vorher, Maori nach English, Juli 2018.
Fazit
Neuronale maschinelle Übersetzung und allgemeine neuronale Netze sind eigentlich nur Mustererkennungs-Engines. Die Muster sind hochkomplex, mit Millionen bis Milliarden an verflochtenen Parametern. Wenn deshalb eine unbekannte Eingabe in ein neuronales Netz erfolgt, ist die Ausgabe des neuronalen Netzes völlig unvorhersehbar.
Das bedeutet konkret für die neuronale maschinelle Übersetzung:
- Garbage in – Garbage out gilt auch weiterhin im Zeitalter der (schwachen) künstlichen Intelligenz. Ein neuronales Netz ist nur so gut wie die Trainingsdaten. Je mehr Parameter in der Engine, desto besser ist die Engine. Allerdings gilt auch: Je mehr Parameter in der Engine, desto mehr Trainingsdaten sind notwendig. Und je besser diese Trainingsdaten, desto besser ist die Engine. Nun raten Sie mal, woher diese Trainingsdaten stammen? Natürlich von menschlichen Sprachmittlern. Deshalb werden menschliche Sprachmittler auch weiterhin benötigt, um diese Engines zu trainieren. Allerdings sollte diese notwendige Dienstleistung nicht unter ihrem Wert verkauft werden.
- NMÜ sind menschlichen Sprachmittlern bei Aufgaben, die stark monoton und sich wiederholend sind, gleichwertig oder sogar besser als diese. Menschen machen Fehler, Maschinen tun das nicht.
- Bei bestimmten Arten von Text wird NMÜ fehlschlagen. Diese Textsorten umfassen stark kreative Texte und Marketingtexte (obwohl Werbung schon auch ziemlich repetitiv sein kann) und allgemein Texte, die sich mit Neuheiten befassen, z. B. Erfindungen, die nicht nur inkrementelle Verbesserungen des Stands der Technik sind.
- NMÜ-Ausgabetexte sind lexikalisch weniger variantenreich als von Menschen geschriebene Texte. Auch Milliarden von Parametern sind trotzdem noch eine endliche Menge, die eine endliche Menge an Wörtern codiert. Diese lexikalische Verarmung wird von bestimmten Qualitätsmetriken für MÜ noch verstärkt, mit denen MÜ-Engines trainiert und bewertet werden. Aber das ist ein Thema für einen eigenen zukünftigen Blogbeitrag. Im Gegensatz dazu sind die menschliche Fantasie und daher die von Menschen geschriebenen Texte unbegrenzt.
Das Obenstehende ist eine Erläuterung von neuronaler Maschinenübersetzung auf hoher Ebene. Eine tiefgehendere, aber trotzdem nicht technische Erklärung von neuronalen Netzen finden Sie hier.
Ich habe hier erläutert, warum die neuronale MÜ nichts anderes als Mustererkennung ist. Was aber geschieht, wenn etwas bei dieser Mustererkennung schiefgeht? Das ist das Thema eines zukünftigen Blogbeitrags. Wenn Sie an der Thematik interessiert sind, abonnieren Sie doch meinen Blog.
Copyright secured by Digiprove © 2021 Carola F Berger