Translation Slam – Mensch gegen Maschine

Translation Slam – Mensch gegen Maschine

Qualitätskontrolle

In letzter Zeit hört man immer häufiger die Behauptung, dass die neuronale maschinelle Übersetzung (MÜ) der menschlichen Übersetzung (fast) gleichwertig sei, Stichwort „human parity“, bzw. diese sogar übertreffen würde und das ganz ohne menschliche Nachbearbeitung (Post-Editing). In diesem Blogbeitrag möchte ich diese Behauptung genauer unter die Lupe nehmen. Eine Einführung in die neuronale MÜ finden Sie hier.

Was ist ein Translation Slam?

Bei einem sogenannten Translation Slam werden zwei oder mehr Übersetzungen desselben Ausgangstexts gegenübergestellt, wobei es nicht unbedingt um eine Bewertung der besseren Übersetzung geht, sondern vielmehr der Übersetzungsprozess untersucht werden soll.

Auf der Jahreskonferenz der American Translators Association im Jahr 2018 veranstaltete die German Language Division zwei dieser Translation Slams, einen für Übersetzungen vom Deutschen ins Englische und einen für Übersetzungen vom Englischen ins Deutsche. Die Einzelheiten können hier nachgelesen werden. Ich habe mir nun die drei Texte des English>Deutsch-Slams von den Teilnehmerinnen besorgt, vielen herzlichen Dank an Jutta Diel-Dominique, Maren Mentor und Eva Stabenow. Ich werde diese drei Texte nun den Ergebnissen von drei großen maschinellen Übersetzungsengines gegenüberstellen – Bing Microsoft Translator, DeepL und Google Translate. Als Ausgangstext dient ein Beitrag in der New York Times mit dem Titel „How to Get More Women to Be C.E.O.s“ vom 25. Juli 2017.

Wie kann man die Übersetzungsqualität messen?

Nun stellt sich die Frage, wie man denn nun einen derartigen Vergleich durchführen soll. Da es mir in diesem Beitrag darum geht, aufzuzeigen, dass die Behauptung der Gleichwertigkeit der Übersetzungsqualität zwischen Mensch und Maschine doch einigermaßen übertrieben ist, will ich in meinem Mensch-Maschine-Slam die Übersetzungen nicht nur gegenüberstellend diskutieren, sondern auch irgendwie bewerten. Hierzu verwende ich einige übliche Metriken, die oft zur Bewertung der Qualität von maschinellen Übersetzungen verwendet werden.

BLEU – Bilingual Evaluation Understudy

BLEU ist eine der ältesten und am häufigsten verwendeten Metriken, die allerdings auch eine der irreführendsten ist, weil dabei eine zu bewertende Übersetzung Wort für Wort mit einer Referenzübersetzung verglichen wird. Das heißt, Texte mit Umformulierungen oder Synonymen gegenüber dem Referenztext werden schlechter (geringer) bewertet. Unten wird schnell klar, warum derartige Metriken, die Wort für Wort an einer Referenz festhalten, bei neuronaler MÜ wenig sinnvoll und bei der Bewertung von menschlicher Übersetzung völlig sinnlos sind.

METEOR – Metric for Evaluation of Translation with Explicit ORdering

METEOR ist eine weiterentwickelte Metrik, die berücksichtigt, dass man verschiedene Satzteile oft umordnen kann, ohne dabei den Sinn bzw. die Grammatik zu verdrehen. Dennoch erfolgt im Endeffekt wieder ein Wort-für-Wort-Vergleich, womit die Metrik die gleichen Nachteile wie BLEU in Bezug auf Umformulierungen und Synonyme hat.

BLEU bzw. METEOR und verwandte Metriken haben allerdings den Vorteil, dass sie vollkommen automatisch implementiert werden können und daher keine menschliche Intervention notwendig ist. Das ist auch der Grund, warum sie bei der Bewertung von NMÜ allgegenwärtig sind.

Diese Metriken haben aber auch den großen Nachteil, dass weder auf grammatikalische noch sinngemäße Richtigkeit geachtet wird. Wie wir unten sehen werden, kann es also sein, dass eine Übersetzung mit schwerwiegenden Grammatik- oder sonstigen Übersetzungsfehlern besser bewertet wird als eine an sich fehlerfreie Übersetzung, die Synonyme zu den Wörtern im Referenztext einsetzt. Außerdem setzen BLEU und METEOR voraus, dass eine Referenzübersetzung vorliegt, anhand der eine Übersetzung bewertet werden soll. Es stellt sich also die Frage, ob man diese Metriken denn wirklich als „Qualitätsmetriken“ bezeichnen sollte. Eine bessere Bezeichnung wäre „Ähnlichkeitsmetriken“.

MQM – Multidimensional Quality Metrics

Die obengenannten Nachteile eines Wort-für-Wort-Vergleichs sollte MQM beheben, was allerdings menschliches Eingreifen erfordert. Denn bei MQM bewerten möglichst qualifizierte Menschen manuell eine Übersetzung und ordnen die Fehler in verschiedene Kategorien und Klassen ein. Dabei kann es auch zwischen verschiedenen Fachleuten Unstimmigkeiten darüber geben, ob ein Fehler nun kritisch, schwerwiegend oder geringfügig ist, was dann natürlich die Bewertung stark beeinflusst. Automatisierbar ist MQM aufgrund dieser Subjektivität also nicht. Allerdings ist wiederum kein Referenztext erforderlich, und die Fehlerkategorien sind sehr klar definiert.

Translation Slam – Mensch gegen Maschine

Ohne ins technische Detail zu gehen, habe ich nun versucht, anhand der obengenannten Metriken meinen eigenen Mensch-Maschine-Slam durchzuführen. Die Definitionen der einzelnen Metriken sind in den Links oben zu finden. Wie gesagt waren Eva, Jutta und Maren so freundlich, mir ihre Texte zur Verfügung zu stellen, und den Originaltext der New York Times habe ich Anfang August 2021 durch die drei öffentlichen Übersetzungsportale von Bing Microsoft Translator, DeepL und Google Translate gejagt. Hier ist zu betonen, dass die maschinellen Übersetzungsergebnisse Anfang August 2021 erhalten wurden. Diese Ergebnisse können sich jederzeit ändern, da die MÜ-Engines ständig weiterentwickelt werden.

Hierbei stellte sich mir die Frage, wie ich BLEU und METEOR berechnen könnte, ohne einen definitiven Referenztext zu haben. Natürlich hätte ich einfach eine der Übersetzungen der menschlichen Übersetzerinnen auswählen können, aber das wäre reine Willkür ohne wissenschaftliche Grundlage gewesen. Als Lösung habe ich nun alle 6 Übersetzungen jeweils paarweise miteinander verglichen. Hier die Ergebnisse von BLEU und METEOR (Übersetzungen jeweils in alphabetischer Reihenfolge) auf Corpusebene in Abb. 1 gezeigt. Corpusebene bedeutet hier, dass ich jeweils den gesamten Text verglichen habe, so an die 550 Wörter.

BLEU MQM Vergleich

Abb. 1: Ergebnisse der Berechnungen der BLEU- und METEOR-Metriken beim Vergleich der einzelnen Übersetzungspaare

Zum einfacheren Verständnis habe ich die Tabellen farblich codiert. Bei BLEU ist die Maximalwertung 100, die erreicht wird, wenn ein Text mit dem Referenztext identisch ist. Das ist logischerweise beim Vergleich eines Texts mit sich selbst der Fall. Bei METEOR ist die Maximalwertung 1,0, die ebenfalls erzielt wird, wenn ein Text mit dem Referenztext identisch ist. Je mehr ein Text vom Bezugstext abweicht, desto geringer ist in beiden Fällen die Wertung.

Die Ergebnisse in Abb. 1 sind eindeutig. Die maschinellen Übersetzungen sind einander sehr ähnlich (grün codiert, Werte näher bei 100 bzw. 1,0), die menschlichen Übersetzungen sind einander und der MÜ nicht ähnlich (gelb, orange und rot, die exakte Farbe ist ein Artefakt von Excels Algorithmus und daher irrelevant). Wenn man nun die Ergebnisse nach den üblichen Qualitätskriterien bewertet, bedeutet ein BLEU-Wert von 0 bis ca. 20, dass die Übersetzung unbrauchbar schlecht ist. Ebenso ist ein METEOR-Wert zwischen 0 und 0,5 schlecht. Anders ausgedrückt, wenn ich Evas Übersetzung als Referenz hernehmen würde, würden Marens und Juttas Übersetzungen, ebenso wie die der neuronalen MÜ-Engines, qualitätsmäßig ganz schlecht abschneiden. Das Gleiche gilt auch umgekehrt. Allerdings muss hier hervorgehoben werden, dass die Übersetzungen unserer menschlichen Übersetzerinnen selbstverständlich keinerlei Grammatik- oder Sinnfehler enthalten. Die Abweichungen voneinander sind rein stilistisch.

Was ergibt eine MQM-Analyse?

Wie schon gesagt, enthalten die Texte der menschlichen Übersetzerinnen keinerlei Fehler, würden also nach den MQM-Kriterien jeweils mit 100 % bewertet. Bei den maschinellen Übersetzungen sieht die Sache schon anders aus. Die Übersetzungen von Google und DeepL enthielten jeweils einen kritischen Fehler und 4-5 wesentliche Fehler, alle in der Kategorie Fehlübersetzung. Bing machte gleich drei kritische Fehler und ein Dutzend wesentliche Fehler, ebenfalls in der Kategorie Fehlübersetzung. Dazu kommen bei allen drei MÜ-Engines noch weniger wichtige Grammatikfehler. Im Zweifelsfall habe ich die Fehler als weniger schwerwiegend eingestuft, die Bewertung ist also ein Maximalwert und könnte von einer anderen Prüferin bzw. einem anderen Prüfer durchaus schlechter eingestuft werden. Die Ergebnisse sind in Tabelle 1 aufgeführt.

Tabelle 1: MQM-Bewertung der Übersetzungen
EvaJuttaMarenBingDeepLGoogle
MQM-Bewertung100 %100 %100 %18,89 %73,85 %52,26 %

Wie man sieht, ist Bings Übersetzung mangelhaft und DeepL bzw. Google liefern grenzwertige Übersetzungen. Wie schwerwiegend die kritischen Fehler sind, müssen die Anwender der MÜ selbst entscheiden.

Einige ausgewählte Übersetzungsbeispiele

Hier führe ich einige Beispiele der menschlichen Übersetzerinnen und der MÜ kontrastierend auf, dann können Sie selbst entscheiden, wer in diesem Translation Slam die Nase vorne hat.

Der Originaltitel in der New York Times lautet: „How to Get More Women to Be C.E.O.s“. Unsere menschlichen Übersetzungsprofis liefern hier:

Mehr Frauen in der Chefetage: So gelingt’s

Mehr weibliche Führungskräfte braucht das Land.

Mehr Frauen in die Chefetage – aber wie? Ein Wort von denen, die es geschafft haben

Bing liefert:

Wie man mehr Frauen dazu bringen kann, C.E.O.s zu werden

DeepL übersetzt schon freier:

Wie man mehr Frauen in Führungspositionen bringt

Google wiederum bietet:

Wie man mehr Frauen dazu bringt, C.E.O.s zu werden

Weiter unten im Artikel heißt es: „I ticked all the boxes“. Unsere Profis übersetzen:

Ich habe einfach alles gemacht.

Ich habe alles mal mitgemacht.

Ich habe alle Stationen durchlaufen.

Bing und Google hingegen nehmen die Sache viel zu wörtlich und übersetzen beide:

Ich habe alle Kästchen angekreuzt.

DeepL liefert ebenfalls viel zu wörtlich:

Ich habe alle Felder abgehakt.

Und besonders wörtlich geht es bei der MÜ beim Satz „I’d pick their brain“ zu, während unsere Profis natürlich den Sinn richtig wiedergeben:

Ich habe […] ihnen unzählige Fragen gestellt.

[…] um von ihnen durch Fragen lernen zu können.

Ich habe mir bei ihnen Ideen geholt.

Bei Bing und Google denkt man da schon mehr an Neurochirurgie:

Ich würde ihr Gehirn auswählen.

DeepL übersetzt schon etwas besser:

Ich habe mir ihr Wissen angeeignet.

Dieser eine Satz alleine, „I’d pick their brain“, illustriert deutlich, warum Metriken wie BLEU, METEOR, aber ebenso Wortvergleichsmetriken wie BERTScore, die auch Synonyme berücksichtigen, wirklich wenig mit tatsächlicher „Übersetzungsqualität“ zu tun haben, es sei denn, man definiert „Übersetzungsqualität“ als „Ähnlichkeit“. Die menschlichen Übersetzer haben den Sinn des Satzes erfasst und übersetzt und die Übersetzung dann so umstrukturiert und umformuliert, dass der Text flüssig ist und sich nicht wie eine Übersetzung liest. Die Maschinen haben Wort für Wort übersetzt und dabei den Sinn gänzlich (Bing, Google) oder zumindest teilweise verfehlt.

Fazit: Vorsicht bei übereiligen Schlussfolgerungen zur Übersetzungsqualität

Automatische Qualitätsmetriken sind mit Vorsicht zu genießen. Fehlerfreie idiomatische Übersetzungen von menschlichen Sprachmittlern werden schlecht bewertet, wenn sie im Vergleich zur Referenzübersetzung Synonyme verwenden. Qualitätsmetriken, die eine menschliche Bewertung erfordern, sind schon zielführender. Nach den obigen Erkenntnissen würde ich allerdings nie auf die Idee kommen, dass die MÜ der menschlichen bereits gleichwertig oder gar besser ist. Selbstverständlich kommt es auf den Anwendungsfall bzw. die Thematik an. Ich bin sicher, dass Bing, DeepL, Google und Co. zum Beispiel bei einer Gebrauchsanweisung besser abschneiden als im obigen Beispiel. Dennoch ist die Pauschalbehauptung der Gleichwertigkeit zwischen Mensch und Maschine bei Übersetzungen maßlos übertrieben, besonders wenn man professionelle Sprachmittler mit langjähriger Erfahrung mit Maschinen vergleicht.

Digiprove sealCopyright secured by Digiprove © 2021 Carola F Berger

Carola F Berger

Website: https://www.cfbtranslations.com

Carola F. Berger ist eine Patentübersetzerin für die Sprachen Englisch und Deutsch mit einem Doktorat in Physik und einem Abschluss als Diplom-Ingenieurin der Technischen Physik. Sie ist von der American Translators Association für Übersetzungen vom Deutschen ins Englische und vom Englischen ins Deutsche zertifiziert. Carola ist derzeit als Webmaster im Vorstand der Northern California Translators Association und Administratorin von ATAs Science and Technology Division.

Kommentar abgeben

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert