Blog DE

Mein neuronales Maschinenübersetzungs-Projekt – Vorwort

In letzter Zeit, wenn ich mich als Übersetzerin, genauer Patentübersetzerin vorstelle, werde ich immer häufiger gefragt, ob ich aufgrund der neuronalen Maschinenübersetzung (MÜ) nicht unter Existenzängsten leide. Normalerweise würde ich einfach auf den neuesten MÜ-Witz verweisen, der in sozialen Netzwerken die Runde macht, und die Sache wäre gegessen. Hier im Silicon Valley, wo selbstfahrende Autos, Drohnen und Roboter-Wachmänner zum Alltag gehören, ist das jedoch nicht ganz so einfach. Darüber hinaus hat das Europäische Patentamt das neue EU-Patent bekannt gegeben, dessen Einführung für Anfang 2018 geplant ist und Übersetzungskosten mithilfe von MÜ sparen soll. Derzeit sieht es jedoch so aus, als ob sich die Einführung verzögern wird.

Nichtsdestotrotz füllt sich auch mein Posteingang immer mehr mit Anfragen zur Nachbearbeitung von maschinell übersetzten Texten. Da ich auch beim Redigieren von von Menschen übersetzten Texten nicht besonders effizient bin, auch wenn die Übersetzung ausgezeichnet ist, bin ich wohl für die Nachbearbeitung von maschinell übersetzten Texten ungeeignet. Da habe ich einfach nicht den Nerv dafür. Deswegen hat sich vor einiger Zeit die folgende Idee in meinem Kopf festgesetzt: Ich will meine eigene neuronale Maschinenübersetzungs-Engine einrichten.

Das hört sich äußerst ambitioniert an, ist jedoch nicht unmöglich. Ich verfüge über jahrelange/jahrzehntelange Erfahrung mit höherer Mathematik (theoretischer Physik) und Computerprogrammierung. Außerdem gibt es mittlerweile mehrere Open-Source-Toolkits für neuronale MÜ, die man zusammen mit verschiedenen Libraries herunterladen kann, unterstützt von Diskussionsforen. Ich könnte also einfach eines dieser Toolkits herunterladen, das neuronale Netz mithilfe verschiedener Open-Source-Korpora trainieren und voila. Aber das wäre viel zu einfach! Und nicht sehr produktiv. Ich will das Netz an einen Punkt bringen, an dem ich es bei der täglichen Arbeit einsetzen kann. Außerdem will ich verstehen, wie die neuronale MÜ wirklich funktioniert, um vielleicht später, nach der maschinellen Apokalypse (die sicher noch weiter entfernt ist, als manche das behaupten) als Beraterin für neuronale MÜ anstatt als MÜ-nachbearbeitende Sklavin zu fungieren. Hierzu werde ich meine Erfahrungen auf diesem Blog dokumentieren. Da ich dieses ambitionierte Projekt nur neben der täglichen Arbeit mache, kann ich jedoch keine allzu regelmäßigen Beiträge versprechen, da der Fortschritt eben von der täglichen Arbeitslast abhängt. Auf keinen Fall wird es ein ‚Live-Blog‘, da ich den Leserinnen und Lesern beim Programmieren unerlässlichen österreichischen Kraftausdrücke ersparen will …

Ich begann mit diesem Projekt vor mehr als einem Jahr mit einem einführenden Kurs von Andrew Ng über maschinelles Lernen auf Coursera. Andrew Ng ist nicht nur einer der Mitbegründer von Coursera und Professor an der Stanford-Universität, er ist außerdem ein ausgezeichneter Vortragender. Er führte alle notwendigen Konzepte im Kurs ein, auf dem (für mich als Physikerin) gerade richtigen mathematischen Niveau mit nicht allzu viel Programmierarbeit (in der symbolischen Sprache MATLAB). Ich kann diesen Kurs als Einführung in das Thema ‚Künstliche Intelligenz‘ nur empfehlen. Allerdings behandelt Andrew Ng in seinem ausgezeichneten Kurs die maschinelle Übersetzung nicht. Nach diesem Kurs belegte ich mehrere Kurse über Robotik (auf Coursera) und künstliche Intelligenz (auf EdX) auf beginnendem Master-Niveau. Ich habe sogar einen autonom navigierenden Rover namens Boticelli konstruiert. Natürlich bin ich noch keine Expertin, aber ich weiß jetzt viel mehr über neuronale Netze und künstliche Intelligenz als der durchschnittliche Amateur. Im Herbst werde ich meine Erkenntnisse in einem Vortrag auf der 58. Jahreskonferenz der American Translators Association zusammenfassen.

Als Nächstes werde ich die notwendige Computer-Hardware kaufen und eines der Open-Source-Toolkits für neuronale MÜ auswählen. Für neuronale Netze braucht man dedizierte Hardware, genauer, hochwertige Grafikprozessoren (GPUs), da die Trainingsphase eines neuronalen Netzwerks praktisch aus sehr vielen Matrixmultiplikationen besteht. Dedizierte GPUs können eine große Anzahl an parallelen Rechenvorgängen ausführen, im Gegensatz zu CPUs, die für serielle Berechnungen am besten geeignet sind. Deshalb wird für eine NMÜ-Engine ein „Gaming-PC“ mit einer VR-fähigen Highend-Grafikkarte benötigt, da ironischerweise die Berechnungen für Computerspiele mit virtueller Realität und die für neuronale Netze für „seriöse“ Anwendungen wie maschinelle Übersetzung ziemlich ähnlich sind.

Mehr zu diesen nächsten Schritten im nächsten Beitrag. Bis zum nächsten Mal!

Artificial Intelligence, Machine Learning, and Neural Networks — künstliche Intelligenz, maschinelles Lernen und neuronale Netze

„Künstliche Intelligenz, maschinelles Lernen und neuronale Netze“ — so lautet der Titel meines Präsentationsvorschlags für die ATA58, die jährliche Konferenz der American Translators Association (ATA), die dieses Jahr zwischen dem 25. und dem 28. Oktober in Washington DC stattfinden wird. Der Vorschlag wurde akzeptiert und mein Vortrag ist vorläufig für Freitag Nachmittag am 27. Oktober im Themenbereich Wissenschaft und Technologie geplant.

künstliches Gehirn

Nachdem ich verschiedene Vorhersagen über den bevorstehenden Untergang der (menschlichen) Übersetzungsbranche bis zum Jahr 2020 gelesen hatte, begann ich mich für das Thema zu interessieren. Da ich diese Endzeitszenarien doch etwas übertrieben fand, wollte ich mehr über diese Thematik wissen. Ich belegte mehrere Online-Kurse auf Coursera und edX zum Thema, einschließlich einiger Kurse auf Master-Niveau, die ziemlich programmierintensiv waren. Meiner nun informierten Meinung nach werden trotz der enormen Fortschritte bei künstlichen neuronalen Netzen zumindest in einigen Sparten auch nach 2020 weiterhin menschliche Übersetzerinnen und Übersetzer benötigt werden. Und wenn die künstlichen neuronalen Netze die sogenannte „Singularität“ erreichen, das heißt, wenn sie wie Menschen denken können, werden wir ohnehin alle obsolet arbeitslos sein.

Künstliche Intelligenz ist ein faszinierendes Thema und ich freue mich darauf, darüber in der Wissenschafts- und Technologieschiene auf der ATA58 sprechen zu dürfen. Da ich bisher noch keinen Kurs zur Computerlinguistik besucht habe, die der maschinellen Übersetzung zugrunde liegt, werde ich dieses Thema nicht in meinem Vortrag behandeln. Das Thema ist jedoch für ATA59 eine Überlegung wert.

Unten nun die Zusammenfassung (auf Englisch) meines geplanten Vortrags:

Artificial Intelligence, Machine Learning, and Neural Networks – an Introduction

From spam filters to stock trading bots, the applications of artificial intelligence are already omnipresent. This poses important questions such as: Will my autonomous vacuum cleaner go on a rampage and eat the hamster? Do neural networks think like brains? What are the chances of a robot uprising? The presentation will address these questions and give an introduction to artificial intelligence, which is impacting all our lives, perhaps more than most people are aware of. However, the talk will not discuss machine translation and related topics. No knowledge of computer science or advanced mathematics is required to attend.

Scam-Warnung für in den USA Selbständige! Corporate Compliance Services

Heute erhielt ich einen neuer Scam in meinem Posteingang, ausnahmsweise in meinem Papier-Posteingang. Ich wurde in einem Brief von einer Organisation namens „Corporate Compliance Services“ aufgefordert, nach Gesetz 92 USC Sec. 999 und so weiter und so fort 84 US-Dollar zu zahlen.

Corporate Compliance Services Scam

Corporate Compliance Services Scam

Natürlich hatten sich die Betrüger schon wieder die falsche Übersetzerin ausgesucht, da es in diesem Fall fast sofort klar war, dass es sich um Betrug handelt.

1. Hinweis: Die Betrüger haben den Brief an meine persönliche Hausadresse gesandt, nicht an meine Firmenadresse. Ich verwende meine Wohnadresse den Behörden gegenüber eigentlich nur für meine persönliche Steuererklärung. Die gesamte Firmenkorrespondenz mit allen städtischen, Bezirks- und bundesstaatlichen Behörden läuft über meine Firmenadresse.

2. Hinweis: Der ganze Brief war auf beiden Seiten wirklich ausgefeilt und sah fast zu offiziell aus. Manche Korrespondenz vom IRS sieht weniger gut aus. Allerdings haben die Betrüger anscheinend keine Rechtschreibprüfung drüber gelassen, da das Wort „Address“ komplett falsch geschrieben ist. Manche senden vielleicht Beiträge auf sozialen Medien mit Rechtschreibfehlern aus, aber ich habe noch nie ein Formular gesehen, das so einen offensichtlichen Rechtschreibfehler enthält.

Ich war versucht, auf das falsche Schreiben mit einer schriftlichen Anweisung zu antworten, das Geld doch von meinem nigerianischen Konto abzubuchen. Allerdings fehlt mir für den Spass die Zeit, außerdem würde das den Betrügern gegenüber meine persönliche Wohnadresse bestätigen.

Update zur dubiosen Website – ein Happy End

Wie bereits berichtet, entdeckte ich dank Google Alerts, dass eine dubiose Website meinen Firmennamen und Auszüge aus meiner Website ohne meine Genehmigung verwendet. Nach einigen Aktionen meinerseits wurde diese Website vor ein paar Wochen deaktiviert und ist seitdem offline.

Site offline

Dubiose Website, nun offline

Im Folgenden werde ich die Chronologie meiner Aktionen beschreiben, die zu diesem positiven Ergebnis geführt haben. Vielleicht hilft das ja den Leserinnen und Lesern, die sich in einer ähnlichen Situation befinden.

0. Schritt: Einrichtung von Google Alerts

Wenn ich nicht mehrere Google Alerts eingerichtet hätte, über die ich sofort informiert werde, wenn mein Name oder mein Firmenname irgendwo online auftaucht, hätte ich nie von den Betrügern erfahren. In diesem Blog-Beitrag finden Sie eine Anleitung hierzu.

1. Schritt: Sofortige Veröffentlichung einer Warnung auf meiner Website

Sofort nach der Meldung durch Google Alerts habe ich eine Warnung auf meiner Website veröffentlicht, in der ich mich gänzlich von dieser dubiosen Website und allen zugehörigen Aktivitäten und Diensten distanzierte. Wenn ich außerdem den leisesten Verdacht gehabt hätte, dass diese Personen meine Kunden kontaktieren oder anderweitig unter meinem Namen neue Kunden anwerben wollten, hätte ich darüber hinaus weitere Warnungen auf allen meinen öffentlichen und halbprivaten Accounts in sozialen Medien und professionellen Vereinigungen veröffentlicht.

2. Schritt: Herausfinden, wer dahinter steckt

Dieser Schritt stellte sich leider als einigermaßen schwierig heraus, da sich der tatsächliche Host unter mehreren Schichten anonymisierter Einrichtungen verbarg. Ich begann mit den Registrierungsinformationen, die man über einen der vielen Whois-Domain-Dienste ausfindig machen kann, zum Beispiel auf http://centralops.net/co/DomainDossier.aspx. Laut Whois und dem Domain-Eintrag war die dubiose Website in Panama registriert. Leider war die Kontaktaufnahme mit dem Domain-Registrar (siehe Schritt 3) nicht zielführend, da dieses Unternehmen angab, nur für die Registrierung des Domänennamens verantwortlich zu sein, nicht aber für den Inhalt der Website. Ich wurde an eine weitere Einrichtung weiterverwiesen, diesmal in China beheimatet, die ebenfalls angab, nicht für den Inhalt verantwortlich zu sein.

Der Domain-Registrar half jedoch mit dem Vorschlag, eine Ping Traceroute durchzuführen, mit der ich den Domänennamen und die IP-Adresse der Einrichtung herausfinden konnte, die den Inhalt der Website tatsächlich hostete. Ein solcher Dienst ist zum Beispiel http://ping.eu/traceroute/. Der letzte Eintrag der Route gibt die gesuchte IP-Adresse und den gesuchten Domänennamen an. Diese Informationen gab ich wiederum in die Whois-Domain-Suche ein und erhielt so den Datensatz zum tatsächlichen Host. Der Host ist in Kanada registriert, aber der Server sitzt laut IP-Adresse im Bundesstaat Utah in den USA, wie ein Dienst wie https://www.iplocation.net zur Ortung einer IP-Adresse ergab. Mit diesen Informationen konnte ich nun endlich wirksam tätig werden.

3. Schritt: Abmahnung zur Unterlassung

Nachdem ich nun endlich der Sache auf den Grund gekommen war, konnte ich eine offiziell klingende Abmahnung per E-Mail an den obengenannten Hosting-Dienst senden. Ich hatte vorher schon Abmahnungen an alle anderen Dienste gesendet, die jedoch abgesehen von fast sofortigen Antworten mit Verweisen auf den nächsten Dienst keine Ergebnisse brachten. Nach dem Senden einer Abmahnung an den Host wurde die fragliche Website sofort am nächsten Tag deaktiviert, obwohl ich nie eine Antwort vom Hosting-Dienst erhielt!

Den Inhalt dieser Abmahnung habe ich einfach anhand von Online-Vorlagen modelliert, um den richtigen Ton zu treffen. Ich habe erwähnt, dass mein Firmenname, der unrechtmäßig verwendet wurde, im Bundesstaat Kalifornien (seit 2010) registriert ist und dass der Inhalt meiner Website, der ohne meine Genehmigung verwendet wurde, urheberrechtlich geschützt ist. Näheres dazu unten. Ich war bereit, weitere Schritte zu unternehmen, was aber glücklicherweise nicht notwendig war.

4. Schritt (nicht unternommen): US-Copyright-Gesetze

Nach dem US Copyright-Gesetz sind alle Werke sofort nach ihrer Veröffentlichung und „greifbaren Festhaltung“ ohne weitere Schritte urheberrechtlich geschützt. Abgesehen vom standardmäßigen „Alle Rechte vorbehalten.“, verwende ich ein WordPress-Plug-in auf meiner Website, das Schnappschüsse des schützbaren Inhalts macht, also diese Inhalte „greifbar festhält“. Hierzu gibt es viele Plug-ins.

Falls die Website nicht deaktiviert worden wäre, hätte ich eine offizielle Abmahnung nach dem US Digital Millennium Copyright Act an den Dienstanbieter gesendet, der die Website hostet. Die Schritte zum Senden einer solchen DCMA-Abmahnung sind hier beschrieben. Glücklicherweise war dies nicht mehr notwendig.

Also Ende gut, alles gut. An dieser Stelle möchte ich mich bei meinen Kollegen für die vielen hilfreichen Tipps bedanken. Außerdem hoffe ich, dass dieser Blogbeitrag eventuell anderen Personen hilft, die sich in einer ähnlichen Situation befinden. Abschließend möchte ich hiermit Kriminelle vor ähnlichen Aktionen warnen, weil ich mich offensichtlich zu wehren weiß.

Warnung: dubiose Website verwendet meinen Firmennamen ohne Genehmigung

Warnung

Die äußerst dubiose Website vancouverctv dot com verwendet meinen Firmennamen und einige Textauszüge von meiner Website ohne meine Genehmigung (und bis gestern auch ohne mein Wissen). Dank Google Alerts wurde ich sofort über diese Website informiert. Mein auf dieser Site illegal verwendete Firmennamen ist im Bundesstaat Kalifornien der Vereinigten Staaten von Amerika seit 2010 registriert. Ferner verletzt die Verwendung meiner Textauszüge den U.S. Digital Millennium Copyright Act.

Auf der gleichen Seite (siehe Screenshots unten) werden außerdem höchst dubiose Dienstleistungen beworben, nämlich das Schreiben von akademischen Artikeln und Aufsätzen. Das bedeutet, über diese Website können Schüler und Studenten ihre Hausarbeiten und Seminararbeiten in Auftrag geben, damit andere diese für sie schreiben. Das ist nur unmoralisch, sondern schlicht und einfach Betrug. Ich habe absolut nichts mit diesen illegalen Dienstleistungen und dieser Website zu tun und distanziere mich hiermit ausdrücklich davon.

Ich bin außerdem im Begriff, rechtliche Schritte gegen die Betreiber dieser Website einzuleiten, falls mein Firmenname nicht umgehend sofort dauerhaft entfernt wird.

Dubios illegal Betrug vancouverctv

Dubiose Website verwendet meinen Firmennahmen ohne Genehmigung.


Dubios illegal Betrug vancouverctv

Dubiose Website verwendet meinen Firmennahmen ohne Genehmigung, 2. Screenshot.