Blog-Beitrag vom 04.02.2019

Maschinelle Übersetzung und jetzt?

Teil 2 für Unternehmen

„Ich habe gelesen, dass neuronale maschinelle Übersetzungen jetzt genauso gut sind, wie menschliche Übersetzungen. Wir lassen ab sofort alles automatisch übersetzen und führen anschließend ein Post-Editing durch!“

Sind in Ihrem Unternehmen auch schon solche Stimmen laut geworden? Das Thema maschinelle Übersetzung (MÜ) polarisiert extrem und bietet Raum für Spekulationen, Missverständnisse und Mythen.

Denkt ein Unternehmen ernsthaft darüber nach, maschinelle Übersetzung zum Teil des Workflows zu machen, muss ein umfangreiches Projekt initiiert werden, um dieses Vorhaben realistisch und professionell anzugehen.

Ein Artikel von

Flurina Schwendimann
Content Management, Across Systems

Ein Artikel von

Christian Weih
Management Board, Across Systems

Bevor eine Entscheidung getroffen wird, gibt es einige Faktoren, die unbedingt zu berücksichtigen sind.

Die Übersetzungsbranche verändert sich immer schneller und ist stark von den technologischen Weiterentwicklungen abhängig. Im ersten Artikel „Maschinelle Übersetzung und jetzt? Teil 1 für Übersetzer“ wurde deswegen der Fokus auf Übersetzer und ihre Möglichkeiten gelegt, wie sie sich optimal auf die neue Marktlage vorbereiten können.

Für Leser aus dem Unternehmensbereich kann die Lektüre nützlich sein, damit sie sich in die Situation der Übersetzer besser hineinversetzen können. Denn nur, wenn beide Seiten zusammenarbeiten, kann die Einführung eines maschinellen Übersetzungssystems im eigenen Unternehmen erfolgreich verlaufen.

Dieser Artikel enthält einige Hinweise, die als praktische Denkanstöße dienen sollen. Er ersetzt keine umfassende Beratung zu MÜ-Systemen. Die Zusammenarbeit von Unternehmen mit einem professionellen MÜ-Berater ist daher zu empfehlen.

Generische vs. individualisierbare Systeme

Google Translate, DeepL, Microsoft Translator, Amazon Translate und Co. sind generische MÜ-Systeme. Das Hauptmerkmal dieser Systeme ist, dass sie mit großen Datenmengen unterschiedlicher Fachbereiche trainiert wurden. Dies hat zur Folge, dass die Übersetzungen zwar sehr flüssig sind, aber die Terminologie nicht zu jedem Fachbereich passt oder aufgrund fehlender Trainingsdaten in einer konkreten Domäne schlicht falsch übersetzt wird. Deswegen sind generische Systeme eher für Unternehmen geeignet, die keine hochspezialisierte Terminologie verwenden.

Individualisierte Systeme hingegen werden mit kundenspezifischen Daten trainiert, um sowohl die Terminologie als auch die Unternehmenssprache in den Übersetzungen zu berücksichtigen. Das Resultat sind Engines, deren Rohübersetzungen qualitativ hochwertiger sind und ein geringeres Maß an Post-Editing benötigen.

An dieser Stelle gibt es zwei unterschiedliche Ansätze. Manche Anbieter setzen auf eine einzige Engine pro Sprache, die automatisch die verschiedenen Domänen erkennt. Andere Anbieter empfehlen eine individualisierte Engine pro Sprache und Domäne. Bei beiden Ansätzen wird die firmeneigene Terminologie berücksichtigt. Denn oft werden in unterschiedlichen Domänen, zum Beispiel in Vertragstexten und der Technischen Dokumentation, für dasselbe Konzept unterschiedliche Begriffe verwendet.

Die Voraussetzung für eine Individualisierung ist die sorgfältige Pflege von Translation Memorys und Terminologiedatenbanken.

Zu den Anbietern individualisierter Systeme gehören unter anderen SYSTRAN, SmartMATE, KantanMT und Omniscien.

Die Voraussetzung für eine Individualisierung ist die sorgfältige Pflege von Translation Memorys und Terminologiedatenbanken.

Extra Tipp

Der englische Artikel „Machine Learning is Fun Part 5: Language Translation with Deep Learning and the Magic of Sequences” von Adam Geitgey ist hilfreich, um die Grundlagen der maschinellen Übersetzung auf technischer Ebene ohne Hintergrundwissen besser verstehen zu können.

Der richtige Kooperationspartner

Es gibt mittlerweile über 100 Unternehmen, die maschinelle Übersetzung und verwandte Dienstleistungen anbieten.

Um einen Überblick darüber zu geben, erstellte TAUS (Translation Automation User Society) den „Machine Translation Market Report 2017“. Im Bericht (Joscelyne et al. 2017: 27) sind die Anbieter in sechs verschiedene Kategorien unterteilt:

  • Reine MÜ-Anbieter: Die Unternehmen entwickeln MÜ-Systeme, die sie als Lizenz oder als Software-as-a-Service (SaaS) verkaufen. Beispiele solcher Anbieter sind SYSTRAN, PROMT, KantanMT TextShuttle oder Omniscien.
  • Unternehmenseigene MÜ-Systeme: Große Unternehmen wie SAP, IBM oder Oracle investieren vermehrt in die Entwicklung hauseigener MÜ-Systeme, die auf Open-Source-Toolkits wie OpenNMT oder Marian basieren.
  • Übersetzungsdienstleister: Auch Übersetzungsdienstleister entwickeln vermehrt MÜ-Systeme. Beispiele in diesem Bereich sind RWS Moravia oder Capita Translation.
  • MÜ-Reseller: Sie sind Anbieter von Übersetzungstechnologien, die zusätzlich zu den eigenen Dienstleistungen die maschinellen Übersetzungsengines von verschiedenen Anbietern weiterverkaufen. Beispiele sind Memsource, Lingotek und Lingo24.
  • Verwandte Dienstleistungen: Einige Unternehmen spezialisieren sich auf die Beratung über verschiedene Systeme, die Bereitstellung von Trainingsdaten, die Schulung von Mitarbeitern oder die Evaluierung von maschinellen Übersetzungen. Beispiele sind Datamundi, CrossLang und Appen. Unternehmen wie berns language consulting bieten zum Beispiel keine eigene maschinelle Übersetzung an, sondern analysieren unter anderem die Unternehmenstexte, extrahieren die Terminologie, trainieren Engines verschiedener Anbieter mit personalisierten Daten, evaluieren die Ergebnisse und integrieren die maschinelle Übersetzung.
  • Anbieter kostenloser MÜ: Online können Nutzer kostenlos Texte übersetzen lassen, um sich einen Überblick über fremdsprachliche Inhalte verschaffen zu können. Beispiele sind Google Translate oder DeepL.

Sie sollten sich vor der Auswahl eines Kooperationspartners intensiv mit verschiedenen Anbietern auseinandersetzen und die Pros und Contras ausarbeiten. Seien Sie sich bewusst, dass die Einführung eines MÜ-Systems ein langwieriger Prozess ist, bei dem kein kurzfristiger Return-on-Investment gewährleistet ist. Ein guter Kooperationspartner wird Sie auf diese Tatsache aufmerksam machen und Ihnen keine unrealistischen Versprechen geben.

Die Einführung eines MÜ-Systems ist ein langwieriger Prozess, bei dem kein kurzfristiger ROI gewährleistet ist.

Die Qualitätsunterschiede

Wie im ersten Teil dieses Artikels erklärt wurde, eignen sich stilistisch anspruchsvolle Texte nicht besonders gut für die maschinelle Übersetzung. Kurze, standardisierte Sätze eignen sich hingegen optimal für den Einsatz eines MÜ-Systems.

Einige Anbieter haben sich jedoch auf die maschinelle Übersetzung von Marketingtexten spezialisiert. Ob die bereitgestellte Qualität den eigenen Anforderungen gerecht wird, sollte das Unternehmen im Einzelfall prüfen.

Mit der Durchführung eines Pre-Editings kann die Qualität der Rohübersetzungen verbessert werden. Die because Group führte eine Untersuchung zu diesem Themenbereich durch.

Ein Rezept wurde mit Google Translate vom Englischen ins Deutsche übersetzt und erzielte dabei eine Fehlerquote von 9,24 % (50 Fehler in einem Text von 542 Wörtern). Nach der Überarbeitung des Quelltextes in Simplified Technical English reduzierte sich die Fehlerquote auf 7,43 %. In einem letzten Schritt wurde der Quelltext regelbasiert angepasst, wodurch sie eine Fehlerquote von 3,95 % erreichten.

Die Qualität der maschinellen Übersetzung kann mit der Durchführung eines Pre-Editings verbessert werden.

Die Trainingsdaten

In der Informatik gibt es die bekannte Phrase „Garbage In, Garbage Out“. Dieses Konzept bewahrheitet sich auch im Bereich der maschinellen Übersetzung. Denn um eine MÜ-Engine zu individualisieren, sind große themenspezifische Korpora notwendig. Globalese, eine Plattform, auf der individualisierte Engines erstellt werden können, gibt eine Mindestgröße von 100.000 Segmenten pro Engine und Domäne an.

Es stellt sich an dieser Stelle automatisch die Frage, ob maschinelle Übersetzung nur für Unternehmen mit großen Translation Memorys geeignet ist. Jein.

Der ausgewählte Kooperationspartner wird Ihnen verschiedene Möglichkeiten aufzeigen, wie Sie die benötigten Trainingsdaten beschaffen können. Aber die eigenen Translation Memorys und Terminologiedatenbanken sind für die Individualisierung unerlässlich.

Zur Zeit der aktiven Weiterentwicklung statistischer Systeme etablierte sich die Faustregel, dass ein maschinelles Übersetzungssystem besser wird, je mehr Daten eingespeist werden. Dieser Ansatz ist bei der Entwicklung neuronaler Systeme nicht mehr ganz aktuell. Zwar werden auch Unmengen an Daten benötigt (Millionen von Wörtern), jedoch müssen diese auch qualitativ hochwertig und domänenspezifisch sein.

Da die firmeneigenen Daten meistens nicht ausreichen, werden für das Training die eigenen Translation Memorys mit externen domänenspezifischen Korpora angereichert. Die Datenquellen sind dabei unterschiedlich und allgemein in kostenlose und kostenpflichtige Korpora zu unterteilen.

  • Texte des MÜ-Dienstleisters: Ihr Kooperationspartner verfügt in der Regel über Korpora verschiedener Domänen, die je nach Vertragsart entweder direkt zur Verfügung stehen oder separat gekauft werden können.
  • Öffentlich verfügbare Korpora: Online sind kostenlose Korpora verschiedener Fachbereiche zu finden, die für das Training von MÜ-Systemen verwendet werden können. Auf der Website des OPUS-Projekts können Korpora, z. B. vom Europäischen Parlament oder Wikipedia, heruntergeladen werden.
  • Kostenpflichtige Korpora: Es handelt sich dabei um kuratierte Datensätze verschiedener Domänen. Die wichtigste Anlaufstelle dafür ist die Data Cloud von TAUS, mit über 35 Milliarden Wörter in 600 Sprachpaaren.

Extra Tipp

TAUS ist eine der ersten und wichtigsten Anlaufstellen im Zuge der Recherche zur maschinellen Übersetzung. Auf der Website sind zahlreiche Artikel und E-Books zu finden, die eine umfangreiche Informationsquelle darstellen. Empfehlenswerte Lektüren sind:

Für die Entwicklung neuronaler Systeme müssen qualitativ hochwertige und domänenspezifische Daten verwendet werden.

Die Kosten der Implementierung

Wer der festen Überzeugung ist, dass mit maschineller Übersetzung sofort Geld gespart werden kann, den müssen wir an dieser Stelle leider enttäuschen. Ja, auf lange Sicht rentiert sich maschinelle Übersetzung für Unternehmen, die jedes Jahr Millionen von Wörtern übersetzen müssen.

Aber an erster Stelle muss Geld investiert werden: Ein zusätzlicher Projektleiter muss eventuell eingestellt, der Anbieter des MÜ-Systems für seine Dienste bezahlt, die Trainingsdaten gekauft und die Übersetzer bzw. Post-Editoren ausgebildet und bezahlt werden.

Die Zusammenarbeit mit den Übersetzern

Das Projekt kann nur durch eine enge Zusammenarbeit mit den Übersetzern bzw. Post-Editoren am Ende der Lieferkette erfolgreich sein, schließlich ist beim Einsatz maschineller Übersetzung ein Post-Editing zur Qualitätssicherung der Texte notwendig. Denn obwohl mit neuronaler maschineller Übersetzung fast täglich große Qualitätsvorschritte gemacht werden, wird auf Dokumentenebene nicht die Qualität menschlicher Übersetzung erreicht.

Post-Editing ist keine Fähigkeit, die ein Übersetzer automatisch beherrscht, beziehungsweise sich über Nacht aneignen kann. Ein Übersetzer muss lernen, schnell Entscheidungen zu treffen und Korrekturen durchzuführen. Um produktiv zu arbeiten, muss er ca. 7.000 Wörter pro Tag post-editieren, im Vergleich zu den durchschnittlichen 2.000 Wörter pro Tag bei der „klassischen“ Fachübersetzung.

Es kann sinnvoll sein, den Stammübersetzern eine Schulung im Bereich Post-Editing anzubieten.

Es kann daher sinnvoll sein, den Stammübersetzern eine Schulung im Bereich Post-Editing anzubieten. Ihr Unternehmen investiert schließlich viel Geld in eine neuartige Technologie, doch ohne die richtige Expertise am Ende der Lieferkette können die neuen Möglichkeiten nicht optimal genutzt werden.

Eine weitere Erfolgsvoraussetzung ist die angemessene Vergütung der freiberuflichen Übersetzer. Einer der Hauptgründe, weshalb Übersetzer skeptisch gegenüber der Annahme von Post-Editing-Projekten sein können, ist eine ungenügende Bezahlung in Relation zur Qualität der Rohübersetzung.

Dies liegt daran, dass in den letzten Jahren Unternehmen vermehrt Übersetzungen mit generischen Engines erstellten, die unbearbeitet zum Post-Editing geschickt wurden. Aufgrund der hohen Fehlerquote müssen in solchen Fällen die Übersetzungen von Grund auf neu erstellt werden – zu einem Drittel des üblichen Wortpreises.

Eine offene und ehrliche Kommunikation zwischen dem Auftraggeber und Auftragnehmer ist deshalb dringend zu empfehlen. Wenn Sie wissen, dass Ihre eingesetzte Engine viele Fehler produziert, sollten Sie diese Information dem (potenziellen) Übersetzer zur Verfügung stellen und die Vergütung dementsprechend höher anlegen. Wenn die Engine eine niedrigere Fehlerquote produziert, kann der Wortpreis dementsprechend angepasst werden.

Da aber der Editieraufwand im Voraus nicht genau eingeschätzt werden kann, ist beim Post-Editing die Einführung eines Stundensatzes erwägenswert.

In einem letzten Schritt sollte die Endübersetzung zusätzlich lektoriert werden, damit etwaige Fehler in der Endversion nicht bestehen bleiben. Das Vier-Augen-Prinzip sollte auch bei maschineller Übersetzung eingehalten werden, vor allem wenn Unternehmen Übersetzungen nach etablierten Qualitätsstandards anfertigen müssen.

Extra Tipp

Mit dem Translation-Management-System Across Language Server können Sie maschinelle Übersetzung nahtlos in Ihren Übersetzungsprozess integrieren.