In der Informatik gibt es die bekannte Phrase „Garbage In, Garbage Out“. Dieses Konzept bewahrheitet sich auch im Bereich der maschinellen Übersetzung. Denn um eine MÜ-Engine zu individualisieren, sind große themenspezifische Korpora notwendig. Globalese, eine Plattform, auf der individualisierte Engines erstellt werden können, gibt eine Mindestgröße von 100.000 Segmenten pro Engine und Domäne an.
Es stellt sich an dieser Stelle automatisch die Frage, ob maschinelle Übersetzung nur für Unternehmen mit großen Translation Memorys geeignet ist. Jein.
Der ausgewählte Kooperationspartner wird Ihnen verschiedene Möglichkeiten aufzeigen, wie Sie die benötigten Trainingsdaten beschaffen können. Aber die eigenen Translation Memorys und Terminologiedatenbanken sind für die Individualisierung unerlässlich.
Zur Zeit der aktiven Weiterentwicklung statistischer Systeme etablierte sich die Faustregel, dass ein maschinelles Übersetzungssystem besser wird, je mehr Daten eingespeist werden. Dieser Ansatz ist bei der Entwicklung neuronaler Systeme nicht mehr ganz aktuell. Zwar werden auch Unmengen an Daten benötigt (Millionen von Wörtern), jedoch müssen diese auch qualitativ hochwertig und domänenspezifisch sein.
Da die firmeneigenen Daten meistens nicht ausreichen, werden für das Training die eigenen Translation Memorys mit externen domänenspezifischen Korpora angereichert. Die Datenquellen sind dabei unterschiedlich und allgemein in kostenlose und kostenpflichtige Korpora zu unterteilen.
- Texte des MÜ-Dienstleisters: Ihr Kooperationspartner verfügt in der Regel über Korpora verschiedener Domänen, die je nach Vertragsart entweder direkt zur Verfügung stehen oder separat gekauft werden können.
- Öffentlich verfügbare Korpora: Online sind kostenlose Korpora verschiedener Fachbereiche zu finden, die für das Training von MÜ-Systemen verwendet werden können. Auf der Website des OPUS-Projekts können Korpora, z. B. vom Europäischen Parlament oder Wikipedia, heruntergeladen werden.
- Kostenpflichtige Korpora: Es handelt sich dabei um kuratierte Datensätze verschiedener Domänen. Die wichtigste Anlaufstelle dafür ist die Data Cloud von TAUS, mit über 35 Milliarden Wörter in 600 Sprachpaaren.