Statistische Lexika
Grundlage für die Arbeit mit den unterschiedlichen Funktionen von crossMining sind statistische Lexika. Diese werden maschinell mittels verschiedener Arbeitsschritte und basierend in erster Linie auf dem crossTank-Datenbestand eines Across Language Server erstellt. Optional kann zusätzlich auch der bestehende Terminologiebestand aus crossTerm für die Lexikonerstellung berücksichtigt werden.
Zudem können statistische Lexika auch auf Grundlage von Moses SMT-Phrasentabellen – einem freien System zur statistischen maschinellen Übersetzung – erstellt werden.
Die statistischen Lexika haben die Dateiendung DIC und werden jeweils für ein bestimmtes Sprachpaar angelegt. Die Lexika können für die weiteren crossMining-Funktionen ausschließlich unidirektional verwendet werden – also nur in der bei der Erstellung gewählten Sprachrichtung.
Bevor Sie die statistischen Lexika für die weiteren Funktionen von crossMining weiter verwenden, sollten Sie die Lexikonerstellung auf Grundlage Ihrer spezifischen Daten und ggf. unter Hinzuziehung fachkundiger Hilfe eingehend testen, um auf diese Weise die für Ihre Daten optimalen Werte und Einstellungen zu ermitteln.
Für einen effizienten und qualitativ hochwertigen Einsatz von crossMining ist eine gewisse Menge an Daten (bzw. Übersetzungseinheiten) notwendig. Je weniger Daten für die Berechnung der Wahrscheinlichkeiten zur Verfügung stehen, desto schlechter fallen naturgemäß die Ergebnisse aus. Als grobe Orientierung sollten etwa 10.000 Übersetzungseinheiten (pro Sprachpaar) zur Verfügung stehen – was aber nicht bedeutet, dass nicht auch schon mit weniger Übersetzungseinheiten gute Ergebnisse erzielt werden können.
Denn die Qualität der Ergebnisse hängt auch von der jeweiligen Sprache bzw. Sprachkombination ab. So lassen sich für Sprachen mit einfacheren morphologischen Strukturen wie etwa dem Englischen auch mit relativ wenig Daten gute Ergebnisse erzielen. Dahingegen ist eine zufriedenstellende Ermittlung von Wahrscheinlichkeiten für stark flektierende Sprachen wie z. B. das Finnische erst ab einer größeren Menge an Trainingsdaten möglich. Zudem ist auch die jeweilige Sprachrichtung von Bedeutung.
Die Lexikonerstellung ist sehr ressourcenintensiv und kann daher – je nach Größe des Datenbestands – einige Zeit in Anspruch nehmen. Sie sollten die Lexikonerstellung daher nur durchführen, wenn der Rechner für den Zeitraum der Erstellung nicht oder nur wenig ausgelastet ist.
Die statistischen Lexika können grundsätzlich natürlich beliebig oft erstellt werden. Die Erstellung neuer Lexika ist aber vor allen Dingen dann empfehlenswert, wenn sich insbesondere der crossTank-Datenbestand substantiell verändert hat, also beispielsweise nach dem Import eines großen Translation Memorys oder nach Abschluss eines großen Übersetzungsprojekts. Denkbar ist aber natürlich auch eine regelmäßige Erstellung der Lexika, wie z. B. einmal im Monat.