Moses SMT-Phrasentabellen importieren
crossMining ermöglicht auch den Import von Phrasentabellen von Moses SMT – einem freien System zur statistischen maschinellen Übersetzung.
Auf Grundlage der Phrasentabellen lassen sich statistische Lexika erstellen, die – wie die herkömmlichen Lexika, die auf Grundlage des crossTank-Bestandes erstellt werden – zum Terminologie-Harvesting oder zur Autovervollständigung im crossDesk genutzt werden können.
Bei den Phrasentabellen, die mit Moses SMT erstellt werden, handelt es sich um Textdateien, die quellsprachliche Phrasen (also z. B. einzelne Wörter, aber auch mehrere Wörter bis hin zu Sätzen) und ihre – statistisch ermittelten – zielsprachlichen Entsprechungen inklusive statistischer Informationen enthalten.
Der Dictionary Import Wizard hilft Ihnen, ein statistisches Lexikon auf Grundlage einer Moses SMT-Phrasentabelle zu erstellen.
Gehen Sie folgendermaßen vor, um eine Moses SMT-Phrasentabelle zu importieren und daraus ein statistisches Lexikon zu erstellen:
- Starten Sie den Dictionary Import Wizard über Datei > Import.
- Klicken Sie nach Start des Wizards auf Weiter.
- Wählen Sie nun aus, welche Quell- und Zielsprache (und ggf. Subsprache) die Phrasentabelle enthält.
- Klicken Sie auf Weiter.
- Geben Sie nun den Speicherort der Phrasentabelle an, indem Sie auf Durchsuchen klicken.
Die Phrasentabelle kann dabei z. B. als reine TXT- oder alternativ als komprimierte GZ-Datei vorliegen.
Über die Option Kookkurrenzen zählen können Sie ein Trainings-Set bestehend aus einem Paralleltext-Paar (in der Quell- und Zielsprache) festlegen. Im nachfolgenden Wizard-Schritt können Sie eine Mindestanzahl an Kookkurrenzen – also Suchtreffer sowohl im Quell- als auch im Zieltext des Trainings-Sets – für die Lexikonerstellung definieren.
- Klicken Sie auf Weiter.
- Wählen Sie, ab welcher Wahrscheinlichkeit die Terme vorgeschlagen werden. Sie können dabei einen Mindestwert für die Wahrscheinlichkeit der Übereinstimmung zwischen quell- und zielsprachlichem Term angeben.
Zudem können Sie festlegen, dass die Terme erst ab einer bestimmten Zahl von Kookkurrenzen vorgeschlagen werden.
- Abschließend können Sie Einträge in der Phrasentabelle von der Lexikonerstellung ausschließen. Sie können hierzu sowohl für quell- als auch für zielsprachliche Phrasentabelle-Einträge Wörter definieren, die am Anfang oder am Ende der jeweiligen Einträge nicht vorkommen dürfen. Über Anpassen können Sie die entsprechenden Wörter festlegen. Sie können die Wörter wahlweise manuell eingeben, aus einer Datei importieren und/oder die Stoppwort-Liste der jeweiligen Sprache aus Across importieren. Klicken Sie auf Speichern, um die Festlegung der Wörter zu beenden.
- Klicken Sie auf Weiter.
- Legen Sie das Ausgabeverzeichnis für das Lexikon fest. Standardmäßig wird hierfür ein Unterverzeichnis der Gemeinsamen Dateien im Programme-Ordner verwendet.
- Klicken Sie auf Import starten, um mit der Erstellung des statistischen Lexikons zu beginnen.Attention
Die Lexikonerstellung ist sehr ressourcenintensiv und kann daher – je nach Größe der gewählten Phrasentabelle – einige Zeit in Anspruch nehmen. Sie sollten die Lexikonerstellung daher nur durchführen, wenn der Rechner für den Zeitraum der Erstellung nicht oder nur wenig ausgelastet ist.
- Nach Abschluss der Lexikonerstellung wird das Lexikon mit den ermittelten Entsprechungen sowie der jeweiligen Wahrscheinlichkeit und der Zahl der Kookurrenzen angezeigt.
Da die Moses SMT-Phrasentabellen sehr umfangreich sein können und durchaus mehrere Millionen Einträge enthalten können, können entsprechend auch die daraus erstellten statistischen Lexika sehr groß sein. Daher können Sie die ermittelten Entsprechungen durch umfangreiche Filterfunktionen anpassen.
- Um das erstellte Lexikon zu bearbeiten, können Sie Filterkriterien definieren.
Zunächst wählen Sie hierzu einen der drei folgenden Filter:
- Textwert: Filterung auf Grundlage eines beliebigen Texts bzw. einer beliebigen Zeichenfolge.
- Textlänge: Filterung auf Grundlage einer bestimmten Zeichenzahl.
- Zahl: Filterung auf Grundlage der Wahrscheinlichkeit oder der Zahl an Kookkurrenzen.
Nach der Wahl eines Filters können Sie die Spalte wählen, auf die sich das Filterkriterium beziehen soll. Bei der Wahl von Textwert und Textlänge können Sie zwischen dem Quell- und dem Zieltext wählen. Bei Wahl von Zahl können Sie festlegen, dass sich der Filter auf die Wahrscheinlichkeit oder die Zahl der Kookkurrenzen beziehen soll.
Anschließend können Sie den entsprechenden Wert für die Filterung eingeben – also z. B. ein Wort oder Sonderzeichen (bei Wahl von Textwert) oder einen bestimmten Zahlenwert (bei der Wahl von Textlänge und Zahl). In letzterem Fall können Sie einen der folgenden Operatoren verwenden: > (größer), >= (größer gleich), < (kleiner), <= (kleiner gleich), = (gleich).
Klicken Sie auf Hinzufügen, um das Filterkriterium zu übernehmen.
AttentionBitte beachten Sie, dass die Filterung unmittelbar nach dem Hinzufügen eines Filterkriteriums durchgeführt wird. Bei sehr umfangreichen Lexika kann dies einige Zeit in Anspruch nehmen.
- Klicken Sie abschließend auf Speichern, um das statistische Lexikon im festgelegten Ausgabeverzeichnis abzulegen.
- Nachdem das Lexikon im Ausgabeverzeichnis abgelegt wurde, erscheint eine entsprechende Meldung.
Sie können das Lexikon nun – wie die herkömmlichen Lexika, die auf Grundlage des crossTank-Bestandes erstellt werden – für die crossMining-Funktionen der Autovervollständigung sowie des Terminologie-Harvesting nutzen.