• Zeige besser passende Version dieser Seite
  • Deutsch
  • English
Kontakt
Newsletter
  • Produkte
    • ALS
      • Across Language Server
        • Übersetzungsmanagement
        • Terminologiemanagement
        • Translation Memory
      • Editionen
      • Schnittstellen
    • ATE
      • Across Translator Edition
      • Editionen
      • Download
      • Across Account
    • Elanion
      • Übersicht
      • Login
  • Lösungen
    • Kunden
      • Unternehmen
      • Sprachdienstleister
      • Übersetzer
    • Branchen
      • E-Commerce & Handel
      • Pharma & Medizin
      • IT & Software
    • Fachbereiche
      • Marketing & E-Commerce
      • Technische Dokumentation
      • Lokalisierung von Software
  • Dienstleistungen
    • Hosting
    • Training
    • Consulting
  • Partner
    • Übersetzungsdienstleister
    • Hochschulen
  • Unternehmen
    • Across Systems
    • News
    • Veranstaltungen
    • Karriere
    • Kontakt
  • Wissen
    • Blog
    • Videothek
    • Case Studys
    • White Papers
    • Fact Sheets
    • Dateiformate
    • Expert Features
  • Support
    • Online-Hilfe
    • FAQ
    • Support-Anfrage
    • Updates
    • Neue Funktionen
Beratungsgespräch vereinbaren
  • Online-Hilfe
  • crossMining
  • Verwendung
  • Mit crossMining arbeiten
  • Statistische Lexika
  • Über crossMining
  • Installation
    • Auf einem Client-PC
      • Generischen Softkey anlegen
        • Speicherung auf Datenträger
        • Versand per E-Mail
      • Generischen Softkey registrieren
  • Verwendung
    • Start
    • Mit crossMining arbeiten
      • Statistische Lexika
        • Erstellung
        • Verteilung
      • Verfügbarkeit statistischer Lexika
        • Autovervollständigung in Across
        • Autovervollständigung testen
      • Terminologie-Harvesting
        • Zielsprachliche Termvervollständigung
        • Zweisprachige Termextraktion
      • Moses SMT-Phrasentabellen
    • crossMining beenden
  • Einstellungen
    • Grundeinstellungen
    • Erweiterte Einstellungen
    • Verbindung
    • Zeichenbehandlung
    • Terminologie-Harvesting
  • Problemlösungen
  • Deinstallation

Statistische Lexika

Grundlage für die Arbeit mit den unterschiedlichen Funktionen von crossMining sind statistische Lexika. Diese werden maschinell mittels verschiedener Arbeitsschritte und basierend in erster Linie auf dem crossTank-Datenbestand eines Across Language Server erstellt. Optional kann zusätzlich auch der bestehende Terminologiebestand aus crossTerm für die Lexikonerstellung berücksichtigt werden.

Zudem können statistische Lexika auch auf Grundlage von Moses SMT-Phrasentabellen – einem freien System zur statistischen maschinellen Übersetzung – erstellt werden.

Die statistischen Lexika haben die Dateiendung DIC und werden jeweils für ein bestimmtes Sprachpaar angelegt. Die Lexika können für die weiteren crossMining-Funktionen ausschließlich unidirektional verwendet werden – also nur in der bei der Erstellung gewählten Sprachrichtung.

Attention

Bevor Sie die statistischen Lexika für die weiteren Funktionen von crossMining weiter verwenden, sollten Sie die Lexikonerstellung auf Grundlage Ihrer spezifischen Daten und ggf. unter Hinzuziehung fachkundiger Hilfe eingehend testen, um auf diese Weise die für Ihre Daten optimalen Werte und Einstellungen zu ermitteln.

Für einen effizienten und qualitativ hochwertigen Einsatz von crossMining ist eine gewisse Menge an Daten (bzw. Übersetzungseinheiten) notwendig. Je weniger Daten für die Berechnung der Wahrscheinlichkeiten zur Verfügung stehen, desto schlechter fallen naturgemäß die Ergebnisse aus. Als grobe Orientierung sollten etwa 10.000 Übersetzungseinheiten (pro Sprachpaar) zur Verfügung stehen – was aber nicht bedeutet, dass nicht auch schon mit weniger Übersetzungseinheiten gute Ergebnisse erzielt werden können.

Denn die Qualität der Ergebnisse hängt auch von der jeweiligen Sprache bzw. Sprachkombination ab. So lassen sich für Sprachen mit einfacheren morphologischen Strukturen wie etwa dem Englischen auch mit relativ wenig Daten gute Ergebnisse erzielen. Dahingegen ist eine zufriedenstellende Ermittlung von Wahrscheinlichkeiten für stark flektierende Sprachen wie z. B. das Finnische erst ab einer größeren Menge an Trainingsdaten möglich. Zudem ist auch die jeweilige Sprachrichtung von Bedeutung.

Die Lexikonerstellung ist sehr ressourcenintensiv und kann daher – je nach Größe des Datenbestands – einige Zeit in Anspruch nehmen. Sie sollten die Lexikonerstellung daher nur durchführen, wenn der Rechner für den Zeitraum der Erstellung nicht oder nur wenig ausgelastet ist.

Tipp

Die statistischen Lexika können grundsätzlich natürlich beliebig oft erstellt werden. Die Erstellung neuer Lexika ist aber vor allen Dingen dann empfehlenswert, wenn sich insbesondere der crossTank-Datenbestand substantiell verändert hat, also beispielsweise nach dem Import eines großen Translation Memorys oder nach Abschluss eines großen Übersetzungsprojekts. Denkbar ist aber natürlich auch eine regelmäßige Erstellung der Lexika, wie z. B. einmal im Monat.

Siehe auch
Moses SMT-Phrasentabellen importieren
Jetzt zum Newsletter anmelden

In unserem Newsletter erhalten Sie alle Neuigkeiten rund um den Across Language Server exklusiv und oft schon vor der offiziellen Bekanntmachung. Auch über Events, Online-Präsentationen und Trainings werden Sie rechtzeitig informiert.

  • Impressum
  • AGB
  • Datenschutz
  • Cookies
  • info@across.net