Datenbereinigungsaktionen für Dubletten

Satzdubletten entfernen

Bei Satzdubletten handelt es sich um doppelte bzw. mehrfache identische Segmente, wobei im Normal- bzw. Regelfall ein Segment immer nur einmal in crossTank vorhanden sein sollte.

Die Aktion Satzdubletten entfernen löscht alle in crossTank vorhandenen Satzdubletten. Dabei werden neben normalen Satzdubletten auch solche Satzdubletten gelöscht, die sich lediglich durch Datums-, Zeit- oder Zahlenformate bzw. durch Placeables, Tags oder Formatierungen unterscheiden. Zusätzlich werden auch alle Übersetzungsdubletten entfernt, da diese während der Löschung von Satzdubletten entstehen können.

Die Aktion unterscheidet zwischen Groß- und Kleinschreibung. Die beiden Sätze bzw. Segmente „Danach Höhe neu einstellen“ und „danach Höhe neu einstellen“ werden folglich nicht als Satzdubletten gewertet.

Die automatische Anpassung bzw. Änderung von Segmenten und Übersetzungseinheiten erfolgt grundsätzlich nur dann, wenn zwei Optionen zum Verhalten von crossTank aktiviert sind. Hierbei handelt es sich zum einen um die Option zur Autoänderung von Datums-, Zeit- oder Zahlenformaten und zum anderen um die Option zur Autoanpassung von Placeables, Formatierungen oder Tags.

Beide Optionen sind standardmäßig aktiviert. Sie finden die Optionen unter Tools > Systemeinstellungen > Allgemein > crossTank.

Satzdubletten nach Text entfernen

Die Aktion Satzdubletten nach Text entfernen ermöglicht es, die Dubletten eines quellsprachlichen Segments auf schnelle und einfache Weise zu bereinigen.

Wenn Sie z. B. in der Fuzzy-Suche von crossDesk oder auch in der Konkordanzsuche des crossTank Manager auf einen Satz mit (vielen) identischen bzw. identisch wirkenden Übersetzungseinheiten stoßen, können Sie auf einfache Weise eine Bereinigung dieser Dubletten durchführen.

Fügen Sie hierzu einen entsprechenden quellsprachlichen Satz, für den u. U. Satzdubletten vorliegen, in das Eingabefeld ein. Passen Sie ggf. noch die Quell- und Zielsprache an, in der die Dubletten bereinigt werden sollen.

  • Die folgenden Arten von Dubletten werden von der Aktion berücksichtigt und ggf. gelöscht:
  • Satzdubletten
  • Satzdubletten mit redundanten Elementen
  • Übersetzungsdubletten

Die Aktion unterscheidet zwischen Groß- und Kleinschreibung. Die beiden Sätze bzw. Segmente „Danach Höhe neu einstellen“ und „danach Höhe neu einstellen“ werden folglich nicht als Satzdubletten gewertet.

Übersetzungsdubletten entfernen

Ein crossTank-Eintrag ist technisch betrachtet eine Verknüpfung zwischen zwei Segmenten (einem Quell- und einem Zielsegment), wobei die Segmente selbst separat in der crossTank-Datenbank gespeichert sind. Übersetzungsdubletten sind doppelte bzw. mehrfache identische crossTank-Einträge, d. h. mehrfache Verknüpfungen derselben Quell- und Zielsegmente. Sie sind somit redundant und werden nicht benötigt.

Die Aktion Übersetzungsdubletten entfernen löscht Übersetzungsdubletten aus dem crossTank-Datenbestand. Übersetzungsdubletten entstehen in der Regel durch Programm- oder Datenbankfehler. Die Aktion löscht die überflüssigen Einträge, so dass nach der erfolgten Löschung nur noch ein einziger crossTank-Eintrag vorliegt

Ein crossTank-Eintrag ist technisch betrachtet eine Verknüpfung zwischen zwei Segmenten (einem Quell- und einem Zielsegment), wobei die Segmente selbst separat in der crossTank-Datenbank gespeichert sind. Übersetzungsdubletten sind doppelte bzw. mehrfache identische crossTank-Einträge, d.h. mehrfache Verknüpfungen derselben Quell- und Zielsegmente. Übersetzungsdubletten sind somit redundant und werden nicht benötigt.

  • Die Löschung von Übersetzungsdubletten unterliegt den folgenden Regeln:
  • Alle vorhandenen Werte von einwertigen Systemattributen müssen identisch sein. Unterscheiden sich zwei Übersetzungseinheiten in einem oder mehreren einwertigen Attributen, erfolgt keine Dublettenbereinigung.
  • Die Werte von mehrwertigen Systemattributen werden verschmolzen.

Satzdubletten mit redundanten Elementen

Across speichert standardmäßig Segmente, die sich lediglich durch bestimmte Elemente unterscheiden, als ein Segment ab. Bei diesen Elementen kann es sich zum einen um Datums-, Zeit- oder Zahlenformate und zum anderen um Placeables, Formatierungen oder Tags handeln.

Das eine gespeicherte Segment wird – soweit möglich – automatisch angepasst, falls z. B. ein Segment, das den gleichen Text, aber andere Zahlen enthält, übersetzt werden muss – sodass auch in diesem Fall ein 100%-Match zur Verfügung steht.

Durch Bedien- oder Programmfehler kann es vorkommen, dass in crossTank mehrere Segmente (Dubletten) vorliegen, die sich lediglich durch Datums-, Zeit- oder Zahlenformate bzw. durch Placeables, Formatierungen oder Tags unterscheiden.

Wenn Tags in den Segmenten vorkommen, werden sowohl solche Segmente bereinigt, die sich lediglich durch Tagnamen unterscheiden, als auch solche, die sich durch Attribute oder Attributwerte unterscheiden.

Die folgenden Beispiele veranschaulichen die Beschaffenheit dieser speziellen Art von Dubletten:

Beispiel 1: Dubletten mit redundanten Zahlen

  • Segment #1: „Schraube 4,5 x 60 mm“
  • Segment #2: „Schraube 5,0 x 60 mm“

Im Normalfall würde in crossTank nur ein einziges Segment vorliegen. Die darin enthaltenen Zahlen würde Across im Bedarfsfall automatisch ändern.

Beispiel 2: Dubletten mit redundanten Tags

  • Segment #1: „Das ist ein <b>Test</b>.“
  • Segment #2: „Das ist ein <i>Test</i>.“

Im Normalfall würde in crossTank nur ein einziges Segment vorliegen. Die darin enthaltenen Tags würde Across im Bedarfsfall automatisch anpassen.