Satzerkennung

Die von Across eingesetzte Satzerkennung ist regelbasiert, d. h. Across ermittelt auf Grundlage von Regeln, wo ein Satz aufhört und wo ein neuer Satz beginnt.

Über Importieren bzw. Exportieren können Sie die Spracheinstellungen im XML-Format importieren bzw. exportieren.

Satzregeln sind folgendermaßen aufgebaut:

Teil
Funktion
Beispiel
1
Gibt an, welches Trennzeichen die Regel behandelt
[?]
2
Art der Regel, also ob die Regel ein Satzende definiert (+) oder nicht (-).
+ oder -
3
Die eigentliche Regel
[?^_]

Standardsatzregeln

Die folgenden Satzregeln (Standard-Sprache > Satzregeln) werden u. a. standardmäßig in Across verwendet:

Platzhalter
Funktion
[!]+[!^_]
Ein Ausrufezeichen gefolgt von einem Whitespace wird als Satzende interpretiert.
[!]-[!^_^a]
Ein Ausrufezeichen gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert.
[.]+[.^_]
Ein Punkt gefolgt von einem Whitespace wird als Satzende interpretiert.
[.]-[.^_^a]
Ein Punkt gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert.
[.]-[^_^n.]
Ein Whitespace gefolgt von einer einstelligen Zahl und einem Punkt wird nicht als Satzende interpretiert. Mehrstellige Zahlen müssen durch weitere Regeln mit mehrfachen Platzhaltern n abgebildet werden, z. B. [.][^_^n^n.] für eine zweistellige Zahl.
[?]+[?^_]
Ein Fragezeichen gefolgt von einem Whitespace wird als Satzende interpretiert.
[?]-[?^_^a]
Ein Fragezeichen gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert.
[n]+[.\n]
Ein Punkt gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert.
Hintergrund dieser Regel ist, dass insbesondere bei der Lokalisierung von Softwareressourcen die Zeichenfolge \n für einen Zeilenumbruch steht. Gemäß der Regel wird z. B. im folgenden String nach \n ein Satzende gemacht: Kann die Datei nicht laden.\nFehler: 0x%x
[n]+[!\n]
Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert.
[n]+[?\n]
Ein Fragezeichen gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert.
[t]+[.\t]
Ein Punkt gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert.
Hintergrund dieser Regel ist, dass insbesondere bei der Lokalisierung von Softwareressourcen die Zeichenfolge \t für einen horizontalen Tabulator steht. Gemäß der Regel wird z. B. im folgenden String nach \t ein Satzende gemacht: &Suchen...\tStrg+F
[t]+[!\t]
Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert.
[t]+[?\t]
Ein Fragezeichen gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert.

Beispiel:

[.]+[.^_]
Definiert ein Satzende: Ein Punkt (.) gefolgt von einem Whitespace (^_) wird als Satzende gewertet. In der Regel steht der Unterstrich _ für ein Whitespace. Das ^-Zeichen vor dem Unterstrich definiert das folgende Zeichen – also den Unterstrich – als Platzhalter. Ohne das ^-Zeichen würde das folgende Zeichen als normales Zeichen – also tatsächlich als Unterstrich – und nicht als Platzhalter interpretiert.
[.]-[.^_^a]
Definiert hingegen eine Ausnahme für das Beispiel oben: Wird ein Punkt von einem Whitespace und einem Kleinbuchstaben (^a) gefolgt, liegt kein Satzende vor.

In der Wortfolge „Das ist ein Satz. Das ist auch ein Satz.“ steht der erste Punkt demnach für ein Satzende, da er von einem Whitespace gefolgt wird. In der Wortfolge „Aber dies. nicht!“ stellt der Punkt hingegen kein Satzende dar, da auf den Punkt zwar ein Whitespace, aber auch ein Kleinbuchstabe folgt.

Abkürzungen

Einen Sonderfall der Satzregeln stellt die Definition von Abkürzungen dar: Denn nur wenn eine Abkürzung auch als solche definiert ist, wird die Abkürzung in einem Ausgangstext als solche erkannt – und korrekterweise nicht als Satzende interpretiert.

Die Groß- und Kleinschreibung wird bei den Abkürzungen nicht berücksichtigt. Daher wird die Abkürzung „max.“ auch dann als Abkürzung erkannt, wenn in einem Satz z. B. „Max.“ (am Satzanfang) vorkommt.

Die Abkürzungen werden in der Abkürzungsliste nach dem ASCII-Code der Zeichen in aufsteigender Reihenfolge sortiert. Daher werden Abkürzungen, die mit einem Umlaut oder Akzent beginnen, am Ende der Abkürzungsliste angezeigt.

Abkürzungen, die bei der Bearbeitung der Satzerkennung im crossDesk hinzugefügt werden, werden automatisch zu den Spracheinstellungen hinzugefügt.