Was sind reguläre Ausdrücke?
Ein regulärer Ausdruck (engl. regular expression, Abk. RegEx) ist eine Zeichenkette, mit der eine Menge von Zeichenketten beschrieben wird. Ihren Ursprung haben sie vor allem in der Softwareentwicklung.
Sie dienen als eine Art erweitertes Suchkriterium und bieten vielfältige Möglichkeiten zur Qualitätssicherung. Eine der wohl bekanntesten Anwendungen ist die Funktion „Suchen & Ersetzen“ in vielen Texteditoren. Als Filterkriterium eingesetzt, wird z. B. ein Text nach dem Muster des regulären Ausdrucks abgeglichen. So können bestimmte Zeichenabfolgen in Dokumenten schnell gefunden werden. Die Beschreibung regulärer Ausdrücke folgt einer eigenen Syntax und Semantik. Wirken sie auf den ersten Blick auch komplex, ist es gar nicht so schwer, sie zu nutzen. Nützliche Hilfestellungen bei der Erstellung von regulären Ausdrücken bieten Portale wie z. B. regexr.com oder regular-expressions.info.
Einfache Beispiele für die Anwendung von RegEx zur Suche in einem Text:
Konkrete Suche
Suche nach allen Vorkommnissen der Bezeichnungen „crossTank“ und „crossTerm“.
cross(Tank|Term)
Allgemeinere Suche
Suche nach allen Wörtern, die mit „cross“ beginnen, dann einen Großbuchstaben, dann einen oder mehrere Kleinbuchstaben enthalten (z. B. "crossTank", "crossGrid", "crossWeb").
cross[A-Z][a-z]+
Wie unterstützen reguläre Ausdrücke das Qualitätsmanagement?
Richtig eingesetzt entfalten reguläre Ausdrücke ein immenses Potential. In Across können Sie reguläre Ausdrücke als erweitertes Prüfkriterium in Ihrer Qualitätssicherung einsetzen. Dafür legen Sie ganz individuelle RegEx-Prüfungen an. Ihre so festgelegten QM-Kriterien prüfen, ob eine von Ihnen individuell definierte Zeichenabfolge korrekt in die Zielsprache übersetzt bzw. übertragen wurde. Dabei können Sie auch konfigurieren, in welchen Sprachen diese Prüfungen zum Tragen kommen sollen.
Durch die individuelle Prüfung direkt in Across sparen Sie Zeit, Geld und verbessern die Qualität Ihrer Übersetzungen. Gleichzeitig behalten Sie Ihre Daten sicher innerhalb der Lieferkette. Das Feature der individuellen RegEx-Prüfungen steht Ihnen ab dem TOPAZ-Update der Across-Version v7.0 zur Verfügung.
Typische Fälle, in denen Sie mit Hilfe von individuellen RegEx-Prüfungen Ihre Qualitätsprüfung optimieren können sind:
- Geschützte Leerzeichen bei Maßeinheiten, Währungen o. ä.
- Zeichenfolgen, von denen Teile bei der Übersetzung geändert werden müssen, wie z. B. sprachspezifische Zusätze in URLs: „.net/de“ muss in der Zielsprache zu „.net/en“ angepasst werden
- Sprachspezifische Muster, die eventuell nur in Quelle oder Ziel auftreten sollen
- Spezifische Regeln aus Styleguides, z. B. Leerzeichen bei der Zeichensetzung
Wie definiert man eine RegEx-Regel in Across?
Die Nutzung von RegEx-Prüfungen für Ihre Qualitätsprüfung lohnt sich vor allem dann, wenn gleiche Fehler bei der Übersetzung von bestimmten Zeichenfolgen häufig und wiederholt auftreten. Zur Erstellung der RegEx-Prüfungen empfehlen wir folgende Schritte:
1. Häufige Fehler in der Übersetzung und deren Gemeinsamkeiten identifizieren
Kommen die Fehler in gleichen Mustern in der Textstruktur vor, z. B. bei IDs oder ISO Normen oder tauchen Sie immer an ähnlichen Stellen auf (z. B. vor oder nach Satzzeichen)?
2. Daraus ableiten, welche Probe die RegEx-Prüfung für Sie vornehmen soll
Eine RegEx-Regel besteht hierbei aus mind. einem regulären Ausdruck sowie einer Bedingung, die festlegt, wo nach Übereinstimmungen gesucht wird und was gemeldet werden soll.
3. Regulären Ausdruck schreiben
Achten Sie bei der Formulierung des regulären Ausdrucks darauf, dass die Prüfung alle Fälle abdeckt, aber keine falschen Ergebnisse produziert. Je konkreter die Regel, desto besser Ihr Ergebnis. Als Hilfestellung gibt es nützliche Seiten, wie z. B. www.regexr.com. Dort können Sie Ihre regulären Ausdrücke testen und finden Hilfestellungen zu Syntax und Semantik.
4. Sprache auswählen
Nachdem Sie den regulären Ausdruck formuliert haben, wählen Sie nur noch aus, in welchen Sprachen die RegEx-Prüfung angewendet werden soll. Manche Kriterien eignen sich eventuell nur für bestimmte Sprachen oder Sprachkombinationen.

Beispiel für die RegEx-Prüfung
„Geschützte Leerzeichen bei Einheiten verwenden“
Fragestellung
Enthält der Quelltext eine Maßeinheit, Währung oder Prozentzahl und enthält der Zieltext an dieser Stelle ein geschütztes Leerzeichen?
Bedingung
Melden, wenn der Quelltext übereinstimmt, aber der Zieltext weniger Übereinstimmungen aufweist.
Fehlerbeschreibung
Fehlendes geschütztes Leerzeichen zwischen Zahl und gängigen Einheitszeichen
RegEx
(\d{1,3}[., ])*\d+[ ]?([mdchk]?[glmAWV][²³]?\b|[€$£元%])
geschütztes Leerzeichen, normales Leerzeichen
(\d{1,3}[., ])*\d+[ ]([mdchk]?[glmAWV][²³]?\b|[€$£元%])


Korrekte Zeichenfolge im Zieltext sicherstellen
mit Hilfe von RegEx-Prüfungen oder Placeables?
Um die korrekte Übertragung von individuellen bestimmten Zeichenketten in die Zielsprache sicherzustellen, stehen Ihnen nun zwei unterschiedliche Herangehensweisen zur Verfügung. Jede eignet sich besonders für spezielle Anwendungsfälle:
RegEx-Prüfungen helfen Ihnen, bei der Qualitätsprüfung bestimmte Zeichenfolgen zu finden. Sie prüfen, ob spezifische Zeichenfolgen korrekt in die Zielsprache übernommen wurden. Ideal u. a. für Zeichenfolgen, die teilweise für die Zielsprache angepasst werden müssen. Sie werden als Prüfkriterium im Bereich QM-Modus v7.0 der Systemeinstellungen angelegt.
Mit Placeables legen Sie fest, welche feststehenden Begriffe, Zeichenfolgen o. ä. 1:1 in die Zielsprache übernommen werden sollen. Die Zeichenmuster werden für die Übersetzung gesperrt. Dies hat Auswirkungen auf die Arbeit des Übersetzers in crossDesk, da weniger Wörter übersetzt werden müssen. Placeables werden im Bereich Dokumenteneinstellungen der Systemeinstellungen definiert.
Die Entscheidung, welche Vorgehensweise am besten geeignet ist, sollte von Fall zu Fall entschieden werden. Hier ein paar Beispiele zur Anregung:
Qualitätsprüfung mit RegEx-Prüfungen
Spezifische Zeichenfolgen, die bei der Übersetzung zumindest teilweise angepasst werden müssen:
- firmenspezifische Codes, Teilenummern
- Links, die für die Zielsprache angepasst werden müssen („… .net/de“ → „… .net/en“)
- geschützte Leerzeichen
- sprachspezifische Zeichenfolgen
Definition von Placeables
Zeichenfolgen, die sprachunabhängig sind und bei der Übersetzung nie angepasst werden dürfen:
- Platzhalter in Quellcode
- ISO/DIN Codes
- Versionsnummern
- eingebettete HTML/XML Tags, Zeilenumbruchsymbole
Weitere Expert Features
Trainings für Sie
Einführungs- und Exklusivtraining für Einsteiger oder Fortgeschrittene zum Wunschtermin