Sie sind auf Seite 1von 128

MARMARA UNIVERSITÄT

Fakultät für Wirtschafts- und


Verwaltungswissenschaften

COMPUTERUNTERSTÜTZTE
ÜBERSETZUNG

Ozan Can Çalı


49 / 2010

Deutschsprachige Abteilung für Vorgelegt bei:


Wirtschaftsinformatik
PD. Dr. Ulrich Tamm
MARMARA UNIVERSITÄT
Fakultät für Wirtschafts- und
Verwaltungswissenschaften

COMPUTERUNTERSTÜTZTE
ÜBERSETZUNG

Ozan Can Çalı


49 / 2010

Deutschsprachige Abteilung für Vorgelegt bei:


Wirtschaftsinformatik
PD. Dr. Ulrich Tamm
EHRENWÖRTLICHE ERKLÄRUNG

Hiermit erkläre ich, dass ich die vorliegende Arbeit selbstständig und ohne Benutzung anderer
als der angegebenen Quellen und Hilfsmittel gefertigt habe. Alle Stellen, die wörtlich oder
sinngemäss aus veröffentlichten und nicht veröffentlichten Schriften entnommen wurden,
wurden als solche kenntlich gemacht.

Diese Arbeit wurde in gleicher oder ähnlicher Form noch keiner anderen Prüfungsbehörde
vorgelegt.

İstanbul, 05.06.2010
Ozan Can ÇALI

Betreuer Gutachter
PD. Dr. Ulrich TAMM Dr. Ela Sibel Bayrak Meydanoğlu
ABSTRACT

From the beginning of intercultural interactions between societies onwards, the science of
translation enabling intercultural communication has been of great importance. In the course
of time, the necessity of making a lot of translations of good quality in a short period of time
and especially providing consistency in the translations of similar texts have become
prominent.

By means of the developments in computer technologies in the twentieth century, computer


translation systems can perform automatic machine translations; however these translations
are usually of very low quality that they even cannot be understood at all. Therefore,
computer-assisted translation systems that help translators instead of performing automatic
translations have been developed. Today, the need of releasing the finished translations in a
simple manner in order that other translators could use them for supporting their own
translation processes is satisfied. By these systems, translations can be made and stored
electronically and also old translations can be transferred to databases. Besides, translations
can be accessed by more than one translator and thus, time and work-force can be greatly
saved by using these translators in translation processes. Accordingly, consistency is provided
both between the source text and its translation, and also between similar translations.

The aim of the present thesis is to analyze the technical details of computer-assisted
translation and to introduce the operation principles and usage instructions of computer-
assisted translation systems. Moreover, a translation process implemented with SDL Trados
Computer-Assisted Translation System is explained in the last chapter.
ÖZET

Toplumlararası etkileşimin başladığı yıllardan itibaren, kültürler ve dolayısıyla diller


arasındaki iletişimi sağlayan çeviri bilimi büyük önem kazanmıştır. Zamanla çeviri
süreçlerinde, kısa sürede çok çeviri yapılması ve özellikle benzer metinlerin çevirilerinin
tutarlı bir şekilde yapılması gerekliliği öne çıkmıştır.

20. yüzyılda bilgisayar teknolojileri alanında yaşanan gelişmeler sayesinde, bilgisayar çeviri
sistemleri otomatik çeviri yapabilmektedirler, ancak yapılan çevirilerin çoğu anlaşılabilecek
düzeyde bile olmamaktadır. Bu nedenle, çeviri yapmak yerine çevirmenlere çeviri
süreçlerinde yardımcı olan bilgisayar destekli çeviri sistemleri geliştirilmiştir. Günümüzde,
yapılan çevirilerin, ilgili çevirmenlerin süreçlerinde yararlanabilmeleri için gizlilik sınırları
çerçevesinde kolay yollarla kullanıma açık hâle getirilmesi sağlanmıştır. Bu sistemler
sayesinde çeviriler elektronik ortamda yapılabilmekte ve eski çeviriler elektronik ortama
aktarılarak veritabanlarında saklanabilmektedir. Aynı zamanda çevirilere birden çok çevirmen
tarafından erişilebilmekte ve bu çeviriler, çeviri süreçlerinde kullanılarak zamandan ve
işgücünden yüksek oranlarda tasarruf edilmektedir. Böylece hem kaynak metinle çevirisi
arasında, hem de benzer çeviriler arasında tutarlılık sağlanmaktadır.

Bu bitirme tezinin amacı, makine çevirisiyle bilgisayar destekli çeviri arasındaki farkları
ortaya koyarak, bilgisayar destekli çeviri sistemlerinin çalışma prensiplerinin ve nasıl
kullanıldığının incelenmesidir. Aynı zamanda son bölümde, SDL Trados Bilgisayar Destekli
Çeviri Sistemi’yle gerçekleştirilmiş bir çeviri süreci anlatılmıştır.
INHALTSVERZEICHNIS

ABBILDUNGSVERZEICHNIS .............................................................................................. VI

TABELLENVERZEICHNIS ................................................................................................ VIII

ABKÜRZUNGSVERZEICHNIS ............................................................................................ IX

1. EINLEITUNG ...................................................................................................................... 1

2. ÜBERSETZUNG MIT COMPUTERN ............................................................................. 4


2.1. MASCHINELLE ÜBERSETZUNG ............................................................................... 4

2.1.1 Erstauftritt der maschinellen Übersetzung ................................................................. 4

2.1.2. Warum versagt die maschinelle Übersetzung? ......................................................... 4

2.1.2.1. Mängel der maschinellen Übersetzung .............................................................. 5

2.1.3. Hauptarten von maschineller Übersetzung ............................................................... 8

2.1.3.1. Regelbasierte Maschinelle Übersetzung (Rule – Based Machine Translation) . 8

2.1.3.2. Beispielbasierte Maschinelle Übersetzung (Example – Based Machine


Translation - EBMT) ....................................................................................................... 8

2.1.3.3. Verwendung eines Wörterbuches für den Übersetzungsprozess ....................... 9

2.2. COMPUTERUNTERSTÜTZTE ÜBERSETZUNG ..................................................... 12

2.2.1. Geburt der Computerunterstützten Übersetzung .................................................... 12

2.2.2. Übersetzungsprozess ohne CAT - System .............................................................. 13

2.2.3. Übersetzung mit CAT - System .............................................................................. 13

2.2.4. Grundlagen von CAT - Systemen ........................................................................... 14

2.2.4.1. Übersetzungsspeicher („TM“).......................................................................... 15

I
2.2.4.1.1. Wofür sind Übersetzungsspeicher geeignet? ............................................. 16

2.2.4.1.2. Erstellung von TM – Projekten ................................................................. 17

2.2.4.1.3. Zeichensätze von Übersetzungsspeichern ................................................. 19

2.2.4.1.3.1. Single Byte Character Set (SBCS) ...................................................... 19

2.2.4.1.3.2. Double Byte Character Set (DBCS) und Multi Byte Character Set
(MBCS) .................................................................................................................. 20

2.2.4.1.3.3. Verwendung von unterschiedlichen Zeichensätzen in


Übersetzungsspeichern .......................................................................................... 20

2.2.4.1.4. Unterschiedliche Ansätze zu Übersetzungsspeichern ............................... 21

2.2.4.1.4.1. Übersetzungsspeicher der ersten Generation ...................................... 21

2.2.4.1.4.2. Übersetzungsspeicher der zweiten Generation ................................... 22

2.2.4.1.4.3. Übersetzungsspeicher der dritten Generation ..................................... 24

2.2.4.1.4.4. Verwendungsgebiete von unterschiedlichen Ansätzen ....................... 24

2.2.4.1.5. Systemarchitektur der Übersetzungsspeicher ............................................ 26

2.2.4.1.5.1. Vorverarbeitung .................................................................................. 28

2.2.4.1.5.2. Morphologische Syntaxanalyse .......................................................... 29

2.2.4.1.5.3. Invertierte Datei – Erzeugung ............................................................. 30

2.2.4.1.5.4. Bestimmung der Synonyme ................................................................ 32

2.2.4.1.5.5. Baumstruktur - Erzeugung .................................................................. 33

2.2.4.1.5.6. Algorithmen der Ähnlichkeitssuche ................................................... 34

2.2.4.1.5.7. Wort-Synonym-Morphem-Ähnlichkeit .............................................. 36

2.2.4.1.6. Algorithmus für die Übereinstimmung von ähnlichen Segmenten auf


mehrere Schichten ..................................................................................................... 37

2.2.4.1.6.1. TELA - Struktur .................................................................................. 37

2.2.4.1.6.2. Teilweise Übereinstimmung (Fuzzy Match) ...................................... 39

2.2.4.1.6.3. Vollständige Übereinstimmung (Exhaustive match) .......................... 39

2.2.4.1.6.4. Verfolgung (Trace) ............................................................................. 40

II
2.2.4.1.6.5. Edit – Distanz Prozess ........................................................................ 41

2.2.4.1.6.5.1. Zurückverfolgungsalgorithmus .................................................... 42

2.2.4.1.6.5.2. Einfache Rechnung der Edit – Distanz ........................................ 43

2.2.4.1.6.5.3. Anpassung der Edit – Distanz – Methode an CAT - Systeme ..... 46

2.2.4.1.6.5.4. Rechnung der Edit – Distanz mit Vektoren ................................. 48

2.2.4.1.7. Speicherung und Austausch von Übersetzungsspeicherinhalten............... 51

2.2.4.1.7.1. Das TMX - Format.............................................................................. 51

2.2.4.1.7.1.1. Wie ist TMX entstanden? ............................................................. 52

2.2.4.1.7.1.2. Wer entwickelt das TMX - Format? ............................................ 52

2.2.4.1.7.1.3. Wie scheint das TMX - Format? .................................................. 53

2.2.4.1.7.1.4. Wie gut funktioniert TMX?.......................................................... 56

2.2.4.1.7.2. SRX – Der Neue Standard .................................................................. 58

2.2.5. Werkzeuge von CAT - Systemen ........................................................................... 60

2.2.5.1. Übersetzungsspeicher - Werkzeuge ................................................................. 60

2.2.5.1.1. Ergänzung neuer Übersetzungseinheiten zum Übersetzungsspeicher....... 60

2.2.5.1.2. Anwendung von Übersetzungsspeicher während der Übersetzung .......... 61

2.2.5.1.3. Konkordanzsuche ...................................................................................... 62

2.2.5.2. Zuordnungswerkzeuge ..................................................................................... 62

2.2.5.2.1. Wie funktionieren die Zuordnungswerkzeuge? ......................................... 63

2.2.5.2.2. Ein Zuordnungsprozess - Beispiel ............................................................. 64

2.2.6. Vergleich von unterschiedlichen CAT – Systemen ................................................ 70

2.2.6.1. Qualitätsfaktoren für CAT - Systeme............................................................... 70

2.2.6.2. Eigenschaften wichtigster CAT – Systeme und ihre Vergleiche ..................... 71

2.2.7. CAT – Werkzeuge als Web – Dienste .................................................................... 74

2.2.7.1. Google Translator Toolkit ................................................................................ 74

III
2.2.7.1.1. Google Translator Toolkit „gegen“ (oder besser gesagt „mit“) Google
Translate .................................................................................................................... 74

2.2.7.1.2. Wie funktioniert Google Translator Toolkit? ............................................ 75

2.2.7.1.3. Arbeitsablauf von Google Translator Toolkit ........................................... 75

2.2.7.1.4. Diskussionen über Google Translator Toolkit........................................... 82

2.2.7.2. MyMemory – „World’s Largest TM“ .............................................................. 83

2.2.7.2.1. Was unterscheidet sich bei MyMemory? .................................................. 84

2.2.7.3. Integration von Web – Diensten mit CAT - Systemen .................................... 86

3. FALLSTUDIE .................................................................................................................... 87
3.1. Erstellung der Übersetzungsspeicher............................................................................. 87

3.2. Trados-Template-Plugin für Texteditoren ..................................................................... 89

3.3. Während des Übersetzungsprozesses ............................................................................ 91

3.4. Import zu Übersetzungsspeichern ................................................................................. 98

3.5. Export der Übersetzungsspeicher ................................................................................ 101

3.6. Batch-Tools ................................................................................................................. 102

3.7. MultiTerm .................................................................................................................... 102

3.8. Umgebungen für Mehrere Benutzer ............................................................................ 103

4. SCHLUSSFOLGERUNG ................................................................................................ 104

ANHANG .............................................................................................................................. 105


ANHANG A - Journalists' Junket to the Netherlands Gets Lost in Translation ................ 106

IV
LITERATURVERZEICHNIS ............................................................................................... X
Bücher und E-Bücher ............................................................................................................ X

Artikel- und Zeitschriftquellen ............................................................................................. XI

Masterarbeiten .....................................................................................................................XII

Teilgenommenes Seminar ................................................................................................. XIII

Internetquellen ................................................................................................................... XIII

V
ABBILDUNGSVERZEICHNIS

Abb. 1: Übersetzen bei Google Translate .................................................................................. 7


Abb. 2: Einfacher Übersetzungsspeicher - Prozess .................................................................. 15
Abb. 3: Funktionsschema einer TM – Datenbank.................................................................... 16
Abb. 4: Übersetzungsspeicher in dem Server (System: TM – Workbench / SDL Trados) ..... 19
Abb. 5: Abweichende Übereinstimmungsgrade zwischen Exact- und Fuzzy - Matching ....... 23
Abb. 6: Die Split-Methode bei C# und ihre Ausgabe .............................................................. 28
Abb. 7: Die ToLower-Methode bei C# und ihre Ausgabe ....................................................... 28
Abb. 8: Invertierte Datei – Algorithmus für die gebeugten Formen der Wörter im Pseudocode
.................................................................................................................................................. 30
Abb. 9: die Menge für den Satz „what is it“ ............................................................................ 31
Abb. 10: Pseudocode für das Erhalten der Synset-Angaben aus WordNet ............................. 33
Abb. 11: Darstellung unterschiedliche Bäume mit mehreren Kanten und Knoten .................. 34
Abb. 12: Bildschirmabbild für Fuzzy-Match-Suche ................................................................ 35
Abb. 13:Bildschirmabbild für orthographische-Ähnlichkeit ................................................... 36
Abb. 14: Levenshtein – dynamischer Algorithmus im Pseudocode ........................................ 42
Abb. 15: Levenshtein – Backtrace – Algorithmus im Pseudocode .......................................... 42
Abb. 16: Übereinstimmung nur mit Gleichheiten und Löschungen ........................................ 47
Abb. 17: Anpassung des Algorithmus für F – Schichten ......................................................... 49
Abb. 18: Inhalt einer .tmx-Datei mit TM-Metadaten (<header> - Tag) und ........................... 55
Abb. 19: Darstellung von Formatierungsangaben in einer TMX – Datei bei Trados .............. 56
Abb. 20: Zwei Texte auf Deutsch bzw. Englisch in zwei unterschiedlichen MS Word –
Dateien (.doc) ........................................................................................................................... 64
Abb. 21: Das „New WinAlign Project“ Fenster für Projekterstellung bei Trados .................. 65
Abb. 22: Das „New WinAlign Project“ Fenster für Projekterstellung bei Trados .................. 66
Abb. 23: Hinzufügung der Quell- und Zieldokumente zu dem Projekt – zweites Tab ............ 66
Abb. 24: Zuordnung der Quell- und Zieltexte.......................................................................... 67
Abb. 25: Zusammenfügung von zwei Sätzen........................................................................... 68
Abb. 26: Trennung einer Verknüpfung .................................................................................... 68
Abb. 27: Formatierungsinformationen der Zuordnung ............................................................ 69

VI
Abb. 28: Verwendung der Formatierungsinformationen ......................................................... 69
Abb. 29: Das Einstellungen – Fenster von Google Translator Toolkit .................................... 76
Abb. 30: Das Hochladen – Fenster von Google Translator Toolkit......................................... 77
Abb. 31: Das Aktive – Übersetzungen – Fenster von Google Translator Toolkit ................... 78
Abb. 32: Das TM-Workbench – Fenster von Google Translator Toolkit ................................ 78
Abb. 33: Das TM-Workbench – Fenster mit Toolkit angezeigt .............................................. 79
Abb. 34: Das Toolkit – Fenster mit dem „Suche nach benutzerdefinierter Übersetzung“ - Tab
angezeigt................................................................................................................................... 80
Abb. 35: Die mit Google Translator Toolkit gemachte Übersetzung ...................................... 81
Abb. 36: Startseite von MyMemory ......................................................................................... 84
Abb. 37: Eine Ergebnisseite aus MyMemory .......................................................................... 85
Abb. 38: Erstellung von einem neuen Übersetzungsspeicher .................................................. 88
Abb. 39: Informationen über eine Übersetzungseinheit........................................................... 89
Abb. 40: Die Trados-Leiste bei MS-Word 2007 ...................................................................... 89
Abb. 41: Übersetzung eines Segments ..................................................................................... 91
Abb. 42: Clean-up-Funktion .................................................................................................... 93
Abb. 43: Übersetzungsvorschlag (im gelben Kasten) für einen Quellsatz (im grünen Kasten),
mit einem Übereinstimmungsgrad von 67 % ........................................................................... 94
Abb. 44: Unterschiede zwischen dem zu übersetzenden Quellsatz und dem Satz im
Übersetzungsspeicher mit Gelb hervorgehoben ....................................................................... 94
Abb. 45: Übersetzungsvorschlag (im gelben Kasten) für einen Quellsatz (im grünen Kasten),
mit einem Übereinstimmungsgrad von 78 % ........................................................................... 95
Abb. 46: manuelle Konkordanzsuche ...................................................................................... 95
Abb. 47: allgemeine Einstellungen für den Übersetzungsspeicher .......................................... 96
Abb. 48: Einstellungen für die Konkordanzsuche ................................................................... 97
Abb. 49: Import zum Übersetzungsspeicher – Einstellungen .................................................. 99
Abb. 50: Import zum Übersetzungsspeicher – Dateiwahl........................................................ 99
Abb. 51: Ende des Importprozesses ....................................................................................... 100
Abb. 52: Konkordanzsuche und ihr Ergebnis nach dem Import ............................................ 100
Abb. 53: Export von dem Übersetzungsspeicher ................................................................... 101
Abb. 54: Ende des Exportprozesses ....................................................................................... 101
Abb. 55: Zugriff unterschiedlicher Benutzer auf denselben Übersetzungsspeicher .............. 103

VII
TABELLENVERZEICHNIS

Tab. 1: Systemarchitektur von CAT ........................................................................................ 27


Tab. 2: invertierte Datei-Index ................................................................................................. 31
Tab. 3: voll-invertierter Indexe für jedes Wort ........................................................................ 32
Tab. 4: TELA – Struktur .......................................................................................................... 39
Tab. 5: Übereinstimmung von zwei Wörtern auf höhere Schichten ........................................ 40
Tab. 6: Vergleich von zwei Wörtern nach Levenshtein ........................................................... 43
Tab. 7: die für die Bestimmung der Edit-Distanz ausgeführten Operationen .......................... 44
Tab. 8: Die für die Transformation ausgeführten Operationen ................................................ 45
Tab. 9: Kostenrechnung bei der Transformation zweier Wörter mit der Edit-Distanz-Methode
und die dafür ausgeführten Operationen .................................................................................. 45
Tab. 10: Verschiedene Vorgehensweisen für die Transformation zweier Wörter mit der Edit-
Distanz-Methode ...................................................................................................................... 46
Tab. 11: Satzweise Übereinstimmung mit der Edit-Distanz-Methode und deren
Kostenrechnung ........................................................................................................................ 48
Tab. 12: Vektor der Scores für Schichtengleichheit und Löschungen ..................................... 49
Tab. 13: Auswählen des besten Pfads ...................................................................................... 51
Tab. 14: Standardeinstellungen für Segmentierung bei einigen bekannten TM – Systeme .... 57
Tab. 15: Verringerung der Übereinstimmungsrate durch unterschiedliche
Segmentierungsregeln .............................................................................................................. 57
Tab. 16: Teil einer SRX – Datei mit Regeln ............................................................................ 59
Tab. 17: Vergleich von verschiedenen CAT – Systemen ........................................................ 73

VIII
ABKÜRZUNGSVERZEICHNIS

Abb. Abbildung
ASCII American Standard Code for Information Interchange
bzw. Beziehungsweise
C Candidate (Kandidat)
CAT Computer Aided Translation (Computerunterstützte Übersetzung)
d.h. das heißt
doc Dateinamenserweiterung von Microsoft Word ® - Dokument
DBCS Double Byte Character Set
EBMT Example-Based Machine Translation (Beispielbasierte masch. Übersetz.)
HTML Hypertext Markup Language
I Input (Eingabe)
LISA Localization Industry Standards Association
OSCAR Open Standards for Container/Content Allowing Reuse
MBCS Multi Byte Character Set
MIT Massachusetts Institute of Technology
MT Machine Translation (maschinelle Übersetzung / Maschinenübersetzung)
POS Part of Speech (Wortart)
SBCS Single Byte Character Set
SQL Structured Query Language
SRX Segmentation Rules Exchange
Synset Synonym Set
Tab. Tabelle
TM Translation Memory (Übersetzungsspeicher)
TMX Translation Memory eXchange
Txt Dateinamenserweiterung reiner Textdatei
u. a. und andere
usw. und so weiter
vgl. vergleiche
XML Extensible Markup Language
z.B. zum Beispiel

IX
1. EINLEITUNG

„Technologie entwickelt sich mit einer erschreckenden Geschwindigkeit und die Nachfragen,
die auf dem Übersetzer gestellt werden, zeigen keine Zeichen des Herabsetzens. Tatsächlich
wird der Übersetzer immer mehr abhängig auf Informationstechnologie und, wenn der
Übersetzer sich an die Änderung nicht anpasst, wird er oder sie nicht mehr
wettbewerbsfähig.“
Samuelsson Brown, Example-Based Machine Translation in the Pangloss System (1996)

„Computer können dennoch nicht übersetzen, aber sie können dabei helfen.“
Ozan Can Çalı

Um die Kommunikation und Informationsübertragung zwischen verschiedenen Zivilisationen


und Kulturen zu schaffen, macht man seit Jahrhunderten mündliche und schriftliche
Übersetzungen. Der schriftliche Übersetzungsprozess ist immer eine Last gewesen, besonders
bei der Übersetzung von langen und komplizierten Texten. Vor allem ist die Übersetzung der
sich wiederholenden Texte zeitaufwändig gewesen.

Mit der schnellen Entwicklung der Computertechnologie im zwanzigsten Jahrhundert hat die
Integration der Rechner wie bei allen Feldern auch im Übersetzungsfeld angefangen. Die
ersten Entwicklungen waren mittels militärischer Forschungen während des kalten Krieges
vorgesehen, und zwar in Folge von den Versuchen des USA-Militärs, die militärischen
Dokumente der Sowjetunion schnell und effektiv zu übersetzen1.

1
vgl. Newton, John: “Computers in Translation, A Practical Appraisal”, S. 16

1
Zuerst wurde versucht, ein Computerprogramm zu erstellen, das die Übersetzungen
automatisch macht. Damals waren die Ergebnisse enttäuschend, und immer noch sind sie.
Sprachen sind so komplex, dass die Umwandlung zwischen zwei Sprachen immer auf viele
Variablen basieren und die Maschinen sind noch nicht so „intelligent“. Deshalb ist es
effizienter, Computer nur als Helfer zu menschlichen Übersetzungen zu benutzen. Daraus
ergab sich die Idee, computerunterstützte Übersetzungssysteme zu erstellen. Also wird eine
Übersetzungs-Software entworfen, um unabhängige Übersetzer und Sprachfachleute in den
Übersetzungsabteilungen und Übersetzungsfirmen zu unterstützen, nicht zu ersetzen2.

Übersetzen mithilfe von Computerprogrammen dient dazu, die Arbeitslast des Übersetzers zu
reduzieren und einen durchgängigen Stil sicherzustellen. Die Arbeitsweise eines
computerunterstützten Übersetzungssystems kann so erklärt werden: Bereits übersetzte
Satzpaare werden dabei in einer Datenbank gespeichert. Kommt beim Übersetzen ein Satz
vor, der einem bereits früher übersetzten ähnlich oder mit ihm identisch ist, dann wird er als
mögliche Übersetzung vorgeschlagen. Der Übersetzer hat dann die Möglichkeit, den Satz
anzunehmen, zu bearbeiten oder abzulehnen3. Computerunterstützte Übersetzung steigert die
Effizienz und gewährleistet eine uniforme Terminologie, da vorangegangene Übersetzungen
wiederverwendet werden4.

Da die CAT - Systeme überwiegend von Amerikaner entwickelt werden, alle angenommenen
und genormten Begriffe darüber sind auf Englisch. Deutsch ist eine flexible Sprache und
enthält auch viele Fremdwörter, besonders in technischen Gebieten. Dementsprechend
benutzen auch die Deutsche oft die englischen computerunterstützten Übersetzungsbegriffe.
So viel wie möglich versuchte ich allerdings, aus Quellen deutsche Begriffe herauszufinden
und sie zu benutzen.

Das Hauptziel dieser Arbeit ist, einen Überblick auf die Arten der mithilfe der Technologie
gemachten Übersetzung, besonders auf die computerunterstützte Übersetzung zu verschaffen.

2
vgl. http://www.gy.com/www/ww1/ww2/ibmt01.htm - Zugriff am 30.11.2009
3
vgl. http://www.ats-group.net/uebersetzung/computer-uebersetzung.html - Zugriff am 28.11.2009
4
vgl. http://www.soget.de/de/%C3%9Cbersetzung/78/Maschinelle-%C3%9Cbersetzung – Zugriff am 27.11.2009

2
Die Studie umfasst einen theoretischen Teil und eine Fallstudie dazu. Der theoretische Teil
besteht aus zwei Hauptkapiteln über maschinelle bzw. computerunterstützte Übersetzung. In
dem ersten Hauptkapitel werden allgemeine Informationen über maschinelle Übersetzung
gegeben. Das zweite Hauptkapitel weist das Hauptthema dieser Studie auf und hier werden
theoretische sowie praktische Angaben über die Geschichte, Arbeitsweise und Anwendungen
der computerunterstützten Übersetzung gemacht. In der Fallstudie wurde eine Übersetzung
mittels eines computerunterstützten Übersetzungssystems, nämlich SDL Trados,
durchgeführt.

3
2. ÜBERSETZUNG MIT COMPUTERN

Seit vielen Jahrhunderten ist die Übersetzung großer Mengen von Dokumenten ein großes
Problem, weil es lange dauert und einen großen Arbeitsaufwand und daher hohe Kosten
verursacht. Die Forschungen für schnelle und effiziente Übersetzungsprozesse haben schon
im siebzehnten Jahrhundert angefangen; allerdings wurde das moderne Konzept der
automatischen Übersetzung in den fünfziger Jahren mithilfe der schnellen Entwicklung der
Rechnertechnologie eingeführt.

2.1. MASCHINELLE ÜBERSETZUNG

2.1.1 Erstauftritt der maschinellen Übersetzung

Die Grundlagen der Maschinenübersetzung wurden mit dem Weaver-Memorandum5 und der
in Massachusetts Institute of Technology (MIT)6 stattgefundenen Konferenz im Jahre 1949
bzw. 1952 etabliert. Allerdings sind die Entwicklungen der Maschinenübersetzung im
Vergleich zu anderen technologischen Entwicklungen seither sehr begrenzt und werden bei
den veröffentlichten Maschinenübersetzungswerkzeugen wie Systranet, Google Translate und
Babelfish leicht ersichtlich, wobei die erwünschte Übersetzungsqualität nie erreicht wird. Im
Anhang A finden Sie einen ernsten Fall, der durch eine fehlerhafte Übersetzung von einem
maschinellen Übersetzungssystem verursacht wurde.

2.1.2. Warum versagt die maschinelle Übersetzung?

Die wichtigsten Gründe für das Versagen der maschinellen Übersetzung sind, dass den
Rechnern die Vorstellungsfähigkeit und die Berücksichtigung der Semantik als Ganzes immer

5
vgl. MT News International, 22. Juli 1999, 5-6, 15: “Warren Weaver Memorandum, July 1949“
6
vgl. Newton, John: “Computers in Translation, A Practical Appraisal”, S. 14-16

4
noch fehlen; und folglich die wortgetreue Übersetzung ohne diese Eigenschaften meistens
sinnlos und falsch ist.

Die Sprache ist ein komplexes System, das nicht nur aus Regeln besteht, sondern auch aus
Gefühlen, Stil und Interpretation. Computer können mit Regeln umgehen, sie verstehen
jedoch den Zusammenhang nicht und können daher nicht entscheiden, welches Wort das
richtige ist7.

Der wichtigste Punkt für die maschinelle Übersetzung ist, dass Maschinen bzw.
Computerprogramme es berücksichtigen sollen, dass Sprachen organische Einheiten sind, die
ungeheuer anpassungsfähig sind und sich immer weiter entwickeln.

Die Entwickler eines Übersetzungssystems versucht, die Funktionsweise der Sprache zu


modellieren, wobei sie die Regeln und Wissen benutzen, die überwiegend mithilfe der
Statistik über die Untersuchung großer Textmengen erworben werden. Das Ziel hier ist, das
Verhalten eines Übersetzers nachzubilden.

Da Sprachen so komplexe Einheiten sind, ist es noch nicht erreicht, ihre Funktionsweise
vollständig und präzise zu beschreiben. Das führt zum Versagen des Übersetzungssystems.

2.1.2.1. Mängel der maschinellen Übersetzung

Die Hauptschwierigkeit bei der maschinellen Übersetzung ist die Mehrdeutigkeit sprachlicher
Äußerungen, einzelner Wörter sowie ganzer Sätze8. Ein großer Teil der Regeln in
Übersetzungssystemen beschreibt, unter welchen Bedingungen welche Bedeutung benutzt
wird. Mit den folgenden Beispielen wird diese Mehrdeutigkeit verdeutlicht:

7
vgl. http://www.across.net/clipping/Habasit_Einsatz_across_0601.pdf - Zugriff am 14.11.2009
8
vgl. http://www.spiegel.de/spiegel/0,1518,691364,00.html - Zugriff am 07.05.2010

5
Der Kurs findet statt.
Der Kurs fällt9.

Hier kommen unterschiedliche Bedeutungen des Wortes Kurs vor. Während der erste „Kurs“
sich auf eine Lehr-/Bildungsveranstaltung10 bezieht (eng. „course“), der zweite „Kurs“ hat
eine ganz unterschiedliche Bedeutung, und zwar: Preis von Wertpapieren, Devisen, Waren11
(eng. „rate“).

Briefträger beißen Hunde selten.

In diesem Beispiel ist die Struktur des Satzes wegen der Flexibilität der Satzstrukturierung in
deutscher Sprache mehrdeutig: Es ist nicht klar, ob Briefträger Objekt oder Subjekt ist, also
ob die Briefträger Hunde beißen oder von den Hunden gebissen sind.

In beiden Beispielen werden die Bedeutungen durch den Zusammenhang geklärt. Das ist eine
einfache Aufgabe für Menschen, denn sie können das Thema des verarbeiteten Textes im
ganzen Ausmaß folgen, aber es ist schwierig, die Computerprogramme dieses Klarmachen zu
lehren. Eine beispielhafte Maschinenübersetzung von Google Translate, vermutlich das
beliebteste maschinelle Übersetzungssystem der Welt, kann im Folgenden gesehen werden:

9
vgl.http://www.lingenio.de/Deutsch/Sprachtechnologie/Maschinelle-Uebersetzung.htm - Zugriff am 13.11.2010
10
vgl. http://de.wiktionary.org/wiki/Kurs - Zugriff am 14.11.2009
11
vgl. http://www.dwds.de/?kompakt=1&qu=kurs - Zugriff am 14.11.2009

6
Abb. 1: Übersetzen bei Google Translate

(Quelle: http://translate.google.com/#tr|en|Asl%C4%B1%20ip%20atl%C4%B1yor - Zugriff


am: 05.11.2009)

„Aslı“ ist sowohl ein weiblicher Vorname als auch ein Gattungsname, der „Original“ in
türkischer Sprache bedeutet. Um zu verstehen, welche Bedeutung des Wortes hier gültig ist,
muss der Satz als Ganzes betrachtet werden. Allerdings fehlt den Maschinen diese Fähigkeit.
Das Google Translate – Service entscheidet, dass „Aslı“ in diesem Satz als Gattungsname
benutzt wird, und liefert ein seltsames Ergebnis („Original rope-jumping“). Eigentlich können
zu solchen Diensten menschliche Übersetzungen per Hand beigetragen werden, damit
aktualisiert der Dienst seine Datenbanken und liefert bessere Übersetzungen. Jedoch wird der
Übersetzungsvorschlag („Aslı is rope - jumping“) ab dem 07.05.2010 noch nicht akzeptiert (6
Monate seit dem gemachten Vorschlag) und die Übersetzung für den beispielhaften Satz hat
sich zu „Original jumping rope“12 „entwickelt“.

12
vgl. http://translate.google.com/#tr|en|Asl%C4%B1%20ip%20atl%C4%B1yor. – Zugriff am 07.05.2010

7
Daher ist die maschinelle Übersetzung eigentlich ein Algorithmus der künstlichen Intelligenz,
der an den realistischen Problemen angewendet wird. Folgendes werden die Hauptarten der
maschinellen Übersetzung von Texten, sowie die anderen Hauptprobleme dabei mit neuen
Beispielen erklärt13. Damit wird es auch besser betrachtet, warum es heutzutage noch
unmöglich ist, Maschinen als das Hauptinstrument für die Übersetzung zu verwenden und
warum sie von dem Übersetzer bestenfalls nur für eine grobe Vorstellung des zu
übersetzenden Textes benutzt werden muss.

2.1.3. Hauptarten von maschineller Übersetzung

2.1.3.1. Regelbasierte Maschinelle Übersetzung (Rule – Based Machine Translation)

Der größte Teil der Übersetzungssysteme benutzen die sogenannte regelbasierte maschinelle
Übersetzung (Rule-Based Machine Translation). Bei diesem Verfahren wird der
Ausgangstext meistens mithilfe eines Wörterbuchs und mit der Benutzung von Interlingua
(eine konstruierte Plansprache, die Eigenschaften der romanischen Sprachen aufweist und von
den Menschen verstanden wird, die diese Sprachen sprechen14) übersetzt. Zuerst wird der
Ausgangstext analysiert und in eine Übergangssprache, in die Interlingua, gelegt, mit der
Anwendung von Grammatikregeln beziehend auf die Ausgangssprache sowie die Zielsprache.
Von dieser Interlingua wird der Zieltext generiert.

2.1.3.2. Beispielbasierte Maschinelle Übersetzung (Example – Based Machine Translation


- EBMT)

Neben dem Regel-basierten Verfahren gibt es auch die sogenannte beispielbasierte


maschinelle Übersetzung (example-based machine translation), die besonders von dem
Übersetzungsdienst von Google benutzt wird15. Bei diesem Verfahren wird eine große Zahl

13
vgl. Champollion [2003] and O’Hagan and Ashworth [2002: 43]
14
vgl.http://www.knowledgerush.com/kr/encyclopedia/Interlingua - Zugriff am 15.11.2009
15
vgl. http://translate.google.com/support/?hl=en – Zugriff am 21.11.2009

8
der einsprachigen Texte in verschiedenen Sprachen miteinander abgeglichen, deren
menschlichen Übersetzungen miteinander übereinstimmen, und in einer Datenbank
gespeichert. Wenn der Benutzer die Übersetzung eines Textes von dem System angefordert,
generiert das System die beste Übersetzung mithilfe statistischer Methoden, mit den die am
besten passenden Teile der Abgleichungen genommen werden16.

Google benutzt diese Technik besonders um die Mehrdeutigkeit der Wörter und ihre
Zusammenhänge mit den anderen Wörtern im selben Satz besser zu analysieren. Um z.B. den
Satz „Wir treffen uns im Schloss“ zu deuten, sucht das Programm in seiner Datenbank nach
Texten, in denen „treffen“ und „Schloss“ nah beieinanderstehen. Dann sucht das Programm
nach den Übersetzungen dieser Texte durch und findet dort häufig das Wort „castle“. Damit
liefert das System „we meet in the castle“ als Ergebnis und nicht „we meet in the lock“17.

Die grammatischen Regeln der Sprachen sind für Sätze formuliert, deshalb muss der Text
erstens in Sätze zerlegt werden und müssen die Satzgrenzen bestimmt werden. Die erste
Schwierigkeit ist, dass es nicht leicht ist, für den Computer zu unterscheiden, ob der Punkt das
Satzende, eine Abkürzung, eine Ordnungszahl oder sogar eine E-Mail oder URL-Adresse
kennzeichnet. Dieses Problem ist bei der computerunterstützten Übersetzung teilweise
gelöst18.

2.1.3.3. Verwendung eines Wörterbuches für den Übersetzungsprozess

Jedes Übersetzungssystem braucht ein Wörterbuch. Dieses Wörterbuch funktioniert wie ein
konventionelles zweisprachiges Wörterbuch, also enthält Wörter in einer Sprache und ihre
Übersetzungen in der anderen Sprache; darüber hinaus stehen in diesem Wörterbuch noch alle
Informationen, die für die Analyse von Sätzen gebraucht werden, zum Beispiel das
grammatische Genus und die Art der Wörter, oder Angaben über ihre Bedeutung.

16
vgl. http://en.wikipedia.org/wiki/Google_Translate – Zugriff am 21.11.2009
17
http://www.spiegel.de/spiegel/0,1518,691364,00.html - Zugriff am 07.05.2010
18
Siehe Kapitel “TMX”

9
Ins Wörterbuch wird die Grundform (z.B. „waschen“) des Worts aufgenommen, und die
einzelne Wortform wird auf diese Grundform zurückgeführt. Dann wird die grammatische
Funktion der vorliegenden Wortform mit der dort gefundenen Information bestimmt, zum
Beispiel wäschst --> 2. Person Singular Präsens.

In dem nächsten Schritt wird die Satzstruktur erkennt. Jedem Wort und jeder Wortgruppe
wird die passende Rolle im Satz zugeordnet, und dabei muss sehr genau darauf geachtet
werden, welche Kombinationen möglich oder ausgeschlossen sind. Das bedeutet, dass das
Übersetzungssystem auch die Grammatik beherrscht. Die Genauigkeit dieser Regeln ist
entscheidend für die Qualität der Übersetzung.

Nicht nur der innerhalb des Satzes gegebene Zusammenhang beeinflusst die Bedeutung der
Wörter, sondern auch Beziehungen zwischen den Sätzen. Die Verwendung von Pronomen
wie er, sie, es erschwert meistens die Interpretation eines Satzes. Ein Beispiel dazu ist der
folgende Satz:

Das Unternehmen stellt sie ein19.

Das Verb „einstellen“ kann beispielsweise auf Englisch unterschiedlich übersetzt werden (to
stop, to hire, to adjust). Seine richtige Übersetzung bezieht sich auf die Verwendungsweise
des Wortes „sie“. Also hängt das davon ab, ob sie sich auf eine Person, eine Maschine oder
die Produktion bezieht. Das Übersetzungssystem soll also auch die anderen Sätze des
Ausgangstexts beachten.

Jedem Wort und vielen Wortgruppen sind im Wörterbuch eine oder mehrere Übersetzungen
zugeordnet. Nachdem der Zusammenhang durch die Analyse eines Satzes bekannt gemacht
wurde, können die jeweils passenden Übersetzungen ausgewählt werden.

19
vgl. http://www.lingenio.de/Deutsch/Sprachtechnologie/Maschinelle-Uebersetzung.htm - Zugriff am
21.11.2009

10
Danach wird die Struktur der Übersetzung mithilfe der Angleichung der Struktur des zu
übersetzenden Satzes und der Struktur der ausgewählten Übersetzungen für die einzelnen
Wörter aufgebaut. Hier kann die Übersetzung sich von dem Original stark unterscheiden.
Zum Beispiel wird der englische Satz „He washes his hands“ zu „Er wäscht sich die
Hände“. Also, wegen der unterschiedlichen Satzstrukturen der Sprachen wird ein weiteres
Pronomen (sich) benötigt.

Während die korrekte Abfolge der Wörter in der Übersetzung ermittelt wird, arbeitet das
Übersetzungssystem mit Grundformen der Wörter. Also wird das Wort wäscht aus der Form
wasch des vorigen Beispiels erstellt.

In dem letzten Schritt wird die Information über das Layout des Ausgangstextes, die im ersten
Schritt ausgeblendet wurde, zu den Übersetzungen wieder hinzugefügt, sodass schließlich ein
neuer Text, der sogenannte Zieltext, entsteht, der weitgehend so aussieht wie der
Ausgangstext.

Wegen der genannten Gründe kann man sagen, dass die maschinelle Übersetzung die
verlangte Qualität noch nicht erreicht hat. Sprachen sind lebendig; sie verändern sich und
passen sich den Zeiten und den Menschen an. Sprachen sind wie ein Organ der Menschen, sie
sind von den Menschen ständig mit einer großen Flexibilität benutzt und trotz der
ungewöhnlichen Verwendung der Sprache, die oft geschehen, wird die Sprache von den
anderen immer gut verstanden und interpretiert20. Es ist meistens nicht genug, die Struktur,
alle grammatischen Regeln und die Wörter einer Sprache zu kennen, um sie verstehen zu
können. Das bringt uns zu der Tatsache, dass die Maschinen nur dann wie Menschen
übersetzen können, wenn sie menschliche Eigenschaften aufweisen. Entwicklung der
maschinellen Übersetzung ist ein Forschungsfeld der künstlichen Intelligenz; und die heutigen
Entwicklungen und die Entwicklungsgeschwindigkeit dieses Feldes in der Geschichte zeigen
uns, dass es kaum möglich ist, die Qualitätsniveaus der maschinellen Übersetzung und der
Übersetzung eines Menschen in absehbarer Zukunft vergleichen zu können.

20
vgl. http://pinnwand.ln-online.de/sprache-ist-lebendig-und-veraendert-sich/4363 - Zugriff am 16.11.2009

11
2.2. COMPUTERUNTERSTÜTZTE ÜBERSETZUNG

2.2.1. Geburt der Computerunterstützten Übersetzung

In Anbetracht dessen, dass die Maschinenübersetzung die gewünschte Qualität nie


verwirklichen kann, wurden die Versuche zur Erleichterung der Arbeit von menschlichen
Übersetzern seither vorangetrieben, die den sogenannten „computerunterstützten
Übersetzungsprozess“ (eng. CAT: Computer – Assisted/Aided Translation) erzeugt haben.

Die ursprüngliche Idee für einen computerunterstützten Übersetzungsprozess wird zu Martin


Kay zugeschrieben21. In seiner „Proper – Place“ – Arbeit (1980) hat er ohne Details erklärt,
wie ein CAT – System sein soll: „… Der Übersetzer kann mit der Erteilung eines Befehls
anfangen, der verursacht, dass das System alles im Laufwerk anzeigt, was relevant zu dem zu
übersetzenden Text sein könnte…. Bevor er [der Übersetzer] weitergeht, kann er die
vorherigen und zukünftigen Fragmente des Textes, die ähnliches Material enthalten,
überprüfen.“

Daher darf computerunterstützte Übersetzung nicht mit der maschinellen Übersetzung


verwechselt werden. Ziel der maschinellen Übersetzung ist, den menschlichen Übersetzer
durch eine Maschine zu ersetzen. Diese Technik erbringt in sekundenschnelle Übersetzungen,
die allerdings von geringer Qualität und bisweilen sogar unverständlich sind22.

Es ist optimal, zunächst eine „Entwurfsübersetzung“ mittels eines maschinellen


Übersetzungssystems zu machen, um eine allgemeine Beurteilung über das Dokument zu
erstellen, und danach die wirkliche Übersetzung mithilfe eines CAT-Systems zu machen.

21
vgl. Somers, Harold (UMIST, Manchester) / Fernandez Diaz, Gabriela (Universidad de Sevilla); Translation
Memory vs. Example-based MT –What’s the difference?
22
vgl.http://www.soget.de/de/%C3%9Cbersetzung/78/Maschinelle-%C3%9Cbersetzung – Zugriff am 27.11.2009

12
2.2.2. Übersetzungsprozess ohne CAT - System

Der Übersetzer geht den Text Schritt für Schritt durch. Wenn ein gleicher oder ähnlicher Satz
noch einmal vorkommt, erinnert sich der Übersetzer, dass er diesen Satz vorher schon
übersetzt hat. Damit wird er manuell nachsuchen, wie er den Satz vorher übersetzt hat. Die
damalige Übersetzung wird, soweit möglich, weiter verwendet. Unbekannte Begriffe werden
in Wortlisten, Wörterbüchern oder Online-Lexika nachgeschlagen23.

2.2.3. Übersetzung mit CAT - System

Die Segmente werden dem Übersetzer zur Bearbeitung angeboten und die Datenbank des
CAT–Systems speichert Ausgangs- und Eingabesegmente ab.

Jedes zu übersetzende Segment wird automatisch mit allen bereits bearbeiteten Segmenten in
der Datenbank verglichen. Wenn das System das gleiche oder ein ähnliches Segment findet,
bietet es dem Übersetzer die Übersetzung des alten Segments als Vorschlag an. Der
Übersetzer entscheidet, ob die Übersetzung verwendet, bearbeitet oder neu erstellt wird.

Jeder Begriff des Quellsatzes wird automatisch in der Terminologie – Datenbank des CAT –
Systems nachgeschlagen. Falls ein Begriff gefunden wird, wird seine Übersetzung dem
Übersetzer vorgeschlagen.

Die Prozesse ähneln sich also sehr, nur mit dem Unterschied, dass das CAT - System auf
jeden Fall jedes neue Segment mit allen bereits übersetzten Segmenten vergleicht und auch
alle Begriffe automatisch nachschlägt. Dies hilft dem Übersetzer konsistenter zu arbeiten und
spart Zeit beim Nachschlagen alter Übersetzungen24.

23
vgl. http://www.transline.de/transline-tecNews/Translation-Memory-eine-Einfuehrung - - Zugriff am
23.11.2009
24
vgl. http://www.transline.de/transline-tecNews/Translation-Memory-eine-Einfuehrung - Zugriff am 23.11.2009

13
2.2.4. Grundlagen von CAT - Systemen

Computerunterstützte Übersetzung ist ein Typ der Übersetzung, worin der Übersetzer
Computerprogrammen benutzt, die den Übersetzungsprozess unterstützt. Mit anderen Worten
bezeichnet die Computerunterstützte Übersetzung den Einsatz geeigneter Softwares zur
Unterstützung von Übersetzern mit ihrer Übersetzungen.

Ein CAT-System besteht meistens aus mehreren Teilsystemen, die sogenannten


Anwendungskomponenten. Diese Komponenten können als Werkzeuge einer Software
genannt werden. Ein übliches CAT-System umfasst die folgenden Werkzeuge:

 Übersetzungsspeicher - Werkzeug
 Terminologie - Datenbanken
 Zuordnungswerkzeug

Diese Werkzeuge können individuell betrieben werden oder mit den anderen Werkzeugen
zusammenarbeiten, um die Effizienz des Übersetzungsprozesses zu verbessern.

Das – wegen seines Versorgungsbereichs – meistverwendete Werkzeug solches CAT -


Systems ist der sogenannte Übersetzungsspeicher (eng. TM: Translation Memory). Nach
Bowker25 ist das TM ein „Behälter“ umfassend Ausgangstextsegmente die dazugehörigen
Zieltextsegmente, worin die entsprechenden Textsegmente miteinander abgeglichen und
gespeichert werden.

Benutzte Segmenttypen der Texte sind gemäß den benutzten Werkzeugen unterschiedlich; bei
TM werden meistens Sätze benutzt und für Terminologie - Datenbanken sind Wörter
wünschenswert.

25
vgl. Lynne Bowker, 2002. Computer-Aided Translation Technology. A Practical Introduction. (Didactics of
Translation Series). Ottawa: University of Ottawa Press. S. 185

14
2.2.4.1. Übersetzungsspeicher („TM“)

Beim Übersetzen wird ein fixierter, also schriftlicher Ausgangstext aus einer Sprache in eine
andere übertragen. Ausgangstext ist der Text, der von dem Übersetzer in eine Zielsprache
übersetzt wird. Zieltext ist das Ergebnis dieser Übersetzung; also der Text, den von dem
Übersetzer in der Zielsprache erstellt wird.

Im Prinzip ist ein Übersetzungsspeicher eine Sprachdatenbank, in der die Übersetzungen


während der Arbeit kontinuierlich gespeichert werden, damit sie künftig für neue Texte
verwendet werden können.

Abb. 2: Einfacher Übersetzungsspeicher - Prozess

(Quelle: Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A


Cost/Benefit Analysis – 1992 S. 7)

Alle bereits übersetzten Inhalte werden im Übersetzungsspeicher gesammelt. Diese Inhalte


werden in Form von Sprachpaaren aus Ausgangs- und Zieltext gespeichert. Ein solches
Sprachpaar wird als „Übersetzungseinheit“ bezeichnet. Das zeigt den grundlegenden Aspekt
eines TMs auf: Je mehr Übersetzungseinheiten in einem TM gespeichert werden, desto
schneller können künftige Übersetzungen angefertigt werden, denn es wird in dem TM
höchstwahrscheinlich mehrere Vorschläge für die künftigen Übersetzungen geben. Im Grunde
ist dieser Aspekt gleichartig mit der Arbeitsweise der beispielbasierten maschinellen

15
Übersetzung. Jedoch müssen die Übersetzungseinheiten in dem TM gut geordnet und
periodisch gereinigt werden, ansonsten wird ein Gedränge von noisy – data verursacht.

Abb. 3: Funktionsschema einer TM – Datenbank

(Quelle: http://www.transline.de/transline-tecNews/Translation-Memory-eine-Einfuehrung -
Zugriff am: 07.12.2009)

Neben dieser Datenbank erstellen viele TM-Werkzeuge aufgrund des Inhalts dieser
linguistischen Datenbank ein neuronales Netzwerk. Dieses Netzwerk ermöglicht eine Suche,
die als Fuzzy-Match-Suche genannt wird und die effizienter als der sogenannten Index-Suche
ist. Die linguistische Datenbank und das dazugehörige neuronale Netzwerk werden
gemeinsam als Übersetzungsspeicher bezeichnet.

Viele Vollversion-TM-Werkzeuge können an einem Netzwerk benutzt werden und damit sind
sie fähig, die Übersetzungen vorzuschlagen, die von anderen Übersetzern anderswo in dem
Dokument schon benutzt sind. Dadurch wird die Konsistenz im ganzen Dokument und sogar
in allen Dokumenten von LSP (Language Service Provider) erhalten, die einer der wichtigsten
Punkte des Übersetzungsprozesses.

2.2.4.1.1. Wofür sind Übersetzungsspeicher geeignet?

Da TMs benutzt werden, um dem Übersetzer Vorschläge aus den vorherigen Übersetzungen
zu bringen, sind sie am nützlichsten, wenn sie mit den Texten benutzt werden, die viele
Wiederholungen von Ausdrücken und Wörtern enthalten und die immer auf die gleiche Weise

16
übersetzt werden sollen. Software - Handbücher und technische Texte passen gut dazu,
wohingegen umfassen Literatur- und Werbungstexten kaum Wiederholungen. Was noch dazu
ist, dass der Übersetzer solcher Texte mehr als ein „Mittel“ für die Übersetzung ist; zusätzlich
zu anderen Übersetzern der technischen Dokumente bereichert er den Text auf seine Art und
bearbeitet ihn, damit der Text zu den kulturellen bzw. gesellschaftlichen Umständen besser
passt. Ein TM für literarische Übersetzung zu benutzen ist also keine gute Wahl, auch wenn
es ein einsatzbereites TM gibt.

In der Tat finden die anderen es von Wert, auch die nicht - wiederholenden Texte in das TM
zu addieren, denn sie helfen der Qualitätssicherung, dass es keine leeren Segmente in der
Übersetzung gelassen werden, und den Übereinstimmungssuchen für die Festlegung der
passenden Verwendung von Ausdrücken. Damit wird auch der Überprüfungsprozess
erleichtert, da die Ausgangs- und Zielsegmente üblicherweise immer zusammen gezeigt
werden, während die Prüfer die Übersetzung bearbeiten26.

Da mithilfe der TM-Systeme die Übersetzer das Projekt in kürzerer Zeit mit weniger
Arbeitsaufwand fertigstellt, fordern viele Kunden Rabatte, wenn sie herausfinden, dass die
Übersetzer TM-Systeme bei ihren Übersetzungen benutzen. Nach Experten sollen die Kunden
allerdings sogar mehr bezahlen, da die TM-Systeme die Qualität der Übersetzung
insbesondere bezüglich der Konsistenz erheblich erhöhen27. Diese Sichtweise von Experten
betont den größten Vorteil der Übersetzungen, die mit TM-Systemen gemacht werden,
gegenüber der konventionellen Übersetzung.

2.2.4.1.2. Erstellung von TM – Projekten

Es ist vorteilhaft, einzelne TM - Projekte für verschiedene Übersetzungsfelder zu erstellen.


Das verhindert die extensive Ausweitung eines einzigen TM, und damit werden die
Durchsuchungen des TMs nicht verzögert und erscheinen die nutzlosen

26
vgl. Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A Cost/Benefit Analysis – 1992 S.
7-8
27
vgl. LANTRA-L – Mailing List for Translators, “Survey.”

17
Übersetzungseinheiten nicht. Trotzdem ist es förderlich, wenn die Übertragung der einzelnen
Übersetzungseinheiten von einem Projekt zu anderem, oder sogar die Zusammenfügung der
Projekte unterstützt wird, denn es kann während der Arbeit bemerkt werden, dass die
Sprachpaaren in einem anderen Projekt für das vorhandene Projekt nützlich wäre.

Viele der TM-Werkzeuge speichern nicht nur Sprachpaare, sondern auch andere Attributen
wie zum Beispiel das Erstellungsdatum der Übersetzungseinheit, den Name des Erstellers und
des Übersetzers wenn es gibt, der das Sprachpaar benutzt hat, den Projektname und das Feld
der Übersetzung. Diese Angaben werden zusammen mit den Segmentpaaren in einer Datei
(meistens in einer .tmx - Datei28) gespeichert. Für jedes TM – Projekt, also für jeden
Übersetzungsspeicher wird eine neue Datei erzeugt. Wie vorher gesagt, die
Übersetzungsspeicher, die Übersetzungen mit ähnlichen Themen umfassen, können
zusammengefügt werden.

28
Siehe Kapitel “TMX”

18
Abb. 4: Übersetzungsspeicher in dem Server (System: TM – Workbench / SDL Trados)

2.2.4.1.3. Zeichensätze von Übersetzungsspeichern

2.2.4.1.3.1. Single Byte Character Set (SBCS)

Single Byte Character Set (SBCS) wird bei der Benennung der Zeichenkodierungen, die nur
ein Byte zur Darstellung eines Zeichens brauchen, verwendet. Der ASCII-Code, der der
ursprüngliche Zeichensatz für die Darstellung von am häufigsten-verwendeten Zeichen ist, ist
ein Beispiel von SBCS: Bei dem herkömmlichen (nicht erweiterten) ASCII-Code wird jedem
Zeichen ein Bitmuster aus 7 Bit (also eine Zahl, die aus sieben Ziffern besteht, wobei jede
davon entweder 1 oder 0 ist) zugeordnet. Da jedes Bit zwei Werte annehmen kann, gibt es

19
27 = 128 verschiedene Bitmuster. Diese Bitmuster bestehen aus 95 druckbaren und 33 nicht-
druckbaren Zeichen, die das lateinische Alphabet in Groß- und Kleinschreibung, die zehn
indische Ziffern und einige Steuer- und Satzzeichen umfassen; also sie entsprechen
weitgehend einer Tastatur der englischen Sprache.

2.2.4.1.3.2. Double Byte Character Set (DBCS) und Multi Byte Character Set (MBCS)

Natürlich sind 128 Bitmuster nicht genug für die Darstellung aller Zeichen von
unterschiedlichen Sprachen sowie aller Steuer- und Satzzeichen. In CJK (Chinesisch,
Japanisch und Koreanisch) – Computerwesen ist das Problem größer, denn die Menge der
Schriftzeichen, die in der entsprechenden Sprachen benutzt werden, können bis zu 40000
erreichen29. Für die Darstellung solcher Zeichen werden Double Byte Character Set (DBCS)
verwendet, der maximal zwei Byte (216 = 65.536) nutzt. Soviel Bitmuster ist reichend für die
Darstellung fast jedes Zeichens aller Sprachen. DBCS ist ein Typ des Multibyte Character
Sets (MBCS), die für die Kodierung eines Zeichens -im Gegensatz zu SBCS- variable
Anzahlen von Bytes verwenden.

2.2.4.1.3.3. Verwendung von unterschiedlichen Zeichensätzen in Übersetzungsspeichern

Um eine TM - Datenbank zu erzeugen, soll das TM fähig sein, es zu erkennen, mit welchen
Elementen ein Satz gebildet ist. Die wichtigsten Elemente sind diejenige, die das Satzende
zeigt (üblicherweise der Punkt) und die sich nie am Satzende vorfinden (das Komma, das
Semikolon und so weiter). Obwohl der Punkt meistens das Satzende zeigt, es soll nicht immer
so sein, besonders wenn er mit Anreden und Abkürzungen kombiniert wird. Bei den TM -
Systems, die für westliche Sprachen entwickelt sind, ist diese Unterscheidung leicht
erkennbar, aber bei einer Übersetzung zwischen den Sprachen, die unterschiedliche
Zeichensätze benutzen, ist es schwierig: Viele westlichen TM - Systeme können DBCS-
Zeichenketten in einem Ausgangstext nicht analysieren, denn sie sind nicht gelehrt, die
Zeichen von DBCS zu erkennen. Das größte Problem dabei ist, dass viele westliche TM -

29
vgl. Doug Ewell, A survey of Unicode compression – Stand 30.01.2004, S. 1-2

20
Systeme nicht festlegen können, wo das Satzende in einer Sprache mit double - byte Zeichen
liegt.

Die Übersetzer, die mit double – byte Quellsprachen (z.B. CJK - Sprachen) arbeiten, können
manchmal erfahren, dass die Übersetzungsspeicher mit DBCS Probleme verursachen und den
Übersetzungsprozess verzögern, anstatt der Erhöhung der Produktivität. Allerdings können
die Übersetzungsspeicher für die Übersetzung von einem Quelltext mit single - byte Zeichen
in eine Sprache mit double – byte Zeichen benutzt werden. Nämlich ist die Verwendung von
Übersetzungsspeichern lediglich für die Übersetzer, deren Zielsprache double – byte Zeichen
enthält, am nützlichsten30.

2.2.4.1.4. Unterschiedliche Ansätze zu Übersetzungsspeichern

2.2.4.1.4.1. Übersetzungsspeicher der ersten Generation

Ab dem Auftreten der Computerunterstützten Übersetzungstechnologie haben bisher drei


Generationen der Übersetzungsspeicher erschienen. Übersetzungsspeicher der ersten
Generation speichern zweisprachige Vollsätze, und sie wenden lediglich die Vollsatz-
Übereinstimmung an.

Die Ausnahmen bestätigen die Regel, Übersetzungsspeicher umfassen wenige wiederholende


Texte. Also außer Texten wie z.B. Bedienungsanleitungen, technischen Dokumentationen und
Patenttexten, die Suchen bei den ersten-Generation-Übersetzungsspeichern ergeben nur ein
paar wenige Zielsätze. Daher können bei meisten TM – Suchen keine Übereinstimmungen
zurückgeliefert werden, wenn der ganze Zielsatz vollständig im Übersetzungsspeicher nicht
gefunden wird.

30
vgl. Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A Cost/Benefit Analysis – 1992,
S. 24

21
Solche Übersetzungsspeicher anwenden die Edit – Distanz - Methode für vollständige
Segment-Übereinstimmung (Exact Segment Matching / Exhaustive Matching)31: Die Methode
vergleicht jedes Zeichen des Ausgangstextes mit jedem Zeichen des Zieltextes nur auf
Gleichheit. Deswegen übersieht das TM - Werkzeug die Kandidatsätze, die Teilsegmente
(sub-segments) aufweisen könnten. Diese Teilsegmente können sich in dem Zielsatz befinden
und daher für die Übersetzung nützlich werden.

Aufgrund der Wichtigkeit von Teilsegmentübereinstimmung ist es vorteilhafter für die


Übersetzungsspeicher, dass sie Teilsegmentübereinstimmungsmethode anwenden.

2.2.4.1.4.2. Übersetzungsspeicher der zweiten Generation

Übersetzungsspeicher der zweiten Generation weichen leicht von denen der ersten Generation
ab. Der einzige Unterschied dazwischen ist, dass die neueren Übersetzungsspeicher einige
unterschiedliche Zeichen bei der Übereinstimmung erlauben. Daher müssen zwei Sätze
miteinander nicht hundertprozentig übereinstimmen, sondern werden die Übereinstimmungen
mit einem Verhältnis bis zu einem gewissen Grad auch angenommen. Dieser Typ der
Übereinstimmung heißt Fuzzy – Match, wie vorher genannt, und wird anstatt der
vollständigen Übereinstimmung bevorzugt.

31
Siehe Kapitel “Vollständige Übereinstimmung“

22
Abb. 5: Abweichende Übereinstimmungsgrade zwischen Exact- und Fuzzy - Matching

(Quelle: Lynn E. Webb, Advantages and Disadvantages of Translation Memory: A


Cost/Benefit Analysis – 1992 S. 10)

23
Sowohl Exact – Match als auch Fuzzy – Match hängen von der orthographischen
Ähnlichkeitssuche ab, und das ist der größte Nachteil einer solchen Suche. Bloß die
Übereinstimmung der Zeichen liefern meistens schlechte Ergebnisse, denn ihnen fehlt die
semantische Suche32.

2.2.4.1.4.3. Übersetzungsspeicher der dritten Generation

Wie ihr Vorgänger, die Übersetzungsspeicher der dritten Generation fokussieren auf die
Verbesserung der älteren TM-Systeme. Die Neuigkeiten bei diesen Übersetzungsspeichern
sind hauptsächlich die Anwendung der Nominalphrasen und des Satzskeletts in Ausgangs-
und Zieltexte. Manche Übersetzungsspeicher der dritten Generation wenden auch die
semantische Gleichheit an. Jedoch ist ihre wichtigste Besonderheit die sogenannte
Teilsegmentübereinstimmung33. Im Gegensatz zu den vorherigen Generationen kann der
Übersetzer mithilfe der Teilsegmentübereinstimmung sehr viele Suchergebnisse bekommen.

Heutzutage werden die Übersetzungsspeicher der dritten Generation benutzt, und die meisten
Forschungen auf dem Übersetzungstechnologiengebiet basieren auf die semantische Struktur
und die Teilsegmentübereinstimmung34.

2.2.4.1.4.4. Verwendungsgebiete von unterschiedlichen Ansätzen

Um die Leistung zu verbessern wird manchmal mit den ersten-Generation-


Übersetzungsspeichern gearbeitet. Das hilft besonders bei der Übersetzung der repetitiven

32
vgl. Rapp, R., A Part-of-Speech-Based Search Algorithm for Translation Memories", LREC-2002: Third
International Conference on Language Resources and Evaluation, Proceedings, S. 470 - 471, Las Palmas de Gran
Canaria, Spain, 27 Mai – 2 Juni 1999
33
vgl. Gotti, F. u. a., A Third Generation Translation Memory", 3rd Computational Linguistics in the North-East
(CLiNE) Workshop, pp. 26 - 30, Gatineau, Quebec, August 2005.
34
vgl. Somers, H., Review Article: Example-Based Machine Translation", Machine Translation 14, S. 113 - 158,
1999.

24
Texte und für solche Texte wird diese alte Technik immer noch verwendet. Beispielsweise
kann die Übersetzung der Wetterberichte damit gemacht werden35.

Ein anderer Ansatz für die Übersetzung mit Systemen ist die Integrierung der
Maschinenübersetzung an die Übersetzungen, die mit Übersetzungsspeichern gemacht
werden. Hier versucht die maschinelle Übersetzung, die Fuzzy - Matches mit automatischer
Nachbearbeitung (post-editing) zu verbessern36.

Den Übersetzern werden hierarchische Übersetzungsspeicher – Systeme als eine andere


Möglichkeit zur Verfügung gestellt. Solche Übersetzungsspeicher verwenden die sogenannte
TELA – Struktur37, die die Daten in dem Übersetzungsspeicher in drei Schichten aufteilt. Die
TELA – Struktur beschreibt das Ähnlichkeitskonzept zwischen den Schichten mithilfe der
Edit – Distanz – Methode und damit bringt das beste Ergebnis aus dem Übersetzungsspeicher
für den Zielsatz unter der Leitung von dem dynamischen Programmierungsalgorithmus38.

Wenn das gesamte Quellsegment in dem Übersetzungsspeicher nicht gefunden werden kann,
versucht das System mithilfe der Quellensatz-Ausdrücke eine Übersetzung auf der Basis von
der Edit – Distanz – Methode39 zu erstellen40.

Ein Zusatz zu solchen TM-Werkzeugen ist die sogenannte hilfsbereite Konkordanz-Suche.


Mithilfe der Konkordanz können mehrere Angaben als der Schichten-Übereinstimmung durch
eine manuelle Suche in dem Übersetzungsspeicher ermittelt werden.

35
vgl.Thomas, L., L. Philippe, L. Guy; Weather Report Translation Using a Translation Memory." AMTA,
Lecture Notes in Computer Science Vol. 3265, S. 154 - 163, Springer, 2004.
36
vgl. Macklovitch, E., M. Simard, P. Langlais; “TransSearch: A Free Translation Memory on the World Wide
Web", Second International Conference On Language Resources and Evaluation (LREC), Vol. 3, S. 1206,
Athens Greece, June 2000.
37
Siehe Kapitel “TELA - Struktur”
38
vgl. Planas, E. / Furuse, O.; “Formalizing Translation Memories": Machine Translation Summit VII , S. 331 -
339, Singapore, 1999
39
vgl. Siehe Kapitel “Edit-Distanz-Prozess”
40
vgl. Simard, M. und P. Langlais, Sub-sentential exploitation of translation memories": MT Summit VIII , S 19
- 20, Santiago de Compostela, Spain, 18-22 September 2001

25
2.2.4.1.5. Systemarchitektur der Übersetzungsspeicher

Als Erstes wird der Übersetzungsspeicher zur Verwendung vorbereitet. Diese Phase umfasst
die Vorverarbeitung, morphologische Syntaxanalyse, invertierte Datei - Erzeugung und Bau
der Baumstrukturen. Wenn ein Satz als Abfrage gegeben wird, wertet das System alle Sätze
des Textkorpus im Übersetzungsspeicher aus und wendet einige Algorithmen für Beseitigung
an, um das beste Ergebnis heraufzubringen. Dieser Algorithmus der Ähnlichkeitssuche
beinhaltet die Ähnlichkeitsarten wie Wort-Synonym-Morphem-Ähnlichkeit, Verb-
Ähnlichkeit und Form-Ähnlichkeit.

26
Tab. 1: Systemarchitektur von CAT

(Quelle: Kavak, Pınar: Development of a Translation Memory System for Turkish to English,
S. 10)

27
2.2.4.1.5.1. Vorverarbeitung

Bei der Vorverarbeitungsphase wird der zu übersetzende Text zuerst in Sätze segmentiert.
Einige TM-Werkzeuge wie z.B. Trados machen die Segmentierung einer nach dem anderen,
also wenn der Übersetzer mit einem Satz fertig ist und dem Werkzeug die „Öffnung“ des
nächsten Satzes befiehlt. Das trennende Zeichen kann aus den Optionen des Werkzeugs
ausgewählt werden; es kann Punkt, Komma, Kolon, Semikolon oder ein selbstgewähltes
Zeichen sein, wobei das vorgegebene Zeichen immer Punkt ist. Diese Trennungsoperation
wird mit einer Methode vorgesehen, die ähnlich wie die „Split-Methode“ der
Programmierungssprachen sind. Folgendes kann man ein Beispiel der Split-Methode sehen:

Abb. 6: Die Split-Methode bei C# und ihre Ausgabe

Nach der Segmentierung werden alle Zeichen kleingeschrieben. Diese Operation kann mit der
„ToLower-Methode“ verglichen werden:

Abb. 7: Die ToLower-Methode bei C# und ihre Ausgabe

28
Als Letztes werden die unnötigen Zeichen entfernt. Diese Zeichen enthalten meistens
diejenige, die nicht transliteriert werden können, also z.B. die türkischen Zeichen „ş, ğ, ı, ç“
oder die Zeichen aus nicht-lateinischen Alphabeten. Natürlich wird diese Operation
ausgeführt, falls die Übersetzung zwischen einem lateinischen und einem nicht-lateinischen
Alphabet oder zwischen zwei Texte mit unvereinbaren Alphabeten gemacht wird.

2.2.4.1.5.2. Morphologische Syntaxanalyse

Die morphologische Syntaxanalyse findet heraus, aus welchen Morphemen41 ein Wort gebaut
ist. Das CAT – System braucht morphologische Syntaxanalyse hauptsächlich für zwei
Gründe:

 Der Algorithmus für Wort-Synonym-Morphem-Ähnlichkeit braucht Morpheme für die


Auswertung. Falls der Kandidatsatz die gleichen Morpheme wie die Wörter aus dem
Eingabesatz besitzt, dann sind die Bedeutungen beider Sätze höchstwahrscheinlich
gleich. Also die Morphem-Übereinstimmung ist genauso wichtig wie eine vollständige
Schichtenübereinstimmung.

 Um die Wortartangaben (POS: part of speech) jedes Wortes in dem Eingabesatz zu


erhalten, braucht man eine morphologische Syntaxanalyse. Diese Angaben sind bei
Verb- und Form-Ähnlichkeit-Algorithmen verwendet. Kennzeichnung von den POS-
Angaben jedes Wortes in dem Eingabesatz heißt das Herausfinden von ihren
Definitionen sowie ihren Wortarten im Rahmen von dem Satz und im Rahmen von
ihren Beziehungen mit anderen Wörtern.

41
Morphem: die kleinste bedeutungstragende Einheit der Sprache auf der Inhalts- und Formebene im
Sprachsystem; kleinste semantisch interpretierbare Konstituente eines Wortes (Quelle:
http://de.wikipedia.org/wiki/Morphem - Zugriff am: 11.03.2010)

29
2.2.4.1.5.3. Invertierte Datei – Erzeugung

In der Informationstechnologie bedeutet eine invertierte Datei eine Indexstruktur, die das
sogenannte Mapping von einem Inhalt speichert. Dieser Inhalt kann die Wörter in mehreren
Sätzen sein, und das Mapping zeigt ihre Stellen in dem Satz sowie die Stelle dieses Satzes
innerhalb anderer Sätze. Mithilfe dieser Methode ist eine schnellere Volltextsuche möglich.

Abb. 8: Invertierte Datei – Algorithmus für die gebeugten Formen der Wörter im Pseudocode

(Quelle: Kavak, Pınar: Development of a Translation Memory System for Turkish to English,
S. 15)

Folgendes sieht man ein Bespiel von einem Inversionsprozess42:

Angegeben sind drei Sätze:


T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
42
http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010

30
Der Index der invertierten Datei sieht wie Folgendes aus:

Tab. 2: invertierte Datei-Index

(Quelle: http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010)

Die Nummern in den geschweiften Klammern beziehen sich auf die tiefgestellten Zeichen der
Textsymbole, nämlich T0, T1 und T2. Also z.B. befindet sich das Wort “what” nur in dem
ersten und zweiten Satz, während „is“ und „it“ sich in allen Sätzen befinden. Das Index-
Integer fängt mit Null (0) an, wie bei der Programmierungslogik.

Eine Begriffssuche für den Satz „what is it“ gibt die folgende Menge:

Abb. 9: die Menge für den Satz „what is it“

(Quelle: http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010)

Die Schnittmenge von den drei Wörtern {0, 1} zeigt, in welchen Sätzen alle gesuchten Wörter
erhalten sind. Diese Volltextsuche gibt also zwei Sätze zurück; wir brauchen jedoch den Satz,
die mit dem Eingabesatz hundertprozentig übereinstimmen. Als Lösung wird einen voll-
invertierten Index vorbereitet. In einem voll-invertierten Index werden Paare von
Textnummern und lokalen Wortnummern gespeichert.

31
Tab. 3: voll-invertierter Indexe für jedes Wort

(Quelle: http://en.wikipedia.org/wiki/Inverted_file - Zugriff am: 12.03.2010)

Beispielsweise steht das Wort „a“ nur in dem dritten Satz (in dem Satz mit der Indexnummer
2), und war auf der dritten Stelle (auf der Stelle mit der Indexnummer 2) in diesem Satz,
daher die Menge {(2, 2)}.

Die fettgedruckten Indexe in Tab. 3 zeigen, dass der Eingabesatz „what is it“ nur in dem Text
mit der Indexnummer 1, nämlich in dem zweiten Text hintereinander auftritt.

2.2.4.1.5.4. Bestimmung der Synonyme

Synonyme sind die Wörter, die die gleiche oder zumindest ähnliche Bedeutung haben, jedoch
mit verschiedenen sprachlichen Ausdrücken. Wenn ein Kandidatsatz ein Synonym der Wörter
aus einem Eingabesatz enthält, dann ist es auch nützlich für den Übersetzer. Allerdings ist
eine orthographische Übereinstimmung bei Synonymen natürlich nicht möglich.

Die Berücksichtigung der Synonyme kann mithilfe eines Wörterbuches vorgesehen werden.
Zu diesem Zweck wird überwiegend WordNet eingesetzt, besonders wenn die
Ausgangssprache Englisch ist. WordNet ist ein Wortschatz der englischen Sprache und
besteht aus einer lexikalischen Datenbank, die semantische und lexikalische Beziehungen
zwischen den Wörtern enthält43. WordNet gruppiert die Wörter nach ihrer Synonymie als
Wortfelder, die als Synsets genannt werden.

43
http://wordnet.princeton.edu/ - Zugriff am: 11.03.2010

32
WordNet wird daher benutzt, um zu kontrollieren, ob es eine Synonymie zwischen den
vergleichenden Wörtern gibt. Falls es gibt, dann werden auch die Synonyme dem Übersetzer
vorgeschlagen, obwohl es keine „physikalische“ Übereinstimmung der Wörter gibt. Der
Pseudocode für das Erhalten der Synset-Angaben aus WordNet wird in Abb. 10 aufgezeigt.

Abb. 10: Pseudocode für das Erhalten der Synset-Angaben aus WordNet

(Quelle: Kavak, Pınar: Development of a Translation Memory System for Turkish to English,
S. 18)

2.2.4.1.5.5. Baumstruktur - Erzeugung

Ein Baum ist eine Art von Graphen, die zur Darstellung einer (überwiegend hierarchischen)
Struktur verwendet wird. In der Informatik heißt ein Suchbaum eine Datenstruktur, in wessen
Knoten Werte gespeichert werden können.

33
Abb. 11: Darstellung unterschiedliche Bäume mit mehreren Kanten und Knoten

(Quelle: http://de.wikipedia.org/wiki/Baumstruktur - Zugriff am: 12.04.2010)

In Übersetzungsspeichern wird die Baumstruktur nicht für die Darstellung einer Hierarchie
verwendet, sondern werden in den Knoten die Wortangaben gespeichert. Damit wird den
schnellen Zugang bei Bedarf vorgesehen.

Als Erstes werden die Angaben der invertierten Datei auf den Suchbaum geladen. Die Knoten
enthalten dabei die Satznummern jedes Wortes. Ein ähnlicher Suchbaum wird auch für
Synonyme dargestellt. Ein dritter Suchbaum enthält die Wortartangaben in seinen Knoten.
Diese drei Suchbäume werden für den einfachen Zugang zu den benötigten Angaben in dem
Algorithmus der Ähnlichkeitssuche benutzt.

Die Vorbereitung des Übersetzungsspeichers ist mit der Errichtung der Baumstrukturen fertig.
Dieser Übersetzungsspeicher ist ein Beispiel für die satzbasierten Strukturen. Obwohl Sätze
als Basis genommen werden, kann der Übersetzer mithilfe anderer Verarbeitungen auch die
Synonyme und Morpheme der Wörter bewerten.

2.2.4.1.5.6. Algorithmen der Ähnlichkeitssuche

Wie oben erwähnt suchen die erste-Generation Übersetzungsspeicher nur nach


orthographischer Ähnlichkeit durch. Die zweite-Generation Übersetzungsspeicher entwickeln

34
diese Arbeitsweise und wenden Fuzzy-Matching an. Die dritte-Generation
Übersetzungsspeicher, deren Arbeitsweise auf semantische Gleichheit basieren, sind die
aktuellen Werkzeuge für computerunterstützte Übersetzung. Diese Übersetzungsspeicher
unterscheiden sich von denen der älteren Generationen durch die Berücksichtigung der
lexikalischen Eigenschaften von Sätzen und durch die Bearbeitung der Satzteile anstatt der
ganzen Sätze.

Abb. 12: Bildschirmabbild für Fuzzy-Match-Suche

(Quelle: http://www.dict.cc/?s=search+tree+algorithm - Zugriff am: 26.04.2010)

Der Algorithmus der Ähnlichkeitssuche, der von den dritte-Generation


Übersetzungsspeichern angewendet wird, kann sich auch in unterschiedlichen Bereichen
befinden: Abb. 12 ist ein Bildschirmabbild eines online-Wörterbuches. Es zeigt ein einfaches
Beispiel für die Arbeitsweise von dritte-Generation Übersetzungsspeichern. Wenn man
mehrere Wörter in dem Wörterbuch sucht und sie in der Datenbank des Wörterbuches nicht

35
gänzlich findet, sieht man die Benachrichtigung „Full phrase not found“. Allerdings
ermöglicht der Suchalgorithmus des Wörterbuches eine Fuzzy-Match-Suche und damit
werden die gegebenen Wörter dieses Mal Stück für Stück in der Datenbank gesucht. Dadurch
wird die Möglichkeit, Ergebnisse zu bekommen, wesentlich erhöht. Auf der Webseite werden
diese Ergebnisse unter dem Titel „Partial Matches“ (partielle Übereinstimmungen) gezeigt.

Abb. 13:Bildschirmabbild für orthographische-Ähnlichkeit

(Quelle: http://www.dict.cc/?s=sub+title - Zugriff am: 26.04.2010)

Ein anderes Bildschirmabbild (Abb. 13) derselben Webseite zeigt, dass das System dem
Benutzer bei Rechtschreibfehlern hilft. Wenn der Benutzer ein Wort falsch schreibt, wird er
mit der Frage „Did you mean … ?“ („Meinten Sie … ?“) gewarnt, die auch die richtige
Rechtschreibung des Wortes umfasst. Dieses nützliche Suchergebnis wird mithilfe der
orthographische-Ähnlichkeit-Algorithmen ermittelt.

2.2.4.1.5.7. Wort-Synonym-Morphem-Ähnlichkeit

Dieses Verfahren umfasst die drei unterschiedliche Vergleichsmethoden: Wort-Ähnlichkeit,


Synonym-Ähnlichkeit und Morphem-Ähnlichkeit. Es zielt, eine lexikale und semantische
Analyse auf dem Textkorpus auszuführen und damit den besten Kandidatsatz rauszufinden.

36
Zusätzlich entfernt dieses Verfahren die unnötigen Sätze nach seinem Algorithmus, welches
in die Verkleinerung des Textes und daher in die Zunahme der Systemleistung mündet.

Nachdem all diese Operationen ausgeführt wurden, um den Satz zu finden, der mit dem
Eingabesatz am besten übereinstimmt, Punkte werden allen potentiell-übereinstimmenden
Sätzen in dem Übersetzungsspeicher gegeben. Der Satz mit dem höchsten Punkt wird als der
übereinstimmende Satz gewählt.

Die Übersetzung des gewählten Satzes wird dem Übersetzer als ein Ergebnis zurückgegeben.
Der Übersetzer entweder akzeptiert es, ändert es oder lehnt es ab und nach dem zweitbesten
Ergebnis fragt.

2.2.4.1.6. Algorithmus für die Übereinstimmung von ähnlichen Segmenten auf mehrere
Schichten

Wie vorher erwähnt, für die Übereinstimmung von Quell- und Zieltext werden
Ähnlichkeitsalgorithmen und daher eine Schichtenstruktur benutzt. Das Ziel dieses
Verfahrens ist die Anpassung von zwei Wortsegmenten: Die Eingabe I und der Kandidat C.
Die Eingabe I von der Länge m wird nicht als ein einzelnes Teil aus gebeugter Form der
Wörter, sondern als eine Gruppe aus Segmente mit F parallel Schichten If(1<=f<=F) betrachtet,
wobei jede Schicht m Token besitzt. Diese Struktur ist eine TELA Struktur44.

2.2.4.1.6.1. TELA - Struktur

Das i-te Token stimmt mit einem der Paradigmen von i-tem Wort der Eingabe I auf jeder
Schicht f überein.

Im Normalfall werden bei dieser Struktur drei Schichten benutzt, die drei Paradigmen für
jedes Wort in gebeugter Form zurückgeben: die gebeugte Form des Wortes selbst (surface
word) (f=1), die Grundform des Wortes (lemma) (f=2) und die entsprechende Wortart (POS:

44
vgl. Lafourcade, M. 1993. LEAF

37
part of speech) (f=3). Es kann auch mehrere Schichten zuständig für Layout - Merkmale und
Semantik beigefügt werden.

Das grundlegende Problem bei der Ausführung dieses Verfahrens ist die Übereinstimmung
der Elemente eines Kandidat-Segments C von der Länge n mit der Elemente einer Eingabe I
von der Länge m.

Der dynamische Programmierungsalgorithmus, der auf dem Wagner-Fischer Algorithmus


(1974) basiert, benutzt eine Matrix der Form (n+1)x(m+1), wobei m die Länge der Eingabe
und n die Länge des Kandidat sind. Hier bedeutet die Länge die Anzahl der Zeichen in dem
Wort (Kandidat C) aus dem Speicher bzw. in dem zu übersetzten Wort (Eingabe I).

In der Vorgehensweise der Übereinstimmung wird versucht, jedes Zeichen Ci des Kandidat C
mit einem Zeichen Ij der Eingabe I übereinzustimmen. Ci stimmt mit Ij überein wenn eines der
Paradigmen von Ci gleich eines der Paradigmen von Ij auf der gleichen Schicht f ist.

Wenn zwei Wörter mit den Paradigmen Cfi und Ifj auf einer Schicht f nicht übereinstimmen
können, dann sind sie versucht, auf der folgenden höheren Schicht f+1, also auf Cf+1i und If+1j,
übereingestimmt zu werden.

Wenn alle möglichen Schichten der zwei Wörter ohne Erfolg versucht worden sind, wird
versucht, dass das folgende Wort Ci+1 der gleichen Ij entspricht.

Wenn Ci keinem Wort der I auf irgendeiner Schicht entspricht, wird Ci gelöscht.

Alle Wörter der I müssen irgendeinem Wort der C entsprechen; wenn nicht, dann bezieht die
Übereinstimmung eine Einfügung ein.

38
Tab. 4: TELA – Struktur

(Quelle: Multi-level Similar Segment Matching Algorithm for TM and EBMT, S. 622 -
Emmanuel Planas u. a.)

2.2.4.1.6.2. Teilweise Übereinstimmung (Fuzzy Match)

Wenn verwendbare Kandidaten gefunden werden, dann setzen die TM-Werkzeuge


üblicherweise die Wörter ein, die ähnlich wie die Eingabewörter sind, denn
Übersetzungsspeicher werden innerhalb sehr ähnlicher Dokumenten angewendet, und zwar
oft zwischen altere und neuere Versionen von demselben Dokument. Bei dem
Übersetzungsprozess ist eher die Schnelligkeit von erster Priorität als die Ambiguität /
Unklarheit, daher wird es berücksichtigt, dass eine Übereinstimmung erreicht wird, wenn ein
Wort aus C einem Wort aus I auf eine bestimmte Schicht f entspricht. Es ist nicht notwendig,
höhere Schichten zu betrachten, denn die Eingabe und der Kandidat sollen aufgrund der
erwarteten Ähnlichkeit miteinander sowieso übereinstimmen. Da die höheren Schichten nicht
getestet sind, erbringt die teilweise Übereinstimmung einen zeitlichen Vorteil, und zwar einen
Rückgang der Wiederholungszahlen des Algorithmus.

2.2.4.1.6.3. Vollständige Übereinstimmung (Exhaustive match)

In dieser Art der Übereinstimmung müssen zwei Segmente Cfi und Ifj auch auf höhere
Schichten miteinander übereinstimmen, wenn sie auf eine bestimmte Schicht f miteinander

39
übereinstimmen. Dadurch bringt die vollständige Übereinstimmung eine zusätzliche
Gewissheit.

C1 He stayed home yesterday

C2 He stay home yesterday

C3 Nomen Verb Nomen Nomen

I1 His stay was yesterday

I2 His stay be yesterday

I3 Nomen Nomen Verb Nomen

Tab. 5: Übereinstimmung von zwei Wörtern auf höhere Schichten

In Tab. 5 entspricht die Grundform des Wortes „stay“ von der Eingabe I dem von dem
Kandidat C, jedoch nicht die Wortart davon (Verb – Nomen). Üblicherweise kontrolliert der
Algorithmus auch die Daten auf dieser höheren Schicht und findet heraus, dass es keine
Übereinstimmung gibt. Trotzdem wird in TM-Werkzeuge die teilweise Übereinstimmung
benutzt, da solche Ambiguitäten daran kaum auftreten.

2.2.4.1.6.4. Verfolgung (Trace)

Die Ausgabe von dem Algorithmus kann als eine Liste der Dreiergruppe gegeben werden, die
Verfolgung (Trace) heißt. Mithilfe der Verfolgung können die übereinstimmenden Segmente
und die eingesetzten Operationen leicht gesehen werden.

Die Dreiergruppe ist als (Cfi Ifj op) gestaltet, wobei „op“ für die „benötigte Operation für die
Übereinstimmung von Cfi zu Ifj “ steht. op=f zeigt eine Gleichheit auf der Schicht f, und op=0
zeigt eine Löschoperation. Für das Beispiel in Tab. 4 kann die folgende Verfolgung erstellt
werden:

40
(1 0 0) (2 0 0) (3 0 0) (4 0 0) (5 1 3) (6 0 0) (7 2 1) (8 3 2) (9 4 3)

In den ersten vier Dreiergruppen entspricht den Kandidaten keine Eingabe, also ihre zweiten
und dritten Stellen sind Null; jedoch gibt es Übereinstimmungen auf unterschiedlichen
Schichten in den Dreiergruppen, die sich in dem Übereinstimmungsbereich befinden. Der
fünfte Kandidat C5 stimmt mit der ersten Eingabe I1 auf der Schicht 3 überein: die Wörter
NTT und Sony stimmen nur auf der Schicht Wortart (f=3), denn ihre gebeugten und
Grundformen (NTT und Sony) sind nicht gleich. Es gibt keine Übereinstimmung für den
sechsten Kandidat, nämlich stimmt das Wort really mit keinem Wort in der Eingabekette auf
keiner Schicht überein, deshalb sind Ifj und op in der sechsten Dreiergruppe wieder Null. Auf
ähnliche Weise entsprechen dem siebten Kandidat die zweite Eingabe auf der Schicht 1, dem
achten Kandidat die dritte Eingabe auf der Schicht 2 und dem neunten Kandidat die vierte
Eingabe auf der Schicht 3.

2.2.4.1.6.5. Edit – Distanz Prozess

Die Übereinstimmung von C und I wird als einer Edit – Distanz – Prozess (edit distance
process) betrachtet. Dieser Prozess wurde von dem russischen Mathematiker Wladimir
Iossifowitsch Lewenstein erfunden und ist daher auch als „Levenshtein-Distanz“ oder
manchmal als „Bearbeitungsabstand“ genannt. Eine Folge von einfachen Operationen wie
Löschen, Einfügen und Ersetzen (deletion, insertion, substitution) zwischen den Wörtern der
Segmente wird benötigt, um eine Zeichenkette (String) in eine andere zu überführen, und die
Levenshtein - Distanz bezeichnet die minimale Anzahl von Lösch-, Einfüge- und
Ersetzungsoperationen.

Der Pseudocode dieses Algorithmus lautet wie folgendes:

41
Abb. 14: Levenshtein – dynamischer Algorithmus im Pseudocode

(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 623)

2.2.4.1.6.5.1. Zurückverfolgungsalgorithmus

Die Folge der Operationen, die die Transformation vorsehen, kann durch eine
Ablaufverfolgung (Backtrace) auf der berechneten Matrix verfolgt werden. Also werden die
ausgeführten Operationen vom Ende zurückverfolgt. Der Ablaufverfolgungsalgorithmus hat
den folgenden Pseudocode:

Abb. 15: Levenshtein – Backtrace – Algorithmus im Pseudocode

(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 624)

42
2.2.4.1.6.5.2. Einfache Rechnung der Edit – Distanz

Die Levenshtein-Distanz kann mit dem Beispiel in der folgenden Tabelle erklärt werden:

Tab. 6: Vergleich von zwei Wörtern nach Levenshtein

(Quelle: http://www.levenshtein.de/ - Zugriff am: 11.01.2010)

Der Übereinstimmungsgrad zweier Wörter („meilenstein“ und „levenshtein“) wird


beobachtet. Das Kandidatwort wird horizontal und das Eingabewort wird vertikal
geschrieben. Das Kandidatwort steht schon im Speicher, und wir möchten berechnen, wie
viele Editieroperationen ausgeführt werden müssen, um das gewünschte Wort zu erhalten.
Also versuchen wir, aus „meilenstein“ das Wort „levenshtein“ zu erhalten.

Jeder horizontale oder vertikale Sprung entspricht einer Editieroperation, nämlich Löschen
oder Einfügen eines Zeichens. Diese Operationen erhöhen die minimale Anzahl der
Operationen um eins, die ausgeführt werden, um eine Zeichenkette in eine andere zu
überführen. Ein diagonaler Sprung „kostet“ 1 wenn es keine Übereinstimmung zwischen den
zwei Buchstaben in der Reihe und Spalte gibt, und 0 wenn es eine Übereinstimmung
dazwischen gibt.

43
Eine Einfügung entspricht einem Sprung nach unten und eine Löschung entspricht einem
Sprung nach rechts. Die Zahl in der unteren rechten Ecke entspricht dem Levenshtein-
Abstand, nämlich dem Edit-Distanz zwischen den beiden Wörtern.

Tab. 7: die für die Bestimmung der Edit-Distanz ausgeführten Operationen

Der Vergleich von diesen zwei Wörtern fängt mit einem Unterschied (m – l) an, daher ist die
erste Distanzzahl nach dem Start 1. Hier werden die ersten Zeichen ausgetauscht. Wenn
„meilenstein“ als Basis genommen wird, dann wird ein Leerzeichen nach dem zweiten
Zeichen („e“) eingefügt, da es kein „i“ nach dem zweiten Zeichen des Wortes „levenshtein“
gibt. Folglich wird das folgende Zeichen substituiert („v“ anstatt „l“). Die Reihe dieser zwei
Operationen kann ausgetauscht werden, seit es keine Veränderung der Kosten verursacht. Als
Letztes wird das Zeichen „h“ nach dem siebten Zeichen des Kandidatwortes eingefügt. Damit
wird das Eingabewort so umgeformt, dass es mit dem Kandidatwort hundertprozentig
übereinstimmen. Dementsprechend werden mindestens vier Operationen benötigt, um
„meilenstein“ in „levenshtein“ zu transformieren.

44
Tab. 8: Die für die Transformation ausgeführten Operationen

(Quelle: http://www.levenshtein.de/ - Zugriff am: 11.01.2010)

Im Folgenden kann man eine andere Kostenrechnung mit ausführlich angegebenen


Operationen sehen:

Tab. 9: Kostenrechnung bei der Transformation zweier Wörter mit der Edit-Distanz-Methode
und die dafür ausgeführten Operationen

(Quelle: Nerbonne, John u. a.: Phonetic Distance between Dutch Dialects, S. 8)

Bei diesem Beispiel betragen die Gesamtkosten für die Transformation von „industry“ in
„interest“ 8 Operationen. Folgendes werden zwei verschiedene Vorgehensweisen für diese
Transformation veranschaulicht:

45
Tab. 10: Verschiedene Vorgehensweisen für die Transformation zweier Wörter mit der Edit-
Distanz-Methode

(Quelle: Phonetic Distance between Dutch Dialects, S. 7 – John Nerbonne u. a.)

In beiden Vorgehensweisen bleibt die Anzahl der Operationen unverändert, welches sowieso
ein Muss ist, seit die Levenshtein-Distanz-Methode immer die minimale Anzahl der
Operationen ergibt.

2.2.4.1.6.5.3. Anpassung der Edit – Distanz – Methode an CAT - Systeme

Maschinelle Übersetzungssysteme benutzen häufig die Edit – Distanz – Methode, dennoch


wird die Edit - Distanz - Methode auch den CAT-Systemen angepasst. Die TM - Datenbanken
speichern meistens Sätze als übersetzte Segmente, deshalb wird die gleiche Vorgehensweise
unverändert für die Übereinstimmung von den Eingabesätzen mit den gespeicherten Sätzen
ausgeführt. Nun werden Wörter anstatt Zeichen verglichen.

Seit der Levenshtein-Algorithmus für die Übereinstimmung der Wörter benutzt, ist er sowohl
für Übersetzungsspeicher als auch für Example-Based Maschinenübersetzung (EBMT)
geeignet. Der Übersetzer kann mithilfe des TM-Werkzeugs die nötigen Einfügungen
durchführen, aber bei voll automatisierten Übersetzungstechniken ist die Einfügungsoperation
unmöglich, da der Zugriff der Übersetzer auf die maschinelle Übersetzung den erforderlichen
Automatismus der Übersetzung verletzen würde. Aus diesem Grund ist die
Einfügungsoperation für EBMT - Systeme unmöglich, trotzdem kann das System die Extra -

46
Wörter löschen oder die übereinstimmenden Wörter akzeptieren. Die Unmöglichkeit der
Einfügungsoperation wird mit dem Begriff "inf" (infinite / unendlich) angezeigt.

Wir sprechen hauptsächlich über Übersetzungsspeicher und wie gesagt, die


Einfügungsoperation ist nur bei ihnen möglich. Trotzdem werden wir auf die Tabelle "inf"
schreiben, wenn es eine Einfügungsoperation benötigt wird, denn die Einfügung ist sowieso
nicht die Aufgabe des Systems und daher berücksichtigt das System eine
Einfügungsoperation als „inf“.

Abb. 16: Übereinstimmung nur mit Gleichheiten und Löschungen

(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 624)

Beispielsweise vergleichen wir die folgenden Sätze miteinander:


Eingabesatz: „First press the red button.“
Kandidatsatz: „First press only the red button.“ 45

Wenn wir die Sätze selbst vergleichen, sehen wir schnell, dass der einzige Unterschied das
Wort „only“ ist. Also betragen die Kosten nur eine Einheit; die Löschung von dem Wort
„only“ aus dem Kandidatsatz reicht aus, der Kandidatsatz in den Eingabesatz zu
transformieren. Mithilfe der folgenden Tabelle kann man auch die Schritte der
Kostenrechnung von dem Algorithmus ausführlich sehen:

45
Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM and EBMT, S. 624

47
Tab. 11: Satzweise Übereinstimmung mit der Edit-Distanz-Methode und deren
Kostenrechnung
(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 624)

2.2.4.1.6.5.4. Rechnung der Edit – Distanz mit Vektoren

Wie bereits erwähnt, die Gegenstände müssen auf unterschiedlichen Schichten


übereinstimmen. „Scores“ (Punktzähle) werden für jede Gleichheit bzw. Löschung
gespeichert, aber dieses Mal noch ausführlicher: Die Angaben, die verfolgen, auf welcher
Schicht es eine Gleichheit gibt, werden auch erhalten.

Die Übereinstimmungen auf unterschiedlichen Schichten werden als Vektoren gehalten:


d[i,j] = [score1, score2, score3, score_]. Wie gesehen, es wird insgesamt vier Punktzahlen für
jede Vergleichung erhalten. In diesem Vektor zeigen die ersten drei Zahlen, auf welcher
Schicht es eine Gleichheit der vergleichenden Wörter gibt. Die letzte Zahl erfasst die Anzahl
der Löschungen, falls es gibt, wie bei der Edit-Distanz-Methode.

48
Tab. 12: Vektor der Scores für Schichtengleichheit und Löschungen

(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 625)

Um die aufeinanderfolgende Distanz d[i,j] zu rechnen, benutzt das System den folgenden
Algorithmus, der für F – Schichten angepasst ist:

Abb. 17: Anpassung des Algorithmus für F – Schichten

(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 625)

Zuerst versuchen wir die maximale Anzahl der Gleichheiten und die minimale Anzahl der
Löschungen zu bekommen. Jedes Mal wir eine neue Übereinstimmung auf irgendeiner
Schicht in der ersten Säule finden, starten wir einen neuen Pfad. In unserem Beispiel in Tab.

49
12 sieht man es in den Zellen (1,1) (4,1) und (7,1). Wenn die Summe der
Übereinstimmungszahlen von einer der Vektoren in der letzten Säule, also die ersten drei
Zahlen in dem Vektor die Anzahl der Wörter in dem Eingabesatz ergibt, dann heißt es, dass
jedes Wort der Eingabe I mit einem Wort des Kandidat C auf irgendeiner Schicht
übereinstimmt (SUM(scoref) = m). Beide zugänglichen Zellen (7,4) (8,4) in der letzten Säule
erfüllen diese Anforderung: SUM(scoref)1+2+1 = 4; der Eingabesatz enthält auch 4 Wörter
(Sony, stays, strong, Tuesday). Jedoch ist der Zelle (7, 4) eine Löschungsoperation fehlt, und
das macht diese Zelle optimal.

Bei der Zelle (7,4) beinhalten die Zahlen im Vektor die folgenden Angaben:

Ausgehend von dieser Zelle rückwärts können wir die volle Lösung mithilfe des Backtrace-
Algorithmus für F-Schichten finden.

Das folgende Beispiel enthält zwei mögliche Pfade, die keine Löschungsoperation beinhalten:

50
Tab. 13: Auswählen des besten Pfads

(Quelle: Planas, Emmanuel u. a.: Multi-level Similar Segment Matching Algorithm for TM
and EBMT, S. 625)

In diesem Fall wählt der Algorithmus den Pfad in der Zelle (4,4) anstatt des Pfads in der Zelle
(9,4): Die Übereinstimmungen auf der höchsten Schicht, nämlich auf der ersten, sogenannten
„gebeugte Form“ Schicht sind bevorzugt. Damit kann der Übersetzer mehrere exakte
Übereinstimmungen als Vorschläge sehen. Wenn man aus der Zelle (9,4) mit der Punktzahl
(1 2 1 0) zurückverfolgt, erhält man „Tuesday“, „stayed“, „stronger“ und „NTT“, wobei aus
der Zelle (4,4) mit der Punktzahl (2 2 2 0) erhält man „Sony“, „Tuesday“, „stayed“ und
„stronger“. Das Wort „NTT“ ist eine Übereinstimmung erst auf der Wortart-Schicht, wobei
das Wort „Tuesday“ stimmt mit dem Eingabewort hundertprozentig auf der ersten Schicht.

2.2.4.1.7. Speicherung und Austausch von Übersetzungsspeicherinhalten

2.2.4.1.7.1. Das TMX - Format

TMX steht für Translation Memory eXchange und sieht vor, dass der Austausch der Daten
zwischen TM-Systeme mit keinem oder sehr wenigem Verlust gemacht wird.

51
2.2.4.1.7.1.1. Wie ist TMX entstanden?

Anfang der neunziger Jahre sind die ersten TM-Systeme auf den Markt gekommen und jede
Firma hat seine eigene Lösung für die Abspeicherung der Daten in TM-Systemen entwickelt.
Da die Zusammenarbeitsfähigkeit (Interoperabilität) der Daten damals nicht von Bedeutung
war und was noch wichtiger ist, der Austausch der Daten nicht nötig war, wurde einen
allgemeinen Datentyp für die Übersetzungsdaten nicht entwickelt.

Mit der Verbreitung von TM-Systemen wurde der Bedarf an den Austausch solcher TM-
Daten immer größer geworden. Benutzer wollten ihre Übersetzungsdateien, die mit einem
TM-System erstellt wurden, mit sich tragen, wenn sie anfangen, mit einem anderen TM-
System zu arbeiten.

Zu diesem Zweck haben die Hersteller angefangen, die TM-Formate anderer Hersteller zu
unterstützen. Doch war es nicht genug, weil jeder Hersteller sich selbst entschieden, welche
anderen Formate unterstütz wurden. Außerdem war der Entwicklungsaufwand für die
ständige Unterstützung aller Formate, die sich geändert haben oder neu auf den Markt
hinzugekommen waren, zu groß. So wurden Ende der neunziger Jahre die Versuche für die
Entwicklung eines allgemein gültigen Standards – des TMX-Formats – angefangen.

2.2.4.1.7.1.2. Wer entwickelt das TMX - Format?

Das TMX – Format wurde von dem Konzern OSCAR (Open Standards for Container/Content
Allowing Reuse) der Organisation LISA (Localization Industry Standards Association)
implementiert und beibehalten. Mitglieder dieses Konzerns sind die Hersteller vom TM-
Systemen (SDL46, WordFast usw.), Übersetzungsdienstleister und größere Kunden von
Übersetzungsdienstleistungen (LionBridge, Adobe, Glossa Group, IBM, HP usw.47).
46
http://www.sdl.com/en/events/news-
PR/2004/SDL_Reduces_Total_Cost_of_Translation_Memory_Ownership_with_TRADOS__2_TMX.asp -
Zugriff am 17.03.2010
47
http://www.lisa.org/OSCAR-LISA-s-Standards-Committee.79.0.html - Zugriff am 17.03.2010

52
2.2.4.1.7.1.3. Wie scheint das TMX - Format?

Das TMX – Format basiert auf XML. Es enthält die Segmente eines Übersetzungsspeichers in
mindestens zwei Sprachen. Die Anzahl der gespeicherten Sprachen kann nach Möglichkeiten
des TM-Systems größer werden.

Hauptsächlich beinhaltet eine TMX-Datei zwei wichtige Elemente: Die sogenannten


<header> und <body> Tags, also die Struktur ähnlich wie bei dem XML – Format48.

Das <header> - Tag umfasst die Angaben zum TM – System.


Das <body> - Tag umfasst die Übersetzungseinheiten.

Das <header> - Tag kann Attributen wie z.B. creationtool, creationtoolversion, datatype,
segmenttype, creationdate, creationid, changedate, changeid, adminlang, srclang, o-tmf
beinhalten. Die Bedeutungen dieser Attribute werden im Folgenden erklärt:

creationtool: der Name des TM-Systems


creationtoolversion: die Versionsnummer des TM-Systems
datatype: Typ der Datei (wird meistens mit .txt – Dateien gearbeitet)
segtype: Angaben, wie die Texte segmentiert sind
creationdate: Erstellungsdatum des Übersetzungsspeichers
creationid: ID des Benutzers, der den Übersetzungsspeicher erstellt hat
changedate: Veränderungsdatum des Übersetzungsspeichers
changeid: ID des Benutzers, der den Übersetzungsspeicher (letztlich) verändert hat
adminlang: Sprache des TM - Systems
srclang: Sprache der Ausgangsdatei
o-tmf: Originalformat der TM – Daten (z.B. .mdf, falls das TM –System erst mit MSSQL
(Microsoft - SQL) erstellt wurde)

48
http://xml.coverpages.org/tmxSpec971212.html - Zugriff am 17.03.2010

53
Die eigentlichen Übersetzungen stehen in dem <tu> - Tag (tu: translation unit) innerhalb des
<body> - Tags. Das <tu> - Tag enthält mindestens ein <tuv> - Tag (tuv: translation unit
variant)49. Die Attributen von <tuv> zeigen die Sprache und (falls gewünscht)
Erstellungsdatum, Ersteller - ID, Veränderungsdatum und Veränderung – ID.

In dem <tuv> - Tag gibt es das <seg> - Tag, in dem der Quellsatz und die dazugehörige
Übersetzung steht. Im Abb. 18 kann eine Muster - TMX – Datei gesehen werden.

Logischerweise weist ein vollständiger Übersetzungsspeicher mindestens zwei


Übersetzungseinheitsvarianten <tuv> in einer Übersetzungseinheit <tu> auf: der Quellsatz
und mindestens ein Zielsatz.

49
vgl. http://www.lisa.org/fileadmin/standards/tmx1.4/tmx.htm – Zugriff am 18.03.2010

54
Abb. 18: Inhalt einer .tmx-Datei mit TM-Metadaten (<header> - Tag) und
mit einer Übersetzungseinheit (<body> - Tag)
(Der Quellsatz aus http://en.wikipedia.org/wiki/Guitar - Zugriff am 17.03.2010)

55
Auf der erweiterten Stufe beinhaltet eine TMX-Datei auch die Formatierungsinformation und
die Fußnoten des Textes. Folgendes gibt es ein Beispiel für Trados, das um die Darstellung
der Formatierungsangaben eines Satzes geht:

Abb. 19: Darstellung von Formatierungsangaben in einer TMX – Datei bei Trados

(Quelle: Reineke, Detlef: Einführung in die Softwarelokalisierung, S. 172)

Jedes TM – System hat seine eigene Art der Darstellung von Formatierungsangaben,
allerdings kann jedes TM – System alle anderen Darstellungsformen einlesen.

2.2.4.1.7.1.4. Wie gut funktioniert TMX?

Allgemein gewährleistet das TMX – Format einen hundertprozentigen verlustfreien Transport


der Übersetzungseinheiten. Jedoch werden manchmal die Übereinstimmungsraten
herabgesetzt. Ein Grund dafür ist die unterschiedliche Art und Weise, in der die Angaben zu
den Subelementen der Sätze wie z.B. Fußnoten und die Angaben zu der Formatierung
dargestellt werden.

Ein anderer wichtiger Grund für die Herabsetzung der Übereinstimmungsraten sind die
unterschiedlichen Regeln für Segmentierung. Mithilfe dieser Regeln teilen die TM – Systeme
die Dokumente. Jedes TM - System verhält sich unterschiedlich bei den Satzzeichen wie z.B.
Doppelpunkt [:], Tabulator (kurz „Tab“), Strichpunkt [;] und weiche Zeilenschaltung [-].
Diese Abweichung wird in der folgenden Tabelle ergänzt:

56
Trados Transit Déjà Vu Across
Doppelpunkt [:] Ende Ende Ende kein Ende
Tabulator Ende kein Ende kein Ende kein Ende
Strichpunkt [;] kein Ende Ende Ende kein Ende
Ende in
WinWord, kein
w. Zeilenschaltung [-] kein Ende kein Ende kein Ende
Ende in
Powerpoint

Tab. 14: Standardeinstellungen für Segmentierung bei einigen bekannten TM – Systeme

Das folgende Beispiel gibt eine Vorstellung von diesem Segmentierungsunterschied:

Wie in der Tabelle - 15 schon klar gemacht wird, wegen der unterschiedlichen Handhabung
von Satzzeichen können die Übereinstimmungsrate von zwei gleichen Sätzen mit einem
Strichpunkt in der Mitte niedrig sein.

Tab. 15: Verringerung der Übereinstimmungsrate durch unterschiedliche


Segmentierungsregeln

(Quelle: Reineke, Detlef: Einführung in die Softwarelokalisierung, S. 174)

57
Um diesem Problem entgegenzuwirken, gibt es im Moment nur die Möglichkeit, die
Segmentierungsregeln des Systems, von dem die TMX – Datei exportiert wurde, zu
beobachten und diese Regeln in dem System, zu dem die TMX – Datei hochgeladen wird,
einzustellen.

2.2.4.1.7.2. SRX – Der Neue Standard

Um die Schwierigkeiten bei der Durchführung der Segmentierungsregeln zu überwinden


wurde im April 2008 einen neuen Standard entwickelt: SRX (Segmentation Rules eXchange).
Mithilfe dieses Standards können auch die Informationen über Segmentierungsregeln
exportiert werden. Heutzutage unterstützen die Werkzeuge größerer Firmen auf dem Markt
wie z.B. Trados – Translator’s Workbench und Google Translator Toolkit das SRX – Format,
allerding ist das weit verbreitete Format immer noch das TMX – Format.

Der größte Unterschied zwischen SRX – Format und TMX – Format ist, dass SRX – Format
auch das sogenannte <languagerules> - Element im <body> - Tag enthält. Dieses
<languagerules> - Tag beinhaltet am wichtigsten das sogenannte <rule> - Element, das die
<beforebreak> und <afterbreak> - Tags umfasst50.

Ein ausführliches Beispiel mit languagerules kann in Tabelle – 16 gesehen werden. Die erste
Regel (rule) definiert, dass ein Punkt, ein Fragezeichen oder ein Ausrufezeichen [\.\?!] ein
Satzende darstellen, wenn danach ein Leerzeichen [\s = space] folgt [break = „yes“]. Bei der
zweiten Regel wird eine Ausnahme (exception) definiert; und zwar stellt der Ausdruck
[\sU\.K\.] kein Satzende dar, wenn danach ein Leerzeichen [\s] folgt, denn das „break“ -
Attribut von der Regel hat den Wert “no”. Als letztes wird eine ähnliche Regel für die
Abkürzung „Mr.“ definiert.

50
http://www.lisa.org/fileadmin/standards/srx20.html#rule – Zugriff am 22.03.2010

58
Tab. 16: Teil einer SRX – Datei mit Regeln

(Quelle: http://www.lisa.org/fileadmin/standards/srx20.html - Zugriff am: 30.04.2010)

59
2.2.5. Werkzeuge von CAT - Systemen

2.2.5.1. Übersetzungsspeicher - Werkzeuge

Bei TM-Werkzeuge handelt es sich um ein Datenbanksystem, wobei das Sammeln, Speichern
und Wiederverwenden von Übersetzungen ausgeführt werden. Fertige Übersetzungen werden
in TM-Datenbanken gespeichert. Fortgeschrittene TM-Werkzeuge unterstützen die interaktive
Übersetzung mithilfe Textbearbeitungsprogramme wie Microsoft Word, worüber während
des Übersetzungsvorgangs ein direkter Zugriff auf die TM-Datenbank besteht. Die
Unterstützung an der Übersetzung allein ist nicht die einzige Funktion solcher Systeme;
Qualitätssicherung und Projektverwaltung sind andere wichtige sekundäre Aufgaben. Das
System wird so eingestellt, dass alle seine Funktionen unabhängig von der Erreichbarkeit der
TM-Datenbank werden.

2.2.5.1.1. Ergänzung neuer Übersetzungseinheiten zum Übersetzungsspeicher

Neue Übersetzungsspeicher sind anfänglich leer und dazu können neue


Übersetzungseinheiten durch zwei Wege ergänzt werden:

 während der Übersetzung oder


 durch den Import von vorherigen übereinstimmenden Satzpaaren.

Bei der ersten Alternative wird der im Hintergrund arbeitende Übersetzungsspeicher durch ein
TM-Werkzeug automatisch aktualisiert, während der Übersetzer den Text (meistens) Satz für
Satz übersetzt. Mit jeder Satzübersetzung wird zu dem Übersetzungsspeicher eine
Übersetzungseinheit addiert.

Bei der zweiten Methode wird der Übersetzungsspeicher durch Datenimport gefüllt werden.
Dabei gibt es bei großen TM-Systemen wieder zwei Alternative:

60
 Datenübertragung von einem Übersetzungsspeicher in ein anderen
 Ladung von zugeordneten Satzpaaren in den Übersetzungsspeicher

Bei dem zweiten Punkt braucht das TM-System ein sogenanntes Zuordnungswerkzeug
(Alignment Tool). Die Arbeitsweise dieses Werkzeugs wird in dem Kapitel
„Zuordnungswerkzeuge“ veranschaulicht.

2.2.5.1.2. Anwendung von Übersetzungsspeicher während der Übersetzung

Während der Übersetzung sucht das Werkzeug den Übersetzungsspeicher durch und schlägt
vorhandene Übersetzungseinheiten vor. Die Suche setzt sich dabei auf das
Übereinstimmungsniveau zwischen dem zu übersetzenden Satz und den Sätzen, die bereits in
dem Übersetzungsspeicher gespeichert sind. Eine exakte Übereinstimmung heißt eine
hundertprozentige Übereinstimmung.

Das TM-Werkzeug bietet die zuvor benutzten Übersetzungen aus dem Übersetzungsspeicher
als Vorschlag an, wenn ein gleiches oder ähnliches Satz im zu übersetzenden Dokument ein
weiteres Mal erscheint. Der Übersetzer nimmt der Vorschlag genau an wenn es eine exakte
Übereinstimmung gibt, oder bearbeitet ihn wenn die Übereinstimmung ein Fuzzy-Match ist.
Der Übersetzer hat auch die Möglichkeit, eine hundertprozentige Übereinstimmung zu
bearbeiten. Nach Wahl wird der bearbeitete Vorschlag dem Übersetzungsspeicher
hinzugefügt oder der initiale Vorschlag wird durch den bearbeiteten Vorschlag überschrieben.
Der Übersetzungsspeicher wird damit während der Übersetzung dynamisch angereichert.

Der erlaubte Mindestwert für ein Fuzzy-Match ist 30 %. Übereinstimmungen mit den Werten
kleiner als 30 % wären nutzlos; dadurch gäbe es so viele ähnliche Sätze und daher so viele
Übereinstimmungen. Das wäre ein Gedränge von Übersetzungsvorschlägen verursachen und
würde dem Übersetzer die Wahl des richtigen Vorschlags schwer machen.

Immer noch ist ein Mindestwert von 70 % als optimal angesehen. Dieser Mindestwert ist auch
der von dem System anfänglich vorgegebene Wert. Während der Übersetzung wird nicht nur
die beste Übereinstimmung, sondern auch die anderen Übereinstimmungen mit einem

61
Mindestwert von 30 % angezeigt, damit hat der Übersetzer die Chance, aus einer größeren
Gruppe der Vorschläge die beste Wahl zu treffen.

Das Werkzeug hebt die Unterschiede zwischen dem Segment aus dem Übersetzungsspeicher
und dem zu übersetzenden Segment hervor. Diese Hervorhebungen haben unterschiedliche
Farben, um die verschiedene Typen der Unterschiede besser zu betonen. Bei unserem
beispielshaften CAT-System SDL Trados zeigt die graue Farbe die Satzteile, die an der
anderen Seite der Übereinstimmung fehlen. Die Wörter mit der gelben Farbe befinden sich
auch in dem übereinstimmenden Segment, aber nicht hundertprozentig, sondern mit einigen
Unterschieden wie z.B. Affixe und Präfixe. Zuletzt zeigt die türkisgrüne Farbe den ähnlichen
Unterschiedstyp wie das Gelb, aber auf Grund von dem Satz: die türkisgrünen Wörter
befinden sich genauso in dem übereinstimmenden Segment, aber nicht angeordnet, sondern
an einem anderen Platz in dem Satz.

2.2.5.1.3. Konkordanzsuche

Normalerweise werden die Übersetzungsvorschläge während der Übersetzung durch die


Eröffnung der Tags vorgelegt. Außerdem kann der Übersetzer mit der Konkordanzsuche den
Übersetzungsspeicher nach Textteilen wie ein Wörterbuch durchsuchen. Die Ergebnisse des
Suchvorgangs können mit dem zu übersetzenden Text vollständig oder teilweise
übereinstimmen. Die Ergebnisse der Suche werden in einer Liste ausgegeben. Alle
Ausgangssegmente, die den Suchtext vollständig oder teilweise enthalten, werden aus dem
Übersetzungsspeicher angezeigt. Bei größeren TM-Werkzeugen gibt es auch die Möglichkeit
einer automatischen Konkordanzsuche wenn für das derzeitige Segment keine
Übereinstimmung in dem Übersetzungsspeicher gefunden wird. Mithilfe der
Konkordanzsuche kann der Benutzer etwas Nützliches manuell finden.

2.2.5.2. Zuordnungswerkzeuge

Die Zuordnungswerkzeuge erlauben die vorherigen Übersetzungen wiederzuverwenden.


Hauptsächlich werden mithilfe dieses Werkzeugs die Sätze des Ausgangstexts mit den Sätzen
des Zieltextes übereinstimmt. Dieses Mal ist der Zieltext, also die Übersetzung auch fertig

62
und nur wird die Zuordnung der Sätze von diesen zwei Texten durchgeführt. Daher dient das
Zuordnungswerkzeug zum Zusammenhalten der zusammengehörigen Satzpaare aus beiden
Texten, die nicht mithilfe eines TM-Werkzeugs übersetzt wurden.

2.2.5.2.1. Wie funktionieren die Zuordnungswerkzeuge?

Die Arbeitsweise des Zuordnungswerkzeugs ist ziemlich einfach: Der Ausgangstext und der
Zieltext werden geladen und ihre übereinstimmenden Sätze werden manuell zueinander
zugeordnet. Anfänglich erscheinen die Sätze schon mit Pfeilen zueinander zugeordnet, aber
wegen der grammatischen Unterschiede zwischen verschiedenen Sprachen muss der Benutzer
die automatischen Übereinstimmungen sorgfältig kontrollieren und falls erforderlich
korrigieren.

Am Ende des Zuordnungsvorgangs erstellt das Werkzeug eine zweisprachige Datei im .txt –
Format, die in den Übersetzungsspeicher direkt ergänzt werden kann.

Zuordnungswerkzeuge nutzen bei der Verbindung der Sätze von Ausgangstext und Zieltext
die Tatsache aus, dass Dokumente strukturiert sind. Dass heißt, dass die Werkzeuge
strukturelle Bestandteile des Textes verwenden, die mit Stil-Namen erkannt sind (z.B. beim
Word kann der Name des Stils von einem Absatz „Absatz 1“ sein).

Mithilfe dieser Struktur-Angaben erstellt das Werkzeug einen Strukturbaum sowohl für den
Ausgangstext und den Zieltext. Dabei darf der Benutzer auch den Strukturbaum zu
beeinflussen. In dem Fall, dass es keine klare Struktur gibt, kann das Werkzeug auch die
Absatznummerierungen und Schriftgrößen verwenden und sich automatisch eine Struktur
erstellen.

Der Ausgangstext und der Zieltext müssen die gleiche Formatierung haben. Bei
verschiedenen Textformaten wie HTML und XML werden Tags für diese Funktion
verwendet. Allerdings bieten die umfangreichen Übersetzungssysteme wie Trados die
Umwandlung des Textformats zum geeigneten Format (Tag-Format des Systems selbst)
automatisch. Ansonsten wird die Kompatibilität der Dateien mit unterschiedlichen

63
Textformaten mithilfe eines Tag-Herstellungswerkzeug vorgesehen, wie z.B. TagEditor bei
Trados.

2.2.5.2.2. Ein Zuordnungsprozess - Beispiel

Im folgenden Abschnitt wird eine Probe von einem solchen Zuordnungsprozess, der mit
Trados WinAlign – Werkzeug ausgeführt wurde, dargestellt.

Als Quell – und Zieltext habe ich den ersten Absatz der Erzählung „die Verwandlung“ von
Franz Kafka gewählt. Diese zwei Texte werden als unterschiedliche MS-Word Dokumente
gespeichert. Die Dokumente können auch fast allen Textverarbeitung - Formate besitzen,
solange sie dasselbe Format haben.

Abb. 20: Zwei Texte51 auf Deutsch bzw. Englisch in zwei unterschiedlichen MS Word –
Dateien (.doc)

In dem WinAlign – Tool wird als Erstes ein neues Zuordnungsprojekt erstellt. In dem ersten
Tab des Fensters wird der Name des Projekts sowie die Quell- und Zielsprachen festgelegt

51
Der englische Text aus https://records.viu.ca/~johnstoi/stories/kafka-e.htm
Der deutsche Text aus http://www.digbib.org/Franz_Kafka_1883/Die_Verwandlung_.pdf

64
(Abb. 21). Das Format der für Zuordnung hochgeladenen Dokumente wird auch hier bekannt
gemacht.

Abb. 21: Das „New WinAlign Project“ Fenster für Projekterstellung bei Trados

Hier kann man auch die Segmentierungsregeln bestimmen (Abb. 22). Beispielsweise kann
man feststellen, welches Satzzeichen ein Satzende darstellt. Das Default - Satzzeichen dafür
ist der Punkt. Diese Information wird auch in den Metadaten des Übersetzungsspeichers, also
in der dazugehörigen TMX – Datei erscheinen.

65
Abb. 22: Das „New WinAlign Project“ Fenster für Projekterstellung bei Trados

In dem zweiten Tab dieses Fensters, das in Abb. 23 gezeigt wird, fügt man das Quell- und
Zieldokument zu dem Projekt hinzu.

Abb. 23: Hinzufügung der Quell- und Zieldokumente zu dem Projekt – zweites Tab

66
In dem nächsten Schritt, nachdem das neue Projekt erstellt wurde, scheinen die zwei
Dokumente nebeneinander, wobei ihre Segmente miteinander mit Pfeilen verknüpft sind. In
der gegebenen Situation sind ihre Sätze verknüpft, weil als das Satzzeichen, das ein Satzende
darstellt, „Punkt“ gewählt wurde.

Abb. 24: Zuordnung der Quell- und Zieltexte

Eine wichtige Einzelheit dabei ist, dass was in dem deutschen Text mit einem Satz
ausgedrückt ist, wurde in dem englischen Text mit zwei Sätzen ausgedrückt. Das ist bei
Literaturübersetzungen gewöhnlich. Auch das Werkzeug erkennt diese Situation und
verknüpft die zwei englischen Sätze mit dem dazugehörigen deutschen Satz mit zwei Pfeilen.
Das Werkzeug erkennt dieses Ereignis sowohl durch die Messung der Satzlängen als auch
durch die Anwendung der Ähnlichkeitsalgorithmen. Es entscheidet, welche zwei kurzen Sätze
in einem Text zu einem längeren Satz in dem anderen Text gehören. Wenn solche Sätze öfter

67
nacheinander kommen, nimmt die Anzahl der falschen Zuordnungen zu. Deswegen muss der
Benutzer die Zuordnungen sorgfältig kontrollieren.
Immer noch hat der Benutzer die Möglichkeit, die Zuordnung ohne Änderung zu belassen
oder die zwei englischen Sätze zusammenzufügen (Abb. 25).

Abb. 25: Zusammenfügung von zwei Sätzen

Außerdem hat der Benutzer die Freiheit, die Verknüpfungen zu trennen und mit anderen
Segmenten neue Verknüpfungen zu erstellen (Abb. 26).

Abb. 26: Trennung einer Verknüpfung

68
Wenn die Überprüfung fertig ist, speichert der Benutzer das Projekt. Als Ausgabe bekommt
der Benutzer eine Projektdatei mit .pjt – Format und die eigentliche Zuordnungen in einer
Textdatei mit .txt - Format. Diese Textdatei enthält Tags ähnlich wie die Tags in einer TMX –
Datei: Sowohl die Quell- und Zieltextsegmente als auch die Formatierungsinformationen
(Abb. 27).

Abb. 27: Formatierungsinformationen der Zuordnung

Die Formatierungsinformationen, z.B. die benutzten Schriftarten werden zusammengetragen


und nummeriert. Danach werden diese Nummern jedem geeigneten Segment gegeben.
Beispielsweise sehen wir, dass der erste Satz von dem Zieltext die Formatierung mit der
Nummer f10 anwendet; nämlich ist dieser Satz mit „Times New Roman“ geschrieben (Abb.
28).

Abb. 28: Verwendung der Formatierungsinformationen

Schließlich wird die Textdatei in den gewünschten Übersetzungsspeicher importiert und


inzwischen zu .tmx – Format umgewandelt. Diese Formatierungen kann der Benutzer
anwenden, wenn er in der Zukunft einen Satz mit Formatierungsinformationen aus dem

69
Übersetzungsspeicher benutzt. Er sieht nicht nur den Quelltext und seine Übersetzung,
sondern auch die dazugehörige Formatierungsangaben. Sie können nützlich sein, wenn der
Übersetzer auch Informationen über die Formatierung der Dokumente sehen und benutzen
kann.

2.2.6. Vergleich von unterschiedlichen CAT – Systemen

Bei dem Vergleich der unterschiedlichen CAT – Systemen werden Faktoren aus den Gebieten
Software/Technologie und Übersetzung berücksichtigt: Das CAT – System muss also mit den
Eigenschaften ausgeschattet sein, die die überragende Computer – Technologie und die
erforderlichen Übersetzungsprozesse gut kombinieren.

2.2.6.1. Qualitätsfaktoren für CAT - Systeme

Die Folgenden können als die Schlüsselfaktoren betrachtet werden, die die Qualität
beziehungsweise die Bevorzugung des CAT-Systems bestimmen52:

 Voraussetzungen und Installation des CAT-Systems


 Benutzeroberfläche
 Stabilität des Systems
 Projektverwaltungsmöglichkeiten
 Begriffsextraktion-Möglichkeiten
 Übersetzungsspeicher
 Kompatibilität mit anderen Werkzeugen
 Preis und Kundendienst

Der Punkt, der von den Verbrauchern wie bei vielen Feldern zumeist berücksichtigt wird, ist
das Preis-Leistungs-Verhältnis. Also ist es eher besser, dass die wichtigsten Eigenschaften des
Systems in gut ausgewogenen Verhältnissen zueinander stehen; damit ist eine

52
http://www.roxomatic.de/1283/cat-tools-im-vergleich - Zugriff am 03.03.2010

70
Preisoptimierung auch geschafft. Die Übersetzer, die diese CAT-Systeme benutzen, sind nicht
verlangt, gute Rechnerkenntnisse zu haben. Deshalb muss das System auch eine einfache
Benutzeroberfläche besitzen und leicht installierbar sein.

Der wichtigste Punkt bei solchen Systemen ist höchstwahrscheinlich die hohe Stabilität des
Systems und seine fortgeschrittenen Back-Up-Möglichkeiten. Am Ende sind die guten
Fähigkeiten des Systems sinnlos, wenn alle Übersetzungen entschwunden könnten. Auch von
hoher Bedeutung ist die Frage “wie hoch ist der durchschnittliche Ressourcenverbrauch des
CAT-Systems?“: Das System soll eine hohe Leistung und einen geringen
Ressourcenverbrauch ausgleichen.

Im Vergleich zu diesen Eigenschaften sind die Kompatibilität mit anderen Werkzeugen, die
Unterstützung für verschiedene Betriebssysteme und der Kundendienst von geringer
Bedeutung53.

2.2.6.2. Eigenschaften wichtigster CAT – Systeme und ihre Vergleiche

Ein Vergleich verschiedener CAT-Werkzeuge ist nachstehend aufgeführt54:

CAT - Betriebs-
Unterstützte Dateiformate Preis
System system
XML, Klartext, OpenOffice, Adobe
FrameMaker, Adobe PageMaker, Standard: €490
ASP, Interleaf/Quicksilver, Pro: €990
Déjà Vu Windows
InDesign, Help Content, SGML, MS Arbeitsgruppe:
Access, MS Excel, MS PowerPoint, €1490
MS Word, QuarkXPress, RTF,

53
http://www.proz.com/forum/cat_tools_technical_help/39044-
what_cat_software_do_you_find_more_useful_.html – Zugriff am 03.03.2010
54
http://en.wikipedia.org/wiki/Computer-assisted_translation#Comparison_of_different_CAT_tools –
Zugriff am 03.03.2010

71
C/C++/Java Quelldateien, Java
Properties, JavaScript, VBScript,
GNU gettext
HTML, XHTML (Extensible
Hypertext Markup Language), Multi-
DocBook, Plain Text, PO, JavaHelp, platform
Java Resource Bundles, (Windows
OpenDocument (ODF), OpenOffice, Mac, General Public
OmegaT
StarOffice, Office Open XML, Linux) (da Licence
HTML Help Compiler (HHC), INI- mit Java
Dateien implemen-
(keine Konkordanzsuche, keine tiert)
Netzwerk-Unterstützung)

Weist 3 Übersetzungsumgebungen
auf: dedicated TagEditor, MSWord
Interface, SDLX.
Zusätzliche Filter zur Übersetzung
mit dem TagEditor verfügbar: Word,
Excel, PowerPoint, OpenOffice, €795
SDL
InDesign, QuarkXPress, PageMaker, Windows (freiberuflich) -
Trados
Interleaf, Framemaker, HTML, €4995
SGML, XML, SVG (Scalable Vector
Graphics).
Beinhaltet SDL MultiTerm für
Terminologie-Management und
Project Management Dashboard für
Aufgabenautomation und –

72
verfolgung.
Text ANSI / ASCII / Unicode für
Windows, Text für Apple Macintosh,
Corel WordPerfect, HTML, XML
(ASP.NET, ASP, JSP, XSL), SGML,
SVG, MS Word für Windows, MS
STAR
Excel, MS PowerPoint, RTF für Windows $598 - $1071
Transit55
WinHelp, RC, QuarkXPress, Adobe
FrameMaker, Adobe PageMaker,
Interleaf /Quicksilver, Adobe
InDesign, XGate für QuarkXPress,
AutoCAD
Multi-
platform
MS Word, Excel, PowerPoint (für Windows,
Windows und Mac), html, xml, asp, Mac,
Wordfast €170 – €330
jsp, InDesign Linux (da
mit Java
implemen-
tiert)

Tab. 17: Vergleich von verschiedenen CAT – Systemen


(Quelle: http://en.wikipedia.org/wiki/Computer-
assisted_translation#Comparison_of_different_CAT_tools - Zugriff am: 03.03.2010)

Seit Anfang des zwanzigsten Jahrhunderts verstärkt sich der Trend von integrierten Systemen.
Neben der Unterstützung der Übersetzung wird auch die sogenannte Projektverwaltung in die
Systeme integriert. Ausführung der Projektverwaltung wird mithilfe des Client - Server-

55
http://en.wikibooks.org/wiki/CAT-Tools/STAR_Transit - Zugriff am 03.03.2010

73
Modells stark erleichtert. Dieses Modell ermöglicht die einzelnen Übersetzer, über das
Internet auf das Projekt zuzugreifen. Damit können Übersetzer an beliebigen Standorten mit
der geeigneten Infrastruktur und Internetverbindung an einem Projekt arbeiten.

2.2.7. CAT – Werkzeuge als Web – Dienste

2.2.7.1. Google Translator Toolkit

Außer den Webseiten, die momentane maschinelle Übersetzung anbieten, erscheinen


heutzutage unterschiedliche CAT-Werkzeuge als Web-Dienste. Ein von den wichtigsten
kostenlosen online CAT-Werkzeugen ist das Google Translator Toolkit (Übersetzer-
Werkzeugsatz), das im June 2009 von Google herausgegeben wurde 56.

Google behauptet, dass Google Translator Toolkit ein Teil ihrer „Bemühung, durch
Übersetzung Information universell zugänglich zu machen“ ist und „mithilfe einer
mitbenutzten, innovativen Übersetzungstechnologie den Übersetzern für bessere und
schnellere Übersetzungen hilft“ 57.

2.2.7.1.1. Google Translator Toolkit „gegen“ (oder besser gesagt „mit“) Google
Translate

Der Unterschied zwischen „Google Translate“ und „Google Translator Toolkit“ stammt von
der Erlaubnis des Übersetzers; und zwar ist er beim Translator Toolkit erlaubt, die
maschinelle Übersetzung zu überarbeiten und in dem gewünschten Format zu herunterladen.
Also kann man sagen, dass Translator Toolkit Google Translate als ein Mittel einsetzt.

56
http://translate.google.com/toolkit/ - Zugriff am 29.04.2010
57
Garcia, I.; "Google Translator Toolkit. Free web-based translation memory for the masses" Multilingual
(September 2009) S. 16 -19

74
2.2.7.1.2. Wie funktioniert Google Translator Toolkit?

Beim Translator Toolkit kann der Übersetzer sein eigenes Glossar und/oder
Übersetzungsspeicher als Beihilfe hochladen. Mithilfe der Ähnlichkeitsalgorithmen sucht das
Werkzeug den hochgeladenen Übersetzungsspeicher nach jedem Eingabesatz automatisch
durch, und bei einer Übereinstimmung wird dem Übersetzer den übereinstimmenden Satz
vorgeschlagen. In ähnlicher Weise wird das von dem Benutzer hochgeladene Glossar nach
jedem Wort durchgesucht und bei Übereinstimmungen werden diese vorgeschlagen.

2.2.7.1.3. Arbeitsablauf von Google Translator Toolkit

Der Arbeitsablauf von Google Translator Toolkit wird wie folgt definiert: Erstens ladet der
Benutzer die zu übersetzende Datei von seinem Laufwerk hoch oder gibt die URL-Adresse
von zu übersetzender Webseite an. Das Translator Toolkit „vorübersetzt“ den Text. Dabei
teilt es den Text in Segmente auf. Die Segmente bestehen meistens aus Sätzen, der
überwiegend benutzte Segment-Typ bei der Übersetzung mithilfe der Maschinen. Als
Nächstes sucht es die verfügbaren Übersetzungsspeicher nach jeden Eingabesegmenten durch.
Diese Übersetzungsspeicher bestehen aus zweisprachigen Texten, die von menschlichen
Übersetzern übersetzt werden. Er kann auch der Übersetzungsspeicher sein, der von dem
aktuellen Benutzer als Referenz hochgeladen wurde. Der Kandidatsatz mit dem höchsten
Punkt wird als die Übersetzung daraus ausgewählt. Wenn es gar keinen geeigneten
Kandidatsatz gefunden wird, benutzt das Translator Toolkit das sogenannte Google Translate
– Modul, das maschinelle Übersetzungen macht.

Der Benutzer kann dann die Übersetzungen überprüfen und korrigieren. Mithilfe des
Konkordanz-Werkzeugs, das ähnlich wie diejenigen bei Closed – Source (proprietäre)
Softwares ist, kann er auch das hochgeladene Glossar oder die öffentlichen
Übersetzungsspeicher nach einem Wort oder einem Satzteil durchsuchen.

75
Eine mit dem Google Translator Toolkit - durchgeführte Test-Übersetzung wird im
Folgenden erklärt.

Abb. 29: Das Einstellungen – Fenster von Google Translator Toolkit

(Quelle: http://translate.google.com/toolkit/settings?hl=de - Zugriff am: 30.04.2010)

Als Erstes wird es beschlossen, ob die Übersetzung eines Quellsatzes mit maschineller
Übersetzung oder mit Quelltext vorausgefüllt wird, wenn es dafür keine übereinstimmende
Übersetzung in den Übersetzungsspeichern gefunden werden kann. Hier ist die erste
Alternative gewählt, also werden die leer gebliebenen Segmente mit maschineller
Übersetzung ausgefüllt.

76
Abb. 30: Das Hochladen – Fenster von Google Translator Toolkit

(Quelle: http://translate.google.com/toolkit/docupload?hl=de - Zugriff am: 30.04.2010)

Ich werde keine Webseite, sondern eine Text-Datei übersetzen, also lade ich eine Text-Datei
aus dem Laufwerk hoch. Die Quell- und Zielsprachen werden auch hier festgelegt.

77
Abb. 31: Das Aktive – Übersetzungen – Fenster von Google Translator Toolkit

(Quelle: http://translate.google.com/toolkit/list?hl=de#translations/active - Zugriff am:


30.04.2010)

Auf der Hauptseite des Translator Toolkits hat der Benutzer die Möglichkeit, seinen eigenen
Übersetzungsspeicher und/oder sein eigenes Glossar hochzuladen.

Abb. 32: Das TM-Workbench – Fenster von Google Translator Toolkit

(Quelle: http://translate.google.com/toolkit/workbench?did=00000z36spl258g&hl=de -
Zugriff am: 30.04.2010)

78
Danach fängt der Benutzer an, den Text zu übersetzen. Auf der linken Seite steht den
Quelltext, und auf der rechten Seite steht eine neue Textdatei, die mit übereinstimmenden
Kandidatsätzen und maschinellen Übersetzungen gefüllt wurden. Da vorher die Alternative
„die nicht übereinstimmenden Sätze mit maschineller Übersetzung statt mit Quelltext
vorausfüllen“ gewählt wurde, füllt das Toolkit die neue Datei mit maschinellen
Übersetzungen aus, wenn es keine geeigneten Kandidatsätze in den Übersetzungsspeichern
findet. Bemerken Sie auch, dass das Toolkit für jeden Satz ein Text-Editing-Fenster öffnet,
damit der Benutzer die vorgeschlagene Übersetzung bearbeiten kann.

Eine andere wichtige Angelegenheit ist, dass das Toolkit die Formeigenschaften des
Quelltextes behält. Beispielsweise sind die Links auch in dem Ausgabetext geschützt.

Abb. 33: Das TM-Workbench – Fenster mit Toolkit angezeigt

(Quelle: http://translate.google.com/toolkit/workbench?did=00000z36spl258g&hl=de -
Zugriff am: 30.04.2010)

Auf dem unteren Teil des Bildschirmabbilds sehen wir das Toolkit – Panel. In diesem Panel
werden die hundertprozentigen Übereinstimmungen mit Grün markiert. Das heißt, dass den
gleichen Satz in einem der globalen Übersetzungsspeicher gefunden ist. Die

79
Übereinstimmungen mit niedrigerem Übereinstimmungsgrad werden mit Gelb gezeigt. Diese
Markierfarben können entsprechend der Benutzeranforderung verändert werden. Wenn der
Eingabesatz in den Übersetzungsspeicher nicht gefunden wird, wird die Meldung „keine
vorherigen Übersetzungen vorhanden“ gezeigt58. Exakte Werte für die Übereinstimmung-
Verhältnisse sind dem Benutzer erst nicht gezeigt, diese Gelegenheit wird in der neuen
Version des Translator Toolkits vorhanden sein 59.

Abb. 34: Das Toolkit – Fenster mit dem „Suche nach benutzerdefinierter Übersetzung“ - Tab
angezeigt

(Quelle: http://translate.google.com/toolkit/workbench?did=00000z36spl258g&hl=de -
Zugriff am: 30.04.2010)

Auf demselben Unterteil des Bildschirmabbilds, in dem zweiten Tab, der „Suche nach
benutzerdefinierter Übersetzung“ heißt, kann der Benutzer die freigegebenen, globalen
Übersetzungsspeichern und (falls vorhanden) den hochgeladenen Übersetzungsspeicher
manuell durchsuchen. Dasselbe Konzept, nämlich die Konkordanz-Suche-Funktion erfährt der
Benutzer auch bei CAT-Softwares wie Trados, wobei der Benutzer den Übersetzungsspeicher
nach dem gewünschten Wort oder Satzteil durchsuchen kann.
58
http://translate.google.com/toolkit/workbench?did=00000z36spl258g&hl=de - Zugriff am 30.04.2010
59
vgl. ELIA’s Networking Days Istanbul - 15 April 2010, “Google Translate and Google Translator Toolkit” -
Michael Galvez & Jeff Chin - Google (Informationen an: http://www.elia-association.org/index.php?id=ndist)

80
Die gleiche Suchoperation bringt auch Ergebnisse aus Google Wörterbuch60 und (falls
vorhanden) aus dem hochgeladenen Glossar, wenn es Einträge gefunden wird.

Wenn die manuelle Übersetzung und die Bearbeitung der maschinellen Übersetzung fertig
sind, gibt der Benutzer die Ausgabedatei frei. Der Benutzer hat die Möglichkeit, die Datei in
einem der meistbenutzten Formate herunterzuladen. Nach dem Herunterladen sieht die
Übersetzung wie folgt aus:

Abb. 35: Die mit Google Translator Toolkit gemachte Übersetzung

Die Formeigenschaften sind erhalten und es wird versucht, die Ausgabedatei und die
Eingabedatei visuell und syntaktisch so ähnlich wie möglich zu machen.

60
http://www.google.com/dictionary - Zugriff am 30.04.2010

81
2.2.7.1.4. Diskussionen über Google Translator Toolkit

Obwohl Google Translator Toolkit ein weitgehend beliebtes Produkt geworden ist, werden
viele Diskussionen unter seinem wirtschaftlichen Aspekt geführt61. Manche behaupten, dass
Google Translator Toolkit den Bankrott der Firmen, die proprietären und daher teueren CAT-
Systeme auf den Markt bringen, verursachen wird.

Der geschlossene Kompromiss sieht jedoch vor, dass eine solche Angelegenheit nicht
geschehen wird, denn vermutlich wird dieses Produkt beruflich nicht verwendet. Fachleute
der Übersetzungsindustrie bevorzugen immer wieder die CAT-Systeme, die besonders für den
Eigengebrauch gekauft werden. Sie möchten ihre Quelltexte, Übersetzungen und
Übersetzungsspeicher in ein öffentliches System wie Google Translator Toolkit nicht
eingeben, obwohl Google die Benutzer berechtigen, die Beschränkungsoption „mein
Übersetzungsspeicher nicht freigeben und nicht mit anderen teilen“ auszuwählen. Der Grund
dafür ist, dass einige zu übersetzenden Dokumente wie Patente und amtliche
Regierungsdokumente streng geheim sein müssen.

Trotz der von Google angebotener Option möchten die Übersetzer aus Sicherheitsgründen
ihre Dokumente mit Google nicht teilen und sie zu Google-Servern nicht schicken. In diesem
Zusammenhang ist die Sicherheit wichtiger als Kosten.

Google Translator Toolkit zielt eher auf die Hilfe für nicht professionelle Übersetzer, die das
TM-Konzept für ihre Übersetzungen benutzen und damit effizientere und schnellere
Übersetzungen machen wollen. Mit diesem Toolkit können die Übersetzer mit zwei
Textdateien in demselben Fenster arbeiten und die Ausgabedatei schnell und mühelos
bekommen. Die Zielgruppe ist nämlich die nicht-professionellen Übersetzer und die
Freiwillige der Lokalisierung wie z.B. die Wikipedia - Enthusiasten, die zum Internet
beitragen wollen.

61
vgl. ELIA’s Networking Days Istanbul - 15 April 2010, “Google Translate and Google Translator Toolkit” -
Michael Galvez & Jeff Chin - Google (Informationen an: http://www.elia-association.org/index.php?id=ndist)

82
2.2.7.2. MyMemory – „World’s Largest TM“

Ein anderes Web – Projekt, das eine Übersetzung mithilfe kostenloser Übersetzungsspeichern
vorsieht, ist das MyMemory – Service ® von Translated.net.

Im Gegensatz zu Google besitzt MyMemory kein TM – Werkzeug. MyMemory ermöglicht,


Durchsuchungen in öffentlichen Übersetzungsspeicher vorzunehmen.

MyMemory zielt, alle öffentlichen Übersetzungsspeicher miteinander zu verknüpfen. Solche


Übersetzungsspeicher werden nicht in Datenbanken von MyMemory gespeichert, sondern
benutzt MyMemory Indexierungstechniken62 und speichert nur das Traceroute der
Übersetzungsspeicher. Wenn eine Suche vorgenommen wird, sucht MyMemory diese
Übersetzungsspeicher nach dem Eingabetext schnell durch und gibt die beste
Übereinstimmung zurück. Diese Übersetzungsspeicher bestehen aus den Übersetzungen von
professionellen Übersetzern, von LSPs (Language Service Providers), von Kunden und von
mehrsprachigen Web – Inhalt 63. Nur die öffentlichen Übersetzungen werden von MyMemory
betrachtet. Benutzer können die Ergebnisse aus diesen Übersetzungsspeichern bearbeiten und
auch ihre Übersetzungsspeicher im .tmx – Format einbringen.

62
vgl. ELIA’s Networking Days Istanbul - 15 April 2010, “Creating the World’s Largest Translation Memory” –
Marco Trombetti - Translated (Informationen an: http://www.elia-association.org/index.php?id=ndist)
63
http://mymemory.translated.net/doc/features.php - Zugriff am 01.05.2010

83
Abb. 36: Startseite von MyMemory

(Quelle: http://mymemory.translated.net/deutsch/ - Zugriff am: 01.05.2010)

2.2.7.2.1. Was unterscheidet sich bei MyMemory?

Der Unterschied zwischen MyMemory und Google Translation Toolkit ist, dass MyMemory
kein Workbench für die Übersetzungsprozesse besitzt. Der Benutzer gibt die Sätze bzw.
Satzteile wie im Normalfall ein, also genauso wie bei einer Suche in einem online –
Wörterbuch oder maschinelle Übersetzung – Service. Nach der Auswahl der gewünschten
Zielsprache gibt MyMemory die Ergebnisse zurück. Die Ergebnisse sind so angeordnet, dass
die Übersetzung mit der besten Übereinstimmungsrate an erster Stelle angezeigt wird.

Ein Vorteil von MyMemory ist, dass es extensiv Nutzen aus mehrsprachigen Web – Inhalten
zieht. Beispielsweise anstelle von maschineller Übersetzung, liefert es vorzugsweise das
entsprechende Wort bzw. den entsprechenden Satzteil aus der Wikipedia – Seite auf
Zielsprache, wenn das Wort bzw. der Satzteil in keinem Übersetzungsspeicher gefunden wird.

84
Abb. 37: Eine Ergebnisseite aus MyMemory

(Quelle: http://mymemory.translated.net/s.php?q=Earthquake&sl=en-GB&tl=de-DE –
Zugriff am: 01.05.2010)

Ein anderer Vorteil dieses Web – Dienstes ist der Datenschutz. Eigennamen und Marken
können mit einem <protected> - Tag darauf verborgen werden. Damit können die Benutzer
dem System ohne Gefahr der Verteilung von vertraulicher Information neue Übersetzungen
einbringen. Im Folgenden sieht man ein Beispiel für den Datenschutz:

Der Eingabesatz: IBM will hire new employees if we keep this information confidential.
Nach dem Datenschutzprozess: <PROTECTED> will hire new employees if we keep this
information confidential 64.

64
http://mymemory.translated.net/doc/features.php - Zugriff am 01.05.2010

85
Wie bei Wikipedia, basiert der MyMemory – Service auf Vertrauen: Die Benutzer addieren
ihre Übersetzungsspeicher selbst wenn sie wollen, und bearbeiten auch die
Übersetzungsspeicher von anderen, um den größten Übersetzungsspeicher der Welt zu
erstellen. Das gibt uns auch einen Hinweis über den aktuellen Web-Trend: Große kostenlosen
Projekte zugunsten der Menschen können nur durch die Beteiligung der Information und
durch den gegenseitigen Gewinn von Benutzern geschafft werden.

2.2.7.3. Integration von Web – Diensten mit CAT - Systemen

Kürzlich haben die Hersteller von CAT – Systeme angefangen, ihre Systeme mit
Verbindungsmöglichkeiten mit Web – Diensten auszustatten. Mithilfe solcher Verbindungen
sind die CAT – Systeme ermöglicht, mit den öffentlichen online - Übersetzungsspeichern wie
MyMemory zu verknüpfen65. Dieses neue Konzept sieht mehrere Übersetzungsvorschläge
vor, und damit können bessere Übersetzungen gemacht werden.

65
http://mymemory.translated.net/doc/cat.php - Zugriff am 02.05.2010

86
3. FALLSTUDIE

In dieser Fallstudie wurde eine Übersetzung mithilfe eines Übersetzungsspeicher gemacht.


Die dabei verwendete Software ist SDL Trados Studio 2007 ®, das meistverwendete
proprietäre CAT – System66, und der Übersetzungsspeicher wird mit „SDL Trados
Translator’s Workbench“ ® erstellt und angewendet.

3.1. Erstellung der Übersetzungsspeicher

Zuerst wird einen neuen Übersetzungsspeicher erstellt, und dann werden die neuen
zweisprachigen Sätze simultan dazu beigefügt, also sofort nachdem der Übersetzer die Sätze
übersetzt habe. Ein Texteditor, der kompatibel mit Translator’s Workbench wie z.B.
Microsoft Word ®, wird dafür benutzt. Mittels eines Trados-Template-Plugins für MS-Word
wird nach jedem zu übersetzenden Segment einen leeren Kasten geöffnet und der Übersetzer
gibt seine Übersetzung hier ein. Falls vorhanden, wird der Übersetzungsvorschlag für das zu
übersetzenden Segment auch hier angezeigt. Der Übersetzungsspeicher wird in einer
speziellen Datenbank gespeichert, die als Sprache SQL benutzt.

Danach wird den Übersetzungsspeicher, also die Datenbank, die den Übersetzungsspeicher
enthält, von einem anderen Benutzer erreicht und es wird gesehen, dass die gespeicherten
Übersetzungseinheiten öffentlich für jeden, der dazu einen Zugriff gewährt, sind.

66
http://www.lspzone.com/en/shop/top-reasons-to-buy.asp - Zugriff am 14.05.2010

87
Abb. 38: Erstellung von einem neuen Übersetzungsspeicher

Zuerst erstellt man einen Übersetzungsspeicher in Translator’s Workbench. Dabei werden die
Quell- und Zielsprachen sowie die gewünschten Systemfelder (system fields) ausgewählt, die
Informationen über die Erstellung, Änderungen und Verwendungen von jeder
hinzuzufügenden Übersetzungseinheit in dem Übersetzungsspeicher geben. Der Benutzer
kann diese Informationen nachher bei einer Konkordanz-Suche (Abb. 30) oder in dem
Workbench-Fenster (Abb.35) für jede Übersetzungseinheit sehen. Der Name und die
Beschreibung von dem Übersetzungsspeicher werden auch angegeben.

88
Abb. 39: Informationen über eine Übersetzungseinheit

Die Alternative, ob für ein Quellsegment mehrere Zielsegmente, nämlich mehrere


Übersetzungen hinzugefügt werden kann, wird auch hier festgelegt. Für die Konsistenz der
Übersetzungen, also um die Mehrdeutigkeit und folglich die Verwirrung zu verhindern wird
diese Alternative nicht angekreuzt gelassen. In sehr seltenen Situationen kreuzt man diese
Alternative an, wie z.B. bei der Übersetzung eines wörterbuchartigen Textes.

3.2. Trados-Template-Plugin für Texteditoren

Der Schlüsselpunkt bei der Übersetzung mithilfe von Workbench ist die Verwendung von
dem Trados-Template in dem Texteditor.

Abb. 40: Die Trados-Leiste bei MS-Word 2007

Die wichtigsten Knöpfe auf dem Template sind Folgendes:

 Open/Get: Aktiviert das aktuelle Segment, sucht nach möglichen Übereinstimmungen im


Übersetzungsspeicher und (falls vorhanden) trägt sie in das Dokument über.

89
 Open Next Non 100%: Ignoriert die hundertprozentigen Übereinstimmungen und
aktiviert das erste Segment mit nicht-hundertprozentiger Übereinstimmung. Es
beschleunigt den Übersetzungsprozess bei den Texten, die schon teilweise übersetzt sind,
denn die übersetzten Segmente mit hundertprozentiger Übereinstimmung werden
übersehen und nicht aktiviert.
 Open: Aktiviert das aktuelle Segment und sucht nach möglichen Übereinstimmungen im
Übersetzungsspeicher aber bringt keinen Übersetzungsvorschlag, auch wenn einen
vorhanden ist. Die Suchergebnisse werden im Workbench angezeigt.
 Set/Close Open/Get: Schließt das aktuelle Segment, speichert mittlerweile die
eingegebene Übersetzung, aktiviert das nächste Segment, sucht nach möglichen
Übereinstimmungen im Übersetzungsspeicher und (falls vorhanden) trägt sie in das
Dokument über.
 Set/Close Open Next Non 100%: Schließt das aktuelle Segment, speichert mittlerweile
die eingegebene Übersetzung, ignoriert die nächsten hundertprozentigen
Übereinstimmungen und aktiviert das erste Segment mit nicht-hundertprozentiger
Übereinstimmung. Es beschleunigt den Übersetzungsprozess bei den Texten, die schon
teilweise übersetzt sind, denn die übersetzten Segmente mit hundertprozentiger
Übereinstimmung werden übersehen und nicht aktiviert.
 Translate to Fuzzy: Übersetzt die hundertprozentigen Übersetzungen automatisch und
hält bei der nächsten nicht-hundertprozentigen (Fuzzy) – Übereinstimmung.
 Set/Close: Schließt das aktuelle Segment und speichert mittlerweile die eingegebene
Übersetzung.
 Close: Schließt das aktuelle Segment ohne die eingegebene Übersetzung zu speichern.
 Concordance: Sucht den Übersetzungsspeicher nach dem gewählten Text durch und zeigt
die Ergebnisse in einem Konkordanzsuche-Fenster, falls es eine hundertprozentige oder
Fuzzy-Übereinstimmung gefunden wird.
 Add as New Translation: Fügt eine zusätzliche Übersetzung zu einem Quellsegment in
dem Übersetzungsspeicher, wenn die Alternative „mehrere Zielsegmente für ein
Quellsegment“ aktiviert ist.

90
3.3. Während des Übersetzungsprozesses

Die Übersetzung wird von Englisch in Deutsch gemacht und als Quelltext habe ich einen
einfachen Text mit zwei Sätzen gewählt: „A bicycle has two wheels. Bicycles are generally
used for transportation or exercising.” Das Translator’s Workbench – Werkzeug muss
während der Übersetzung in Betrieb sein, damit die Verbindung mit der TM-Datenbank
hergestellt werden kann. Der Übersetzungsprozess beginnt, indem man den „Open/Get“ -
Knopf anklickt, während der Cursor in dem ersten Satz steht. Das Werkzeug setzt den
Quellsatz in einem grünen Kasten und öffnet genau darunter einen neuen Kasten. Die Quell-
und Zielsegmente, die zueinander gehören, werden mit Tags vor, zwischen und nach den
Kästen zusammengehalten.

Der neue Kasten ist anfänglich leer, denn das Werkzeug konnte in dem Übersetzungsspeicher
keine Übereinstimmung für „A bicycle has two wheels“ finden. Auch die „Null“ zwischen
den Kästen zeigt, dass es keinen Übersetzungsvorschlag geliefert werden konnte.
Normalerweise bezeichnet die Zahl zwischen den Kästen den Übereinstimmungsgrad des
Quellsegments und des gelieferten Vorschlags. Der Übersetzer füllt den Kasten mit seiner
Übersetzung und klickt den „Set/Close Open/Get“ – Knopf an. Damit speichert das
Werkzeug die eingegebene Übersetzung mit dem dazugehörigen Quelltext in den
Übersetzungsspeicher, schließt das aktuelle Segment und aktiviert das nächste Segment. Der
Prozess geht auf die gleiche Weise weiter.

Die Verarbeitung des ersten Satzes wird in Abb. 32 gezeigt.

Abb. 41: Übersetzung eines Segments

91
Am Ende des Übersetzungsprozesses wird jeder Satz in dem Dokument auch seine
Übersetzung dabei haben, also wird das Dokument am Ende in zweisprachige Form
umgewandelt. Das Werkzeug erlaubt keine leeren Segmente, und das bietet einen großen
Vorteil: Der Benutzer kann nie vergessen, durch Zerstreutheit usw. einen Teil des Dokuments
zu übersetzen, und die Vollständigkeit der Übersetzungen wird damit immer vorgesehen.

Mit der Clean-up-Funktion des Werkzeugs kann man die unerwünschten Quellsegmente aus
den fertig übersetzten Dokumenten entfernen und damit bloß die Übersetzung schnell und
einfach bekommen. Mithilfe dieser Funktion kann der Übersetzungsspeicher auch mit den
letzten Änderungen aktualisiert werden. Dadurch ist ständig eine maximale Übereinstimmung
zwischen den übersetzten Dokumente und dem Übersetzungsspeicher gewährleistet67 (Abb.
33).

67
Translator’s Workbench Benutzerhandbuch – März 2007, S. 15

92
Abb. 42: Clean-up-Funktion

In dem nächsten Schritt übersetze ich einen anderen einfachen Text mit zwei Sätzen: „A car
has four wheels. Cars are generally used for transportation or racing.” Wie man leicht sieht,
diese Sätze sind ähnlich wie die Sätze aus dem ersten Dokument. Diese Ähnlichkeit wird
auch von dem Werkzeug bemerkt. Wenn man den oben erwähnten Prozess nochmal
durchführt, sieht man, dass das Werkzeug dieses Mal eine Übereinstimmung für den ersten
Satz in dem Übersetzungsspeicher findet und sie als Vorschlag in den Zielkasten überträgt.
Man sieht auch, dass der Übereinstimmungsgrad 67% beträgt (Abb. 34). Natürlich darf dieser
Vorschlag nicht unverändert gelassen werden; alle Übereinstimmungen unter 100% müssen
von dem Übersetzer bearbeitet werden. Also korrigiert der Übersetzer den Zielsatz als „Ein
Auto hat vier Räder“ und dann klickt den Set/Close Open/Get – Knopf an.

93
Abb. 43: Übersetzungsvorschlag (im gelben Kasten) für einen Quellsatz (im grünen Kasten),
mit einem Übereinstimmungsgrad von 67 %

Die Unterschiede, die die restlichen 33 % erzeugt, werden in dem Workbench-Fenster mit
Gelb hervorgehoben (Abb. 35). Bei dem neuen Quellsatz sind die Wörter „car“ und „four“
unterschiedlich; in dem übereinstimmenden Satz aus dem Übersetzungsspeicher gibt es
„bicycle“ und „two“ anstelle von „car“ und „four“.

Abb. 44: Unterschiede zwischen dem zu übersetzenden Quellsatz und dem Satz im
Übersetzungsspeicher mit Gelb hervorgehoben

Das ähnliche Ereignis geschieht auch bei dem zweiten Satz; und zwar dieses Mal mit einer
78% - Übereinstimmung (Abb. 36). Der Übersetzer kann den Vorschlag als „Fahrräder
werden im Allgemeinen für den Transport oder das Trainieren benutzt“ korrigieren.

94
Abb. 45: Übersetzungsvorschlag (im gelben Kasten) für einen Quellsatz (im grünen Kasten),
mit einem Übereinstimmungsgrad von 78 %

Wie man in Abb. 37 sieht, auch eine manuelle Suche kann in dem Übersetzungsspeicher
durchgeführt werden. Damit kann der Übersetzer sehen, wie er ein Wort / einen Satzteil
früher übersetzt hat.

Abb. 46: manuelle Konkordanzsuche

Eine wichtige Einstellung bei Übersetzungsspeicher ist die Entscheidung, ob die veränderten /
benutzten Übersetzungseinheiten die alte Versionen im Übersetzungsspeicher überschreiben,
unverändert belassen oder zu diesen alten Versionen zusammengefügt werden. Um die
Konsistenz zu erhalten ist das Überschreiben dabei die beste Wahl.

95
„Maximum number of hits“ ist die maximale Anzahl der zu bietenden Vorschläge, die mit
dem Quellsegment übereinstimmen. Wenn diese Zahl z.B. 50 ist, dann heißt es, dass die
ersten 50 besten Übereinstimmung wird als Vorschlag geliefert. Die Übereinstimmung mit
dem höchsten Übereinstimmungsgrad wird in den Kasten übertragt und die restlichen 49
Übereinstimmungen mit niedrigeren Übereinstimmungsgraden können, falls vorhanden, mit
Links- und Rechtspfeil in dem Workbench-Fenster erreicht werden (Abb. 35).

Obwohl man 30 % als Mindestübereinstimmungsgrad eingeben darf, ist ein Wert zwischen 50
% und 70 % optimal: Ein niedriger Wert verursacht die Lieferung von mehreren Vorschlägen
und das macht die Wahl des besten Vorschlags schwieriger. Ein Wert höher als 80 % ist auch
nicht wünschenswert, denn nur wenige, sogar keine Übereinstimmungen können mit einem so
hohen Übereinstimmungsgrad in dem Übersetzungsspeicher gefunden werden und die
Verwendung eines TM-Systems ergibt keinen Sinn.

Abb. 47: allgemeine Einstellungen für den Übersetzungsspeicher

96
Die ähnlichen Einstellungen können auch für die Konkordanzsuche gemacht werden. In dem
Konkordanzsuche-Fenster werden die Suchergebnisse als eine Liste angezeigt (siehe Abb.
37). Die maximale Anzahl der Ergebnisse (zweisprachige Satzpaare) in dieser List können
zwischen 1 und 99 sein (Abb. 39).

Eine andere nützliche Tätigkeit dieses TM-Systems ist die Erlaubnis, einen zweiten
Übersetzungsspeicher als Referenz hochzuladen. Dieser zweite Übersetzungsspeicher ist
schreibgeschützt; also werden seine Übersetzungseinheiten nur bei einer Konkordanzsuche
sichtbar und sie können in den Übersetzungsprozess, nämlich in den Kasten nicht übertragen
werden.

Abb. 48: Einstellungen für die Konkordanzsuche

97
Das Translator’s Workbench ist klug genug, die Punkte nach Abkürzungen wie „Mr.“ oder
die Punkte, die eine Ordnung anzeigen, auseinanderzuhalten. Das ist dank der schon
vorhandenen Sprachregeln („languagerules“) in den TM - Einstellungen möglich.

Ein anderer Vorteil von Translator’s Workbench ist die Fähigkeit zur automatischen
Versetzung der unterschiedlichen Zahlen bei ähnlichen Sätzen. Z.B. haben wir einen zu
übersetzenden Satz mit einer Zahl in numerischer Schreibweise drin. Wenn für diesen Satz
eine Suche im Übersetzungsspeicher durchgeführt und als Ergebnis einen ähnlichen Satz
gefunden wird, versetzt das Werkzeug beim Aufruf unsere Zahl mit der Zahl in dem
Vorschlagssatz automatisch. Im SDL Trados werden solche Zahlen fachsprachlich als
„placeables“ genannt. Beispiele über diesen Vorteilen können in der beigefügten
Videoaufnahme über eine Übersetzung zwischen Türkisch und Deutsch gesehen werden.

3.4. Import zu Übersetzungsspeichern

Zu dem aktuellen Übersetzungsspeicher können Ausgaben der Zuordnungen oder andere


Übersetzungsspeicher importiert werden. Nach dem Importieren besitzt der
Übersetzungsspeicher alle Übersetzungseinheiten des importierten TMs. Dabei können txt-
oder TMX-Dateien können werden.

Als Beispiel importiere ich die txt-Datei, die ich früher im Kapitel „ Ein Zuordnungsprozess –
Beispiel“ erstellt habe (die Ausgabe der Zuordnung von dem ersten Absatz der Verwandlung
– Franz Kafka). Als Erstes fragt das Werkzeug, was zu tun, wenn in dem
Übersetzungsspeicher schon bestehenden Übersetzungseinheiten auch in der importierenden
Datei vorkommen. Ich habe die Alternative „Überschreiben“ gewählt.

98
Abb. 49: Import zum Übersetzungsspeicher – Einstellungen

Als Nächstes wählt man die Datei, die zu dem aktuellen Übersetzungsspeicher hinzugefügt
wird.

Abb. 50: Import zum Übersetzungsspeicher – Dateiwahl

99
Wenn der Import der Datei fertig ist, gibt das Werkzeug nähere Auskünfte über die Anzahl
der importierenden Übersetzungseinheiten und über die Art der Hinzufügung.

Abb. 51: Ende des Importprozesses

Zum Beweis von dem Import nehme ich eine Konkordanzsuche vor. Vorher war unser
Übersetzungseinheit nur über Fahrräder und Autos, und nach dem Import des ersten Absatzes
von „der Verwandlung“ liefert die Suche nach „Gregor Samsa“ ein Ergebnis (Abb. 43).
Beachten Sie auch den Ersteller der Übersetzungseinheit: „ALIGN!“. Da die
Übersetzungseinheit das Produkt einer Zuordnung ist, wird der Name automatisch von dem
Werkzeug erzeugt.

Abb. 52: Konkordanzsuche und ihr Ergebnis nach dem Import

100
3.5. Export der Übersetzungsspeicher

Fertiggestellte Übersetzungsspeicher können auch exportiert werden. Die Ausgabedatei ist


wieder im txt- oder TMX-Format. Die exportierte Datei kann nachher zu anderen
Übersetzungsspeichern importiert oder zum Zwecke von Back-up gelagert werden.

Abb. 53: Export von dem Übersetzungsspeicher

Am Ende des Exportprozesses gibt das Werkzeug die Anzahl der exportierten
Übersetzungseinheiten und aller Übersetzungseinheiten in dem Übersetzungsspeicher. Damit
kann man bemerken, ob etwas bei dem Exportprozess schief geht.

Abb. 54: Ende des Exportprozesses

101
3.6. Batch-Tools

Zur Unterstützung bei der Projektverwaltung stellt Translator’s Workbench leistungsfähige


Batch-Tools für Analyse, Vorübersetzung und Nachbereitung der Dateien zur Verfügung. Die
Bezeichnung „Batch-Tools“ deutet darauf hin, dass die Dateien einzeln oder im Stapel
verarbeitet werden können. Mit den Funktionen für die Analyse und Vorübersetzung kann
man bereits vor Beginn des interaktiven Übersetzungsvorgangs wiederverwendbare Inhalte in
dem Übersetzungsspeicher ausfindig machen und auf die zu übersetzenden Texte anwenden.
Damit lassen sich vorhandene Übersetzungsspeicher-Inhalte bei neuen Projekten optimal
nutzen, sodass sich der Aufwand für die beteiligten Übersetzer beträchtlich verringert68.

3.7. MultiTerm

MultiTerm ist das Terminologieverwaltungssystem. Als mehrsprachiges, konzeptorientiertes


Terminologiesystem ermöglicht MultiTerm das Speichern von terminologischen Daten und
anderen Informationen in einem kompatiblen Datenbankformat. Die MultiTerm
Terminologiedatenbank wird als Termbank bezeichnet69.

Während der Übersetzung kann der Benutzer die gewünschten Wortpaare zu der MultiTerm
Terminologiedatenbank hinzufügen und diese Datenbank nachher wie ein zweisprachiges
Wörterbuch benutzen.

68
Translator’s Workbench Benutzerhandbuch – März 2007, S. 15
69
Translator’s Workbench Benutzerhandbuch – März 2007, S. 15

102
3.8. Umgebungen für Mehrere Benutzer

Die Trados - Systeme wurden speziell für Benutzergruppen entwickelt. Sie basieren auf einer
Client-/Serverarchitektur und nutzen TM Server-Technologie zur Unterstützung von
serverbasierten Translation Memorys. Bei diesen Systemen stellt Translator’s Workbench die
wichtigste Schnittstelle zu den Übersetzungsspeichern dar und bietet vollständige
Unterstützung für sowohl datei- als auch serverbasierte Übersetzunsspeicher.

Außerhalb dieser Systeme können mit Translator’s Workbench auch mehrere


Benutzergruppen gemeinsam auf dateibasierte Translation Memorys zugreifen, die in einer
LAN-Umgebung verfügbar sind. In diesem Fall fungiert Workbench als eigenständige
Anwendung und bietet direkten Zugriff auf im Netzwerk gespeicherte Translation Memory-
Dateien70.

Als Beispiel verbinde ich mit unserem Übersetzungsspeicher durch einen anderen Windows –
Benutzer. Auch dieser Benutzer kann die Übersetzungseinheiten in unserem
Übersetzungsspeicher lesen, verwenden und bearbeiten, oder neue Übersetzungseinheiten zu
dem Übersetzungsspeicher hinzufügen (Abb. 46). Beachten Sie den Ersteller der unten
stehenden Übersetzungseinheit; sein Name ist unterschiedlich (OZCAL2, nicht OZCAL).

Abb. 55: Zugriff unterschiedlicher Benutzer auf denselben Übersetzungsspeicher

In der Abschlussarbeit-CD finden Sie zwei Videoaufnahmen, die andere


Übersetzungsprozessbeispiele vorstellen und die Besonderheiten des Werkzeugs zeigen.

70
Translator’s Workbench Benutzerhandbuch – März 2007, S. 115

103
4. SCHLUSSFOLGERUNG

Mit den Entwicklungen in der Computertechnologie werden bei allen Arbeitsfeldern vieles
erleichtert und bezüglich der Qualität verbessert. Dabei ist eines der am meisten beeinflussten
Felder der Übersetzungsbereich. Bei einem idealen Übersetzungsprozess sollen die
verwendete Zeit und die Arbeitskraft für die Übersetzung möglichst klein und die erreichte
Qualität möglichst hoch sein, und die computerunterstützten Übersetzungssysteme helfen den
Übersetzern dabei.

Am Anfang dieser Abschlussarbeit wurde zuerst das Konzept „Übersetzung mit Maschinen“
erklärt. Dann wurden zwei verschiedene Ansätze; die „maschinelle Übersetzung“ und
insbesondere die „computerunterstützte Übersetzung“ klar definiert. Im Kapitel
„computerunterstützte Übersetzung“ wurde erklärt, wie ein CAT – System funktioniert und
wozu es dient. Dazu werden auch die technischen Aufgaben der CAT – Systeme bei einem
computerunterstützten Übersetzungsprozess ergänzt. Als Letztes wurde mit Nutzung von SDL
Trados eine kürze Übersetzung gemacht, wobei die wichtigsten Module des CAT – Systems
verwendet wurden.

Als Ergebnis kann man sagen, dass computerunterstützte Übersetzungssysteme heutzutage


wesentlich für Übersetzer geworden sind. Durch Verwendung solcher Systeme haben die
Übersetzer die Möglichkeit, alle ehemaligen Übersetzungen unbeschränkt oder entsprechend
des Übereinstimmungsniveaus der Texte zu erreichen und damit werden qualitätsvollere
Übersetzungen vollständig und in kürzerer Zeit gemacht. Verwendung des
computerunterstützten Übersetzungskonzepts, das leichte Bedienbarkeit und einfache
Verteilung der Kenntnisse bietet, ermöglicht bei den Übersetzungen hohe Konsistenz in
kurzer Zeit, die das Wichtigste bei einer guten Übersetzung ist.

104
ANHANG

105
ANHANG A

Journalists' Junket to the Netherlands Gets Lost in Translation71


Sheera Claire Frenkel, The Jerusalem Post (06.11.2007)

When the Dutch foreign minister invited a group of Israeli journalists to visit the Netherlands,
he expected that there might be questions about European involvement in the Middle East or
his country's commitment to economic sanctions against Iran.

What he wasn't expecting were questions about his mother.

Over the weekend, the Dutch Foreign Ministry received a puzzling e-mail from the delegation
of journalists who were scheduled to arrive in Amsterdam next week for an educational
seminar on the Dutch political system.

"Helloh bud, Enclosed five of the questions in honor of the foreign minister: The mother your
visit in Israel is a sleep to the favor or to the bed your mind on the conflict are Israeli
Palestinian, and on relational Israel Holland," began the e-mail. It continued with five nearly
incomprehensible questions, and several other mentions of "mother."

"How could this e-mail possibly have been sent? These journalists have sparked a major,
major incident," said an official from Israel's Foreign Ministry. "Sure he can't understand
many of the questions, because the English is so bad. But he is being asked about the sleeping
arrangements of his mother!"

The Foreign Ministry contacted the journalists who sent the e-mail and discovered that an
automated on-line translation tool was at the root of the problem.

71
http://pbtranslations.wordpress.com/2007/11/07/journalists-junket-to-the-netherlands-gets-lost-in-translation/ -
Zugriff am 30.11.2009

106
The journalist who had arranged the trip and conducted all the previous communication was
away on reserve duty when the Dutch Consulate requested a preview of the questions that the
journalists intended to ask. Another journalist involved in the trip took it upon himself to send
the questions, and - in lieu of a working knowledge of English - relied on an on-line
translation site, www.babylon.com. Typing in his Hebrew questions, he copied the automatic
translations into an e-mail and sent it to the Dutch Foreign Ministry.

Questions which were meant to read: "What, in your opinion, needs to be done regarding the
Iranian threat to Israel?" Became: "What in your opinion needs to do opposite the awful the
Iranian of Israel."

As for the references to the foreign minister's "mother" - the Babelfish Web site had translated
the Hebrew word for "if" (ha'im) as the similar word for mother (ha'ima). Other mistakes
included "bandages of the knitted domes" instead of "Dome of the Rock" and one question
that read: "Why we did not heard on mutual visits of main the states of Israel and Holland,
this is in the country of this."

"We are very, very embarrassed about this serious mess-up. It happened to be that the one
journalist on the trip who knows no English took it upon himself to send the e-mail," said one
of the reporters.

The Dutch Foreign Ministry is considering canceling the entire trip and filling a formal
complaint over the incident. The journalists, meanwhile, said that they were currently too
embarrassed to continue with the planned visit.

107
LITERATURVERZEICHNIS

Bücher und E-Bücher

O'Hagan / Minako; Translation-Mediated Communication in a Digital World; Multilingual


Matters - Clevedon, England (2002)

Somers, Harold; Computers and Translation: A Translator’s Guide; John Benjamins


Publishing Company - England (2003)

Somers, Harold; Chapter 4: An Overview of EBMT, Machine Translation 14, England


(1999)

Wilks, Yorick; Machine Translation: It’s Scope and Limits; Springer – New York, USA
(2009)

Cicekli, Ilyas; Inducing Translation Templates With Type Constraints; Journal: Machine
Translation - Springer Netherlands (2006)

Bengi - Öner, Işın; Çevir Bir Süreçtir… Ya Çeviribilim?; Sel Yayıncılık – Çeviribilimler
Dizisi - İstanbul (1999)

Newton, John; Computers in Translation, A Practical Appraisal; Routledge (1992); e-Book-


Ausgabe im Jahre 2003

Bowker, Lynne; Computer-Aided Translation Technology. A Practical Introduction.


(Didactics of Translation Series). Ottawa: University of Ottawa Press (2002)

SDL Trados Translator’s Workbench Benutzerhandbuch – im Lieferumfang von SDL Trados


2007 enthalten (März 2007)

X
SDL Trados WinAlign Benutzerhandbuch – im Lieferumfang von SDL Trados 2007
enthalten (April 2007)

Artikel- und Zeitschriftquellen

Planas, Emmanuel / Furuse, Osamu; Multi-level Similar Segment Matching Algorithm for
Translation Memories and Example-Based Machine Translation; wissenschaftliche
Veröffentlichung von International Conference On Computational Linguistics (2000); S. 621
- 626

Cicekli, Ilyas / Güvenir, H. Altay; Learning Translation Rules from a Bilingual Corpus;
NeMLaP-2: Proceedings of the Second International Conference on New Methods in
Language Processing, Bilkent Universtiy - Ankara, Turkey (1996); S. 1 – 2, 5

Somers, Harold / Fernandez Diaz, Gabriela; Translation Memory vs. Example-based MT –


What’s the difference?; International Journal of Translation 16.2 (2004); S. 5-33

Ewell, Doug; A survey of Unicode compression; Unicode Technical Note #14, The Unicode
Consortium (2004); S. 1-2

Hutchins, John; Machine Translation and Computer-Based Translation Tools:


What’s Available and How It’s Used (Edited transcript of a presentation at the University of
Valladolid (Spain) in March 2003); veröffentlicht an Personalwebseite von Hutchins,
http://www.hutchinsweb.me.uk/PPT.htm; S. 1 - 17

Planas, Emmanuel / Furuse, Osamu; “Formalizing Translation Memories": Machine


Translation Summit VII; Singapore (1999), S. 332-336

Nerbonne, John / Heeringa, Wilbert / van den Hout, Erik u. a: Phonetic Distance between
Dutch Dialects; Alfa-Informatica, BCN, Rijksuniversiteit Groningen (1996); S. 7 - 8

XI
Bertaccini, Franco / Vernia, Irene - SSLMIT Forlì – Università di Bologna; Company
Training and The Creation of a New Professional Role. The Company Trainer in Terminology
and Computer Assisted Translation: A Feasibility Analysis (2007); S. 1 - 3

IAMT (International Association for Machine Translation); Compendium of Translation


Software – compiled by John Hutchins – 15. Ausgabe (2009)

Haruno, Masahiko / Yamazaki, Takefumi - NTT Communication Science Labs, Japan;


High-Performance Bilingual Text Alignment Using Statistical and Dictionary Information
(1997)

Somers, Harold; Latest Developments in (S)MT; Folien für die Präsentation in Leuven,
Belgien (2007)

MT News International – Newsletter of the International Association for Machine


Translation, Issue No. 22, July 1999, ISSN 0965-5476; Warren Weaver Memorandum im
Juli, 1949; S. 5-6, 15; veröffentlicht an http://www.mt-archive.info/MTNI-22.pdf

Masterarbeiten

Kavak, Pınar, Development of a Translation Memory System for Turkish to English;


Graduate Program in Computer Engineering - Boğaziçi University (2009)

Webb, Lynn E., Translation of German Graduate Division in Monterey Institute of


International Studies, California; Advantages and Disadvantages of Translation Memory: A
Cost/Benefit Analysis (1998 – 1999)

Gow, Francie; School of Translation and Interpretation in University of Ottawa; Metrics for
Evaluating Translation Memory Software (2003)

XII
Teilgenommenes Seminar

ELIA's Networking Days Istanbul – Titanic City Hotel, Taksim


15 April 2010
QA: Speak with Data – Geert Benoit / Yamagata
Google Translate and Google Translator Toolkit – Michael Galvez & Jeff Chin / Google
Creating the World’s Largest Translation Memory – Marco Trombetti / Translated
(mehrere Informationen an http://www.elia-association.org/index.php?id=ndist)

Internetquellen

Maschinelle Übersetzung
http://www.soget.de/de/%C3%9Cbersetzung/78/Maschinelle-%C3%9Cbersetzung
Zugriff am 20.11.2009

Wie funktioniert maschinelle Übersetzung?


http://www.lingenio.de/Deutsch/Sprachtechnologie/Maschinelle-Uebersetzung.htm
Zugriff am 21.11.2009

Schofield&Partner: Übersetzung von Technischen Dokumenten


www.schofield-partner.de/ftp/SPHand_d.pdf
Zugriff am 09.03.2010

Computer Aided Translation – Introduction –


http://www.traduzioni-inglese.it/computer-aided-translation.html
Zugriff am 09.03.2010

How to use Systran


http://www.heisoft.de/volltext/systran/dok2/howworke.htm
Zugriff am 24.04.2010

XIII
Basic guide on how to start working with WinAlign
http://blog.quillslanguage.com/2008/11/trados-winalign/
Zugriff am 02.05.2010

Spiegel-Online - 26.04.2010 / Bethge, Philip; Googeln in fremden Zungen


http://www.spiegel.de/spiegel/0,1518,691364,00.html

Computerwoche – 06.10.1989; Die Kinderkrankheiten der Maschinellen Übersetzung


http://www.computerwoche.de/heftarchiv/1989/41/1152330/

Wikipedia – Die freie Enzyklopädie

Computerunterstützte Übersetzung
http://de.wikipedia.org/wiki/Computerunterst%C3%BCtzte_%C3%9Cbersetzung
Zugriff am 12.11.2009

Levenshtein Distance
http://en.wikipedia.org/wiki/Levenshtein_distance
Zugriff am 10.01.2010

Levenshtein-Distanz
http://de.wikipedia.org/wiki/Levenshtein-Distanz
Zugriff am 10.01.2010

Fuzzy String Searching


http://en.wikipedia.org/wiki/Fuzzy_string_searching
Zugriff am 23.12.2009

XIV
XV