Sie sind auf Seite 1von 69

Peter Sandrini

Universität Innsbruck

Open-Source Tools -
Freie Translationstechnologie
für Übersetzer
Mit freier Software
kostenlos zum Erfolg
27.9.2014
Überblick
I. Was ist freie Software?
II. Freie Translationstechnologie
III. Freie Translationstechnologie im Set USBTrans und tuxtrans
IV.Arbeitsabläufe eines Übersetzers
✔ Übersetzen eines Word-Dokumentes mit TM-Support
✔ Übersetzen einer Website mit TM-Support
✔ Maschinenübersetzung nutzen
✔ Erstellen eines TM anhand vorhandener Übersetzungen
✔ Qualitätsprüfung
✔ Verwalten eigener Terminologiesammlungen
✔ Terminologieextraktion
✔ Referenzkorpus erstellen
✔ Dateiformate konvertieren ...

27.9.2014 Mit Technologie kostenlos zum Erfolg 2


frei ? Open-Source?

Freiheit zum
– benutzen Lizenzen:
– anpassen ●
GNU GPL
– weitergeben

Apache License 2.0

BSD 2/3
– verbessern ●
(L)PGL

MIT license

Mozilla Public License 2.0

Eclipse Public License

Creative Commons

27.9.2014 Mit Technologie kostenlos zum Erfolg 3


27.9.2014 Mit Technologie kostenlos zum Erfolg 4
Warum eigentlich?


Kostenschonenden Karrierebeginn ermöglichen

erleichterte Kooperation

Vermeiden von Urheberrechtsverletzungen durch
Softwarepiraterie

volle Kontrolle über eigenen PC

Einfaches Handling ohne Lizenz oder Aktivierungscode

Beteiligung an Entwicklercommunities

macht aus (abhängigen) Konsumenten (eigenverantwortliche)
Akteure

27.9.2014 Mit Technologie kostenlos zum Erfolg 5


TEnTs


Translation Environment Tools (TenT)
umfassende Applikation für Übersetzer
mit allen nötigen Hilfsmitteln

Oberbegriff für „Translation-Memory-
✔ Translation-Memory
System“ oder „Computer aided ✔ Terminologie-Management
translation CAT-System“ ✔ Alignment
✔ Kollokationssuche
✔ Analyse und Statistik
✔ Projektmanagement
✔ Code-Protection
✔ Stapelverarbeitung
✔ Rechtschreibprüfung
✔ code page conversion
✔ Formatkonversion
✔ ...

27.9.2014 Mit Technologie kostenlos zum Erfolg 6


Freie vs proprietäre Software:
strukturelle Unterschiede
proprietäre Software freie Software
Translation Environment einzelne Projekte mit
Tools (TenT) spezifischer Funktionalität
umfassende Applikation für
Übersetzer mit allen
✔ Translation-Memory
✔ Analyse und Statistik
nötigen Hilfsmitteln ✔ Code-Protection
✔ Translation-Memory
✔ Terminologie-Management ✔ Terminologiemanagement
✔ Alignment
✔ Kollokationssuche ✔ Projektmanagement
✔ Analyse und Statistik
✔ Projektmanagement
✔ Code-Protection ✔ code page conversion
✔ Stapelverarbeitung ✔ Formatkonversion
✔ Rechtschreibprüfung
✔ code page conversion ✔ Rechtschreibprüfung
✔ Formatkonversion
✔ ... ✔ ...

27.9.2014 Mit Technologie kostenlos zum Erfolg 7


Marktsituation

freie Software kommerzielle Software

OmegaT Pootle
OpenTMS
Gaupol FOLT
TinyTm SDL/Trados
Lokalizer BiText2TMX
Okapi
KBabel Sun OLT Virtaal

Rainbow AnaphraseusJubler
ForeignDesk MemoQ Across
Transolution
PO-Edit
Translate Toolkit Star Transit DéjàVu
Heartsome Wordfast Catalyst

27.9.2014 Mit Technologie kostenlos zum Erfolg 8


Einteilung nach Zweck

1) ICT Spracheninfrastruktur
2) Allgemeine Translations-Technologie
3) Spezielle Translations-Technologie
4) Web-basierte kollaborative Translations-Technologie

27.9.2014 Mit Technologie kostenlos zum Erfolg 9


USBTrans


Sammlung von translationsspezifischer freier
Software auf USB-Stick, die vom USB-Stick ohne
Installation gestartet werden kann (Portable
Apps)

Download von
http://homepage.uibk.ac.at/~c61302/fsftrans.html
aus Platzgründen nicht auf USB

Zip-Datei lokal entpacken und direkt auf einen
mind. 2 GB großen USB-Stick kopieren

USB-Stick einstecken und USB-Menü aufrufen

27.9.2014 Mit Technologie kostenlos zum Erfolg 10


PC für Übersetzer: tuxtrans

kompletter Desktop für Übersetzer
mit Linux als Betriebssystem und spezifischen Anwendungen für
Übersetzer

mehrsprachig
– Italienisch, Englisch, Spanisch, Deutsch enthalten,
viele andere Sprachen verfügbar

Open Source und freie Software

Website: http://www.tuxtrans.org
Twitter: https://twitter.com/tuxtrans

Live-System, auf jedem PC ohne
Installation starten,
z.B. vom Universitas-USBStick

27.9.2014 Mit Technologie kostenlos zum Erfolg 11


Die "Ideologie" dahinter

✔ eine intuitive und einfache Plattform für Übersetzer


✔ ein aktuelles Gesamtpaket
✔ keine Lizenzärgernisse durch OS-Betriebssystem
✔ Auswahl der besten freien Programme
für Übersetzer
✔ freie Weitergabe durch Kopien, Download, etc.

27.9.2014 Mit Technologie kostenlos zum Erfolg 12


Was braucht der Übersetzer?

}

Betriebssystem
frei
Standardanwendungen
= kostenlos

Open-Source

spezielle Anwendungen

warum und wofür?


um damit arbeiten und übersetzen zu können

um es nach Belieben verwenden und installieren zu können

um es an Übersetzer und Studenten verteilen zu können

27.9.2014 Mit Technologie kostenlos zum Erfolg 13


tuxtrans nutzen


Live-DVD
(ohne Installation, langsame Ausführung)

Live-USB
(ohne Installation, etwas langsamere Ausführung)

Virtuelles System (VM)

Zweitbetriebssystem
(durch Installation, schnellere Ausführung und mögliche
Anpassung)

Hauptbetriebssystem

27.9.2014 Mit Technologie kostenlos zum Erfolg 14


Vorbereitung für die Migration
von Windows zu Linux


Cross-Platform-Anwendungen verwenden

und Standardformate
odt, pdf, tmx, tbx, xliff ...

27.9.2014 Mit Technologie kostenlos zum Erfolg 15


Standardanwendungen

MS-Windows Linux

Textverarbeitung LO-Writer LO-Writer

Tabellenkalkulation LO-Calc LO-Calc

Präsentation LO-Impress LO-Impress

Datenbanken Access MYSQL

DTP Xpress Scribus

Grafik Gimp Gimp

Officesuite Libre Office Libre Office

Browser Firefox Firefox

E-Mail Thunderbird Thunderbird

27.9.2014 Mit Technologie kostenlos zum Erfolg 16


Übersetzen mit freier
Software: Beispiele

typische Arbeitsabläufe eines Übersetzers

an einem freien Übersetzerarbeitsplatz

mit digitaler Infrastruktur durch

tuxtrans, dem Linux Desktop für Übersetzer

27.9.2014 Mit Technologie kostenlos zum Erfolg 17


▶ Übersetzen eines Word-
Dokumentes mit TM-Support

Man nehme:
– eine Textverarbeitung
– ein TM-System
– mehrere Translation-Memories
– mehrere Terminologielisten

27.9.2014 Mit Technologie kostenlos zum Erfolg 18


Beispieltext

27.9.2014 Mit Technologie kostenlos zum Erfolg 19


OmegaT:
unterstützte Formate

Textformate ●
Lokalisierungsformate
– Plain text (any encoding supported by Java), including – Android resources
Unicode
– Java .properties
– StarOffice, OpenOffice.org, LibreOffice and OpenDocument
– Open XML (Microsoft 2007/2010)
– Key-value files
– (X)HTML (including complete website tree structure) – Mozilla DTD
– Help & Manual – Windows resources (RC)
– HTML Help Compiler – WiX localisation
– LaTeX – ResX
– DokuWiki – Flash XML export
– CopyFlow Gold for QuarkXPress
– Camtasia for Windows
– DocBook
– Magento CE localisation
– Typo3 LocManager
– Iceni Infix (PDF)
– PO (Portable Object File) (reading existing
translations)
– XLIFF source = target
– SubRip subtitles (SRT)
– TXML Wordfast source = target
– SVG images

27.9.2014 Mit Technologie kostenlos zum Erfolg 20


OmegaT
Skript für Konfigurationsparameter

27.9.2014 Mit Technologie kostenlos zum Erfolg 21


OmegaT: Input
Verzeichnisstruktur

windkraft
Terminologie/Glossare
energie.txt, anlagenbau.tbx ...

Projektspezifische
Einstellungsdateien
filters.conf, segmentation.conf

Ausgangstext
it-ispezione ordinaria.docx ...

Translation-Memories
windkraft1.tmx, windkraft2.tmx ...

27.9.2014 Mit Technologie kostenlos zum Erfolg 22


Textstatistik mit OmegaT

27.9.2014 Mit Technologie kostenlos zum Erfolg 23


OmegaT mit Beispieltext

27.9.2014 Mit Technologie kostenlos zum Erfolg 24


wiederverwendbare Ressourcen:
ZT, TM, Glossar


Zieltext(e) im Format
des Ausgangstextes

mit identischer
Formatierung

27.9.2014 Mit Technologie kostenlos zum Erfolg 25


wiederverwendbare Ressourcen:
ZT, TM, Glossar

Translation-Memory des
Übersetzungsprojektes (AT + ZT)

im TMX-Format:
(1) Level 1 = keine Inline-Tags
(2) Level 2 = genormte Tags
(3) OmegaT-spezifische Tags

27.9.2014 Mit Technologie kostenlos zum Erfolg 26


wiederverwendbare Ressourcen:
ZT, TM, Glossar

● projektspezifische Glossardatei
● Format *.txt
AT (TAB) ZT (TAB) Anm

27.9.2014 Mit Technologie kostenlos zum Erfolg 27


OmegaT: Output
Verzeichnisstruktur
neues Translation-Memory:
windkraft-omegat.tmx
windkraft
neue Terminologie:
windkraft02.txt

Rechtschreibprüfung:
ignored_words.txt, learned_words.txt
Projektspezifische
Einstellungsdateien
filters.conf, segmentation.conf

Zieltext:
it-ispezione ordinaria.docx

27.9.2014 Mit Technologie kostenlos zum Erfolg 28


▶ Website übersetzen

man nehme:

Website bestehend aus mehreren HTML-Dokumente

Website lokal speichern

Translation-Memory-System

bestehende Translation-Memories

bestehende Terminologielisten

HTML-Editor

27.9.2014 Mit Technologie kostenlos zum Erfolg 29


Website lokal speichern

Httrack website copier:

27.9.2014 Mit Technologie kostenlos zum Erfolg 30


OmegaT: tuxtrans.org

27.9.2014 Mit Technologie kostenlos zum Erfolg 31


OmegaT: tuxtrans.org

● Ausgangstext = gesamte Website


mit entsprechender Ordnerstruktur

● Zieltext = gesamte übersetzte


Website mit entsprechender
Ordnerstruktur

27.9.2014 Mit Technologie kostenlos zum Erfolg 32


HTML bearbeiten: Geany

27.9.2014 Mit Technologie kostenlos zum Erfolg 33


HTML bearbeiten: Bluefish

27.9.2014 Mit Technologie kostenlos zum Erfolg 34


▶ Erstellen eines TM anhand
vorhandener Übersetzungen
Wie komme ich möglichst schnell und einfach zu einem
verwertbaren Translation-Memory?

man nehme:

Ausgangstext und Übersetzung (ZT)

ein Alignment-Tool

27.9.2014 Mit Technologie kostenlos zum Erfolg 35


Alignment: BiText2TMX

● keine
Weiterentwicklung
● Textformat nur *.txt
● Tm als TMX

27.9.2014 Mit Technologie kostenlos zum Erfolg 36


Alignment: LF-Aligner

Formate:
txt (UTF-8!), rtf, doc,
docx, odt, pdf, html

<tu creationdate="20140916T141042Z" creationid="LF


Aligner 3.11"><prop type="Txt::Note">
CELEX:32010R0844:EN:TXT-CELEX:32008R1099:DE:TXT
</prop>
<tuv xml:lang="EN"><seg>4.1. Of which: Commercial and
Public Services</seg></tuv>
<tuv xml:lang="DE"><seg>4.1. Davon: gewerbliche und
öffentliche Dienstleistungen</seg></tuv> </tu>
27.9.2014 Mit Technologie kostenlos zum Erfolg 37
▶ Maschinenübersetzung
nutzen

man nehme:

ein freies Maschinenübersetzungssystem

ein kostenloses Online-MT-System

eine Schnittstelle zum TM-System

27.9.2014 Mit Technologie kostenlos zum Erfolg 38


Apertium: freies MT-System

Apertium regelbasierte maschinelle Übersetzung

regionale Sprachkombinationen
Spaniens
mit Englisch

27.9.2014 Mit Technologie kostenlos zum Erfolg 39


Google + Microsoft online


MT-Registrierung in OmegaT:
– Mymemory (E-Mail)
– Microsoft Translator
API ID + Secret key
– Google Translate
API key

27.9.2014 Mit Technologie kostenlos zum Erfolg 40


Google + Microsoft online

online kostenlos verfügbar
– Microsoft Translator
– Google Translator

Schnittstelle in OmegaT
– Apertium online + offline kostenlos
– Mymemory kostenlos
– Microsoft Translator kostenlos, aber
Registrierung
– Google Translate mit Registrierung
kostenpflichtig

27.9.2014 Mit Technologie kostenlos zum Erfolg 41


Google + Microsoft online

Schnittstelle in OmegaT
in einem eigenen
Fenster

27.9.2014 Mit Technologie kostenlos zum Erfolg 42


▶ Verwalten eigener
Terminologiesammlungen
ForeignDesk Termbase
● begriffsorientierte Einträge
● Import/Export
html, csv, Multiterm
● OmegaT-Integration:
Export als csv +
nachbearbeiten

27.9.2014 Mit Technologie kostenlos zum Erfolg 43


▶ Terminologiesuche, -abfrage
GoldenDict
● mehrere Wörter-
buchformate
● gleiche Formate wie
WB-Einbindung
in OmegaT

27.9.2014 Mit Technologie kostenlos zum Erfolg 44


Wörterbücher in OmegaT
einsprachiges
StarDict-Wb
Integration in
OmegaT:
„Oxford collocations“

27.9.2014 Mit Technologie kostenlos zum Erfolg 45


Wörterbücher in OmegaT
zweisprachige
StarDict-Wb
Integration in
OmegaT:
„ital-deu“
„ital-eng“

27.9.2014 Mit Technologie kostenlos zum Erfolg 46


▶ Terminologieextraktion

Okapi-Rainbow einfache monolinguale Termextraktion

27.9.2014 Mit Technologie kostenlos zum Erfolg 47


▶ TMX-Management
Heartsome TMX-Editor

bearbeiten

filtern

von TMX
zu TMX

TMX QA

...

27.9.2014 Mit Technologie kostenlos zum Erfolg 48


TMX-Management
Virtaal

Bearbeiten

TMX QA

27.9.2014 Mit Technologie kostenlos zum Erfolg 49


TMX-Management
Okapi Olifant

bearbeiten

Alpha-Status

27.9.2014 Mit Technologie kostenlos zum Erfolg 50


Formate konvertieren

CSV, TAB, TXT Terminologielisten zu TBX
mit Heartsome Studio

CSV, TXT Paralleltexte
zu TMX TMs
mit Heartsome Studio

Okapi Rainbow
zu PO, TMX, CSV

27.9.2014 Mit Technologie kostenlos zum Erfolg 51


▶ Bilinguale Dateien
Dateien, die Ausgangstextsegment und Zieltextsegment
bzw. bereits teilweise Übersetzungen enthalten
mit Okapi Rainbow und OmegaT übersetzen

}

XLIFF ● Ausgangstext extrahieren
● bereits vorhandene Übersetzungen wiederverwenden

sdlxliff ● neue Übersetzungen anfertigen

ttx
● bilinguales Dateiformat als Zieltext abspeichern

27.9.2014 Mit Technologie kostenlos zum Erfolg 52


Bilinguale Dateiformate
OmegaT kann bestehende Übersetzungen in solchen Dateiformaten nicht
direkt wiederverwenden, es kann XLIFF, SDLXLIFF und TTX nur bearbeiten,
wenn AT = ZT
Okapi Rainbow erstellt Projekte für OmegaT, extrahiert vorhandene
Übersetzungen und erstellt daraus eine TMX-Datei

Darstellung mit
Virtaal
Heartsome

27.9.2014 Mit Technologie kostenlos zum Erfolg 53


Projekterstellung für OmegaT
mit Okapi Rainbow

27.9.2014 Mit Technologie kostenlos zum Erfolg 54


Projektnachbearbeitung
mit Okapi Rainbow

27.9.2014 Mit Technologie kostenlos zum Erfolg 55


▶ PDF-Dateien


PDF-Dateien
mit OmegaT übersetzen
textbasiertes PDF

Text aus PDF-Dateien
extrahieren mit gPDFText eBook-Editor

PDF-Dateien in
Teile zerlegen bzw.
zusammenfügen mit PDF-Sam

PDF-Dateien annotieren
mit Xournal

PDF-Dateien vergleichen mit DiffPDF

27.9.2014 Mit Technologie kostenlos zum Erfolg 56


PDF-Dateien mit OmegaT

textbasierte PDF-Dateien
direkt mit OmegaT übersetzen

27.9.2014 Mit Technologie kostenlos zum Erfolg 57


Text aus PDF extrahieren

gPDFText eBook-Editor extrahiert Text aus
textbasierten PDF-Dokumenten ohne Absatz

27.9.2014 Mit Technologie kostenlos zum Erfolg 58


PDF-Dateien
zerlegen/verbinden

PDF-Dateien
in Teile zerlegen
bzw.
zusammenfügen
mit PDF-Sam

27.9.2014 Mit Technologie kostenlos zum Erfolg 59


PDF-Dateien annotieren

Anmerkungen, Hervorhebungen
u.ä. in PDF-Dateien anbringen
mit Xournal

27.9.2014 Mit Technologie kostenlos zum Erfolg 60


▶ QA - Überprüfung


OmegaT QA scripts

Okapi Checkmate

TMX-Validator

XLIFF Checker

27.9.2014 Mit Technologie kostenlos zum Erfolg 61


QA mit OmegaT

OmegaT QA scripts

27.9.2014 Mit Technologie kostenlos zum Erfolg 62


QA mit Okapi Checkmate

27.9.2014 Mit Technologie kostenlos zum Erfolg 63


formale Überprüfung

TMX-Validator

XLIFF-Checker

27.9.2014 Mit Technologie kostenlos zum Erfolg 64


▶ Referenzkorpus erstellen

Wozu? Terminologierecherche,
Kollokationensuche, idiomatische Wendungen …

man nehme:

eine repräsentative Menge an Texten aus dem zu
übersetzenden Fachgebiet

ein freies Konkordanzprogramm

27.9.2014 Mit Technologie kostenlos zum Erfolg 65


TextSTAT

Textformate:
doc, odt, html, txt

Konkordanzsuche

Frequenzliste

27.9.2014 Mit Technologie kostenlos zum Erfolg 66


Textanalyse mit AntConc

AntConc
weniger Formate
mehr linguistische
Analyse

27.9.2014 Mit Technologie kostenlos zum Erfolg 67


USB zur Präsentation


Präsentation Folien im PDF-Format

tuxtrans vollständiges Linuxsystem startet vom USB-Stick

Beispieltexte in verschiedenen Formaten

OmegaT-Projekte

Korpusdateien

Alignment-Dateien

27.9.2014 Mit Technologie kostenlos zum Erfolg 68


http://www.petersandrini.net
http://uibk.academia.edu/PeterSandrini

27.9.2014 Mit Technologie kostenlos zum Erfolg 69