Sie sind auf Seite 1von 3

Texterkennung fr gescannte Dokumente

Unter Texterkennung oder OCR (Optical Character Recognition) versteht man die
Umwandlung von Bildinformationen in Text.
Um die Bildinformationen von gescannten Dokumenten zur Weiterverarbeitung und
-verwendung in Texte umzuwandeln, stehen grundstzlich zwei verschiedene
Verfahrensweisen zur Verfgung.
1) Umwandlung der Bilddateien in Textdokumente
Hierbei entstehen Dateien, die mit Textverarbeitungsprogrammen weiterbearbeitet werden
knnen. Bei der Umwandlung kann ausgewhlt werden, ob die Textdokumente im Format
doc, txt, rtf etc. erstellt werden sollen.
Je nachdem, wofr die Textdokumente bentigt werden, ist jedoch i.d.R. eine umfangreiche
Nachbearbeitung erforderlich. Insbesondere weicht das Erscheinungsbild in Bezug auf
Seitenlayout, Schriftarten und Schriftschnitte, Anordnung von Spalten, Tabellen und
Aufzhlungen, Position von Abbildungen und deren Unterschriften etc. sehr stark von den
Originalen ab.
2) Erstellung von "durchsuchbaren pdf-Dateien"
pdf-Dateien, die durch das Abscannen von gedruckten Vorlagen erzeugt wurden, sind
zunchst bildgenaue Reproduktionen des Originaldokuments. Sie enthalten jedoch keine
Text- sondern ausschlielich "Pixelinformationen".
Mit Hilfe der Texterkennung knnen die Pixelinformationen in Text umgewandelt werden.
Die Textinformationen werden dann in den pdf-Dateien, quasi in einer "zweiten Ebene"
hinter die sichtbaren Bildinformationen gelegt, so dass diese im AcrobatReader markiert
und in die Zwischenablage kopiert werden, um sie in den eigenen Dokumenten z.B. als
Zitate einfgen zu knnen. Mit Hilfe der Textsuche im AcrobatReader sind die Texte
auffindbar.
Diese, solchermaen umgewandelten pdf-Dateien, sind darber hinaus mit den
Suchfunktionen des Windows Explorers durchsuchbar. Werden solche pdf-Dateien auf
Webseiten hinterlegt, so sind diese auch von Suchmaschinen indizierbar und sind somit
z.B. in Google auffindbar.
Der, fr den Benutzer sichtbare Teil dieser pdf-Dateien, ist und bleibt nach wie vor die
bildgenaue Reproduktion, so dass solche Dokumente auch ohne aufwndige
Nachbearbeitung prsentiert werden knnen. Erkennung von Schriften und Layouts, sowie
die Anordnung von Tabellen und die Positionierung von Abbildungen etc. sind fr die
Texterkennung ohne Bedeutung. berall dort, wo das Texterkennungsprogramm "textlich"
angeordnete Bildpixel erkannt hat, legt es genau an der entsprechenden Stelle die erkannten
Buchstaben "dahinter", ohne Rcksicht auf deren Darstellung nehmen zu mssen.
Fr die allermeisten Anwendungen ist dieses Verfahren vollkommen ausreichend und fhrt
mit geringstem Aufwand zu den besten Ergebnissen.

Vorgehensweise
Alle gngigen Texterkennungsprogramme wie z.B. Abbey Finereader, Omnipage Pro, Read
Iris etc. stellen beide Verfahrensweisen zur Verfgung.
Auf den ffentlich zugnglichen PC-Systemen der Universitt Bamberg steht das Programm
Adobe Acrobat 9 Professional zur Verfgung. (Auf den PCs aller Mitarbeiter der Universitt
kann es im Rahmen einer Campuslizenz installiert werden. Wenden Sie sich hierfr bitte
an den PC-Service, siehe
http://www.uni-bamberg.de/pc-service/einkauf/software/campuslizenzen/).
ber die umfangreichen Mglichkeiten zur Erstellung und Bearbeitung von pdf-Dateien
hinaus stellt Acrobat Professional auch Funktionalitten zur Texterkennung und zur
Erzeugung von durchsuchbaren pdf-Dateien bereit.
Sie finden diese unter dem Menpunkt Dokument / OCR-Texterkennung.

Informationen zur Texterkennung finden Sie unter dem Menpunkt "Hilfe" von Acrobat
Professional.
Zum schnellen Aufruf der Texterkennung und zur einfachen Erstellung von
durchsuchbaren pdf-Dateien mit Standardeinstellungen steht das Programm "pdf2text.exe"
zur Verfgung.
pdf2text
"pdf2text" ist ein Hilfsprogramm, das die Stapelverarbeitungsfunktionen von Acrobat
Profesional nutzt um mit wenigen Klicks aus einer oder mehreren pdf-Dateien
durchsuchbare pdf-Dateien zu erzeugen.
Voraussetzung fr die Nutzung von "pdf2text" ist, dass Acrobat Professional auf Ihrem
System installiert ist.

Laden Sie "pdf2txt.exe" herunter und starten Sie das Programm mit einem Doppelklick auf
die Datei.
Die von "pdf2txt" verwendeten Einstellungen fr die Textumwandlung sind dabei so
gewhlt, dass in den meisten Fllen gute Ergebnisse im Hinblick auf Qualitt und Gre
der Ergebnisdateien erzielt werden.
Fr die Textumwandlung mit speziellen Einstellungen und andere Sprachen leitet Sie das
Programm bei Auswahl der Option "Benutzerdefiniert" auf die entsprechenden Funktionen
in Acrobat Professional.

Whlen Sie im Programmfenster die entsprechende Option aus. Mit Klick auf "Start" wird
Acrobat Professional gestartet. Im Anschluss werden Sie aufgefordert die Quelldateien
auszuwhlen und den Zielordner anzugeben, in dem die Ergebnisdateien abgelegt werden
sollen. Acrobat Professional legt fr jede ausgewhlte Quelldatei eine entsprechende pdfDatei im Zielordner ab, wobei er den Dateinamen mit den Zusatz "-ocr" versieht (also
"Quellname"-ocr.pdf).
Sie knnen auch einfache Bilddateien (.jpg, .tif, .bmp etc.) als Quelldateien auswhlen. Es
werden dann allerdings aus jeder Bilddatei jeweils eine, entsprechend benannte,
durchsuchbare pdf-Datei erzeugt.
Wenn Sie mehrere Bilder in eine gemeinsame durchsuchbare pdf-Datei zusammenfassen
wollen, mssen Sie diese zunchst in eine einfache pdf-Datei zusammenfassen und diese
dann mit pdf2text in eine durchsuchbare pdf-Datei wandeln.
Hinweise zum erstellen von pdf-Dateien
Sie knnen mit Acrobat Professional eine oder mehrere Dateien in eine gemeinsame pdfDatei zusammenfhren (z.B. wenn Ihr Scanner fr jede Buchseite eine einzelne tif-Datei
erzeugt hat). Markieren Sie die Dateien im Windows Explorer und klicken Sie einfach mit
der rechten Maustaste auf eine der ausgewhlten Dateien. Fhren Sie im Kontextmen den
Menpunkt "Untersttzte Dateien in Acrobat zusammenfhren" aus.