Sie sind auf Seite 1von 1

Artikel aus c’t 05-2003

Scanner: Slutzz

Clemens Gleich

Vorwaschgang
Erkennungsleistung von
FineReader verbessern

Texterkennung mit FineReader ist eigentlich so einfach,


dass es keiner weiteren Erklärung bedarf. Uneigentlich
kann man mit einer vorherigen Bildwäsche und dem
Training seltsamer Zeichen aber noch einiges an
Erkennungsleistung herausholen, vor allem bei schlecht
gescannten oder fotografierten Vorlagen.
Bearbeitet man die Dokumente etwa mit Photoshop nach, kommt
Viele gedruckte Dokumente aber relativ, denn ein Scanner FineReader bei der Texterkennung wesentlich besser zurecht.
würden sich in digitaler Form sieht auch die Abgründe und
sehr gut auf dem heimischen Unreinheiten des Papiers, vom tografierten Grauert-Brief etwa mens 'Alphabettraining' auf, das
Rechner machen. Dann könnte Farbrauschen einer Kamera (ein DIN-Text mit 1660 Zei- zweifelhafte Zeichen nachfragt.
man Referenzwerke durch- ganz zu schweigen. Nur sehr chen) machte dies drei Fehler Hier sollte man vorsichtig sein
suchen, Textpassagen kopieren selten braucht man bunten Text, gut, also lohnt es sich - vor mit dem Triggerfinger und nur
oder Magazinartikel schnell ins daher verwirft man die Farb- allem für Bücher (viel mehr Zei- die Zeichen einlernen, die
Web bringen. Da man die digi- informationen in Photoshop ein- chen). Hier helfen die Batch- vorher wirklich Probleme ge-
tale Urform nicht immer haben fach über Bild/Modus/Graustu- Funktion Datei/Automatisieren/ macht haben, sonst kommt es zu
kann und sie oftmals nicht ein- fen. Als Nächstes erhöht der Stapelverarbeitung und der Ma- unerwünschten Nebeneffekten.
mal existiert, gibt es OCR (Op- Befehl Bild/Einstellungen/Auto- kroeditor im Aktionenfenster: Sind diese erst mal drin, kann
tical Character Recognition). kontrast die Lesbarkeit erheb- Mit beiden zusammen hat man man den Erkennungsvorgang per
Heimscanner sind im Allge- lich; beim Feinschliff helfen die sich ruck, zuck! eine Bildwasch- Schaltfläche ohne Training fort-
meinen ziemlich langsam, des- Regler unter Helligkeit und ma^chine zusammengeklickt. setzen. Jeder gelernte Buchstabe
halb behelfen sich findige Stu- Kontrast im selben Menü. Vor- Der Light-Variante Photoshop kann über Extras/Alphabeteditor
denten bei Büchern und anderen sicht mit dem Kontrastregler: Elements fehlt ein solcher Ma- eingesehen und wieder gelöscht
vielseitigen Vorlagen mit der Zu viel davon hebt auch eventu- krorecorder übrigens, aber das werden. Die Erkennung solcher
Digitalkamera [1]. Die erhöhte elle Schmutzpartikel zu stark günstige PhotoLine hat einen. Zeichen arbeitet mit Graustufen-
Einlesegeschwindigkeit erkau- hervor. Um die Kantenschärfe Bitmaps und funktioniert daher
fen sie sich mit deutlichen Qua- der Buchstaben zu erhöhen, hilft A-B-C nur bei einheitlichen Schrift-
litätsabstrichen. Doch auch ge- der Filter/Scharfzeichnungsfil- größen.
scannte Texte machen vor der ter/Unscharf maskieren ... FineReader kennt das Al- FineReader arbeitet im Batch-
OCR eine bessere Figur, nach- Das Resultat schmeckt Fine- phabet. Allerdings nicht in Betrieb ganz gut alleine, ten-
dem sie einmal durch die Bild- Reader - je nach Vorlage - allen möglichen Schriftarten. Ein diert aber dazu, in der automati-
bearbeitung gelaufen sind. Gibt schon besser als das Original. komplettes Alphabet, etwa in schen Layouterkennung einzeln
es dann noch Probleme mit Um die Erkennung durchzu- Frakturschrift, einzulernen, lohnt stehende Sätze auszulassen. Im
schwer erkennbaren Zeichen, führen, reduziert die Software meist den immensen Aufwand Zweifel empfehlen sich stich-
hilft der 'Alphabeteditor'. das Bild auf zwei Farben, jedes nicht: Die Erkennungsraten sind probenartige Kontrollen. Nicht
Pixel ist danach entweder danach immer noch schlecht. böse auf die Technik sein: Die
Sauber oder rein? schwarz (RGB 0, 0, 0) oder weiß Aber es gibt genügend Druck- meisten Hiwis arbeiten auch
(RGB 255, 255, 255). PCs sind werke, deren Standardschriftvari- nicht genauer. (cgi)
OCR will deutliche schwarze nicht intelligent, daher holt ein anten in einzelnen Zeichen vom
Buchstaben vor weißem Hinter- Mensch von Hand oft bessere Standard abweichen. Ein Bei-
grund. Schwarz und Weiß sind Ergebnisse bei diesem Arbeits- spiel dafür sind 'Die 13 1/2 Literatur
schritt heraus. Unter Bild/ Leben des Käpt'n Blaubär'. Mit
Einstellungen/Schwellen- dem seltsamen Fragezeichen dort [1] Jens Gallenbacher, Foto-Ko-
wert kann man den zur tut sich die Software schwer, pierer, Dokumente fotografie-
Vorlage am besten pas- doch der Griff zum Alphabetedi- ren und archivieren, c't 1/03,
senden Schwellenwert tor (in der aktuellen Version 6 S. 186
einstellen. Bei einem fo- heißt er Mustereditor) schafft
hier Abhilfe. Unter Extras/Optio-
nen/Erkennung zeigt der Dialog Praxis zur Heft-CD
ein Feld für Training. Im Drop-
down-Menü dort tauchen die be- FineReader 4 finden Sie als
nutzerdefinierten Menüs auf, mit Vollversion auf der Soft-
Lernfähig: Schießt der der Schaltfläche fängt man neue ware-CD in c't 4/03. Das
ABC-Schütze FineReader Alphabet-Dateien an. Um diese Heft können Sie bei Bedarf
bei einem Zeichen öfter mit Daten zu füllen, muss der unter www.heise.de/abo/ct/
mal daneben, hilft eine Haken bei 'Erkennung mit Trai- hefte.shtml nachbestellen.
Nachhilfestunde im ning' gesetzt sein. Zum Download finden Sie das
Alphabettrainer. Beim nächsten Erkennungs- Programm leider nicht.
vorgang poppt ein Fenster na-

Das könnte Ihnen auch gefallen