Vorwaschgang Erkennungsleistung von FineReader verbessern
Texterkennung mit FineReader ist eigentlich so einfach,
dass es keiner weiteren Erklärung bedarf. Uneigentlich kann man mit einer vorherigen Bildwäsche und dem Training seltsamer Zeichen aber noch einiges an Erkennungsleistung herausholen, vor allem bei schlecht gescannten oder fotografierten Vorlagen. Bearbeitet man die Dokumente etwa mit Photoshop nach, kommt Viele gedruckte Dokumente aber relativ, denn ein Scanner FineReader bei der Texterkennung wesentlich besser zurecht. würden sich in digitaler Form sieht auch die Abgründe und sehr gut auf dem heimischen Unreinheiten des Papiers, vom tografierten Grauert-Brief etwa mens 'Alphabettraining' auf, das Rechner machen. Dann könnte Farbrauschen einer Kamera (ein DIN-Text mit 1660 Zei- zweifelhafte Zeichen nachfragt. man Referenzwerke durch- ganz zu schweigen. Nur sehr chen) machte dies drei Fehler Hier sollte man vorsichtig sein suchen, Textpassagen kopieren selten braucht man bunten Text, gut, also lohnt es sich - vor mit dem Triggerfinger und nur oder Magazinartikel schnell ins daher verwirft man die Farb- allem für Bücher (viel mehr Zei- die Zeichen einlernen, die Web bringen. Da man die digi- informationen in Photoshop ein- chen). Hier helfen die Batch- vorher wirklich Probleme ge- tale Urform nicht immer haben fach über Bild/Modus/Graustu- Funktion Datei/Automatisieren/ macht haben, sonst kommt es zu kann und sie oftmals nicht ein- fen. Als Nächstes erhöht der Stapelverarbeitung und der Ma- unerwünschten Nebeneffekten. mal existiert, gibt es OCR (Op- Befehl Bild/Einstellungen/Auto- kroeditor im Aktionenfenster: Sind diese erst mal drin, kann tical Character Recognition). kontrast die Lesbarkeit erheb- Mit beiden zusammen hat man man den Erkennungsvorgang per Heimscanner sind im Allge- lich; beim Feinschliff helfen die sich ruck, zuck! eine Bildwasch- Schaltfläche ohne Training fort- meinen ziemlich langsam, des- Regler unter Helligkeit und ma^chine zusammengeklickt. setzen. Jeder gelernte Buchstabe halb behelfen sich findige Stu- Kontrast im selben Menü. Vor- Der Light-Variante Photoshop kann über Extras/Alphabeteditor denten bei Büchern und anderen sicht mit dem Kontrastregler: Elements fehlt ein solcher Ma- eingesehen und wieder gelöscht vielseitigen Vorlagen mit der Zu viel davon hebt auch eventu- krorecorder übrigens, aber das werden. Die Erkennung solcher Digitalkamera [1]. Die erhöhte elle Schmutzpartikel zu stark günstige PhotoLine hat einen. Zeichen arbeitet mit Graustufen- Einlesegeschwindigkeit erkau- hervor. Um die Kantenschärfe Bitmaps und funktioniert daher fen sie sich mit deutlichen Qua- der Buchstaben zu erhöhen, hilft A-B-C nur bei einheitlichen Schrift- litätsabstrichen. Doch auch ge- der Filter/Scharfzeichnungsfil- größen. scannte Texte machen vor der ter/Unscharf maskieren ... FineReader kennt das Al- FineReader arbeitet im Batch- OCR eine bessere Figur, nach- Das Resultat schmeckt Fine- phabet. Allerdings nicht in Betrieb ganz gut alleine, ten- dem sie einmal durch die Bild- Reader - je nach Vorlage - allen möglichen Schriftarten. Ein diert aber dazu, in der automati- bearbeitung gelaufen sind. Gibt schon besser als das Original. komplettes Alphabet, etwa in schen Layouterkennung einzeln es dann noch Probleme mit Um die Erkennung durchzu- Frakturschrift, einzulernen, lohnt stehende Sätze auszulassen. Im schwer erkennbaren Zeichen, führen, reduziert die Software meist den immensen Aufwand Zweifel empfehlen sich stich- hilft der 'Alphabeteditor'. das Bild auf zwei Farben, jedes nicht: Die Erkennungsraten sind probenartige Kontrollen. Nicht Pixel ist danach entweder danach immer noch schlecht. böse auf die Technik sein: Die Sauber oder rein? schwarz (RGB 0, 0, 0) oder weiß Aber es gibt genügend Druck- meisten Hiwis arbeiten auch (RGB 255, 255, 255). PCs sind werke, deren Standardschriftvari- nicht genauer. (cgi) OCR will deutliche schwarze nicht intelligent, daher holt ein anten in einzelnen Zeichen vom Buchstaben vor weißem Hinter- Mensch von Hand oft bessere Standard abweichen. Ein Bei- grund. Schwarz und Weiß sind Ergebnisse bei diesem Arbeits- spiel dafür sind 'Die 13 1/2 Literatur schritt heraus. Unter Bild/ Leben des Käpt'n Blaubär'. Mit Einstellungen/Schwellen- dem seltsamen Fragezeichen dort [1] Jens Gallenbacher, Foto-Ko- wert kann man den zur tut sich die Software schwer, pierer, Dokumente fotografie- Vorlage am besten pas- doch der Griff zum Alphabetedi- ren und archivieren, c't 1/03, senden Schwellenwert tor (in der aktuellen Version 6 S. 186 einstellen. Bei einem fo- heißt er Mustereditor) schafft hier Abhilfe. Unter Extras/Optio- nen/Erkennung zeigt der Dialog Praxis zur Heft-CD ein Feld für Training. Im Drop- down-Menü dort tauchen die be- FineReader 4 finden Sie als nutzerdefinierten Menüs auf, mit Vollversion auf der Soft- Lernfähig: Schießt der der Schaltfläche fängt man neue ware-CD in c't 4/03. Das ABC-Schütze FineReader Alphabet-Dateien an. Um diese Heft können Sie bei Bedarf bei einem Zeichen öfter mit Daten zu füllen, muss der unter www.heise.de/abo/ct/ mal daneben, hilft eine Haken bei 'Erkennung mit Trai- hefte.shtml nachbestellen. Nachhilfestunde im ning' gesetzt sein. Zum Download finden Sie das Alphabettrainer. Beim nächsten Erkennungs- Programm leider nicht. vorgang poppt ein Fenster na-