Zimmermann - Ocr-Optical Character Recognition

OCR
Optical Character Recognition
Fach:
Einfache IT-Systeme
Verfasser:
Steffen Zimmermann
Klasse:
I660
Lehrer:
OStR Hermann Distelrath-Stangier
Abgabetermin: 13. November 2001
OCR [Optical Character Recognition]
Steffen Zimmermann
Bethmannschule, Frankfurt
Inhaltsverzeichnis
Inhaltsverzeichnis............................................................................................................................2
1.
Einleitung ................................................................................................................................3
2.
Was ist OCR?..........................................................................................................................4
3.
Wie funktioniert OCR?..........................................................................................................5

3.1.
Pattern Matching (Mustererkennung) .............................................................................6
3.2.
Feature Recognition (Merkmalsbeschreibung)................................................................7
3.3.
Die Winkelschnittanalyse.................................................................................................7
3.4.
Die Fontnenumformung.................................................................................................8
4.
OCR-Programme....................................................................................................................8
4.1.
Abbyy Finereader 5.0 ......................................................................................................8
4.2.
ScanSoft OmniPage Pro 11 .............................................................................................9
4.3.
I.R.I.S Readiris 6.0...........................................................................................................9
4.4.
ScanSoft Recognita Plus 5.0 ..........................................................................................10
4.5.
ScanSoft TextBridge Pro Millennium ............................................................................11
5.
OCR-Programme im Vergleich (Test: 1999)......................................................................11
6.
OCR-Hardware ....................................................................................................................14
6.1.
7.
Siemens Pocket Reader..................................................................................................14
OCR in der Wirtschaft.........................................................................................................15

7.1.
Formulare erfassen - Anwendungsbeispiel aus der Praxis............................................15
7.2.
FormFile - FormFile SWR 2.4.......................................................................................17
7.3.
BlueWings/Capture.....................................................................................................18
7.4.
Schrifterkennung fr Blinde...........................................................................................19
7.5.
Verkehrsberwachung ...................................................................................................19
7.6.
Visual Content Search am Beispiel Cobion ...................................................................20
8.
OCR-Einsatzerfahrungen in der Wirtschaft......................................................................21

8.1.
Erfahrungen der BHB Immobilien - Verwaltungs GmbH..............................................21
8.2.
Erfahrungen von Haas & Halverscheidt........................................................................22
9.
Fazit .......................................................................................................................................23
10.
Erklrung von Fachbegriffen..........................................................................................24
11.
Literaturverzeichnis.........................................................................................................25
Seite 2 von 25
Steffen Zimmermann
1. Einleitung
Wenn man ein analoges Dokument in digitaler Form auf die Festplatte
bannen
mchte,
gibt
es
auch
heutzutage
nur
verschiedene
Mglichkeiten.
Die einfachste und gnstigste Variante ist das pure Abtippen des
Textes. Der Vorteil liegt darin, dass sich die Texterkennung im Gehirn
des Lesers abspielt. Die Erkennungsrate drfte also bei 100% liegen,
wenn man Analphabetismus vernachlssigt. Leider gehen aber auch
die Formatierungen verloren, sie mssen mhsam zu Fu in das
neue Dokument bertragen werden. Dabei sieht das Endprodukt, auch
nach stundenlangen Korrekturen, meist nicht so aus wie das Original.
Die zweite Mglichkeit ist das pure Abspeichern der Dokumente als
Grafikdateien. Dabei bleiben natrlich alle Informationen des Originals
erhalten.
Genutzt
wird
dieses
Verfahren
bei
sensiblen
Daten/Dokumenten, deren Inhalt nicht verndert wird oder werden

soll, so z.B. Akten oder Rechnungen.
Die dritte Mglichkeit geht noch einen Schritt weiter. Wenn man
Vernderungen in den Dokumenten vornehmen mchte, muss die
erstellte Grafikdatei in eine ASCII-Datei transponiert werden. ASCIIDateien,
wie
z.B.
einfache
.txt-Dateien,
knnen
von
jedem
Textprogramm geffnet und verndert werden.

Doch wenn es um die Erkennung von Wrtern geht, wofr ein
erwachsener Mensch nur einen Wimpernschlag braucht, kann der
Computer nicht mehr mithalten. Abstraktes denken ist ihm vllig
fremd.
Seine
binre
Welt
kann
nichts
mit
unterschiedlichen
Handschriften anfangen. Selbst die gngigen normierten Schriftarten

knnen ihm schon bei nicht mehr allzu intakten Dokumenten zu
schaffen
machen.
Gilb,
ausgebleichte
Schrift
oder
Kaffeeflecken
knnen so zum ungeahnten Stolperstein in die digitale Welt werden
Seite 3 von 25
Steffen Zimmermann
2. Was ist OCR?

OCR ist ein Akronym und steht fr
Optical Character Recognition

bersetzt bedeutet das Optische Zeichenerkennung und beschreibt
eine
Methode
zur
Erkennung
von
Buchstaben
in
digitalisierten
Dokumenten.
Optische
Das
Dokument
wird
durch
optische
Abtastung
in
einzelne Punkte (dots) zerlegt, die je nach gewhlter

Auflsung
bis
zu
42
Bit
(4,4
Billionen)
Farbinformationen enthalten [E1]. Dabei entsteht eine

Grafikdatei, die alle abgetasteten Information enthlt.
Als Abtastmedium knnen Scanner oder Digitalkameras
zum Einsatz kommen. Dabei sollte die Anzahl der
Bildpunkte aber nicht unter 200 dpi (dots per inch)
liegen, da die Grafik sonst deutlich sichtbare Artefakte
aufweist
und
die
Zeichenerkennung
keine
befriedigenden Ergebnisse liefern kann. [L1]

Zeichenerkennung
Die
eingescannte
bzw.
von
der
Digitalkamera
bertragene Grafikdatei wird nun von einem geeigneten

Programm in ein Gitter bzw. Raster segmentiert.
Danach wandelt das OCR-Softwareprodukt die Zeichen
in Buchstaben, Linien, Zahlen und manchmal leider
auch Datenmll um. Wie genau die Umwandlung
funktioniert (oder auch nicht), erklrt der nchste
Absatz.
Seite 4 von 25
Steffen Zimmermann
3. Wie funktioniert OCR?

Jetzt, da wir das Dokument als Grafikdatei vorliegen haben, knnen
wir die Hilfe von verschiedenen OCR-Softwareprodukten in Anspruch
nehmen.
Diese arbeiten mit zum Teil sehr differenzierten Erkennungsmethoden
und garantieren in den neuesten Versionen Erkennungsraten von ber
98%. [E3]
Allen gemeinsam sind die Erkennung der Buchstaben und deren
Interpretation. Weitere Funktionsmerkmale sind Formatierungs- und
Tabellenerkennung.
In einem ersten vorbereitenden Arbeitsgang wird die Textvorlage
segmentiert und in einzelne Buchstaben und Zeichen zerlegt. Dabei
muss
das
Programm
die
unterschiedlichen
Laufweiten
eines
Buchstabens wie den Zeilenabstand beachten. Bei den Laufweiten geht

es darum, dass ein i in nicht fixierten Schriftarten (z.B. Fixedsys,
Courier New) viel schmaler ist als ein m, so dass, wenn das
Programm mit festen Laufweiten arbeiten wrde, es zu einem
Abschneiden des Buchstabens kommt. In der Praxis kommt hier die
Fuzzy Logic zum Einsatz.
Fuzzy Logic Diese Logik erfasst eine Mehrdeutigkeit. Fr ein nicht
eindeutiges
bereitgestellt.
kategorisch
Zeichen
Dabei
werden
wird
vorgegangen,
mehrere
nicht
sondern
mehr
Muster
streng
vielmehr
mit
dehnbaren Beschreibungsgrssen gearbeitet. Solche

Beschreibungsgrssen
wren
beispielsweise:
eher
geradlinig, eher gebogen, eher breit oder Strichbeginn

oder Strichende. So werden Zeichen, welche mit einer
herkmmlichen Logik nicht erkannt worden wren
wieder zu Buchstaben oder Zahlen. Bei der Fuzzy
Technologie wird z.B. bei einem eher gebogenen, eher
breiten Zeichen ohne Anfang und Ende auf eine Null
oder den Buchstaben O entschieden. [L3]
Seite 5 von 25
Steffen Zimmermann
Fr
die
Auswertung
der
Zeichen
knnen
zwei
verschiedene
Technologien angewandt werden. Die erste und bei den anfnglichen

Entwicklungen berwiegend eingesetzte ist die Musterberlagerung
(Pattern Matching), die zweite nennt sich Merkmalsbeschreibung
(Feature Extraction). Grundstzlich versuchen die OCR-Programme
zunchst, die einzelnen Zeichen der nach dem Scannen als Bitmap
vorliegenden Seite als einzelne Zellen zu erfassen. Dabei suchen sie
nach den Zwischenrumen. Mittlerweile sind die Erkennungsverfahren
so ausgereift, dass auch aneinanderklebende Zeichenpaare oder -tripel
zuverlssig getrennt werden. [L2]
3.1.
Pattern Matching (Mustererkennung)
Bei dieser Methode wird das eingelesene Zeichen mit den in einer
Tabelle gespeicherten Bitmustern verglichen. Dieses Verfahren eignet
sich vor allem bei Vorlagen mit hoher Druckqualitt, die nur wenige
Variationen
an
Schriften
aufweisen,
wie
z.B.
bei
Bcher
oder
Zeitungsartikeln. Jedes einzelne gescannte Zeichen wird solange mit

den
in
Frage
hchstmgliche
kommenden
Schablonen
bereinstimmung
erreicht
verglichen,
ist.
Um
bis
die
smtliche
Variationen eines Zeichens abzudecken, mssten eigentlich fr jeden

Buchstaben Hunderte von Mustern vorhanden sein. Ein solch riesiges
Reservoir an Musterbildern ist jedoch nicht ntig, da spezielle
Normierungsverfahren die Gestalt der Zeichen gltten. Dabei werden
unwichtig scheinende Punkteansammlungen einfach unterdrckt. Das
Niveau der bereinstimmung hngt daher von den programmierten
Toleranzschwellen ab. Als Faustregel kann gesagt werden, dass je
hher die Toleranzgrenzen, desto niedriger die Erkennungsquote. Die
Mustererkennung arbeitet nur solange zufrieden stellend, wie sich
passende Muster fr einen erfolgreichen Vergleich finden lassen. Daher
sind die Mustererkennungsmodule meistens erweiterbar, so dass man
das Reservoir an Musterzeichen mit ausgefallenen Schriften und
Sonderzeichen erweitern kann.
Aufgrund
ihrer
mangelhaften
Flexibilitt
kommt
die
Musterberlagerung heute in Reinform jedoch kaum noch zum Einsatz.

[L2, L3]
Seite 6 von 25
Steffen Zimmermann
3.2.
Dieses
Feature Recognition (Merkmalsbeschreibung)

Verfahren
geometrischen
analysiert
Eigenschaften
die
der
Zeichen, indem es die Umrisslinien auf
einfache geometrische Figuren reduziert.

Dabei werden keine Pixelschablonen zum
Vergleich benutzt, sondern verschiedene mathematische Algorithmen,

die den typischen Verlauf der Umrisslinien beschreiben. So lsst sich
ein geschlossener Kreis als O interpretieren und zwei miteinander
verbundene Bgen, also ein oval auf eine Null schliessen. Es kommt
also darauf an, ob eine Umrisslinie geschlossen ist und in welcher Form
und Richtung sie gekrmmt ist. Beim C verluft die Krmmung konvex
und nach links. Unterschiedliche Zeichengrssen bereiten bei dieser
Erkennungsmethode natrlich keine Schwierigkeiten, weil sie ihren
grundstzlichen Verlauf beibehalten. Fehlinterpretationen sind jedoch
auch hier nicht auszuschliessen, denn ein C kann durch Verschmutzung
schnell zu einem O werden. Daraus kann gefolgert werden, dass wie
bei der Mustererkennung die Genauigkeit von der Druckqualitt, den
Zeilen- und Zeichenabstnden abhngt. [L2, L3]
3.3.
Ein
Die Winkelschnittanalyse
besonderes
Verfahren
zur
Bildung
von
Merkmalen
ist
die
Winkelschnittanalyse (WSA). Diese Analyse schneidet ein Zeichen in

unterschiedlichen Winkeln von einer Geradenschar, wobei sich der
Geradenabstand nach der gewhlten Auflsung richtet. Gezhlt werden
nun die Anzahl der schwarzen Punkte auf jeder Geraden sowie die
Anzahl der Schnittpunkte. Diese Daten werden analysiert, geeignet
transformiert und so das Zeichen ermittelt.
Zur genauen Unterscheidung hnlicher Zeichen gibt es spezielle
Methoden mit ausgeklgelten Ausschlussverfahren, dank derer ein
modernes OCR-Programm neben dem Inhalt auch die Schriftart, die
Textgre sowie die Attribute erkennt (zum Beispiel fett, unterstrichen,
hochgestellt). [L2]
Seite 7 von 25
Steffen Zimmermann
3.4.
Die Fontnenumformung
Ein weiteres neues Verfahren - das Finereader anwendet - ist die so

genannte
Fontnenumformung,
die
sich
wieder
mehr
der
Musterberlagerung zuwendet. Die Fontnenumformung stellt fr

jedes Zeichen die Fleckenverteilung fest. Das heit, das Zeichen wird
in einzelne Punkte zerlegt und deren Lage zueinander analysiert. Diese
Verteilung
lsst
sich
mit
entsprechenden
Referenzobjekten
vergleichen, bei denen die Fleckenverteilung gewichtet ist. Die

Gewichtung ergibt sich als Mittelwert aus allen bekannten Verteilungen
fr ein Objekt. Der Vorteil gegenber der Merkmalsbeschreibung liegt
darin, dass defekte Zeichen mit Linienbrchen oder verschmolzenen
Linien besser erkannt werden. [L2]
4. OCR-Programme
4.1.
Abbyy Finereader 5.0
Das aus Russland stammende OCR-Programm

FineReader Pro 5.0 erkennt zuverlssig Texte,
Tabellen und Bilder. Trotz der vielen Funktionen
bleibt die Bedienung sehr einfach. Der gesamte
Vorgang vom Scannen des Dokuments bis hin zur
Umsetzung in das Textformat wird von einem
Assistenten begleitet. Die Erkennungsrate von FineReader Pro ist von
Beginn an sehr hoch, lsst sich aber durch Bearbeitungsmglichkeiten
beim Scannen und einer Rechtschreibprfung noch weiter verbessern.
Mit schief eingescannten Dokumenten hatte das Programm seine
Probleme. Dafr entpuppt sich FineReader Pro 5.0 als ein wahres
Sprachgenie: Es beherrscht ber 120 Sprachen. Sehr bersichtlich ist
die Aufteilung der Oberflche: In einem Fenster wird das Original
angezeigt, in einem anderem wiederum die Umsetzung in Text. Diese
Gegenberstellung erlaubt einen schnellen berblick, welche Bildteile
gerade bearbeitet werden. Ebenfalls gelungen sind die Funktionen zur
Bildbearbeitung nach dem Scannen des Dokuments. [L5]
Seite 8 von 25
Steffen Zimmermann
4.2.
ScanSoft OmniPage Pro 11
Noch besser sehen soll die TexterkennungsSoftware OmniPage 11. Doch auch wenn sie an
Funktionalitt zugelegt hat, zeigte der Test die
vom
Hersteller
versprochenen
40
Prozent
verbesserte Erkennungsleistung nicht. Dennoch

kann das Programm mit guten Ergebnissen aufwarten. Neu und gut
gelungen ist der Import von PDF-Dateien, die anschlieend in
Textverarbeitungsprogrammen weiterverarbeitet werden knnen. In
Version 11 leider nicht mehr dabei sind der PersonalTranslator 2000
sowie das recht gute Zusatzprogramm, mit dem sich aus gescannten
Bildern Webseiten erzeugen lieen. Dass letzteres fehlt ist aber zu
verschmerzen, da OmniPage 11 nun einen Export in das HTML-Format
ermglicht. Bei einem Preis von ber 1.000 Mark (Stand August 2001)
zhlt
OmniPage
nicht
gerade
zu
den
gnstigsten
Texterkennungsprogrammen. Cross Updates von einem anderen OCRProgramm sind allerdings bereits fr etwa 300 Mark (Stand August
2001) erhltlich. [E2, L5]
4.3.
I.R.I.S Readiris 6.0
Readiris Pro 6 ist die etwas erweiterte Variante

des
ansonsten
billigeren
identisch
Programms
aussehenden,
aber
OCR-Texterkennung
Generation 2 von G Data. Auffallend bei Readiris

ist vor allem die sehr schnelle Erkennung von
Texten. Allerdings stellt sich der Eindruck ein, dass dies etwas zu
Lasten
der
Erkennungsgenauigkeit
geht.
Insgesamt
sind
die
Erkennungsrate und die Beibehaltung des Originallayouts zufrieden

stellend. Wie auch bei der billigeren Variante sollten die Vorlagen gut
lesbar sein und gerade eingescannt werden. Ist dies nicht der Fall,
muss der Nutzer einige Zeit fr Korrekturen einplanen. Hierbei steht
ihm ein in Version 6 neu hinzugekommener Lernmodus hilfreich zur
Seite. Bei sehr komplexen Layouts irritieren die vielen dargestellten
Seite 9 von 25
Steffen Zimmermann
Pfeile etwas. Sie dienen dazu, die Reihenfolge der Textblcke

anzuzeigen. Im Programm-Paket enthalten ist eine Light-Version von
CardIris. Mit dieser Software knnen Visitenkarten eingescannt,
automatisch erkannt und in Adressenverwaltungen weiterverarbeitet
werden. [L5]
4.4.
ScanSoft Recognita Plus 5.0
Recognita ist ein echter Klassiker. Er hat

seine Wurzeln bereits in den Anfangsjahren
der
Optical
Character
Recognition.
Das
Programm weist zwar einiges an Funktionen

auf, ist aber eindeutig zu teuer.
Der
Bildschirmaufbau
verwirrt
zunchst
etwas, das zweisprachige Handbuch hilft aber ber die holprige

Anfangszeit
hinweg.
Nach
der
Einstellung
der
passenden
Fenstergren fr das Originaldokument und die bereits verarbeitete

Variante findet der Nutzer sich schnell zurecht.
Unterschiedliche Schriftfonts, Spaltendruck oder Tabellen bereiten dem
Programm keine Probleme. Die Spaltengren der Tabellen knnen
direkt bearbeitet werden.
Schlechter lesbare Dokumente verarbeitete Recognita gut. Lediglich
die Bildbearbeitung im Text machte etwas Schwierigkeiten. Die
Erkennungsrate ist angemessen, lsst sich aber durch ausgiebiges
Training und bernahme neuer Wrter in das Wrterbuch noch
erheblich steigern.
Hinweis: Der Preis fr ein Cross-Update auf Recognita Plus 5.0 betrgt
etwa 200 Mark. [E2, L5]
Seite 10 von 25
Steffen Zimmermann
4.5.
ScanSoft TextBridge Pro
Millennium
TextBridge Pro Millennium ist eine einfach zu
bedienende und sehr bersichtliche OCR-Software.
Der Anwender wird Schritt fr Schritt durch den
gesamten Vorgang geleitet. Das gute Handbuch
und die Online-Hilfe bentigt man kaum.
Die Texterkennung klappt sehr gut. Aber: Bei Tabellen und der
Erkennung von Bildern muss oft per Hand korrigiert werden, was
unntig Zeit kostet. Hinzu kommt die etwas zu lange Trainingsphase.
Durch speicherbare Vorlagen und die Aufnahme nicht erkannter Wrter
in das Wrterbuch wird nicht nur die Erkennungsrate verbessert,
sondern auch die Umsetzung des ursprnglichen Layouts in einer
Textverarbeitung. Allerdings sollte die Vorlage gut lesbar sein.
Die Auswahl an Bildformaten ist leider etwas beschrnkt. Ebenso
fehlen Bildbearbeitungsfunktionen.
Dafr untersttzt TextBridge ber 60 verschiedene Sprachen. Auch die
Integration in gngige Textverarbeitungsprogramme ist gut gelst.
[L5]
5. OCR-Programme im Vergleich (Test: 1999)

Erkennungszeiten [L4]
Zeit in Sekunden
Vorlage/Programm
FineReader
OmniPage
Readiris
Recognita
TextBridge
Musterbrief
11/23
10/21
8/-
6/10
10/-
Musterbrief-Fax
16/29
18/42
12/-
13/19
19/-
Fontliste
9/17
16/35
11/-
7/21
9/-
Spiegel
17/32
18/34
13/-
11/20
12/-
Tabelle
Visitenkarte
12/16
5/6
38/39
1
7/-
4/4
4/-
Zeit fr Bildeinlesen, Segmentieren und Erkennung (Schwarzwei-/Graustufenscan); P-II233, 32 MByte RAM, Win95
1
Bildbereiche mussten manuell bestimmt werden.
keine automatische Drehung
Seite 11 von 25
Steffen Zimmermann
Erkennungsgte [L4]
Program
FineRead
OmniPag
er
Vorlage
Brief
in %
Korrekturen
Readiris
in %
in %
TextBrid
ge
Zahl der
Korrekturen
Zeichen
abs.
1449
0,41
10
0,69
0,48
10
0,69
14
1449
0,55
0,62
11
0,76
1449
22
1,52
40
2,76
70
4,83
62
4,28
33
1449
29
2,00
40
2,76
27
1,86
1628
10
0,61
0,55
16
0,98
165
0,98
19
1628
10
0,61
12
0,74
105
0,61
1231
0,73
93
0,73
13
1,06
19
1,54
1231
0,32
83
0,65
24
1,95
627
11
1,75
15
2,39
-4
-4
24
627
1,28
27
4,31
-4
207
1,93
11
5,31
3,86
1,45
11
207
0,97
10
4,83
1,93
abs.
Korrekturen
Recognit
abs.
Korrekturen
in %
abs.
Korrekturen
in %
abs.
0,97
(sw)
Brief
(Graust.)
Brief-Fax
2,28
(sw)
Brief-Fax
(Graust.)
Fontliste
1,17
(sw)
Fontliste
Graustufen
Spiegel
(sw)
0,32
Spiegel
(Graustufe
n)
Tabelle
(sw)
3,83
Tabelle
(Graustufe
n)
Visitenkart
e (sw)
Visitenkart
e (Graust.)
1 berschrift, Einleitung, Bildunterschrift und erste Spalte ausgewertet

2 erstes Drittel ausgewertet
3 Datenmll muss entfernt werden
4 Tabellenstruktur nicht automatisch erkannt
5 vier bzw. ein Fehler, ansonsten falsche Zeilenumbrche
Seite 12 von 25
5,31
Steffen Zimmermann
bereinstimmung von Fonttypen und -gren [L4]

Gre
FineReader OmniPage
Readiris
Recognita
TextBridge
Arial/13
Times/14
Arial/12,5
Times/11,5
Arial/12
Arial/15
Times/13
Times/14
Times/12
Times/11,5
Arial/12
Times/13
Courier/13
Times/12
Courier/11,5
Times/11,5
Courier/10
Courier/12
Arial/12
Times/12
Arial/11
Times/11,5
Arial/12
Arial/15
Times/12
Times/12
Times/11,5
Times/11,5
Arial/9
Courier/12
Courier/12
Times/11
Courier/11,5
Times/11,5
Courier/9
Courier/12
Arial/11
Times/11
Arial/10,5
Times/9,5
Arial/9
Arial/12
Times/11
Times/11
Times/10
Times/9,5
Arial/9
Times/11
Courier/11
Times/10
Courier/10,5
Times/9,5
Courier/9
Courier/10
Arial/10
Times/10
Arial/9,5
Times/9,5
Arial/9
Arial/12
Times/10
Times/10
Times/10
Times/9,5
Arial/9
Times/11
Courier/10
Times/9
Times/9
Times/9,5
Courier/9
Courier/10
Arial/9
Arial/8
Arial/8
Times/8,5
Arial/9
Arial/10
Times/9
Times/9
Times/9
Times/8,5
Arial/9
Times/9
Courier/9
Times/9
Times/9
Times/8,5
Courier/9
Courier/10
Arial/8
Times/9
Arial/8
Times/7,5
Arial/9
Arial/10
Times/8
Times/9
Times/9
Times/7,5
Arial/9
Times/8
Courier/8
Times/8
Times/7,5
Times/7,5
Courier/9
Courier/7
Arial/7
Arial/6
Times/9
Times/6
Arial/9
Arial/7
Times/7
Times/8
Times/7,5
Times/6
Arial/6
Times/7
Courier/7
Times/8
Times/7,5
Times/6
Courier/6
Times/7
Arial/6
Times/8
Arial/5,5
Times/6
Arial/6
Arial/7
Times/6
Times/8
Times/7,5
Times/6
Arial/6
Courier/6
Courier/6
Times/6
Times/7
Times/6
Courier/6
Courier/6
4 bereinst.
11 bereinst. 5 bereinst. 5 bereinst. 9 bereinst.
Font
Eine Abweichung um einen halben Punkt wurde noch als bereinstimmung

gewertet.
Seite 13 von 25
Steffen Zimmermann
6. OCR-Hardware
6.1.
Siemens Pocket Reader
Der Pocket Reader ist ein Stiftscanner, der gedruckten Text einzeilig
einliest (400dpi) indem man den Stift wie einen Textmarker ber den
Text bewegt.
Siemens Pocket Reader, Preis ca. 65 (Stand: 01.11.2001)
Der eingescannte Text wird automatisch ber die integrierte OCRSoftware in ASCII-Text umgewandelt und auf dem einzeiligen Display
zur Kontrolle dargestellt. Der Erfolg kann durch ein eingebautes
internes
(aber
nicht
erweiterbares),
mehrsprachiges
Wrterbuch
verbessert werden. Der interne Speicher reicht, laut Anleitung, fr ca

20 A4-Seiten Text. Das ist sicher ausreichend, zumal nur eine Datei
zur Verfgung steht und sonst der berblick schnell verloren geht. Der
gespeicherte Text wird via Kabel und freier serieller Schnittstelle an
den PC bertragen.
Die wohl entscheidende Frage sind die Scanergebnisse. Und diese sind
in hohem Mae von der Vorlagenqualitt und der Stifthaltung
bestimmt. Laut Anleitung knnen Druckschriften der verschiedensten
Stile von 8-16 Punkt (2,8-5,6mm) verarbeitet werden. In der
praktischen Anwendung sind die Grenzen aber weiter. So kann man
Text aus Zeitungsannoncen mit 2,2mm noch ganz gut einlesen, aber
dann sollte man das mitgelieferte Lineal benutzen um den Stift sauber
ber die Zeile zu fhren. Ein Verwackeln rcht sich hier in vllig
unverstndlichen Texten. Unbezahlbar sind satte schwarze Buchstaben
auf weiem Papier. Dann ist das Ergebnis fast hundertprozentig. Bei
hellem Sonnenlicht im Freien sollte man sich auch nicht wundern,
Seite 14 von 25
Steffen Zimmermann
wenn nur noch Buchstabensalat angezeigt wird. Kritisch wird es auch

bei Texten auf farbigen Untergrnden oder ineinanderlaufenden
Buchstaben. So sind meistens die Kombinationen wie "rn oder "ft"
kritische Kandidaten. Da macht sich das interne Wrterbuch bezahlbar,
dass leider etwas zu unterdimensioniert daherkommt.
Auf Dauer etwas stressig bei lngeren Texten ist die unangenehme,
aber bei den meisten Systemen auftretende Eigenschaft, dass durch
Silbentrennung umgebrochene Wrter nach der Umwandlung noch
getrennt sind und manuell wieder zusammengefgt werden mssen.
Die beste Stifthaltung hat man schnell gefunden und dann kann es
losgehen. Das Gert arbeitet sehr schnell, so dass man bald das
Feeling hat, mit einem Textmarker zu arbeiten. Ganze Artikel
einzuscannen
ist
sicher
nicht
das
geheime
Ziel.
Da
sind
die
Mglichkeiten einer PC-Software doch ungleich besser. Ideal ist dieses

Teil jedoch bei der Lektre von Fachzeitschriften oder Infoblttern,
dem bertragen von Visitenkartendaten oder hnlichem. Man kann die
Daten in der Reihenfolge seiner Datenstruktur einscannen, so dass in
Word dann nur noch Bezeichnertrennzeichen zu setzen sind und die
Textdatei direkt in die entsprechende Datenbank importiert werden
kann. Hierbei wre ein Makro allerdings noch sehr hilfreich. Damit
gehrt die bliche Frage der Vergangenheit an, die da lautet: Mensch,
wo habe ich denn das blo schon mal gelesen? [L12]
7. OCR in der Wirtschaft

7.1.
Formulare erfassen - Anwendungsbeispiel aus der
Praxis
Einige Beispiele, auf die man sehr hufig trifft, sind berweisungen
oder
auch
Briefe.
Die
Deutsche
Post
AG
hat
in
ihren
Postverteilungszentren ,,Scanner, die auf dem Briefumschlag nach

einer fnfstelligen Zahl (Postleitzahl) suchen. Eine OCR - Software hilft
ihnen dabei.
Die Banken mssen die hand- oder maschinenbeschrifteten Belege
buchen. Das geschah frher per Hand, in dem eine Menge Leute damit
Seite 15 von 25
Steffen Zimmermann
beschftigt waren, die auf dem berweisungstrger geschriebenen

Daten in die Erfassungsmaske eines Buchungssystems zu tippen [L7]
Heute werden diese Belege maschinell verarbeitet. Zuerst werden die
Belege in der Bank mit leistungsfhigen Scannern digitalisiert. Dabei
wird die Farbe der Kstchen bewusst ignoriert, weshalb das Abbild nur
noch die hand- oder maschinengeschriebenen Daten zeigt und zwar
nur schwarz auf wei. Die Schriftarten auf den berweisungstrgern
sind nach DIN 66008/ISO standardisiert worden, um eine einheitliche
Erfassung der Trger zu ermglichen. Diese Schriftarten sind OCR-A
und OCR-B und knnen sowohl von Maschinen als auch Menschen
gelesen werden, sie basieren auf dem lateinischen Alphabet und
arabischen Ziffern und werden auch beim EAN-Code verwendet
OCR-A
OCR-B
EAN/JAN
Euroean/Japanese Article Number
mit OCR-B nach DIN 66008
Quelle: eigene, [L11]
Da im Grunde die Anordnung der einzelnen Felder prinzipiell immer

gleich ist, wird eine Art elektronische Maske ber das Abbild gelegt,
welche dem Computer sagt, wo sich welche Informationen befinden.
Nun liest der Computer Zeichen fr Zeichen aus und hinterlegt die
einzelnen Felder nacheinander in einer Datei.
Diese
Leseergebnisse
Korrekturmaske
werden
angezeigt,
wo
nun
die
nacheinander
nicht
oder
nicht
in
einer
zweifelsfrei
erkannten Zeichen mit entsprechenden Abbildungen des Originals

durch einen Mitarbeiter verglichen, berprft und ergnzt werden
knnen. ,,Da man dem Erfassungssystem vorher einmal mitgeteilt hat,
welche Struktur die Ausgabedaten haben sollen, werden diese, sobald
verifiziert, gleich an das Buchungssystem bergeben und sind damit
erledigt". [L6]
Seite 16 von 25
Steffen Zimmermann
7.2.
FormFile - FormFile SWR 2.4
Das Formularlesesystem von IMPROX automatisiert die bernahme

von Informationen die in Papierform vorliegen (Formulare, Belege,
etc.) zu maschinell verarbeitbaren Daten. Durch FormFile wird der PC
gleichzeitig zum Daten- und Prferfasser. Die strikte Einhaltung von
Industriestandards ermglicht auch die Integration in die bestehende
EDV-Umgebung und die einfache Datenbergabe zu nachfolgenden
Buchungs-, Archiv- und Datenbanksystemen.
Das System ist von der reinen Softwarelsung bis zum HochleistungsOCR-Serversystem durchgehend skalier- und erweiterbar. Dadurch
wird die Automatisierung der Formular- und Belegerfassung fr den
Anwender mit einigen Dutzend Dokumenten am Tag ebenso mglich,
wie mit einem Belegvolumen von tglich 50.000 und mehr. Scanner
aller Grenordnungen werden ebenfalls untersttzt.
Die grafischen Werkzeuge zur freien Definition von Lesezonen,
Datenfeldern
und
Bildschirmmasken
erlauben
ein
einfaches
und
mheloses Anpassen von FormFile an Formulare jeder Art.

Zur Erstellung eines gewnschten Arbeitsablaufes von Texterkennung
und Nachbearbeitung knnen mittels der integrierten Scriptsprache
Makros definiert werden. Damit lassen sich auf einfachste Weise
Plausibilittsprfungen von der einfachen Prfziffernrechnung bis hin
zum komplexen Datenbankzugriff erstellen. Anwendungsspezifische
Routinen knnen auch in den modernen Hochsprachen (C/C++,
VisualBasic, etc.) geschrieben und eingebunden werden.
Lesezonen werden mit der Maus definiert und knnen bequem in ihrer
Gre und Lage verndert werden. Attribute der Lesezonen (Schriftart,
Zeichensatz,
Bildvorverarbeitung,
dynamische
Zonennachfhrung,
etc.) knnen auch auf Knopfdruck festgelegt werden.

Die Nachbearbeitung wird rasch und effizient durchgefhrt. Wenn
Rckweisungen (nicht erkannte Zeichen) zu korrigieren sind, wird ein
Bildausschnitt des gescannten Images angezeigt, um die Problemstelle
sofort und einfach zu erfassen. Zustzlich wird die jeweilige Zeile dem
von
FormFile
gelesenen
Text
unmittelbar
dem
Originaltext
Seite 17 von 25
Steffen Zimmermann
gegenbergestellt, um so einen sofortigen und direkten Vergleich zu

haben.
FormFile SWR 2.4 ist ein PC basiertes Formular- und Beleglesesystem.
Je nach Version, PC und Schriftgut ist es mglich zwischen 26 und 860
Zeichen/Sek. Maschinen-, Handblockschrift oder Barcodes zu lesen.
FormFile SWR 2.4 ist in hohem Grade skalierbar und kann bei
Belegaufkommen von wenigen 100 Stck pro Woche bis hin zu
mehreren 10.000 Belegen pro Tag eingesetzt werden. Die sehr flexible
Exportfunktion ermglicht die bergabe der korrigierten und geprften
Datenstze in eine Vielzahl von anderen Anwendungen wie Buchungsund Archivierungssyteme oder Datenbanken. [L6]
7.3.
BlueWings/Capture
,,BlueWings/Capture
ist
ein
Hochleistungssystem
fr
die
automatische Erkennung und Erfassung von Geschftsdokumenten"

[L8]
BlueWings/Capture wandelt Papierdokumente in elektronische Daten
um. Dabei erkennt und prft das System auch den Inhalt und stellt die
gewonnenen
Informationen
anderen
Anwendungen
fr
die
Weiterverarbeitung zur Verfgung. Die einzelnen Arbeitsschritte Scannen oder Faximport, Klassifizieren der Dokumente, Erkennen,
Prfen
und
sowie
das
Exportieren
der
Daten
laufen
bei
BlueWings/Capture weitgehend automatisch ab.

Ein Benutzereingriff ist nur fr die Bedienung des Scanners und fr die
Ergnzung der nicht erkannten Zeichen notwendig.
Die Erfassung groer Mengen von Papierdokumenten wie Bestellungen,
Antrge,
Rechnungen,
berweisungen,
Fragebgen
und
andere
Geschftsdokumente erfordert einen betrchtlichen Aufwand von Zeit

und Personal. Ein wesentlicher Kostenfaktor in jedem Geschft, der mit
BlueWings/Capture effizient reduziert wird. BlueWings/Capture
amortisiert sich hufig schon nach sechs bis zwlf Monaten; eine
Wirtschaftlichkeit, die auf folgenden Vorteilen basiert:
Seite 18 von 25
Steffen Zimmermann
Geschwindigkeit
Die wesentliche Beschleunigung der Dokumentenverarbeitung, die

Daten sind schnell verfgbar.
Kosten
Eine Drastische Reduktion des Aufwandes fr Datenverfgbarkeit

und -eingabe.
Qualitt
Die
Erhhung
der
Datenqualitt
durch
automatische
Plausibilittsprfungen.
Personal
Die Mitarbeiter werden entlastet und knnen Daten verwenden

anstatt sie nur zu erfassen.
Zusatznutzen
Mehr Daten knnen erschlossen werden und verwendet werden, da

die Erfassung viel weniger Aufwand erfordert und schneller Abluft.
Quelle: [L6]
7.4.
Schrifterkennung fr Blinde
Recognita Plus 5.0 untersttzt nicht nur das kyrillische Alphabet,

sondern auch die Blindenschrift Braille. In Braille geschriebene Texte
setzt Recognita Plus 5.0 in normale Zeichen um. Um vor allem
Sehbehinderten
die
Programmfunktionen
Arbeit
und
alle
zu
erleichtern,
Eigenschaften
sind
ber
die
smtliche
Tastatur
erreichbar. [L6]
7.5.
Verkehrsberwachung
In den USA werden seit ca. 5 Jahren die grten Ballungsgebiete mit
Videokameras berwacht. Davon sind die Verkehrswege natrlich nicht
ausgenommen. So ergibt sich ein weiterer Anwendungsbereich fr
Texterkennung: die Analyse von Nummernschildern.
Eine Kamera wird dabei ber kritischen Verkehrsabschnitten platziert
(wie z.B. Brcken, Fhren, Kreuzungen). Sie machen mit Hilfe von
Infrarotsensoren, Lichtschranken oder Belastungssensoren im Boden
einen Schnappschuss des Fahrzeuges. Dieses Bild wird sofort nach
dem Nummernschild durchsucht, durch OCR-Software extrahiert und
an eine zentrale Datenbank weitergeleitet (siehe Abbildung).
Die so gewonnenen Daten knnen nun weiterverarbeitet werden, sei es
um Verkehrssnder zu finden, gestohlene Autos zu identifizieren oder
ein geflschtes Nummernschild zu erkennen.
Seite 19 von 25
Steffen Zimmermann
USA: OCR-Einsatz zum scannen des Nummerschildes
7.6.
Visual Content Search am Beispiel Cobion
Unter dem Begriff OCR Rich Content Search bietet die Firma Cobion
einen
Suchdienst
an,
der
nicht
nur
Textdokumente
nach
den
eingegebenen Begriffen durchsucht, sondern auch Grafiken.

Cobion durchsucht dabei wie eine normale Suchmaschine das Internet
nach gngigen Bildformaten und
schickt
diese,
noch
vor
der
Speicherung im Index, durch ein

OCR-Programm. Die Grafik wird
nun nach Text durchsucht und,
falls
es
zu
einem
Ergebnis
gekommen ist, das Ergebnis dem

Index hinzugefgt.
Gibt man nun einen Suchbegriff in die mit Cobion-Technologie
ausgestatteten Suchmaschinen ein, so werden nun auch Bilder
angezeigt, die mit diesem Begriff gefunden werden.
Seite 20 von 25
Steffen Zimmermann
8. OCR-Einsatzerfahrungen in der Wirtschaft
8.1.
Erfahrungen der BHB Immobilien - Verwaltungs
GmbH
Die BHB Immobilien - Verwaltungs GmbH (BHB) in Mnchen, ist eine
kleine
innovative
Objektgesellschaften
Immobilienverwaltung.
mit
insgesamt
45
Sie
betreut
Objekten
ca.
35
(vorwiegend
Gewebeobjekte) in ganz Deutschland. (Wichtige Standorte: Mnchen,

Berlin, Bonn, Kln, Dresden, Leipzig u.a.) Das derzeit betreute
Vermgen betrgt ca. 370 Mrd. DM und ein jhrliches Mietvolumen von
ca. 30 Mio. DM.
Die BHB setzt seit ungefhr 2 Jahren die OCR Software OmniPage von
ScanSoft ein. Zum berwiegenden Teil werden mehrseitige Dokumente
(5 Seiten und mehr) wie z. B. Vertrge, die nur in Papierform
vorliegen,
eingescannt
und
dann
in
eine
Textdatei
zur
Weiterverarbeitung umgewandelt.
Die BHB ist sehr zufrieden mit der OCR- Scannersoftware. Die
Anwendung ist unkompliziert und schnell. Ein Nacharbeiten des
eingescannten Textes lsst sich aber trotzdem nicht vermeiden, da
Abstze, Umlaute, Aufzhlungen etc. nicht oder nicht vollstndig als
solche erkannt werden. In jedem Fall wird fr das Nachbearbeiten
wesentlich weniger Zeit bentigt, als wenn man den ganzen Text per
Hand eingeben wrde. [L6]
Seite 21 von 25
Steffen Zimmermann
8.2.
Erfahrungen von Haas & Halverscheidt
Haas & Halverscheidt Real Estate Services, in Stuttgart, ist ein

Partnerunternehmen von Mller International. Haas & Halverscheidt
Real Estate Services ist, wie sein Partner, ebenfalls Spezialmakler fr
Gewerbeimmobilien.
Haas & R Halverscheidt Real Estate Services setzt das Texterkennungsprogramm Textbridge bereits seit 4 Jahren ein. Hauptschlich
werden Zeitungsartikel, Zeitungsanzeigen, sowie auch Buchpassagen
nach dem Scannen in Textdateien umgewandelt. Die Zeitungsanzeigen
liefern wichtige Informationen zum aktuellen Markt, deshalb werden
diese Informationen dann in einer Datenbank weiterverarbeitet, um so
den Markt beobachten zu knnen.
Die Erkennungsgenauigkeit hngt von der Qualitt der Vorlage
entscheidend ab. Buchseiten und Magazinseiten werden recht gut
erkannt. Probleme gibt es bei Zeitungsanzeigen, da sie auf relativ
dnnem Papier vorliegen, was zur Folge hat, dass die Rckseite
durchschimmert.
Erstaunlich war die Aussage von Haas & Halverscheidt Real Estate
Services, dass sie nur 200 dpi - Auflsung verwenden, um ihre
Vorlagen zu scannen.
Als sehr positiv wird empfunden, dass das Programm ,,lernfhig" ist, d.
h. neue Wrter in einem Trainingsmodus lernt und diese anschlieend
erkennt. Auch die verschiedenen Fremdsprachen haben Haas &
Halverscheidt berzeugt. [L6]
Seite 22 von 25
Steffen Zimmermann
9. Fazit
Wie die verschiedenen Tests (die zum Teil doch sehr widersprchlich
waren) gezeigt haben, befinden sich die OCR-Softwareprodukte in
einem stndigen Prozess der Verbesserung. Dennoch ist nicht davon
auszugehen, dass in naher Zukunft OCR-Programme die Fhigkeiten
des menschlichen Auges und die Erkennungsgenauigkeit des Gehirns
erreichen werden.
Nichts desto trotz sind die bereits vorhandenen Programme eine
wirkliche Errungenschaft fr Unternehmen, die ihre Daten vollstndig
elektronisch archivieren wollen. Denn nicht nur die Erfassung des
bereits vorhandenen Datenbestandes (der meist nur in Papierform
vorhanden ist) wird dadurch erheblich erleichtert. Sondern auch die
Erweiterung der Datenbank gestaltet sich mit einem Scanner und einer
anschlieenden Texterkennung durch OCR wesentlich einfacher. Es
wre doch eine schne Vorstellung, nicht mehr in den Keller laufen zu
mssen, nur weil man ein Dokument bentigt, welches schon 2 Jahre
alt ist.
Seite 23 von 25
Steffen Zimmermann
10.
E1
Erklrung von Fachbegriffen
dots per inch

Auflsung eines grafischen Eingabegertes (z.B. Scanner,
Digitalkamera); gibt an, wie viel Bildpunkte auf einem inch
gespeichert werden. Sie ist unabhngig von der Monitorauflsung.
Standard ist heutzutage 24 Bit 42 Bit. Fr OCR-Bearbeitung
reicht jedoch 8 Bit (256 Farben/Graustufen) aus
E2
Cross Update
Heute ist jeder Scanner mit einer deutlich eingeschrnkten OCRSoftware ausgestattet. Diese ist fr einfache Texte zwar
ausreichend, beherrscht meistens nur den Automatik-Modus ohne
Eingriffsmglichkeiten. Sie reicht aber aus, um statt einer
Vollversion ein Upgrade, ein so genanntes Cross Update, zu
erwerben. Dabei muss man vorher nicht einmal das Produkt des
gleichen Herstellers verwendet haben
E3
Erkennungsgenauigkeit
Sie liegen nach Stand der Technik zwischen:
> 99,9% bei Normschriften
bei > 98% fr Druck und Maschinenschriften
bei ca. 95% fr Handschrift - Ziffern in Kstchen
unter 95% fr Handschrift - Buchstaben geblockt [L6]
Seite 24 von 25
Steffen Zimmermann
11.
Literaturverzeichnis
L1
http://www.ocr-systeme.de vom 01.11.2001
L2
http://www.zdnet.de vom 01.11.2001
L3
Marco Corti & Olivier Frfel, Scanner & OCR-Software, Mrz 2001
Semesterarbeit Zrcher Hochschule Winterthur
L4
ct 01/1999, S.136ff.m, Verlag Heinz Heise
L5
http://www.tecchannel.de vom 01.11.2001
L6
http://hausarbeiten.de vom 01.11.2001
L7
http://www.datascan.de vom 01.11.2001
L8
http://www.pronobis.at vom 01.11.2001
L9
http://www.haas-halverscheidt.de (o. V.)
L10 http://www.google.de (zur Suche der OCR-Dokumente)

L11 http://www.netlexikon.de von 01.11.2001
L12 http://psionwelt.de vom 01.11.2001
Seite 25 von 25

Zimmermann - Ocr-Optical Character Recognition

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Zimmermann - Ocr-Optical Character Recognition

Hochgeladen von

Copyright:

Verfügbare Formate

OCR

Optical Character Recognition

OStR Hermann Distelrath-Stangier

Abgabetermin: 13. November 2001

OCR [Optical Character Recognition]

Was ist OCR?..........................................................................................................................4

Wie funktioniert OCR?..........................................................................................................5

Pattern Matching (Mustererkennung) .............................................................................6

Feature Recognition (Merkmalsbeschreibung)................................................................7

Abbyy Finereader 5.0 ......................................................................................................8

ScanSoft OmniPage Pro 11 .............................................................................................9

I.R.I.S Readiris 6.0...........................................................................................................9

ScanSoft Recognita Plus 5.0 ..........................................................................................10

ScanSoft TextBridge Pro Millennium ............................................................................11

OCR-Programme im Vergleich (Test: 1999)......................................................................11

Siemens Pocket Reader..................................................................................................14

OCR in der Wirtschaft.........................................................................................................15

Formulare erfassen - Anwendungsbeispiel aus der Praxis............................................15

FormFile - FormFile SWR 2.4.......................................................................................17

Visual Content Search am Beispiel Cobion ...................................................................20

OCR-Einsatzerfahrungen in der Wirtschaft......................................................................21

Erfahrungen der BHB Immobilien - Verwaltungs GmbH..............................................21

Erfahrungen von Haas & Halverscheidt........................................................................22

Erklrung von Fachbegriffen..........................................................................................24

OCR [Optical Character Recognition]

Daten/Dokumenten, deren Inhalt nicht verndert wird oder werden

Textprogramm geffnet und verndert werden.

Handschriften anfangen. Selbst die gngigen normierten Schriftarten

knnen so zum ungeahnten Stolperstein in die digitale Welt werden

OCR [Optical Character Recognition]

2. Was ist OCR?

Optical Character Recognition

einzelne Punkte (dots) zerlegt, die je nach gewhlter

Farbinformationen enthalten [E1]. Dabei entsteht eine

befriedigenden Ergebnisse liefern kann. [L1]

bertragene Grafikdatei wird nun von einem geeigneten

OCR [Optical Character Recognition]

3. Wie funktioniert OCR?

Buchstabens wie den Zeilenabstand beachten. Bei den Laufweiten geht

dehnbaren Beschreibungsgrssen gearbeitet. Solche

geradlinig, eher gebogen, eher breit oder Strichbeginn

OCR [Optical Character Recognition]

Technologien angewandt werden. Die erste und bei den anfnglichen

Pattern Matching (Mustererkennung)

Zeitungsartikeln. Jedes einzelne gescannte Zeichen wird solange mit

Variationen eines Zeichens abzudecken, mssten eigentlich fr jeden

Musterberlagerung heute in Reinform jedoch kaum noch zum Einsatz.

OCR [Optical Character Recognition]

Feature Recognition (Merkmalsbeschreibung)

Zeichen, indem es die Umrisslinien auf

einfache geometrische Figuren reduziert.

Vergleich benutzt, sondern verschiedene mathematische Algorithmen,

Winkelschnittanalyse (WSA). Diese Analyse schneidet ein Zeichen in

OCR [Optical Character Recognition]

Ein weiteres neues Verfahren - das Finereader anwendet - ist die so

Musterberlagerung zuwendet. Die Fontnenumformung stellt fr

vergleichen, bei denen die Fleckenverteilung gewichtet ist. Die

Abbyy Finereader 5.0

Das aus Russland stammende OCR-Programm

OCR [Optical Character Recognition]

ScanSoft OmniPage Pro 11

verbesserte Erkennungsleistung nicht. Dennoch

I.R.I.S Readiris 6.0

Readiris Pro 6 ist die etwas erweiterte Variante