14.02.12 23:35
Finanzer spinnt
Freiheit schtzt man nicht, indem man sie abschafft.
Startseite Bilder Berlin Berlin Sommer 1990 Hamburg Hamburgische Brgerschaft Vattenfall Cyclassics 2011 Impressionen Katzencontent Miniaturwunderland Neues Museum Tutanchamun Downloads E-Books ber Finanzer
Bewohner des Nordens von hinten Keine Mondfinsternis im Norden Jun 12 2011
14.02.12 23:35
Screenshots versehen. Wenn jemand bereits die kommerzielle OCR-Software Finereader auf der Platte hat, den mchte ich auf meinen lteren Artikel zur Fraktur-OCR mit Finereader verweisen. Tesseract 3 ist eine Texterkennungssoftware, die aktuell von Google weiterentwickelt wird und unter einer Open-Source-Lizenz steht und dementsprechend kostenlos verwendet werden kann. Tesseract wird auch fr die Texterkennung bei Google Books verwendet und verarbeitet die folgenden Bildformate: tif, multipage tif, jpg, gif und png. Tesseract ermglicht Texterkennung fr mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dnisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberflche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres fr Wikisource kein Problem darstellt. Fr die Durchfhrung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.
Installation
Aus der Liste auf code.google.com lade man sich die folgenden ZIP-Dateien herunter: tesseract-ocrsetup-3.00.exe bzw. die jeweils aktuelle Version (das eigentliche Texterkennungsprogramm) und deufrak.traineddata.gz (Sprachdatei Deutsch-Fraktur). Die Datei mit den Sprachdaten entpacken. Wenn man keinen passenden Entpacker fr gz-Dateien an Bord hat, kann man sich in wenigen Minuten den kostenlosen und leistungsfhigen Entpacker 7-Zip installieren. Bei Bedarf knnen auch weitere Sprachdateien heruntergeladen werden und entpackt werden, die gngigsten Sprachen kann man sich aber auch spter bei der Installation hinzufgen. Das heruntergeladene Installationsprogramm tesseract-ocr-setup-3.00.exe ausfhren und Tesseract installieren. Bei der Installation kann man bzw. sollte man die deutschen Sprachdateien mitinstallieren, die sind aber erstmal nur fr Antiqua-Schrift. Aber Texte die in Antiqua gesetzt wurden, will man ja auch durch die OCR jagen. Den Ordner ffnen in dem Tesseract installiert wurde, das sollte normalerweise C:\Program Files\Tesseract-OCR sein, und in den Unterordner tessdata die entpackte Datei deu-frak.traineddata kopieren oder verschieben. WINDOWS VISTA/7: An dieser Stelle mchte Windows Adminstratorrechte haben, um die Kopieraktion durchfhren zu knnen. Das muss besttigt werden. Jetzt ist Tesseract fr Fraktur-OCR vorberereitet.
OCR durchfhren
Die Scans (Bilddateien) die mit Tesseract verarbeitet werden sollen, knnen am einfachsten in den Ordner kopiert werden, in den Tesseract installiert wurde. WINDOWS VISTA/7: Auch hier fragt Windows wieder nach Administratorrechten, dies ebenfalls besttigen. Wem die Kopiererei in den Tesseract-Ordner und unter Win7 die Nachfragerei zu lstig ist, der kann sie auch in einem anderen Ordner belassen (bspw. c:\Bilder). In diesem Falle muss der Aufruf von Tesseract
http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/ Seite 2 von 8
14.02.12 23:35
etwas angepasst werden. Am besten eignen sich Scans mit 300 dpi und Graustufen. Fr die eigentliche OCR muss man die Windows-Kommandozeile aufrufen. Das geht mit: WindowsTaste+r, in die erscheinende Eingabezeile cmd (ohne die Anfhrungszeichen) eingeben und Enter drcken. WINDOWS-VISTA/7: Zum Start der Kommandozeile muss unbedingt Ctrl-Shift-Enter gedrckt werden, damit diese mit Adminstratorrechten ausgefhrt wird. Alternativ kann die Kommandozeile wie in diesem Blogbeitrag angegeben aufgerufen werden, damit diese mit Adminstratorrechten ausgefhrt wird. In dem erscheinenden schwarzen Fenster mit blinkendem Cursor muss man nun zum Tesseract-OCR Verzeichnis wechseln. Das geht folgendermaen (vorausgesetzt Tesseract ist im oben angegebenen Verzeichniss installiert). Nach jeder Zeile Enter drcken: cd C:\ cd Programme cd Tesseract-OCR Nun geht es aber zur eigentlichen OCR. Damit Tesseract die OCR mit Fraktur durchfhrt, muss fr BildDateien im tif-Format folgende Zeile eingeben werden und Enter gedrckt werden: for %i in (*.tif) do tesseract.exe %i %i -l deu-frak Bei Dateien im jpg-, gif- oder png-Format muss der Befehl entsprechend gendert. Bei anderen Sprachen ist deu-frak durch das entsprechende Krzel zu ersetzen: Deutsch=deu, English=eng usw. Wenn man die Dateien nicht in den Tesseract-Ordner kopiert hat, dann sieht der Aufruf entsprechend des obigen Beispielsordners in dem sich die Dateien befinden folgendermassen aus: for %i in (c:\Bilder\*.tif) do tesseract.exe %i %i -l deu-frak Das folgende Beispiel fhrt entsprechend eine OCR fr Bilddateien im png-Format mit deutschem Antiqua-Text durch: for %i in (*.png) do tesseract.exe %i %i -l deu Das Programm arbeitet nun alle Scans im Stapel ab und erzeugt fr jede Bilddatei eine Textdatei. Die einzelnen Textdateien knnen mit: copy /b *.txt Gesamttext.txt zu einer groen Text-Datei zusammengefgt werden. Weitere Informationen in englisch finden sich bei code.google.com.
0 votes, 0.00 avg. rating (0% score)
Teilen:
Tweet
14.02.12 23:35
3 Kommentare
1.
Catrin
14. Juni 2011 von 19:09 (UTC 1) Antworten Es geht brigens auch ohne die Bilder ins Tesseract-Verzeichnis zu kopieren, wenn man den Aufruf dort startet, wo die Bilder sind (jedenfalls unter Windows 7).
1.
Finanzer
15. Juni 2011 von 00:21 (UTC 1) Antworten Danke fr den Hinweis. Ich hab das in etwas angepasster Form eingebarbeitet. Alternativ kann man nmlich auch einfach den Pfad zum Ordner angeben, in dem die Dateien liegen.
2.
Jrgen Schulze
25. Oktober 2011 von 17:27 (UTC 1) Antworten Hallo, vielen Dank fr die Tipps. Ich war selbst berrascht, wie gut es geklappt hat relativ fr ein Open Source Projekt natrlich. Denn die Profidienste/Software fr Fraktur-OCR sind mit dann auch ein wenig zu teuer. Jrgen
14.02.12 23:35
Website:
Nachricht: Sie knnen diese HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym
title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
Kommentar senden
Benachrichtige mich ber nachfolgende Kommentare per E-Mail. Benachrichtige mich ber neue Beitrge per E-Mail.
Kategorien
Alltag (7) Blogroll (3) E-Books (6) Geschichte (10) Internes (5) Katzen (10) Klicktipps (11) Netzpolitik (2) Open Content (7) Persnliches (57) Podcast (5) Rechtliches (33) Bilderpolitik (1) Markenrecht (1) Persnlichkeitsrecht (7) Urheberrecht (17) Freie Lizenzen (12) Vereinsrecht (6) Rezension (4) Serie (4) Wikisource Die Serie (4) Sonstiges (2)
http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/ Seite 5 von 8
14.02.12 23:35
Spiegel Wissen (2) Sprache (7) Tour de France (3) Uncategorized (1) Werkzeuge (18) AntiCommonist (8) OCR (4) Wikimedia (146) Vorstand (3) Wikimedia Deutschland (6) Wikipedia (26) Wikipedia Academy 2007 (6) Wikisource (76)
Archiv
2012 2011 2010 2009 2008 2007
Letzte Kommentare
E-Books fr Wikisource (2) Finanzer spinnt bei Downloads jge bei E-Books fr Wikisource FeliNo bei Gedanken zu Ingenieuren und Freiem Wissen FeliNo bei Viertel und halbe Seiten Finanzer bei E-Books fr Wikisource (Neuzugnge 13.01.2012)
Blogroll
Astrodicticum Simplex - vor 3 Stunden Netzpolitik - vor 7 Stunden Neusprechblog - vor 8 Stunden Esowatch - vor 11 Stunden Wikimedia Deutschland - vor 11 Stunden Planet Wikimedia - vor 11 Stunden Bildblog - vor 11 Stunden Possums Welt - 13. Feb. Iberty - 13. Feb. Sprachlog - 13. Feb. Bibliotheca Altonensis - 12. Feb. Stefan Niggemeier - 12. Feb.
http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/ Seite 6 von 8
14.02.12 23:35
blooDNAcid - 12. Feb. Schneeschmelze - 11. Feb. Digitale Regionalgeschichte - 11. Feb. USA Erklrt - 9. Feb. Sebmol - 6. Feb. Blogwiese - 30. Jan. Free as in Free Beer - 24. Jan. lyzzy sucht das wunderland - 11. Jan. poupous geheimes laboratorium - 8. Jan. dont edit before breakfast. - 10. Juli '11 Pi10
Seiten
Bilder Berlin Berlin Sommer 1990 Hamburg Hamburgische Brgerschaft Vattenfall Cyclassics 2011 Impressionen Katzencontent Miniaturwunderland Neues Museum Tutanchamun Downloads E-Books ber Finanzer
Login
Benutzername: Passwort: Eingeloggt bleiben
Login
Sofern nicht anders vermerkt, stehen alle hier verffentlichten Beitrge und Bilder unter der Lizenz Creative Commons 3.0 Attribution-ShareAlike
Copyright
http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/ Seite 7 von 8
14.02.12 23:35
Sofern nicht anders vermerkt, stehen alle hier verffentlichten Beitrge und Bilder unter der Lizenz Creative Commons 3.0 Attribution-ShareAlike Zurck nach oben Powered by WordPress und Graphene-Theme. Performance Optimization WordPress Plugins by W3 EDGE
http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/
Seite 8 von 8