ubuntuusers.de

ocre

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

ocre ist eine Kommandozeilenwerkzeug zur Texterkennung. Es wurde von Luis José Cearra Zabala unter GPL-Lizenz 🇬🇧 entwickelt. ocre verarbeitet pgm/pbm- und jpg-Daten (in Graustufen) , Ausgabe erfolgt in unicode oder ISO 8859. Das Programm ist quasi ein "Forschungsprojekt", das seit 2000/01 stetig weiterentwickelt wird. Die Webseite ist nicht mehr erreichbar; unter fossies.org 🇬🇧/⮷ findet sich aber der Sourcecode der letzten Version 0.044 von 2017.

Installation

Benötigt werden zum Erstellen die Pakete[1]

  • pkg-config

  • libc6-dev

  • libgtk2.0-dev

  • libaspell-dev

Paketliste zum Kopieren:

sudo apt-get install pkg-config libc6-dev  libgtk2.0-dev libaspell-dev 

Oder mit apturl installieren, Link: ,libgtk2.0-dev,libaspell-dev

Zur Verwendung außerdem noch

  • libaspell15

  • libatk1.0-0

  • libc6

  • libcairo2

  • libglib2.0-0

  • libgtk2.0-0

  • libpango1.0-0

  • gnuplot

  • aspell (optional, zur Ergänzung nicht erkannter Wörter, dazu die gewünschten Sprachpakete)

Paketliste zum Kopieren:

sudo apt-get install libaspell15 libatk1.0-0 libc6 libcairo2 libglib2.0-0 libgtk2.0-0 libpango1.0-0 gnuplot aspell 

Oder mit apturl installieren, Link: apt://libaspell15,libatk1.0-0,libc6,libcairo2,libglib2.0-0,libgtk2.0-0,libpango1.0-0,gnuplot,aspell

Das Programm selbst ist nicht in den Paketquellen enthalten; es muss aus dem Quellcode erstellt werden. Das Programm kann als .tgz-Archiv im Quellcode ⮷ bezogen werden. Das Archiv ocre_v0_044.tgz herunterladen und entpacken[2]. Es enthält im Unterordner /ocre das ocre-descWood-0.044.tgz, diese muss das übergeordnete Verzeichnis /ocre-0.044 entpackt werden. In das Verzeichnis ocre wechseln, dort die Datei instala ausführbar machen[3] und mit Root-Rechten[4] aufrufen.

Dann dort mit

make depend
make ocre 

das Programm kompilieren, und dann installieren. Die Manpage wird - ebenfalls mit Root-Rechten, mit dem Befehl

make install installman 

installiert.

Hinweis!

Fremdsoftware kann das System gefährden.

./ocre.png

Funktionsweise

Ähnlich wie Ocrad erkennt ocre die einzelnen Zeichen über eine Differenzierung nach festgelegten Kriterien eines "Decision Wood", nach denen die verschiedenen Eigenschaften sukzessive eingeteilt werden. Zunächst werden die Zeilen, dann die Zeichen differenziert, diese verglichen, oder, wenn zunächst unbekannt, ausgemessen, in der Datenbank danach geforscht und wenn nötig in einem Dialog-Fenster vom Benutzer abgefragt. ocre kann dabei Texte (und die entsprechenden Zeichensätze) für Englisch, Französisch, Deutsch, Polnisch, Portugiesisch, Russisch, und Spanisch sowie Katalanisch erkennen. ocre kann keine Spalten erkennen!

Bedienung

Die allgemeine Syntax auf der Kommandozeile[5] lautet:

ocre [Option(en)] Datei.pgm/pbm [> Ausgabedatei.txt]
ocre [Option(en)] Datei1.pgm Datei1.pgm Datei3.pgm ... [> Ausgabedatei.txt] 

./ocre-C-option.png Es öffnet sich meist ein Fenster, in dem der nicht erkannte Buchstabe rot umrahmt dargestellt ist (theoretisch kann das auch unterbleiben, aber nur, wenn tatsächlich alle Zeichen zweifelsfrei erkannt werden). Die weiteren Fenster sind direkt übereinander liegend, so dass sie zunächst auseinander geschoben werden müssen, um auf sie zugreifen zu können. Mit einem linke Maustaste-Klick auf die gewünschte Zeichentaste wird das jeweilige Zeichen in das Eingabefeld unten in "window1" kopiert, mit einem das Zeichen eingegeben. Leider erkennt ocre z.T. die i- und Umlaut-Punkte nicht als zum Buchstaben gehörig, sodass ggf. eine Eingabe für solche "Zeichenteile" abgefragt wird. Wenn dann nichts eingetragen wird, erscheint nachher im Text eine Platzhalter "_"; es scheint nicht möglich zu sein, dass falsch erkannte Teile gar nicht aufgenommen werden. Auch scheint die Abfrage unbekannter Zeichen nicht abgeschaltet werden zu können, sodass eine automatische Erkennung und Verwendung aus einem anderen Programm heraus kaum möglich ist.

Ohne Angabe einer Ausgabedatei wird der erkannte Text direkt im Terminal ausgeben, >>Ausgabetext.txt hängt den Text an eine bestehende Datei Ausgabetext.txt an. Am Ende des Textes steht die Anzahl der Abfragen unbekannter Zeichen (z.B. preguntas: 45). Besonders gute Ergebnisse erzielt ocre mit Texten in Serifen-Schriften wie Times New Roman ohne Ligaturen; Probleme entstehen besonders bei "defekten" Zeichen, die oft in Einzelbestandteile zerlegt werden.

Optionen

ocre-Optionen
Option Funktion
-d [n] Schreibt Debugging-Informationen nach stdout, n gib dabei das Level an
-h Hilfe; Ausgabe der möglichen Optionen (leider in Spanisch...)
-l [Sprachkürzel] Verwendete Sprache im Dokument. Ein kleines Fenster mit dem spezifischen Zeichen der jeweiligen Sprache wird geöffnet. Verwendet werden die standardisierten Kürzel für die Sprachen (eng, ger, rus, spa, cat, fre, pol, por); die Texte werden in den entsprechenden ISO-8859-Zeichensätzen ausgegeben.
-p [n] Unklar - bei Werten von 1 bis 4 wird ein Gnuplot-Fenster mit einem Diagramm geöffnet. Bei 5 sollen die erkannten einzeln Zeichen als pgm-Dateien im Verzeichnis ./arm1 abgelegt werden, was aber spätestens nach dem ersten Zeichen mit einer Fehlermeldung abbricht.
-C [Zeichen] Gibt eine vergrößerte Durchschnittsvariante des angegebenen Zeichens im ImageMagick-Viewer aus und speichert sie als .pgm im Ausgangsverzeichnis. Allerdings friert das Programm danach ein.
-D Verwendet aspell zur Ergänzung unvollständig erkannter Wörter; dadurch müssen bei eindeutiger Erweiterungsmöglichkeit weniger "unerkannte" Zeichen ergänzt werden.
-u Unicode für die Ausgabe verwenden

Die Optionen werden vom Entwickler als "flüchtig" ("ephemeral") beschrieben; sie sind z.T. nur als temporäre Zwischenstadien anzusehen, die auch kaum dokumentiert sind. (-p[1|2|3|4] liefert z.B. interessante Grafiken in Gnuplot; deren Bedeutung ist allerdings nicht erläutert).

Deinstallation

Zur Deinstallation reicht es nicht aus, ein ggf. mit checkinstall installiertes Paket wieder zu deinstallieren, da die Dateien aus dem make depend-Aufruf nicht mit in das Paket aufgenommen werden. Diese müssten händisch aus dem Verzeichnis /usr/share/ entfernt werden, also dort den Unterordner /ocre (Root-Rechte nötig!) löschen. Im ReadMe findet sich auch der Befehl make uninstall uninstalldcsw, der ebenfalls Root-Rechte benötigt.

Alternativen

  • fossies.org 🇬🇧/⮷ - Archiv mit dem Quellcode

  • ocre 🇬🇧 - ocre auf freshports.org, mit Informationen zu Abhängigkeiten und verwendeten Bibliotheken

Diese Revision wurde am 24. Januar 2020 19:16 von ubot erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: OCR, Texterkennung, Kommunikation, Grafik, Büro