[[Vorlage(Getestet, bionic)]] {{{#!vorlage Wissen [:Pakete installieren: Installation von Programmen] [:Packprogramme: Archive entpacken] [:Rechte#Datei-ausfuehrbar-machen:Dateien ausführbar machen] [:mit Root-Rechten arbeiten:] [:Programme kompilieren: Pakete aus dem Quellcode erstellen] [:Terminal: Ein Terminal öffnen] }}} [[Inhaltsverzeichnis()]] ocre ist eine Kommandozeilenwerkzeug zur [:Texterkennung_(OCR):Texterkennung]. Es wurde von Luis José Cearra Zabala unter [http://www.gnu.org/copyleft/gpl.html GPL-Lizenz] {en} entwickelt. ocre verarbeitet '''pgm/pbm'''- und '''jpg'''-Daten (in Graustufen) , Ausgabe erfolgt in [wikipedia:unicode:] oder ISO 8859. Das Programm ist quasi ein "Forschungsprojekt", das seit 2000/01 stetig weiterentwickelt wird. Die Webseite ist nicht mehr erreichbar; unter [https://fossies.org/linux/privat/ocre_v0_044.tgz/ fossies.org] {en}/{dl} findet sich aber der Sourcecode der letzten Version 0.044 von 2017. = Installation = Benötigt werden zum Erstellen die Pakete[1] {{{#!vorlage Paketinstallation pkg-config libc6-dev libgtk2.0-dev libaspell-dev }}} Zur Verwendung außerdem noch {{{#!vorlage Paketinstallation libaspell15 libatk1.0-0 libc6 libcairo2 libglib2.0-0 libgtk2.0-0 libpango1.0-0 gnuplot aspell, optional, zur Ergänzung nicht erkannter Wörter, dazu die gewünschten Sprachpakete }}} Das Programm selbst ist nicht in den Paketquellen enthalten; es muss aus dem Quellcode erstellt werden. Das Programm kann als '''.tgz'''-Archiv im [https://fossies.org/linux/privat/ocre_v0_044.tgz/ Quellcode] {dl} bezogen werden. Das Archiv '''ocre_v0_044.tgz''' herunterladen und entpacken[2]. Es enthält im Unterordner '''/ocre''' das '''ocre-descWood-0.044.tgz''', diese muss das übergeordnete Verzeichnis '''/ocre-0.044''' entpackt werden. In das Verzeichnis '''ocre''' wechseln, dort die Datei '''instala''' ausführbar machen[3] und mit Root-Rechten[4] aufrufen. Dann dort mit {{{#!vorlage Befehl make depend make ocre }}} das Programm kompilieren, und dann installieren. Die Manpage wird - ebenfalls mit Root-Rechten, mit dem Befehl {{{#!vorlage Befehl make install installman }}} installiert. [[Vorlage(Fremd, Software, "")]] [[Bild(./ocre.png, 250, right)]] = Funktionsweise = Ähnlich wie [:Ocrad:] erkennt ocre die einzelnen Zeichen über eine Differenzierung nach festgelegten Kriterien eines "Decision Wood", nach denen die verschiedenen Eigenschaften sukzessive eingeteilt werden. Zunächst werden die Zeilen, dann die Zeichen differenziert, diese verglichen, oder, wenn zunächst unbekannt, ausgemessen, in der Datenbank danach geforscht und wenn nötig in einem Dialog-Fenster vom Benutzer abgefragt. ocre kann dabei Texte (und die entsprechenden Zeichensätze) für Englisch, Französisch, Deutsch, Polnisch, Portugiesisch, Russisch, und Spanisch sowie Katalanisch erkennen. ocre kann keine Spalten erkennen! = Bedienung = Die allgemeine Syntax auf der Kommandozeile[5] lautet: {{{#!vorlage Befehl ocre [Option(en)] Datei.pgm/pbm [> Ausgabedatei.txt] ocre [Option(en)] Datei1.pgm Datei1.pgm Datei3.pgm ... [> Ausgabedatei.txt] }}} [[Bild(./ocre-C-option.png, 100, right)]] Es öffnet sich meist ein Fenster, in dem der nicht erkannte Buchstabe rot umrahmt dargestellt ist (theoretisch kann das auch unterbleiben, aber nur, wenn tatsächlich alle Zeichen zweifelsfrei erkannt werden). Die weiteren Fenster sind direkt übereinander liegend, so dass sie zunächst auseinander geschoben werden müssen, um auf sie zugreifen zu können. Mit einem [[Vorlage(Tasten, lmt)]]-Klick auf die gewünschte Zeichentaste wird das jeweilige Zeichen in das Eingabefeld unten in ''"window1"'' kopiert, mit einem [[Vorlage(Tasten, return)]] das Zeichen eingegeben. Leider erkennt ocre z.T. die i- und Umlaut-Punkte nicht als zum Buchstaben gehörig, sodass ggf. eine Eingabe für solche "Zeichenteile" abgefragt wird. Wenn dann nichts eingetragen wird, erscheint nachher im Text eine Platzhalter "_"; es scheint nicht möglich zu sein, dass falsch erkannte Teile gar nicht aufgenommen werden. Auch scheint die Abfrage unbekannter Zeichen nicht abgeschaltet werden zu können, sodass eine automatische Erkennung und Verwendung aus einem anderen Programm heraus kaum möglich ist. Ohne Angabe einer Ausgabedatei wird der erkannte Text direkt im Terminal ausgeben, `>>Ausgabetext.txt` hängt den Text an eine bestehende Datei '''Ausgabetext.txt''' an. Am Ende des Textes steht die Anzahl der Abfragen unbekannter Zeichen (z.B. `preguntas: 45`). Besonders gute Ergebnisse erzielt ocre mit Texten in Serifen-Schriften wie Times New Roman ohne Ligaturen; Probleme entstehen besonders bei "defekten" Zeichen, die oft in Einzelbestandteile zerlegt werden. == Optionen == {{{#!vorlage Tabelle <-2 rowclass="titel"> ocre-Optionen +++ Option Funktion +++ `-d [n]` Schreibt Debugging-Informationen nach stdout, `n` gib dabei das Level an +++ `-h` Hilfe; Ausgabe der möglichen Optionen (leider in Spanisch...) +++ `-l [Sprachkürzel]` Verwendete Sprache im Dokument. Ein kleines Fenster mit dem spezifischen Zeichen der jeweiligen Sprache wird geöffnet. Verwendet werden die standardisierten Kürzel für die Sprachen (`eng, ger, rus, spa, cat, fre, pol, por`); die Texte werden in den entsprechenden [wikipedia:ISO-8859:]-Zeichensätzen ausgegeben. +++ `-p [n]` Unklar - bei Werten von 1 bis 4 wird ein Gnuplot-Fenster mit einem Diagramm geöffnet. Bei `5` sollen die erkannten einzeln Zeichen als '''pgm'''-Dateien im Verzeichnis '''./arm1''' abgelegt werden, was aber spätestens nach dem ersten Zeichen mit einer Fehlermeldung abbricht. +++ `-C [Zeichen]` Gibt eine vergrößerte Durchschnittsvariante des angegebenen Zeichens im [:ImageMagick:]-Viewer aus und speichert sie als '''.pgm''' im Ausgangsverzeichnis. Allerdings friert das Programm danach ein. +++ `-D` Verwendet aspell zur Ergänzung unvollständig erkannter Wörter; dadurch müssen bei eindeutiger Erweiterungsmöglichkeit weniger "unerkannte" Zeichen ergänzt werden. +++ `-u` Unicode für die Ausgabe verwenden }}} Die Optionen werden vom Entwickler als "flüchtig" ("ephemeral") beschrieben; sie sind z.T. nur als temporäre Zwischenstadien anzusehen, die auch kaum dokumentiert sind. (`-p[1|2|3|4]` liefert z.B. interessante Grafiken in [:Gnuplot:]; deren Bedeutung ist allerdings nicht erläutert). = Deinstallation = Zur Deinstallation reicht es nicht aus, ein ggf. mit [:checkinstall:] installiertes Paket wieder zu deinstallieren, da die Dateien aus dem `make depend`-Aufruf nicht mit in das Paket aufgenommen werden. Diese müssten händisch aus dem Verzeichnis '''/usr/share/''' entfernt werden, also dort den Unterordner '''/ocre''' (Root-Rechte nötig!) löschen. Im '''ReadMe''' findet sich auch der Befehl `make uninstall uninstalldcsw`, der ebenfalls Root-Rechte benötigt. = Alternativen = * [:Texterkennung_(OCR):] {Übersicht} * [:GOCR:] * [:Ocrad:] * [:tesseract-ocr:] * [:Cuneiform-Linux:] = Links = * [https://fossies.org/linux/privat/ocre_v0_044.tgz/ fossies.org] {en}/{dl} - Archiv mit dem Quellcode * [https://www.freshports.org/graphics/ocre ocre] {en} - ocre auf freshports.org, mit Informationen zu Abhängigkeiten und verwendeten Bibliotheken #tag: Grafik, Büro, Kommunikation, OCR, Texterkennung