ubuntuusers.de

gImageReader

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

./gImageReader.png gImageReader 🇬🇧 ist ein einfach zu bedienendes Frontend für das OCR-Programm tesseract-ocr (Versionen 2.0x und 3.0x werden unterstützt). Es ermöglicht die Texterkennung aus vorliegenden Bilddateien (es sind alle gängigen Formate verwendbar, auch PDF-Dateien), sowie den direkten Import über einen SANE-fähigen Scanner. Dabei sind alle von tesseract unterstützten Sprachen verwendbar, auch ggf. selbst erstellte. Im Programm wird außerdem eine Rechtschreibprüfung (über GTKSpell 🇬🇧 mit Hunspell) verwendet, die Sprache ist einstellbar. Die Erkennung ist aufgrund des sehr guten Texterkennungsprogramms bei vernünftigen Vorlagen hervorragend. Das Programm wird vom Entwickler allerdings noch als im "beta"-Stadium befindlich geführt.

Installation

Seit Ubuntu 15.10 liegt gImageReader in den offiziellen Paketquellen vor.

  • gimagereader

Paketliste zum Kopieren:

sudo apt-get install gimagereader 

Oder mit apturl installieren, Link: apt://gimagereader

gimagereader

PPA

Zur Verwendung unter Ubuntu 18.04 ist der Einsatz eines PPAs des Entwicklers notwendig, da die Version aus den Quellen nicht mit tesseract-ocr 4.00 kompatibel ist - die Anpassung erfolgte erst mit gImageReader 3.3.0 (ab 19.04 auch in den Quellen):

Adresszeile zum Hinzufügen des PPAs:

  • ppa:sandromani/gimagereader

Hinweis!

Zusätzliche Fremdquellen können das System gefährden.


Ein PPA unterstützt nicht zwangsläufig alle Ubuntu-Versionen. Weitere Informationen sind der Wiki/Vorlagen/PPA/ppa.png PPA-Beschreibung des Eigentümers/Teams sandromani zu entnehmen.

Damit Pakete aus dem PPA genutzt werden können, müssen die Paketquellen neu eingelesen werden.

Aus dem PPA wird eine Version installiert, die zwei "Frontends" beinhaltet, eine GTK- und eine qt5-Version, die auch nebeneinander installierbar sind, dazu ein gemeinsames common-Paket.

Achtung!

Für 16.04 gilt: Vorher muss ein ggf. installiertes Paket libgtkspellmm-3.0-0v5 entfernt werden, da als Abhängigkeit aus dem PPA auch das Paket libgtkspellmm-3.0-1 installiert wird, es aber zu Konflikten zwischen den beiden Paketen kommt, die die Paketverwaltung lahmlegen können!

Nach dem Aktualisieren der Paketquellen können folgende Pakete installiert werden:

  • gimagereader-common (ppa)

  • gimagereader-gtk (ppa, und/oder)

  • gimagereader-qt5 (ppa)

Paketliste zum Kopieren:

sudo apt-get install gimagereader-common gimagereader-gtk gimagereader-qt5 

Oder mit apturl installieren, Link: apt://gimagereader-common,gimagereader-gtk,gimagereader-qt5

./gImageReader-settings.png

Konfiguration

Nach erfolgreicher Installation ist bei Ubuntu-Varianten mit einem Anwendungsmenü ein Eintrag unter "Grafik → gImageReader" zu finden.

Unter "Datei → Konfigurieren" lassen sich die Pfade zur verwendeten tesseract-ocr-Installation und dem dazugehörigen Sprachenverzeichnis ändern. Im Normalfall erkennt gImageReader die richtigen Pfade. In Version 3.3.0 (dort unter "Einstellungen → Speicherort für Sprachdateien" kann theoretitsch allerdings für das Sprachen/Wörterverzeichnis nur zwischen "Systemweite Ordner" oder "Benutzerordner" gewählt werden; allerdings stürzt das Programm dabei ab, wenn sich dort für die tesseract-Version nicht nutzbare Dateien im befinden (gesucht wird in $HOME/.config/tessdata). Die vorgegebenen Pfade lassen sich leider auch nicht verändern.

Außerdem lässt sich ggf. die bevorzugte Sprache angeben, die Ausrichtung der Felder im Hauptfenster verändern und die Schriftart für den Ausgabebereich angeben. Unter 3.3.0 kann auch angegeben werden, dass die exportierten Dateien gleich mit entsprechenden Programmen geöffnet werden können.

Zudem können weitere Angaben (Vorschläge zur Installation von Rechtschreibprogrammen, bei älteren Versionen auch automatische Abfrage nach neuen Programmversionen oder dem Einsatz von Kantenglättung) gemacht werden.

Unter "Wörterbücher" lassen sich Angaben zu weiteren Wörterbüchern machen, falls spezielle Versionen, die nicht standardmäßig erkannt wurden, verwendet werden sollen.

Bedienung

Das Hauptfenster öffnet sich zunächst leer, über die Schaltfläche "Öffnen" (ggf. auch "Dateien") lassen sich Bilddateien öffnen, die in der Seitenleiste als Vorschaubilder aufgelistet werden. Das jeweils ausgewählte Bild wird in der Mitte dargestellte, die Ansicht lässt sich über die Schaltflächen oben einstellen (Zoomen, Einpassen, Drehen, auch über den Reiter "Ansicht" erreichbar). Über die Schaltfläche "Bildbearbeitungsregler anzeigen" lassen sich Einstellungsmöglichkeiten zur Helligkeit, Kontrast und Auflösung des Bildes einblenden, sehr sinnvoll für schlechte Vorlagen etc.

./gImageReader-main.png

Im Bild selbst kann über Ziehen bei gedrückter linke Maustaste-Taste ein Ausschnitt festgelegt werden, der ausgelesen werden soll, was gerade bei verschachtelten Vorlagen mit Bildern nützlich sein kann. Die Erkennung wird dann über die Schaltfläche "Alles erkennen" (bei Teilauswahl "Selektion erkennen") gestartet, das Ergebnis erscheint nach kurzer Zeit im Fenster daneben. "Fehlerhaft" erkannte Wörter sind rot unterstrichen, in dem Fenster kann direkt korrigiert und umgestellt werden. Zudem kann über einen rechte Maustaste-Klick ein Kontextmenü mit weiteren Bearbeitungsoptionen geöffnet werden, bei einem rechte Maustaste-Klick auf ein unterschlängeltes Wort werden Alternativen angeboten, die direkt angewandt werden, oder auch das Wort in das Benutzerwörterbuch aufnehmen. Weitere Erkennungen können angehängt, oder in den Text an die Stelle des Cursors eingefügt werden. Über die Schaltfläche "Suchen und ersetzen" lassen sich häufig auftretende Fehler einfach korrigieren.

Eine Stapelverarbeitung mehrerer Vorlagen war in ältere Versionen nicht vorgesehen, inzwischen können auch mehere Vorlagen bearbeitet werden.

Die Speicherung des Textes erfolgt über die unscheinbare "Ausgabe speichern" bzw. "Export"-Schaltfläche rechts über dem Textfenster, daneben lässt sich das Fenster ("Ausgabe löschen") auch komplett leeren.

Der "Hilfe"-Aufruf öffnet eine englischsprachige Beschreibung im Standard-Browser.

PDF-Ausgabe mit Textlage ab Version 3.1.91

Zusätzlich kann ab Version 3.1.91 die Ausgabe auch als PDF erfolgen, das eine verborgenen Textlage enthält. Dazu die Ausgabe als "hocr,PDF" wählen. gImageReader beinhaltet eine komfortable Rechtschreib-Korrektur, mit der Fehler in der hocr-Datei direkt im Ausgabebereich sofort sichtbar sind (rote Wiedergabe) und dort einfach korrigiert werden können - entweder über einen Vorschlag, den Hunspell, nach einem linke Maustaste-Klick auf das entsprechende Wort, im Kontextmenü anzeigt, oder, falls kein passender Eintrag gefunden wird, nach einem Doppel-rechte Maustaste auf das Wort direkt im Fenster.

Nicht benötigte Textteile können durch Deaktivieren des Hakens auch von der Textlage ausgeschlossen werden. Ein derart einfache Korrekturmöglichkeit bietet kaum ein anderes Programm für "Sandwich"-PDFs. Leider werden derzeit allerdings alle Wörter, denen ein Satzzeichen folgt, mit diesem Zeichen zusammen als "fehlerhaft" ausgegeben (der Fehler ist in der aktuellen Entwicklerversion bereits behoben). Allerdings kommt es ggf. zu Riesen-PDFs, der Entwickler arbeitet aber bereits an einer Lösung.

Ausgabe in ODT ab Version 3.2.99

Wenn als Erkennungsformat "hocr, PDF" ausgewählt wurde, kann das Ergebnis auch als ODT-Datei für LibreOffice u.ä. ausgegeben werden. Somit existiert eine Alternative zu OCRFeeder, bisher das einzige Open-Source-Programm, welches direkt aus Scans .odt-Dateien produzieren konnte.

Scannen

Unter "Erwerben"/"Datei → Bild Erwerben" (schlechte Übersetzung von "aquire", in neueren Versionen zu "Erstellen" geändert) können Bildvorlagen direkt von einem Scanner erstellt werden. gImageReader erkennt im Normalfall einen angeschlossenen Scanner, bei mehreren kann im Auswahlfenster "Gerät" der gewünschte eingestellt werden. Darunter lässt sich der Pfad/Name zur Speicherung der Scans festlegen. Standardmäßig ist das Home-Verzeichnis des Benutzers, sowie der Dateiname scan_X.png vorgesehen. Darunter lässt sich die gewünschte Auflösung für den Scan einstellen, allerdings werden ggf. auch vom Scanner nicht unterstützte Auflösungen angeboten. Ändern ließen sich diese Angaben in älteren Versionen, wenn man direkt den Quellcode in der Datei acquire.py die Werte änderte (Editor[3] mit Rootrechten nötig), unter 3.3.0 ist das nicht mehr möglich.

Der Scan wird im Farbmodus oder als "Grayscale" erstellt und immer mit der größtmöglichen Scanfläche vorgenommen.

Probleme

Nur ein Scanvorgang möglich

Leider tritt unter Ubuntu 16.04 - sowohl bei Versionen aus den Quellen als auch aus dem PPA - ggf. ein Fehler auf, wenn versucht wird, einen zweiten Scan zu starten - das Programm stürzt dann komplett ab. Die GTK-Version (Quelle und PPA) meldet

(gimagereader-gtk:23815): glibmm-CRITICAL **: 
unhandled exception (type Glib::Error) in signal handler:
domain: g-exec-error-quark
code  : 8
what  : Kindprozess »gimagereader-gtk« konnte nicht ausgeführt werden (Datei oder Verzeichnis nicht gefunden)

Ursache scheint ein Fehler in SANE zu sein. Eine Lösung für das genesys-backend besteht darin, sich das SANE-backend selbst zu erstellen, vorher aber in sane-backend-1.0.xx/backends/genesys.c diesen Patch ⮷ zu integrieren. Für das ebenfalls betroffenen gt68xx-backend existiert momentan noch keine Lösung. Als krude Notlösung kann man vor jedem neuen Scanvorgang den USB-Stecker des Scanner ab- und wieder anstöpseln (oder usbreset nutzen) und dann die Scannersuche im Scandialog von gImageReader wiederholen. Damit ist dann weiteres Scannen möglich.

In Version 3.3.0, mit sane 1.0.27, tritt dieser Fehler nicht mehr auf.

Verwendung von selbsterstelltem tesseract-ocr-Paket nicht möglich

Version 3.3.0 kann unter 18.04 nicht mit einer selbsterstellten Version von tesseract-ocr-4.00 (finale Version) in /usr/local/tesseract umgehen, sowohl die GTK- als auch die qt5-Version stürzen ab, sobald die Texterkennung gestartet wird. Abhilfe schafft nur die Rückkehr zum Paket aus den Ubuntu-Quellen, auch die Verwendung einer aktuellen tesseract-Version aus diesem PPA funktioniert nicht.

Sprachenwahl

Zwar ist es möglich, bei entsprechender Installation alte deutsche Rechtschreibung auszuwählen, allerdings funktioniert die Erkennung nicht, wenn gleichzeitig die "neue" installiert ist (siehe Alte deutsche Rechtschreibung).

Alternativen

Diese Revision wurde am 18. April 2019 13:59 von Heinrich_Schwietering erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: OCR, Bildung, Kommunikation, Grafik, Texterkennung, Büro