ubuntuusers.de

gImageReader

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:


Du möchtest den Artikel für eine weitere Ubuntu-Version testen? Mitarbeit im Wiki ist immer willkommen! Dazu sind die Hinweise zum Testen von Artikeln zu beachten.

./gImageReader.png gImageReader 🇬🇧 ist ein einfach zu bedienendes Frontend für das OCR-Programm tesseract-ocr (Version 4.0x wird unterstützt). Es ermöglicht die Texterkennung aus vorliegenden Bilddateien (es sind alle gängigen Formate verwendbar, auch PDF-Dateien), sowie den direkten Import über einen SANE-fähigen Scanner. Dabei sind alle von tesseract unterstützten Sprachen verwendbar, auch ggf. selbst erstellte. Im Programm wird außerdem eine Rechtschreibprüfung (über GTKSpell 🇬🇧 mit Hunspell) verwendet, die Sprache ist einstellbar. Die Erkennung ist aufgrund des sehr guten Texterkennungsprogramms bei vernünftigen Vorlagen hervorragend. Das Programm wird vom Entwickler allerdings noch als im "beta"-Stadium befindlich geführt.

Installation

Das Programm kann unter 20.04 in der GTK-Version aus den Quellen installiert werden; die QT5-Version ist nicht in den Quellen.

  • gimagereader

Befehl zum Installieren der Pakete:

sudo apt-get install gimagereader 

Oder mit apturl installieren, Link: apt://gimagereader

PPA

Zur Verwendung unter Ubuntu 18.04 ist der Einsatz eines PPAs des Entwicklers notwendig, da die Version aus den Quellen nicht mit tesseract-ocr 4.00 kompatibel ist - die Anpassung erfolgte erst mit gImageReader 3.3.0 (ab 19.04 auch in den Quellen):

Adresszeile zum Hinzufügen des PPAs:

  • ppa:sandromani/gimagereader

Hinweis!

Zusätzliche Fremdquellen können das System gefährden.


Ein PPA unterstützt nicht zwangsläufig alle Ubuntu-Versionen. Weitere Informationen sind der Wiki/Vorlagen/PPA/ppa.png PPA-Beschreibung des Eigentümers/Teams sandromani zu entnehmen.

Aus dem PPA wird eine Version installiert, die zwei "Frontends" beinhaltet, eine GTK- und eine qt5-Version, die auch nebeneinander installierbar sind, dazu ein gemeinsames common-Paket.

Nach dem Aktualisieren der Paketquellen können folgende Pakete installiert werden:

  • gimagereader-common (ppa)

  • gimagereader-gtk (ppa, und/oder)

  • gimagereader-qt5 (ppa)

Befehl zum Installieren der Pakete:

sudo apt-get install gimagereader-common gimagereader-gtk gimagereader-qt5 

Oder mit apturl installieren, Link: apt://gimagereader-common,gimagereader-gtk,gimagereader-qt5

./gImageReader-settings.png

Konfiguration

Nach erfolgreicher Installation ist bei Ubuntu-Varianten mit einem Anwendungsmenü ein Eintrag unter "Grafik → gImageReader" zu finden. Im Terminal kann das Programm mit gimagereader-gtk bzw gimagereader-qt5 gestartet werden.

Unter "Datei → Konfigurieren" lassen sich die Pfade zur verwendeten tesseract-ocr-Installation und dem dazugehörigen Sprachenverzeichnis ändern. Im Normalfall erkennt gImageReader die richtigen Pfade. In Version 3.3.0 (dort unter "Einstellungen → Speicherort für Sprachdateien" kann theoretisch für das Sprachen/Wörterverzeichnis nur zwischen "Systemweite Ordner" oder "Benutzerordner" gewählt werden; allerdings stürzt das Programm dabei ab, wenn sich dort für die tesseract-Version nicht nutzbare Dateien im befinden (gesucht wird in $HOME/.config/tessdata). Die vorgegebenen Pfade lassen sich leider auch nicht verändern.

Außerdem lässt sich ggf. die bevorzugte Sprache angeben, die Ausrichtung der Felder im Hauptfenster verändern und die Schriftart für den Ausgabebereich angeben. Unter 3.3.0 kann auch angegeben werden, dass die exportierten Dateien gleich mit entsprechenden Programmen geöffnet werden können.

Zudem können weitere Angaben (Vorschläge zur Installation von Rechtschreibprogrammen, bei älteren Versionen auch automatische Abfrage nach neuen Programmversionen oder dem Einsatz von Kantenglättung) gemacht werden.

Unter "Wörterbücher" lassen sich Angaben zu weiteren Wörterbüchern machen, falls spezielle Versionen, die nicht standardmäßig erkannt wurden, verwendet werden sollen.

Bedienung

Das Hauptfenster öffnet sich zunächst leer, über die Schaltfläche "Öffnen" (ggf. auch "Dateien") lassen sich Bilddateien öffnen, die in der Seitenleiste als Vorschaubilder aufgelistet werden. Das jeweils ausgewählte Bild wird in der Mitte dargestellte, die Ansicht lässt sich über die Schaltflächen oben einstellen (Zoomen, Einpassen, Drehen, auch über den Reiter "Ansicht" erreichbar). Über die Schaltfläche "Bildbearbeitungsregler anzeigen" lassen sich Einstellungsmöglichkeiten zur Helligkeit, Kontrast und Auflösung des Bildes einblenden, sehr sinnvoll für schlechte Vorlagen etc.

./gImageReader-main.png

Im Bild selbst kann über Ziehen bei gedrückter linke Maustaste-Taste ein Ausschnitt festgelegt werden, der ausgelesen werden soll, was gerade bei verschachtelten Vorlagen mit Bildern nützlich sein kann. Die Erkennung wird dann über die Schaltfläche "Alles erkennen" (bei Teilauswahl "Selektion erkennen") gestartet, das Ergebnis erscheint nach kurzer Zeit im Fenster daneben. "Fehlerhaft" erkannte Wörter sind rot unterstrichen, in dem Fenster kann direkt korrigiert und umgestellt werden. Zudem kann über einen rechte Maustaste-Klick ein Kontextmenü mit weiteren Bearbeitungsoptionen geöffnet werden, bei einem rechte Maustaste-Klick auf ein unterschlängeltes Wort werden Alternativen angeboten, die direkt angewandt werden, oder auch das Wort in das Benutzerwörterbuch aufnehmen. Weitere Erkennungen können angehängt, oder in den Text an die Stelle des Cursors eingefügt werden. Über die Schaltfläche "Suchen und ersetzen" lassen sich häufig auftretende Fehler einfach korrigieren.

Eine Stapelverarbeitung mehrerer Vorlagen war in ältere Versionen nicht vorgesehen, inzwischen können auch mehrere Vorlagen bearbeitet werden.

Die Speicherung des Textes erfolgt über die unscheinbare "Ausgabe speichern" bzw. "Export"-Schaltfläche rechts über dem Textfenster, daneben lässt sich das Fenster ("Ausgabe löschen") auch komplett leeren.

Der "Hilfe"-Aufruf öffnet eine englischsprachige Beschreibung im Standard-Browser.

PDF-Ausgabe mit Textlage ab Version 3.1.91

Zusätzlich kann ab Version 3.1.91 die Ausgabe auch als PDF erfolgen, das eine verborgenen Textlage enthält. Dazu die Ausgabe als "hocr,PDF" wählen. gImageReader beinhaltet eine komfortable Rechtschreib-Korrektur, mit der Fehler in der hocr-Datei direkt im Ausgabebereich sofort sichtbar sind (rote Wiedergabe) und dort einfach korrigiert werden können - entweder über einen Vorschlag, den Hunspell, nach einem linke Maustaste-Klick auf das entsprechende Wort, im Kontextmenü anzeigt, oder, falls kein passender Eintrag gefunden wird, nach einem Doppel-rechte Maustaste auf das Wort direkt im Fenster.

Nicht benötigte Textteile können durch Deaktivieren des Hakens auch von der Textlage ausgeschlossen werden. Ein derart einfache Korrekturmöglichkeit bietet kaum ein anderes Programm für "Sandwich"-PDFs. Allerdings kommt es ggf. zu Riesen-PDFs, der Entwickler arbeitet aber bereits an einer Lösung.

Ausgabe in ODT ab Version 3.2.99

Wenn als Erkennungsformat "hocr, PDF" ausgewählt wurde, kann das Ergebnis auch als ODT-Datei für LibreOffice u.ä. ausgegeben werden. Somit existiert eine Alternative zu OCRFeeder, bisher das einzige Open-Source-Programm, welches direkt aus Scans .odt-Dateien produzieren konnte.

Scannen

Unter "Erwerben"/"Datei → Bild Erwerben" (schlechte Übersetzung von "aquire", in neueren Versionen zu "Erstellen" geändert) können Bildvorlagen direkt von einem Scanner erstellt werden. gImageReader erkennt im Normalfall einen angeschlossenen Scanner, bei mehreren kann im Auswahlfenster "Gerät" der gewünschte eingestellt werden. Darunter lässt sich der Pfad/Name zur Speicherung der Scans festlegen. Standardmäßig ist das Home-Verzeichnis des Benutzers, sowie der Dateiname scan_X.png vorgesehen. Darunter lässt sich die gewünschte Auflösung für den Scan einstellen, allerdings werden ggf. auch vom Scanner nicht unterstützte Auflösungen angeboten. Ändern ließen sich diese Angaben in älteren Versionen, wenn man direkt den Quellcode in der Datei acquire.py die Werte änderte (Editor[3] mit Rootrechten nötig), unter 3.3.0 ist das nicht mehr möglich.

Der Scan wird im Farbmodus oder als "Grayscale" erstellt und immer mit der größtmöglichen Scanfläche vorgenommen.

Probleme

Verwendung von selbsterstelltem tesseract-ocr-Paket nicht möglich

Version 3.3.0 kann unter 18.04 nicht mit einer selbsterstellten Version von tesseract-ocr-4.00 (finale Version) in /usr/local/tesseract umgehen, sowohl die GTK- als auch die qt5-Version stürzen ab, sobald die Texterkennung gestartet wird. Abhilfe schafft nur die Rückkehr zum Paket aus den Ubuntu-Quellen, auch die Verwendung einer aktuellen tesseract-Version aus diesem PPA funktioniert nicht.

Sprachenwahl

Zwar ist es möglich, bei entsprechender Installation alte deutsche Rechtschreibung auszuwählen, allerdings funktioniert die Erkennung nicht, wenn gleichzeitig die "neue" installiert ist (siehe Alte deutsche Rechtschreibung).

Alternativen

Diese Revision wurde am 25. Juli 2023 13:10 von richter.chris erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: Büro, Texterkennung, Grafik, Kommunikation, Bildung, OCR