ubuntuusers.de

Tesseract-GUI

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

iconotesseract.jpg Tesseract-GUI 🇬🇧 ist eine grafische Oberfläche, um Bildvorlagen mittels ImageMagick vorzubereiten (z.B. Drehen, Beschneiden, den Kontrast anpassen) und dann mit tesseract-ocr eine Texterkennung durchzuführen. Das Programm beherrscht Stapelverabeitungsroutinen für große Mengen von Vorlagen, die nach gleichen Vorgaben vorbereitet und deren Textausgaben automatisch durchnummeriert und neu benannt werden können. Außerdem kann daraus ein zusammenhängender Text erstellt werden.

Installation

Tesseract-GUI ist nicht in den offiziellen Paketquellen vorhanden. Daher muss der aktuelle Quellcode von der Downloadseite ⮷ heruntergeladen und selbst kompiliert[1] werden. Ein auf der Projektseite aufgeführtes .deb-Paket ist nicht mehr greifbar.

Für das Programm ist Python in Version 2.7 notwendig, unter Ubuntu 16.04 und 18.04 ist allerdings Version 3.5 Standard, 2.7 aber noch in den Quellen. Außerdem sind folgende Pakete nötig:

  • tesseract-ocr (sowie die gewünschten Sprachpakete)

  • python-gtk2

  • imagemagick

Paketliste zum Kopieren:

sudo apt-get install tesseract-ocr python-gtk2 imagemagick 

Oder mit apturl die Pakete installieren. Link: apt://tesseract-ocr,python-gtk2,imagemagick

Die heruntergeladene tar.gz-Archivdatei wird entpackt[2], der Code kompiliert und die Software installiert.

Deutschsprachige Oberfläche

Wer eine komplett übersetzte Oberfläche verwenden möchte, kann diesen Patch ⮷ herunterladen und ihn vor der Kompilierung auf das entpackte Archiv anwenden.

Pakete

Alternative kann ein fertiges Paket händisch aus diesem PPA 🇬🇧 heruntergeladen und installiert[3] werden. Es ist zwar für Ubuntu 14.04 gebaut, funktioniert aber auch unter Ubuntu 16.04, es wird allerdings das italienische Tesseract-Sprachpaket als Abhängigkeit mitinstalliert.

Hinweis!

Fremdsoftware kann das System gefährden.

Nach der Installation findet sich ein Starter z.B. über die Unity-Dash; das Programm kann aber auch auf der Kommandozeile[4] mit dem Befehl

tesseract-gui.py 

gestartet werden.

TesseractGUI.png

Verwendung

Nach dem Start öffnet sich eine größtenteils englischsprachige Oberfläche, in der links die Angaben zur Bearbeitung erfolgen, rechts wird die aktuell verwendete Bildvorlage gezeigt.

Tesseract-GUI sollte alle Formate, die sowohl tesseract-ocr als auch ImageMagick verarbeiten kann, erkennen; PDF-Dateien können nicht direkt verwendet werden. Die Auswahl der Vorlagen erfolgt über "Select image files"; allerdings lässt sich dort kein Ordner auswählen, sondern nur die Bilddateien selbst. Unter "Output Folder" wird das Zielverzeichnis für die Speicherung der Texterkennungen festgelegt.

Im darunterliegenden Auswahlfenster wird das jeweils zu bearbeitende Bild per linke Maustaste-Klick ausgewählt, es erscheint im großen Fenster rechts daneben. Mit "Contrast" kann der Bildkontrast automatisch erhöht werden. Die Auswahl von "Denoise" führt zu einer leichten Weichzeichnung, was ggf. zu einer Verbesserung der Erkennung beitragen kann.

Im großen Fenster kann mit gedrückter linke Maustaste-Maustaste ein Rahmen für den Zuschnitt aufgezogen werden, links werden dann unter "Crop" die Werte für den linken oberen und den rechten unteren Bildausschnitt angezeigt. Die Bildansicht kann über die Schaltflächen über dem Editor-Fenster verändert werden.

Unter "Rotate" kann das Bild gradweise gedreht bzw. gerade gezogen werden, dazu kann auch ein Schieberegler unter der Gradanzeige verwendet werden.

Mit den "Generalize"-Schaltflächen werden die Werte bei einer Stapelverarbeitung für alle Vorlagen übernommen.

Im Abschnitt "OCR" kann das zu verwendende Sprachpaket eingestellt werden; mit Aktivierung von "Automatic page numbering" lässt sich die Namensgebung und Nummerierung der Ausgabetexte automatisieren, es konnen auch Spalten ("columns") verwendet werden. Die eigentliche Texterkennung wird über die "Ausführen"-Schaltfläche gestartet, wobei entweder alle ("All") oder das gerade gewählte ("Selected") Bild verarbeitet werden.

Unter "Concatenate" können dann die einzelnen Texte unter dem angegeben "File Name" zusammengeführt werden; dazu im darunter liegenden Fenster das gewünschte Verzeichnis auswählen, dort die Dateien auswählen und per Schaltfläche "Concatenate" die Texte zusammengefasst abspeichern.

Alternativen

Diese Revision wurde am 5. April 2019 21:25 von Heinrich_Schwietering erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: Kommunikation, Grafik, Texterkennung, Büro, Bildung, Python