ubuntuusers.de

Tesseract-GUI

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:


Du möchtest den Artikel für eine weitere Ubuntu-Version testen? Mitarbeit im Wiki ist immer willkommen! Dazu sind die Hinweise zum Testen von Artikeln zu beachten.

iconotesseract.jpg Tesseract-GUI 🇬🇧 ist eine grafische Oberfläche, um Bildvorlagen mittels ImageMagick vorzubereiten (z.B. Drehen, Beschneiden, den Kontrast anpassen) und dann mit tesseract-ocr eine Texterkennung durchzuführen. Das Programm beherrscht Stapelverabeitungsroutinen für große Mengen von Vorlagen, die nach gleichen Vorgaben vorbereitet und deren Textausgaben automatisch durchnummeriert und neu benannt werden können. Außerdem kann daraus ein zusammenhängender Text erstellt werden.

Installation

Tesseract-GUI ist nicht in den offiziellen Paketquellen vorhanden. Daher muss der aktuelle Quellcode von der Downloadseite ⮷ heruntergeladen und selbst kompiliert[1] werden. Ein auf der Projektseite aufgeführtes .deb-Paket ist nicht mehr greifbar.

Für das Programm ist Python in inzwischen veralteten und nicht mehr unterstützten Version 2.7 notwendig, unter 18.04 ist allerdings Version 3.5 Standard, 2.7 aber noch in den Quellen. Außerdem sind folgende Pakete nötig:

  • tesseract-ocr (sowie die gewünschten Sprachpakete)

  • python-gtk2

  • imagemagick

Paketliste zum Kopieren:

sudo apt-get install tesseract-ocr python-gtk2 imagemagick 

Oder mit apturl installieren, Link: apt://tesseract-ocr,python-gtk2,imagemagick

Die heruntergeladene tar.gz-Archivdatei wird entpackt[2], der Code kompiliert und die Software installiert.

Deutschsprachige Oberfläche

Wer eine komplett übersetzte Oberfläche verwenden möchte, kann diesen Patch ⮷ herunterladen und ihn vor der Kompilierung auf das entpackte Archiv anwenden.

TesseractGUI.png

Verwendung

Nach dem Start öffnet sich eine größtenteils englischsprachige Oberfläche, in der links die Angaben zur Bearbeitung erfolgen, rechts wird die aktuell verwendete Bildvorlage gezeigt.

Tesseract-GUI sollte alle Formate, die sowohl tesseract-ocr als auch ImageMagick verarbeiten kann, erkennen; PDF-Dateien können nicht direkt verwendet werden. Die Auswahl der Vorlagen erfolgt über "Select image files"; allerdings lässt sich dort kein Ordner auswählen, sondern nur die Bilddateien selbst. Unter "Output Folder" wird das Zielverzeichnis für die Speicherung der Texterkennungen festgelegt.

Im darunterliegenden Auswahlfenster wird das jeweils zu bearbeitende Bild per linke Maustaste-Klick ausgewählt, es erscheint im großen Fenster rechts daneben. Mit "Contrast" kann der Bildkontrast automatisch erhöht werden. Die Auswahl von "Denoise" führt zu einer leichten Weichzeichnung, was ggf. zu einer Verbesserung der Erkennung beitragen kann.

Im großen Fenster kann mit gedrückter linke Maustaste-Maustaste ein Rahmen für den Zuschnitt aufgezogen werden, links werden dann unter "Crop" die Werte für den linken oberen und den rechten unteren Bildausschnitt angezeigt. Die Bildansicht kann über die Schaltflächen über dem Editor-Fenster verändert werden.

Unter "Rotate" kann das Bild gradweise gedreht bzw. gerade gezogen werden, dazu kann auch ein Schieberegler unter der Gradanzeige verwendet werden.

Mit den "Generalize"-Schaltflächen werden die Werte bei einer Stapelverarbeitung für alle Vorlagen übernommen.

Im Abschnitt "OCR" kann das zu verwendende Sprachpaket eingestellt werden; mit Aktivierung von "Automatic page numbering" lässt sich die Namensgebung und Nummerierung der Ausgabetexte automatisieren, es konnen auch Spalten ("columns") verwendet werden. Die eigentliche Texterkennung wird über die "Ausführen"-Schaltfläche gestartet, wobei entweder alle ("All") oder das gerade gewählte ("Selected") Bild verarbeitet werden.

Unter "Concatenate" können dann die einzelnen Texte unter dem angegeben "File Name" zusammengeführt werden; dazu im darunter liegenden Fenster das gewünschte Verzeichnis auswählen, dort die Dateien auswählen und per Schaltfläche "Concatenate" die Texte zusammengefasst abspeichern.

Alternativen

Diese Revision wurde am 4. Mai 2021 19:51 von noisefloor erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: Kommunikation, Grafik, Texterkennung, Büro, Bildung, Python