djvubind
Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:
Dieser Artikel ist mit keiner aktuell unterstützten Ubuntu-Version getestet! Bitte teste diesen Artikel für eine Ubuntu-Version, welche aktuell unterstützt wird. Dazu sind die Hinweise zum Testen von Artikeln zu beachten.
Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:
djvubind ist ein in Python verfasstes Kommandozeilen-Werkzeug, um aus selbsterstellten tiff-Vorlagen (z.B. Scan Tailor-Bearbeitungen) e-books im DjVu-Format zu erstellen. Das Programm setzt dabei zur Encodierung der DjVu-Daten minidjvu ein, für die durchsuchbare Textebene können tesseract-ocr oder Cuneiform-Linux verwendet werden; auch lassen sich djvused 🇬🇧 Skript-Ausgaben verwenden, um Inhaltsverzeichnisse und Metadaten einzubinden. Zum Einsatz kommen außerdem djvulibre-bin und ImageMagick.
Installation¶
Das Paket ist in Version 1.2.1 in den Quellen vorhanden,
djvubind
Befehl zum Installieren der Pakete:
sudo apt-get install djvubind
Oder mit apturl installieren, Link: apt://djvubind
Bedienung¶
djvubind ist ein reines Kommandozeilenwerkzeug, die allgemeine Syntax im Terminal[4] lautet:
djvubind [OPTIONEN] /ZU/VERARBEITENDES/VERZEICHNIS
Wenn der Aufruf direkt im Vorlagen-Verzeichnis selbst erfolgt, ist die Pfadangabe nicht nötig. djvubind verarbeitet dann alle im Verzeichnis vorhandenen schwarz-weißen tif/tiff-Dateien, die in durchnummerierter Form vorliegen müssen. Neben den Textseiten kann auch ein Cover und eine Rückseite integriert werden, diese sollten im jpg-Format als cover_front.jpg bzw. cover_back.jpg vorliegen. Das Ergebnis wird dann als book.djvu-Datei ausgegeben; falls eine solche Datei schon vorliegt, wird entsprechend book(1).djvu etc. ausgegeben. Djvubind verwendet automatisch mehrere Prozesse parallel (standardmäßig einen pro CPU-Kern), wenn es auf einem Mehrkern-Rechner läuft (in der Konfigurationsdatei anpassbar).
Konfigurationsdatei¶
Ab Version 1.0.0 ist der Einsatz einer eigenen Konfigurationsdatei implementiert, in der etliche Optionen (auch für das standardmäßig verwendete minidjvu) angegeben werden können. Die Datei wird im Verzeichnis /home/<benutzer>/.config/djvubind unter dem Namen config abgelegt. Im Quellverzeichnis unter /doc/config oder unter /etc/djvubind/config findet sich eine Beispielversion , die umfassend kommentiert ist. Diese kann in einem Editor[5] den eigenen Bedürfnissen entsprechend angepasst werden. Angaben auf der Kommandozeile werden aber bevorzugt, sodass zum temporären Ändern der Optionen die Konfigurationsdatei nicht editiert werden muss.
Optionen¶
djvubind | |
Option | Funktion |
--bookmarks=DATEINAME | Zu verwendende Bookmark-Datei. Das Format sollte dem entsprechen, was djvused -e 'print-out‐line ausgibt. Standardmäßig wird bookmark verwendet, wenn vorhanden. |
--cover-front=DATEINAME | Zu verwendendes Cover, Standardmäßig wird cover_front.jpg verwendet, wenn vorhanden |
--cover-back=DATEINAME | Zu verwendende Rückseite; Standardmäßig wird cover_back.jpg verwendet, wenn vorhanden |
--metadata=DATEINAME | Zu verwendende Metadata-Datei. Das Format sollte dem entsprechen, was djvused -e 'print-meta' ausgibt. Standardmäßig wird die Datei metadata verwendet, wenn vorhanden |
--no-ocr | Keine Erstellung von Textebenen |
--ocr-engine=(tesseract|cuneiform) | Zu verwendendes OCR-Programm; Standard ist Tesseract |
-q | --quiet | Keine Ausgabe von Status-Informationen |
--cuneiform-options="OPTION(EN)" | Option, um andere Cuneiform-Optionen zu verwenden, z.B. Sprach-Optionen, Optionen müssen in " " gesetzt werden |
--tesseract-options="OPTION(EN)" | Option, um andere Tesseract-Optionen zu verwenden, z.B. Sprach-Optionen, Optionen müssen in " " gesetzt werden |
Andere OCR-Engines verwenden¶
Wer andere Programme zur Texterkennung verwenden möchte, sollte djvubind mit der --no-ocr
-Option verwenden. Die Texterkennung kann dann für das erstellte Dokument mit ocrodjvu erfolgen, was sehr detailliert konfigurierbar ist, und verlässliche Unterstützung für tesseract-ocr, OCRopus, Cuneiform-Linux, GOCR und Ocrad liefert.
Probleme¶
Wenn es Probleme mit Cuneiform-Linux (z.B einen "buffer-overflow-Error") gibt, greift das Programm automatisch auf tesseract zurück, ohne allerdings eine ggf. gewählte Sprachangabe mit zu übernehmen. Das lässt sich das mit Verwendung einer tesseract-options
-Sprachangabe in der Konfigurationsdatei umgehen.
Die Verwendung der Sprachoption für Cuneiform funktioniert unter Ubuntu 18.04 nicht, zumindest werden keine Umlaute erkannt.
Die Einbeziehung der Buchdeckel cover_front und cover_back erfolgt nur mit der Endung .jpg, Dateien mit der Endung .jpeg werden nicht integriert.
Alternativen¶
xsane2djvu erlaubt ein direktes Verarbeiten der Scans in das DjVu-Format mit Texterkennung aus XSane heraus; dabei können auch farbige Vorlagen verwendet werden.
pct-scanner-script liefert auch "automatisch" erstellte Zusammenführung von Scans im DjVu- oder PDF-Format, Texterkennung für DjVu-Dokumente ist möglich.
Links¶
DIY-Bookscanner-Foren-Diskussion 🇬🇧 zu djvubind