ubuntuusers.de

ubuntuusers.deWikiDjVuProgramme

Programme

DjVu/djvu-logo.png

Unter Ubuntu kann DjVu mit der Open-Source-Implementierung DjVuLibre {en} genutzt werden, ein Projekt, das von den ursprünglichen Entwicklern des Formats gepflegt wird. Etliche Pakete sind in den Ubuntu-Paketquellen greifbar. Dazu gehören u.a. der DjVu-Betrachter DjView (djview3/4), ein Browser-Plugin (djvulibre-plugin), um DjVu-Dateien in Webseiten betrachten zu können, djvulibre-desktop, um die Daten auf der Arbeitsfläche verwenden zu können. Außerdem djvuserve, ein CGI-Programm zum direkten Umwandeln von mehrseitigen DjVu-Dokumenten in ein indirektes DjVu-Dokument. Dies ermöglicht es, effizient mit großen DjVu-Dokumenten zu arbeiten, ohne nicht benötigte Seiten übertragen zu müssen. Des Weiteren gehören etliche Bibliotheken zu dem Projekt (komplette Übersicht der Programme auf djvu.sourgeforge.net {en}, die meisten sind im Paket djvulibre-bin enthalten).

Ein "Anwendungsbeispiel" ist das polnische Projekt poliqarp {en}, in dem sehr umfangreiche alte Wörterbücher komplett digitalisiert, indiziert und zur Durchsuchung online gestellt werden. Hier kommen besonders Software-Entwicklungen von Jakub Wilk {en} zum Einsatz, u.a. djvusmooth, pdf2djvu und ocrodjvu. Vom selben Entwickler stammt auch python-djvu, um DjVu in Python-Anwendungen verwenden zu können. Außerdem hat der Autor auch das Programm didjvu {en} entwickelt, mit dem die Erstellung bitonaler Ebenen möglich ist.

Lesen/Darstellen

DjView

DjView4 {en} - umfangreicher Dokument-Betrachter mit vielfältigen Möglichkeiten, und ist für alle aktuellen Ubuntu-Versionen in den Paketquellen vorhanden. Der Viewer ermöglicht es es auch, DjVu-Dokumente in andere Formate (u.a. .pdf) zu konvertieren). Das dazugehörige Browser-Plugin stellt eine Browser-Version des DjView-Readers zur Verfügung, und bietet Unterstützung für Netscape-4.x, Netscape-6.x, Mozilla, Galeon {en}, Konqueror, und Opera. Einzelheiten unter DjView.

djvusmooth

djvusmooth {en} ist ein schlichtes Betrachter-Programm ähnlich DjView, mit dem darüber hinaus auch Korrekturen an der Texterkennung, dem Inhaltsverzeichnis und den Metadaten möglich sind. Weiteres im Artikel djvusmooth.

javadjvu

javadjvu {en} ist ein in Java geschriebener Betrachter für DjVu-Dokumente, der auch als Web-Applet in Browsern zur Darstellung von DjVu-Webinhalten verwendet werden kann. Er wurde im Rahmen des DjVuLibre-Projektes entwickelt. Einzelheiten im Artikel javadjvu.

Evince

Evince - Der Standard-GNOME-Dokument-Betrachter ist ohne weiteres Zutun in der Lage, DjVu-Dateien darzustellen und auch eine ggf. vorhandene Textebene zu durchsuchen.

Okular

Okular - Auch das KDE-Pendant kann DjVu-Daten darstellen, allerdings ist dazu die Installation des Paketes okular-extra-backends nötig. Okular besitzt einige interessante Werkzeuge wie eine Marker- und Kommentarfunktion, allerdings werden Änderungen nicht in der Datei selbst, sondern extern gespeichert.

GIMP

GIMP kann mit einem Plugin (gimp.org {en}) DjVu-Dateien darstellen, allerdings nicht produzieren.

Erstellen/Konvertieren/Bearbeiten

djvused

djvused {en} ist ein Kommandozeilenprogramm zum Bearbeiten von DjVu-Dateien. Es ist das "Schweizer Taschenmesser", mit dem eine Vielzahl von Möglichkeiten gegeben sind, von Metadatenverwaltung, -erstellung, Auslesen und Bearbeitung etc., über das Erstellen von Vorschaubildern bis zum Extrahieren einzelner Seiten etc. Einzelheiten im Artikel djvused

gscan2pdf

Mit gscan2pdf können Dokumente eingescannt und direkt im DjVu-Format abgespeichert werden (als "bundled"-Dokument); allerdings kann für farbige Vorlagen keine Segmentierung der Lagen erfolgen, weil dafür das c44-Verfahren zur Anwendung kommt.

Ab Version 0.9.31 (ab 11.04 Natty Narwhal in den Quellen) ist auch die Texterkennung mit OCRopus {en} oder Cuneiform-Linux (Version 0.9.0 oder höher, nur mit libmagick++-Unterstützung, erst ab 11.10 Oneiric Ocelot in den Paketquellen!) möglich. Eine Korrektur der Texterkennung ist ebenfalls implementiert. Momentan gibt es bei der Texterkennung mit Cuneiform noch Probleme bei Vorlagen, in denen unterschiedliche Schriftarten/Formatierungen vorhanden sind. Die von Cuneiform gelieferte Texterkennung im hOCR-Format liefert sehr gut Ergebnisse, mit denen auch das Layout der Vorlage recht gut wiedergeben lässt, allerdings werden momentan als fett oder kursiv formatiert erkannte Zeichen in gscan2pdf nicht verarbeitet, der Entwickler arbeitet aber an einer Lösung. Die Erkennung mit OCRopus ist in dieser Version ebenfalls möglich. Um durchgängig gute Qualität zu bekommen, muss vorerst noch ein Umweg beschritten werden.

didjvu

didjvu {en} ist eine noch in der Entwicklung befindliches, aber schon sehr leistungsstarkes Kommandozeilenprogramm, mit dem die in DjVuLibre fehlende Segmentierung der Vorlagen für die Erstellung der bitonalen "foreground mask" möglich ist. Das Programm verwendet das Open-Source-Framework gamera {en}, um die Lagen erstellen zu können. xsane2djvu und pct-scanner-script können didjvu verwenden, Einzelheiten im Artikel didjvu.

xsane2djvu

xsane2djvu ist ein Skript, mit dessen Hilfe DjVu-Dateien direkt aus XSane heraus erstellt und mit einer Textebene versehen werden können. Die Erstellung ein- und mehrseitiger DjVu-Dateien ist möglich, verwendet wird zur Encodierung didjvu (andere Encoder sind möglich). Die Texterstellung erfolgt mittels ocrodjvu, dazu können Cuneiform-Linux bzw. tesseract-ocr eingesetzt werden (bis einschließlich 11.10) auch OCRopus {en}).

pdf2djvu

pdf2djvu {en}, seit Lucid in den Paketquellen, umfangreiches Kommandozeilenwerkzeug zur Konvertierung von PDF-Dateien in das DjVu-Format; eine Texterkennung bleibt dabei erhalten. Außerdem existiert eine einfache grafische GTK2-Bedienoberfläche (GUI) für das Programm, Pdf To Djvu GUI {en} als Freeware, das die Auswahl der .pdf-Dateien, sowie einige der pdf2djvu-Optionen als Bedienoberfläche beinhaltet. Details unter pdf2djvu.

DjVuDigital

DjVuDigital {en}, eine Programm aus dem Paket djvulibre-bin, mit dem PS/PDF-Dateien umgewandelt werden können. Allerdings muss zuvor ein aktualisierte Version eines Ghostscript-Treibers erstellt werden; wegen ungeklärter Lizenz-Fragen liegt kein benutzbares Programm vor, sondern muss, nach dem Patchen des Ghostscript-Codes, selbst erstellt werden. Details im Artikel DjVuDigital.

minidjvu

minidjvu {en} ist ein einfacher Binärgrafik-De/Encoder für die Kommandozeile zum Umwandeln anderer Formate in das DjVu-Format und umgekehrt, unterstützt BMP, PBM und TIFF (über libtiff), seit Lucid in den Paketquellen. Einzelheiten in im Artikel minidjvu.

pct-scanner-script

pct-scanner-scripts ist ein sehr detailiert konfigurierbares Kommandozeilen-Werkzeug aus dem gleichnamigen Paket, das wie gscan2pdf den gesamten Prozess vom Einscannen der Vorlagen über die Bearbeitung bis zur Ausgabe als DjVu-Datei ermöglicht (auch PDF-Dateien könne erstellt werden; ein Texterkennung ist mit etwas Anpassung für DjVu-Dateien auch möglich). Das Programm ist ggf. nicht direkt für alle sane-Backends einsetzbar. Details im Artikel pct-scanner-script.

djvubind

djvubind ist ein Kommandozeilenprogramm, mit dem schnell und unkompliziert tiff-Vorlagen zu E-Books verarbeitet werden können. Zum Einsatz kommt minidjvu, oder cjb2 {en}, für die Texterkennung wird standardmäßig tesseract-ocr verwendet, Cuneiform-Linux ist zwar vorgesehen, aber noch sehr zuverlässig. Konzipiert wurde es zur Weiterverarbeitung von Scan Tailor-Vorlagen. Details im Artikel djvubind

any2djvu

any2djvu {en} ist ein kostenloser webbasierter Service zum Erstellen von DjVu-Dateien, der vom DjVuzone-Projekt getragen wird. Es können Dateien in allen gängigen Formaten hochgeladen, und zu .djvu-Dateien umgewandelt werden; die Standardeinstellung sieht .ps/.ps.gz/.pdf-Dokumente vor, es können aber auch weitere Angaben zu den eigenen Daten gemacht werden. Der Service kann auch genutzt werden, um vorliegende .djvu-Dateien verifizieren, oder dafür eine Texterkennung durchführen zu lassen. Außerdem können öffentlich zugängliche Dokumente direkt aus dem Internet angegeben und konvertiert werden. Man sollte sich allerdings im Klaren darüber sein, dass von den Betreibern keinerlei Garantien oder besondere Sicherheitsmaßnahmen zum Datenschutz übernommen werden können. Der Service scheint keine Segmentierung/Erstellung einer "foreground mask" für mehrfarbige Vorlagen zu beinhalten. Nähere Einzelheiten auf der Hilfeseite {en} des Projektes.

any2djvu ist im Paket djvulibre-bin enthalten, der Service kann auch direkt über die Kommandozeile gestartet werden, siehe Manpage des Programms.

Texterkennung (OCR)

ocrodjvu

ocrodjvu {en} ist ein umfangreiches Kommandozeilen-Werkzeug in Python zur Texterkennung in DjVu-Dateien, es verwendet OCRopus/tesseract-ocr oder Cuneiform-Linux als OCR-Software. Das Programm ist ab Lucid Lynx in den Paketquellen, es kommt u.a. in xsane2djvu, optional in pct-scanner-script zum Einsatz. Einzelheiten im Artikel ocrodjvu.

gscan2pdf

gscan2pdf, siehe oben. Aufgrund der fehlenden Open-Source-Implementierung für die Segmentierung erfolgt die Texterkennung nicht für das eigentlicher DjVu-Dokument, sondern erfolgt vorher, direkt von der gescannten Vorlage, das Ergebnis wird dann als "hidden layer" in die DjVu-Datei integriert. Das kann bei gerade farbigen Vorlagen zu Erkennungsproblemen führen; eine Texterkennung liefert generell für bitonale Vorlagen verlässlichere Ergebnisse.

Sonstiges

ExifTool

ExifTool ist seit Version 7.44 in der Lage, auch DjVu-Metadaten auszulesen. Details siehe DjVu.html {en} auf der ExitTool-Projektseite.

djvu2pdf

djvu2pdf {en} ist ein kleines Kommandozeilen-Programm, basierend auf ddjvu {en}, das es ermöglicht, DjVu-Dateien in das PDF-Format umzuwandeln. Die Textlage des DjVu-Dokumentes wird im Original nicht übernommen, mit einer Anpassung funktioniert auch das. Details im Artikel djvu2pdf

Diese Revision wurde am 13. Dezember 2013 10:44 von Heinrich Schwietering erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: Übersicht, djvu, Bildung, Editor, Büro, Texterkennung, Grafik, Kommunikation, OCR