Scan Tailor

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:

  1. Installation von Programmen

  2. Archive entpacken

  3. Ein Terminal öffnen

  4. Pakete aus dem Quellcode erstellen

  5. Ein einzelnes Paket installieren

  6. Ein Programm starten

  7. Programme zum Menü hinzufügen

Inhaltsverzeichnis
  1. Installation
    1. Manuelle Installation
  2. Bedienung
    1. Bearbeitungsschritte
    2. Debugging Modus
  3. Tastenkürzel
  4. Alternativen
  5. Links

./scantailor-logo.png Scan Tailor 🇬🇧 (Github) ist ein in Russland entwickeltes Programm, mit dem Scans bearbeitet werden können, um z.B. bessere Ergebnisse bei einer anschließende Texterkennung zu erzielen oder sie für die Archivierung zu optimieren. So können u.a. Seiten aufgeteilt, gerade gezogen und unerwünschte Ränder entfernt werden. Die Bearbeitung kann automatisiert erfolgen. Es lassen sich aber auch umfangreiche manuelle Einstellungen für verschiedene Aufgaben vornehmen. Die bearbeiteten Vorlagen werden dann im tif-Format abgelegt.

Das Scannen, eine Texterkennung, oder das Überführen der einzelnen Ergebnis-Bilder in mehrseitige Dateien muss allerdings mit anderen Programmen erfolgen. Zur Erstellung von E-Books eignet sich z.B. djvubind. Die Entwicklung des Programm stagniert z.Z. (letzte Änderungen im September 2016), es ist zwar eine Version 1.0 in Planung, die aber auch eher auf Eis zu liegen scheint.

Installation

Scan Tailor ist in den Ubuntu-Paketquellen vorhanden. Installiert[1] werden muss das Paket:

Paketliste zum Kopieren:

sudo apt-get install scantailor 

Oder mit apturl die Pakete installieren. Link: apt://scantailor

Manuelle Installation

Alternativ kann der aktuelle Quelltext der Entwicklungs-Version über Git aus dem Github-Repository mit folgendem Befehl heruntergeladen werden:

git clone https://github.com/scantailor/scantailor.git 

Zum Kompilieren müssen folgende Pakete installiert sein:

Paketliste zum Kopieren:

sudo apt-get install cdbs debhelper  cmake libqt4-dev  libjpeg-dev  libpng12-dev libtiff4-dev libxrender-dev libboost-test1.65-dev libqt4-opengl-dev 

Oder mit apturl die Pakete installieren. Link: ,cmake,libqt4-dev ,libjpeg-dev ,libpng12-dev,libtiff4-dev,libxrender-dev,libboost-test1.65-dev,libqt4-opengl-dev

Der Quellcode der aktuellen stabilen Version kann von der Releases-Seite ⮷ bezogen werden, in Ubuntu 18.04 ist der aktuelle Code bereits in den Quellen enthalten.

Das Paket wird mittels cmake (dabei darauf achten, dass das Verzeichnis, in dem die Dateien gespeichert werden, nicht nur einfach scantailor heißt, da sonst das Programm nicht erstellt werden kann!) und anschließender Kompilierung[4] erstellt und installiert[5].

Das Programm wird im Terminal gestartet[6]. Komfortabler ist es, sich einen Starter z.B. im Hauptmenü anzulegen[7].

ST-Auswahl.png

Bedienung

Scan Tailor ist für die Stapelverarbeitung gedacht, daher lassen sich auch nur ganze Ordner mit Bild-Dateien öffnen ("Datei -> Neues Projekt..."). Die Dateien werden im Import-Dialog angezeigt, alle Dateien in verarbeitbaren Formaten (.tif/tiff, .jpg/jpeg, .png) werden zunächst aufgenommen; es lassen sich dann aber einzelne Daten an oder abwählen. Die Auswahl kann für mehrere Ordner wiederholt werden, die jeweils gewählten Dateien bleiben im Projekt. Nicht unterstützte Datei-Formate werden grau angezeigt.

Auch der Ausgabe-Ordner kann ausgewählt werden, Standard ist, einen /out-Ordner im zuletzt gewählten Eingabe-Ordner zu erstellen, und die Resultate dort abzulegen.

Empfohlen wird, keine Scharz-Weiß/Strichzeichnungen als Vorlagen einzusetzen, sondern Bildmaterial in Graustufen oder Farbe zu verwenden. Die Benutzung von .jpg-Daten ist zwar möglich, wird aber aufgrund der auftretenden Qualitätseinbußen dieses nicht-verlustfreien Formats nicht empfohlen.

Falls Bilddateien mit offensichtlich inkorrekten dpi-Angaben importiert werden sollten, gibt Scan Tailor eine Warnmeldung aus, und bietet die Möglichkeit, diese Werte zu korrigieren.

Die Bearbeitung selbst wird in sechs aufeinander aufbauenden Schritten vorgenommen (die z.T. nur bei Bedarf vorgenommen werden müssen). Die Schritte finden sich im linken Sidebar des Hauptfensters; durch Anklicken des Pfeils in den einzelnen Zeilen wird jeweils die Stapelverarbeitung für alle bisher vorgenommenen Schritte durchgeführt. Die Bearbeitung kann mit Drücken der großen Stop-Taste, die im mittleren Bereich während längerer Bearbeitungsphasen erscheint, abgebrochen werden. Die vorgenommenen Änderungen werden erst mit Abschluss des Projektes ("Ausgabe") auf der Festplatte gespeichert.

Die gewählten Bilder werden rechts im Hauptfenster angezeigt. Eine späteres Hinzufügen ("Davor Einfugen .../Danach einfügen...") und Entfernen von Bilddateien (und so indirekt auch eine Neusortierung) ist in den ersten beiden Bearbeitungsschritten mit Öffnen des Kontextmenüs über rechte Maustaste möglich. Alternativ können die ausgegebenen .tiff-Dateien vor der Weiterverarbeitung sortiert werden.

Die Bilddarstellung im mittleren Bereich lässt sich per Mausrad mittlere Maustaste zoomen und mit gedrückter linke Maustaste verschieben, um Details besser erkennen zu können.

ST-gui.png

Bearbeitungsschritte

Die Bilder können bei Bedarf gedreht ("1: Seite drehen") werden; über "Geltungsbereich -> Anwenden auf..." lässt sich festlegen, für welche Seiten die Drehung angewendet werden soll. Mit "2: Seiten aufteilen" könne die Vorlagen nach verschiedenen Mustern aufgeteilt werden (z.B. zwei Buchseiten auf einem Scan; die mittlerer Linie lässt sich dabei mit der blauen Linie manuell in die richtige Position bringen). "3: Ausrichten" sorgt für eine gerade Ausrichtung der Scans, manuell kann die Ausrichtung neben der Angabe des Winkels bequemer mit der Maus über die blauen Knöpfe im Hauptfenster erfolgen.

Mit "4: Inhalt auswählen" wird der zu verwendende Ausschnitt festgelegt. Die automatische Auswahl ist bei kleinen Bildelementen am Rande nicht immer zuverlässig, so werden z.B. Seitenzahlen leicht "übersehen". Ein falsch gewählter Ausschnitt lässt sich verschieben, oder über rechte Maustaste im Hauptfenster wieder löschen, und dann neu erstellen.

"5: Stege (Ränder)" wird verwendet, um für die auszugebenden Dateien neue Seitenränder ("Stege (Ränder)") festzulegen, die entweder für recht/links und oben/unten gleich gewählt, aber auch frei festgelegt werden können. Über die Schaltfläche "Anwenden auf..." kann ausgewählt werden, welche Seiten so bearbeitet werden sollen. Außerdem lässt sich die "Ausrichtung" innerhalb des gewählten Rahmens festlegen. Möglich ist eine einheitliche Ausrichtung für alle Seiten des Projektes, diese Orientierung kann an den anderen Seiten des Projektes erfolgen. Eine Anpassung kann durch Ziehen der lilafarbenen Markierungen mit der linke Maustaste erfolgen, die Veränderungen erfolgen im Verhältnis zu den Seitenrändern. Ggf. sichtbare gestrichelte Linien zeigen den Bezug zur jeweils höchsten/breitesten Seite im Projekt.

Das Ergebnis wird dann über "6: Ausgabe" gespeichert. Hier lässt sich zunächst die Auflösung anpassen ("Auflösung der Ausgabedatei (dpi)" in DPI = "dots per inch"). Standard sind 600 dpi, wer allerdings z.B. eine Texterkennung mit anschließen möchte, sollte hier 300 dpi wählen.

Über "Methode" wird festgelegt, wie die Ergebnisse ausgegeben werden sollen, dabei sind jeweils unterschiedliche weitere Einstellungen möglich. Bei Schwarz-Weiß und im "Gemischt"-Modus lässt sich "Dewarping" (ggf. entstehende Wölbung beim Scannen von Buchseiten entfernen) und "Despeckle" (Entflecken) aktivieren, Vorsicht ist allerdings geboten, damit nicht ggf. wichtige Bildelemente (i-Punkte, Kommata etc.) entfernt werden. Die Stärke der Fleckenentfernung lässt sich in vier Abstufungen einstellen, das Ergebnis wird im Mittelfenster als eigener Reiter angezeigt, die entfernten Elemente werden rot dargestellt. Außerdem lässt sich mit dem Schieberegler die Linienstärke der Buchstaben festlegen - dabei müssen ggf. je nach Auflösung unterschiedliche Werte verwendet werden, um ein befriedigendes Ergebnis zu erzielen.

Ist Farbe/Graustufen ("Farbe/Graustufen") ausgewählt, können die bei der Einrichtung festgelegten Ränder weiß ausgegeben werden ("Weiße Stege (Ränder)"). Wenn das der Fall ist, kann außerdem über "Helligkeit angleichen" der Hintergrund des eigentlichen Bildes ebenfalls weiß ausgegeben werden (sinnvoll z.B. bei vergilbten Vorlagen).

Der "Gemischt"-Modus führt dazu, dass Bilder anders als Textpassagen bearbeitet werden; das ist besonders für Vorlagen mit integrierten (Farb-)Fotos sinnvoll. Der Text wird Schwarz-Weiß ausgegeben, die Bilder in Farbe/Graustufen. Die automatische Erkennung ist relativ gut.

Bei "schwierigen" Vorlagen können die Bilder auch manuell per Maus ausgewählt werden. Um Bilder individuell festzulegen, muss in die Ansicht über den Seitenreiter "Bildbereiche" gewechselt werden. Unter dem Mauszeiger erscheint ein roter Punkt, durch linke Maustaste-Klick wird der erste Fixpunkt festgelegt, der Umriss kann dann mit beliebig vielen weitere Punkten (rechte Maustaste-Klick) erzeugt werden, die Bereichswahl wird mit nochmaliger Anwahl des ersten Punktes abgeschlossen. So sind sehr genaue Eingrenzungen der Bilder möglich. Mit rechte Maustaste-Klick in den Umriss erscheinen im Kontextmenü weiter Optionen , z.B. auch den Bereich wieder zu entfernen.

Es kann bei Bedarf zu allen Schritten der Bearbeitung nochmals zurückgegangen werden, um Korrekturen zu erstellen; die Veränderungen werden dann mit erneutem Aufruf der Stapelverarbeitung am Ende gespeichert. Sinnvollerweise werden dabei nur die tatsächlich veränderten Seiten neu berechnet und ausgegeben.

Die Ergebnisse werden erstellt (das kann je nach Größe des Projektes und Kapazität des Rechners auch etwas länger dauern, es lässt sich angeben, dass bei Abschluss der Verarbeitung ein Tonsignal ausgegeben wird), im ausgewählten oder dem erstellten out-Ordner durchnummeriert als .tiff-Dateien abgelegt und können dann weiterverarbeitet werden.

Da die ausgegebenen .tiff-Dateien trotz verwendeten Kompressions-Algorithmen (G4Fax, oder LZW) je nach Modus sehr groß ausfallen könnten (A4 in 300 dpi von 1 MB bis zu ~ 15 MB!), ist für die Speicherung und Weiterverarbeitung eine Konvertierung mit z.B. mit convert (siehe ImageMagick) beispielsweise ins ebenfalls verlustfreie .png-Format sinnvoll.

Debugging Modus

Wenn in den Einstellungen "Werkzeuge -> Debug Mode" aktiviert wird, erscheinen im mittleren Fenster beim Modus "Gemischt" und "Schwarzweiß" eine Vielzahl von Reitern, in denen verschiedene Zwischenschritte und Effekte für die Ausgabe ausgegeben werden. Besonders hervorzuheben ist "big_component_unified" oder gleich "voronoi", das interessante Farben in langweilige Texte bringt; sinnvoll wäre z.B. für sehr schwache Vorlagen die Einstellung "dilated".

./ST-main.png
Main (Normalausgabe)

./ST-bcu.png
big_component_unified

./ST-voronoi.png
voronoi

./ST-dilated.png
dilated

Diese Einstellungen lassen sich allerdings leider nicht für den Export nutzen...

Tastenkürzel

Scan Tailor
Tasten Funktion
Strg + N Neues Projekt erstellen
Strg + O bestehendes Projekt öffnen
Strg + S Projekt speichern
Strg + W Projekt schließen
Strg + Q Beenden

Alternativen

unpaper 🇬🇧 als reines Kommandozeilen-Werkzeug liefert noch wesentlich differenziertere Bearbeitungsmöglichkeiten. Das Programm ist allerdings eher für vollautomatisierte Stapel-Verarbeitung geeignet, Näheres unter unpaper.