
gscan2pdf
ist ein Programm, das die Erstellung von PDF-Dokumenten aus eingescannten Dokumenten erleichtert. Ähnlich wie bei einem Kopierer kann man Seite für Seite einscannen und dann im PDF- oder TIFF-Format abspeichern. Durch zusätzliche Programme kann gscan2pdf eingescannte Seiten drehen, unschöne Überreste beim Einscannen von Büchern entfernen oder die eingescannten Seiten per OCR sogar in Text umwandeln.
Gscan2pdf ist in den offiziellen Paketquellen von Ubuntu enthalten. Zur Installation können folgende Pakete

gscan2pdf (universe )
sowie optional
tesseract-ocr (universe, für Texterkennung )
unpaper (universe, um eingescannte Seiten von störenden Elementen zu befreien )
installiert werden[1]. Nach der Installation kann man gscan2pdf aus dem Startmenü
"Anwendungen -> Grafik -> gscan2pdf"
heraus starten.
Möchte man keine zusätzliche Paketquelle verwenden, so kann man gscan2pdf auch über ein .deb-Paket installieren. Dazu benötigt man folgende Pakete, die vor der Installation von gscan2pdf selber installiert werden sollten.
sane-utils (universe )
libtiff-tools
libgtk2-ex-simple-list-perl (universe)
Optional kann gscan2pdf durch folgende Pakete um weitere Funktionalität ergänzt werden:
sane (universe )
xdg-utils (universe, um direkt E-Mails aus gscan2pdf heraus verschicken zu können )
djvulibre-bin (universe, um die eingescannten Seiten im DjVu-Format zu exportieren)
unpaper (universe, um eingescannte Seiten von störenden Elementen zu befreien )
imagemagick (um Seiten rotieren zu können )
gocr (universe, um eingelesene Seiten über OCR als Text zu exportieren)
Paketliste zum Kopieren:
sudo apt-get install sane xdg-utils djvulibre-bin unpaper imagemagick gocr
sudo aptitude install sane xdg-utils djvulibre-bin unpaper imagemagick gocr
Anschließend kann man das .deb-Paket von sourceforge.net
herunterladen, welches auch für Ubuntu geeignet ist. Dieses lässt sich dann von Hand installieren[2].
Fremdpakete können das System gefährden.
Die Bedienung des Programmes sollte selbsterklärend sein, da der Funktionsumfang derzeit noch begrenzt ist. Nachfolgend soll die Grundfunktion erklärt werden.
|
| Scanoptionen |
Über "Datei -> Scannen" oder das dritte Icon von links wird ein Dialog zum Scannen geöffnet. Hier kann man den zu nutzenden Scanner unter "Gerät" auswählen. Falls man einen Einzugsscanner besitzt, kann man hier die Anzahl der zu scannenden Seiten bestimmen, das Papierformat sowie Scanmodus und Auflösung wählen. Mittels "Scannen" startet man den Scanvorgang.
Wählt man unter Seiteneinstellungen "alle Seiten", werden alle Seiten, die im Einzug liegen, eingescannt. Dies setzt voraus, dass der Scanner in der Lage ist, zu erkennen, wenn alle Vorlagen eingezogen sind. Kann der Scanner dies nicht erkennen, muss man die Anzahl der Vorlagen unter "#" angeben. Tut man dies nicht, wird der Scanner unaufhörlich leere Dateien scannen. Wählt man "#" und im zugehörigen Auswahlfeld die gewünschte Seitenanzahl, wird diese Anzahl eingescannt. Weitere Optionen sind "Einseitig", "Doppelseitig" und "zu scannende Seite" (Auswahl: Vorderseite, Rückseite). Diese Optionen bestimmen die Nummerierung der eingescannten Seiten. Hat man einen Duplexscanner, der in der Lage ist, automatisch beide Seiten eines Dokuments zu scannen, werden die Seiten entsprechend der Auswahl unter "zu scannende Seite" nummeriert. Die Nummerierung geschieht hier automatisch, abhängig davon, ob man zuerst "Vorderseite" oder "Rückseite" angibt.
|
| Seiteneinstellungen |
Mit Scannern, die nicht automatisch Vorder- und Rückseite scannen können, muss dies manuell gesteuert werden. Man wählt also zuerst die Vorderseite aus und drückt "Scannen". Die im Vorlageneinzug befindlichen Dokumente werden eingescannt und mit z.B. "1, 3, 5" nummeriert. Danach legt man die Vorlagen so ein, dass die Rückseite eingescannt wird, wählt "Rückseite" und drückt den Knopf "Scannen" abermals. Nun werden die Rückseiten eingescannt und mit z.B. "6, 4, 2" nummeriert. gscan2pdf ordnet die Seiten automatisch entsprechend ihrer Nummerierung.
Diese Optionen sind teilweise auch für Flachbettscanner ohne Vorlageneinzug anwendbar. Der Unterschied besteht nur darin, dass man die Vorlagen mit der Hand einlegen und die Scanvorgänge manuell starten muss. Abhängig vom Modell und Treiber ist es auch möglich, die Scanvorgänge mit am Scanner vorhandenen Tasten zu steuern.
Unter der Option "erweiterte Seitennummerierung" kann man einstellen, wie gscan2pdf die Nummerierung der nächsten Scans gestaltet, basierend auf der Nummerierung der bereits eingescannten Daten. Hat man z.B. keine Daten eingescannt und möchte der nach der ersten Seite (mit Nummerierung 1) folgenden Seite die Nummer "3" geben, stellt man folgendes ein:
Unter "Start" 1, unter "Erhöhen" 2. Mit Drücken des "Scannen"-Knopfes wird die erste Vorlage eingescannt (bei Flachbettscannern ohne Vorlageneinzug muss dies entsprechend manuell gesteuert werden) und erhält die Nummerierung 1. In der Box "Start" steht automatisch "3" für die nächste Seite. Will man der auf Nummerierung 3 folgenden Seite die Nummerierung "2" geben, stellt man nun unter "Erhöhen" -1 ein, nachdem man die erste Vorlage eingescannt hat. Die der zweiten Seite (Nummerierung "3") folgende Seite erhält nun die Nummer 2 und wird dieser Nummerierung entsprechend angeordnet.
Unter den Einstellungen zur Nachbearbeitung können Ränder, Ausrichtungen etc. eingestellt werden. Abhängig von der Installation der oben aufgeführten optionalen Pakete können hier auch Optionen zur Texterkennung eingestellt werden. Hat man z.B. die Pakete unpaper, djvulibre-bin, gocr und tesseract-ocr installiert, werden die Optionen zur Nachbearbeitung direkt im Scan-Dialog angezeigt. Man kann somit bestimmte Optionen wie "Drehen" oder "Bereinigen" direkt auswählen.
|
| Als PDF abspeichern |
Über "Datei -> PDF speichern" bzw. das vierte Icon von links lassen sich alle eingescannten Seiten als ein PDF-Dokument sichern. Dabei können noch verschiedene Tags gesetzt werden. Es gibt auch die Möglichkeit über "Datei -> DjVu speichern" mehrseitige Dokumente im DjVu-Format abzuspeichern. DjVu benötigt bei besserer Qualität deutlich weniger Speicherplatz. Zum Vergleich: Aus einer eingescannten A4-Seite im Scanmodus "Lineart 300 dpi" (für Texte völlig ausreichend) wird eine PDF-Datei mit der LZW-Kompression (PNG geht auch) erzeugt, die ca. 150-180 KB groß ist. Die selbe Seite im DjVu-Format abgespeichert benötigt ca. 70 KB und ist deutlich besser lesbar. Evince kann mit DjVu-Dateien problemlos umgehen. Die nötigen Pakete vorausgesetzt (siehe oben), können eingescannte Seiten in zahlreiche andere Formate gespeichert werden.
Drückt man "PDF speichern", öffnet sich ein Eingabefenster, in das man Metadaten zum zu erzeugenden PDF eingeben und auswählen kann, ob sich das Speichern auf alle Seiten, die aktuelle Seite oder ausgewählte Seiten beziehen soll. Die Seiten werden dann entsprechend ihrer Nummerierung (siehe oben) im PDF angeordnet. Man kann auch Optionen zur Qualität des Bildes und Kompressionsarten einstellen.
Hat man dies abgeschlossen drückt man "Speichern" und es öffnet sich der normale Speicher-Dialog von Nautilus. Man kann nun den gewünschten Dateinamen eingeben und auswählen, wo die PDF-Datei gespeichert werden soll.
Es kann vorkommen, dass sich eine gerade erstellte PDF-Datei nicht öffnen lässt. Hier hilft es, die Kompressionsart im Eingabefenster für die Metadaten umzustellen. Mit "JPG" oder "PNG" statt "LZW" wird die Datei korrekt erzeugt.
Weiterhin kann man eingescannte Bilder auch als Bilddatei speichern. Dies geschieht über den entsprechenden Button oder unter "Datei -> Bild speichern".
unpaper ist ein post-processing-Werkzeug für die Aufbereitung eingescannter Daten. Mit unpaper können typische Fehler, wie sie beim Scannen von Buchseiten usw. auftreten, beseitigt werden. Das Programm entfernt schwarze Flecken und richtet den Text nach den Vorgaben, die der Benutzer in den Einstellungen (siehe Scan-Dialog) gemacht hat, aus. Bei schief eingescannten Vorlagen wird der Text auch in einem gewissen Maß gerade gerückt. Damit ist eine bessere Texterkennung möglich und die resultierenden Bilder müssen nicht manuell gerade gerückt werden.
Nach dem Scannen wird unpaper (wenn vorher mit "Bilder bereinigen" ausgewählt) gestartet (kleine Box mit Ladebalken) und direkt danach startet (wenn vorher mit "Texterkennung anwenden" ausgewählt) die Texterkennung. Der erkannte Text wird in einem Feld unterhalb des eingescannten Bildes angezeigt und kann korrigiert werden.
Es ist auch möglich, nur unpaper oder nur die Texterkennung zu benutzen. Es ist nicht notwendig, beide Werkzeuge gleichzeitig anzuwenden.
Installiert man zusätzlich noch das Paket
tesseract-ocr
kann man zwischen zwei Texterkennungswerkzeugen wählen. Für tesseract-ocr gibt es Erweiterungspakete zur Erkennung der Sprachen Deutsch, Englisch, Französisch, Italienisch, Holländisch, brasilianisches Portugiesisch und Spanisch, sowie Deutsch (Fraktur). Diese Erweiterungen sind wie tesseract-ocr in den universe-Quellen vorhanden.
Wenn man tesseract-ocr und
gocr
installiert hat, kann man im Scan-Dialog zwischen beiden Modulen auswählen. Hat man mehrere tesseract-ocr-Sprachmodule installiert, kann man bei Auswahl von tesseract automatisch auch die zu erkennende Sprache auswählen.
Leider funktioniert die Texterkennung nur sehr eingeschränkt. Beide Module reagieren sehr empfindlich auf schlechte Druckqualität in der Vorlage (gocr mehr als tesseract).
Unter "Werkzeuge" findet man die selben Optionen (unpaper, Texterkennung) wie im Scan-Dialog und zusätzlich noch eine Schwellwertoption. Diese Optionen hängen von der Installation der optionalen Pakete ab.
Diese Revision wurde am 5. Juni 2010 um 15:05 Uhr
von Heinrich Schwietering erstellt.
Dieser Seite wurden folgende Begriffe zugeordnet:
Grafik, Büro, Texterkennung, OCR, Scanner
2004 – 2010 ubuntuusers.de • Einige Rechte vorbehalten