pdfgrep

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:

  1. Programme installieren

  2. Ein Terminal öffnen

Inhaltsverzeichnis
  1. Installation
  2. Benutzung
    1. Optionen
    2. Beispiele
  3. Links

Wiki/Icons/terminal.png Mit pdfgrep (get regularexpression) lassen sich PDF-Dateien, welche Text enthalten, nach Suchmustern durchsuchen. Diese Suchmuster werden „regular expressions“ genannt. Sie sind vielfältig einsetzbar und werden zum Beispiel auch von grep verwendet. Weitere Informationen zu Regular Expressions finden sich im Artikel grep und im Wikipedia-Artikel Regulärer Ausdruck.

Installation

Zur Installation [1] ist folgendes Paket notwendig:

Paketliste zum Kopieren:

sudo apt-get install pdfgrep 

Oder mit apturl installieren, Link: apt://pdfgrep

Benutzung

Mit pdfgrep lassen sich eine oder mehrere PDF-Dateien nach Zeichenketten durchsuchen, die zum angegebenen Muster passen. Der allgemeine Aufruf erfolgt über den Befehl [2]:

pdfgrep OPTIONEN MUSTER DATEI(EN) 

Pdfgrep arbeitet ähnlich wie grep – allerdings nicht auf Zeilen-, sondern auf Seitenbasis.

Darüber hinaus bietet pdfgrep einige Zusatzfunktionen:

Optionen

Übersicht über die anwendbaren Optionen
Kurzform Langform mit ZUSATZANGABEN Beschreibung
-i --ignore-case Ignoriert Groß- und Kleinschreibung.
-H --with-filename Gibt den Dateinahmen für jede Übereinstimmung aus (Standardeinstellung beim Durchsuchen von mehreren Dateien).
-h --no-filename Der Dateiname wird bei der Ausgabe unterdrückt (Standardeinstellung beim Durchsuchen von nur einer Datei).
-n --page-number Gibt bei jeder Übereinstimmung die Seitennummer, auf welcher sie gefunden wurde, aus.
-r --recursive Durchsucht Verzeichnisse rekursiv. Folgt symbolischen Verknüpfungen allerdings nur, wenn sie im Befehl angegeben wurden.
-R --dereference-recursive Wie -r, folgt aber allen symbolischen Verknüpfungen.
--exclude=GLOB Überspringt Dateien, welche GLOB heißen bzw. GLOB im Namen beinhalten. Diese Option hat Vorrang vor der Option --include.
Hinweis: Die Optionen --include und --exclude lassen sich nur auf Dateien anwenden, die über die Option --recursive gefunden wurden, und nicht auf Dateilisten.
--include=GLOB Durchsucht nur Dateien, welche GLOB heißen bzw. GLOB im Namen beinhalten. Standardeinstellunge ist *.pdf. Weitere Informationen unter --exclude.
-c --count Unterdrückt die normale Ausgabe. Stattdessen wird lediglich die Anzahl der Übereinstimmungen pro Eingabedatei ausgegeben.
-C --context ANZAHL Gibt um jede Übereinstimmung die angegebene ANZAHL von Zeichen aus dem Kontext mit aus.
-q --quiet Unterdrückt die normale Ausgabe auf der Standardausgabe (stdout). Lediglich Fehlermeldungen werden angezeigt und Exit-Codes zurückgegeben.
--color WANN Gibt Dateinamen, Seitenzahlen und Suchübereinstimmungen in Farbe aus. Möglich für WANN sind folgende Werte: always gibt immer in Farbe aus, auch wenn die Standardausgabe (stdout) nicht im Terminal erfolgt; never verwendet niemals Farben; auto gibt nur im Terminal in Farbe aus (Standardeinstellung ist auto).
--unac Entfernt Akzente und Ligaturen aus Suchmuster und den PDF-Dokumenten. Dieses Feature ist hilfreich, wenn z.B. nach einem Wort mit 'ae' gesucht werden soll, aber die PDF-Datei stattdessen nur ein Einzelzeichen 'æ' verwendet. Diese Option ist experimentell und nur verfügbar, wenn pdfgrep mit unac-Unterstützung kompiliert worden ist.
--help Gibt eine kleine Übersicht über die Optionen aus.
-V --version Gibt Versionsinformationen aus.

Beispiele