[[Vorlage(Getestet, bionic, focal)]] {{{#!vorlage Wissen [:Pakete installieren: Installation von Programmen] [:Paketquellen_freischalten/PPA: Verwenden eines PPAs] optional [:Programme_starten: Starten von Programmen] }}} [[Inhaltsverzeichnis(1)]] [[Bild(./recoll_logo.png, 48, align=left)]] [http://www.lesbonscomptes.com/recoll/ Recoll] {en} ist eine schlanke und schnelle [:Desktopsuchmaschinen:Dokumentensuchmaschine], die eine Vielzahl an Formaten unterstützt. Neben einer komfortabel zu bedienenden grafischen Oberfläche gibt es auch eine [:Unity/Unity_Lenses:Lens] für Unity, [:KRunner:]-Integration sowie KIO- und Kommandozeilenunterstützung. Neben komplexen Abfragen und transparenter Dekompression werden auch verschiedene Sprachen unterstützt. [[Bild(./recoll-ergebnis.png, 300, align=right)]] Nativ unterstützte Formate bzw. Dateitypen: * Text-Dateien ('''.txt''') * HTML-Dateien ('''.html'''/'''.htm''') * maildir und mailbox ('''.mbox''') - (z.B. [:Thunderbird:] oder [:Evolution:]) * [:Pidgin:gaim] und Purple-Logs (z.B. [:Empathy:]) * [:Scribus:]-Dateien ('''.sla''') * [:Manpage:Manpages] * [:Dia:]-Diagramme ('''.dia''') Die folgenden [wikipedia:XML:]-Dateitypen brauchen zusätzlich noch die Programme '''xsltproc''' und '''unzip''' für komprimierte Dateien. * [:Abiword:]-Dateien ('''.abw''') * [wikipedia:FictionBook:]-Dateien ('''.fb2''') * kWord-Dateien, [:Calligra:Calligra/KOffice] ('''.kwd''') * Microsoft Office Open XML ('''.docx''') ? * LibreOffice/Apache OpenOffice ('''.odt'''/'''.ods'''/'''.odc'''/'''.odp''') * [wikipedia:Scalable Vector Graphics:] ('''.svg'''/'''.svgz''') * [:Gnumeric:]-Dateien ('''.gnumeric''') * [:Okular:]-Kommentar-Dateien Für die Unterstützung der folgenden Dateitypen wird jeweils ein bestimmtes Programm benötigt, damit Recoll diese verwenden kann. Manche Dateien können mit Hilfe von Python-Modulen gelesen werden. Da Ubuntu standardmäßig mit Python ausgeliefert wird, können diese Dateien indexiert werden, ohne das etwas nachinstalliert werden muss. {{{#!vorlage Tabelle Titel +++ Dateien Dateiendung Benötigtes Programm +++ [:PDF:Portable Document Format] '''.pdf''' `pdftotext` aus '''poppler-utils''' +++ Microsoft Word-Dateien '''.doc''' '''antiword''' & '''wvWare''' +++ Wordperfect-Dateien '''.wdp''' `wpd2html` +++ [:LyX:]-Dateien '''.lyx''' [:LyX:] +++ Powerpoint & Excel '''.ppt''' & '''.xls''' '''catdoc''' +++ Microsoft HTML-Hilfe-Dateien '''.chm''' pychm & chmlib +++ GNU Info-Dateien - `info` Befehl +++ [:tar:]-Archive '''.tar''' `tar` +++ ZIP-Archive '''.zip''' Python +++ RAR-Archive '''.rar''' Python-Modul „''rarfile''“ & unrar +++ iCalendar-Dateien '''.ics''' Python & icalendar +++ Mozilla-Kalenderdaten '''.ics''' / '''.sqlite''' siehe [https://www.lesbonscomptes.com/recoll/faqsandhowtos/IndexMozillaCalendari.html Howto] {en} +++ postscript-Dateien '''.ps''' ghostscript & pstotext +++ [wikipedia:Rich Text Format:] '''.rtf''' unrtf +++ [wikipedia:TeX:]-Dateien '''.tex''' '''untex''' +++ [wikipedia:Device_independent_file_format:DVI]-Dateien '''.dvi''' '''dvips''' +++ [wikipedia:DjVu:]-Dateien '''.djvu''' DjVuLibre +++ Audio-Metadaten - [:Python:]-Modul „''mutagen''“ +++ Metadaten von Bildern - exiftool +++ Midi Karaoke-Dateien '''.kar''' Python-Midi-Module & chardet +++ Webarchiv-Format '''.war''' Python-Modul „''tarfile''“ +++ MHTML Archiv-Dateien '''.mht''' - }}} = Installation = Um Recoll zu verwenden, muss man die folgenden Pakete installieren [1]. Danach kann Recoll die nativ unterstützten Formate sowie XML-Dateien indexieren (wahrscheinlich auch weitere Formate). Wenn man [:LibreOffice:] installiert hat, kann Recoll auch [wikipedia:OpenDocument:]-Formate indexieren. {{{#!vorlage Paketinstallation recoll, universe python xsltproc, XML unzip, für komprimierte Dateien und Archive }}} == Unterstützung für weitere Datenformate nachinstallieren == Die folgende Auflistung listet die Programme, die zum Indexieren von häufig verwendeten Dateiformaten benötigt werden. {{{#!vorlage Paketinstallation poppler-utils, Portable Document File antiword, universe, MS Word wv, universe, für besonders hartnäckige MS Word-Dokumente libwpd-tools, universe, Wordperfect catdoc, universe, Excel- und Powerpoint libchm-bin, universe, CHM info, GNU Info tar, Tape Archiver-Archive librdf-icalendar-perl, universe, iCal unrtf, universe, Rich Text File untex, universe, TeX dvi2ps, universe, DVI libimage-exiftool-perl, universe, Metadaten von Bildern python-chardet, MIDI python-midiutil, universe, MIDI }}} == PPA == Wer interessiert ist, die jeweils aktuellste Version zu nutzen, kann ein "Personal Packages Archiv" (PPA) [2] verwenden. [[Vorlage(PPA, recoll-backports/recoll-1.15-on)]] Nach dem Aktualisieren der Paketquellen erfolgt die Installation wie oben angegeben. = Verwendung = Das Programm kann als `recoll` gestartet werden [3]. Wer nicht möchte, dass Recoll sämtliche Dateien im [:Homeverzeichnis:], einschließlich Konfigurationsdateien und versteckten Dateien, indiziert und auswertet, sollte die Indizierung auf die benötigten Verzeichnisse einschränken. == Startverzeichnis für die Indizierung ändern == Wer also lediglich seine Dokumente (z.B. unter '''~/Dokumente''') indizieren lassen möchte, sollte in Recoll unter dem Menüpunkt ''"Voreinstellungen → Indizierungskonfiguration → Globale Parameter"'' als Startverzeichnis nur den entsprechenden Pfad eintragen. Nach einem Aktualisieren des Indexes über ''"Datei → Update Index"'' durchsucht Recoll nur noch dieses Verzeichnis (und dessen Unterverzeichnisse). == Darstellung des Suchergebnisses anpassen == Recoll bietet eine Funktion, mit der man über HTML die Darstellung der Ausgabe ändern kann. Mehrere [http://www.lesbonscomptes.com/recoll/custom.html Beispiele] {en} sind dazu auf der Projektseite zu finden. Möchte man die Darstellung anpassen, muss man den Formatstring für Ergebnisse ändern. Dazu öffnet man den Einstellungsdialog über ''"Voreinstellungen → Benutzeroberfläche → Formatstring für Ergebnisse"''. Die Standardausgabe ist wie folgt angegeben (Recoll 1.15): {{{#!code html
%R %S %L  %T
%M %D   %U
%A %K
}}} = Problembehebung = == Tar-Archive werden nicht indexiert == Da man selten nach Daten sucht, die in einem Tar-Archiv liegen, ist die Indexierung dieser standardmäßig deaktiviert. Möchte man, dass Tar-Archive indexiert werden, dann muss man dies explizit über die Datei '''~/.recoll/mimeconf''' erledigen. Dort fügt man das folgende ein. {{{ [index] application/x-tar = execm rcltar }}} == Nicht westeuropäische Zeichen in RTF-Dateien == Das Programm [packages:unrtf:] kann bis zur Version 0.21.8 nur mit westeuropäischen Zeichensätzen umgehen. Besitzt man jedoch RTF-Dateien, die etwa in russisch oder chinesisch verfasst sind, kann es zu Problemen kommen. Empfohlen wird dann eine möglichst aktuelle Version von [http://www.gnu.org/software/unrtf/ unrtf] {en}. = Links = * [http://www.lesbonscomptes.com/recoll/ Projektseite] {en} * [prolinux:artikel/2/1675/volltextsuche-mit-recoll.html:Volltextsuche mit Recoll - Dateien in Linux durchforsten] {de} - Pro-Linux, 03/2014 * [heise:-1715658:Desktop-Suche mit Recoll] {de} - heise Open Source, 09/2012 * [http://www.linux-community.de/Internal/Artikel/Print-Artikel/LinuxUser/2012/01/Desktopsuche-der-feinen-Art-Recoll-1.16/ Total Recoll - Desktopsuche der feinen Art] {de} - Artikel LinuxUser, 12/2011 * [http://www.webupd8.org/2012/03/recoll-lens-full-text-search-unity-lens.html Recoll Unity Lens] {en} Blogbeitrag, webupd8.org * [:Desktopsuchmaschinen:] {Übersicht} Übersichtsartikel #tag: Büro, Qt, Desktopsuche