pdf2mp3

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

Ubuntu 20.04 Focal Fossa

Du möchtest den Artikel für eine weitere Ubuntu-Version testen? Mitarbeit im Wiki ist immer willkommen! Dazu sind die Hinweise zum Testen von Artikeln zu beachten.

Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:

Inhaltsverzeichnis

Installation
Bedienung
1. Anpassung der Sprachausgabe
Probleme
Alternativen
Links

Dieses von rennau80 entwickelte Python-Skript verbindet mehrere Programme (wie pdftotext, lame, espeak, wavbreaker), um aus einer ASCII- ( .txt, .dat) oder .pdf-Datei eine Audio-Datei (.wav oder .mp3) zu erstellen. Da eSpeak/eSpeak NG verwendet wird, sind sehr viele Sprachen verfügbar. Unter diesem Foreneintrag sind zwei Code-Versionen zu finden: eine, die mit text2wave arbeitet (nur englische Sprache) sowie die hier beschriebene Version, die etliche Sprachen bei der Konvertierung zu einer Audio-Datei beherrscht. Das Skript ist für Python-2.x ausgelegt.

Installation¶

Benötigt werden folgende Pakete ^[1]:

python2.7
poppler-utils
festival
festvox-rablpc16k
lame
espeak

Befehl zum Installieren der Pakete:

sudo apt-get install python2.7 poppler-utils festival festvox-rablpc16k lame espeak

Oder mit apturl installieren, Link: apt://python2.7,poppler-utils,festival,festvox-rablpc16k,lame,espeak

Dann das Skript pdf2mp3.py ⮷ herunterladen und ausführbar machen ^[5]. Um das Skript systemweit nutzen zu können, ohne jeweils den Pfad kennen zu müssen, empfiehlt es sich, es mit Root-Rechten ^[4] nach /usr/local/bin/ zu kopieren und die Rechte zum Ausführen korrekt zu setzen.

Bedienung¶

In einem Terminal ^[2] lässt sich das Skript dann z.B. mit

pdf2mp3.py -h

aufrufen. Damit bekommt man die Hilfe zum Skript angezeigt. Mit z.B.

pdf2mp3.py -v de -f input.pdf -o output.mp3

ruft man das Skript auf, um input.pdf in eine deutschsprachige (-v de) output.mp3 umzuwandeln. Dabei muss für die Eingabedatei eine Endung angegeben werden, auch die Ausgabedatei wird nach der Endung erstellt. Der Befehl:

espeak --voices

listet alle verfügbaren Sprachen auf. Es können auch MBROLA-Stimmen 🇬🇧 eingesetzt sein (z.B -vmb-de6). Als Ausgabe sind .wav oder .mp3 möglich, letztere wird standardmäßig in -f (fast mode)-Qualität gespeichert.

Das Skript entfernt automatische alle Sonderzeichen, Grafiken etc. aus den Dateien, sodass nur der eigentliche Text verwendet wird. Allerdings gehen dabei auch die Umlaute ä,ö und ü verloren!

Anpassung der Sprachausgabe¶

Um weitere eSpeak/eSpeak_NG-Optionen nutzen zu können, kann man mit einem Editor ^[3] einfach in Zeile 129 espeak durch z.B. espeak -s 140 ersetzen. Natürlich sind auch weitere Anpassungen möglich.

Probleme¶

Manchmal lassen sich große PDF-Dateien nicht ordnungsgemäß umwandeln (siehe Forenbeitrag). Als Lösung kann eventuell in der def convert_to_wav in Zeile 125 ein time.sleep(3) eingefügt werden, wenn nötig auch mit höherem Wert.

Alternativen¶

Links¶

pdf-Datei in mp3-Datei konvertieren (pdf2mp3) - Ursprungsthread im Forum

Diese Revision wurde am 26. November 2020 22:51 von Heinrich_Schwietering erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: Multimedia, Kommunikation, Barrierefreiheit, Büro, Audiobooks, TTS, Sprachausgabe