ubuntuusers.de

Thorsten-Voice

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:


Du möchtest den Artikel für eine weitere Ubuntu-Version testen? Mitarbeit im Wiki ist immer willkommen! Dazu sind die Hinweise zum Testen von Artikeln zu beachten.

Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:

Logo des Thorsten-Voice Projektes

Thorsten-Voice 🇩🇪 🇬🇧 ist ein 2019 gegründetes Projekt mit dem Ziel eine freie, qualitativ wertige, deutsche künstliche Stimme bereitzustellen, die einen natürlichen Sprachfluss bietet und offline (ohne Cloud) erzeugt werden kann. Die TTS Modelle wurden mittels Machine Learning auf Basis von tausenden Aufnahmen eines einzelnen männlichen Sprechers erstellt. Die zugrundeliegenden Audioaufnahmen stellt das Projekt ebenfalls unter einer offenen Lizenz zur Verfügung. Die künstliche Stimme kann per Weboberfläche oder per Kommandozeile erzeugt und als .wav Datei bereitgestellt werden.

Audiobeispiele aller verfügbaren "Thorsten" TTS-Stimmen. 🇩🇪

Thorsten TTS (Mozilla/Coqui)

Auf Basis von Mozilla / Coqui TTS wurden zwei TTS Varianten erzeugt.

  • Thorsten-DDC

  • Thorsten-VITS

Beide Varianten bieten eine gute Qualität und einen recht natürlichen Sprachfluss. Thorsten-DDC wurde mit „eSpeak NG“ als Phonemizer trainiert, während Thorsten-VITS Gruut 🇬🇧 verwendet. Welche Aussprachevariante besser gefällt ist eine persönliche Geschmacksfrage.

Installation

Als Voraussetzung müssen eSpeak NG und Python in der Mindestversion 3.7 installiert sein. Die TTS-Installation wird per Python Paketmanager pip durchgeführt.

Hinweis!

Fremdsoftware kann das System gefährden.


Anmerkung: Python-Pakete über den den Paketmanager pip zu installieren, birgt Sicherheitsrisiken und kann zu Problemen mit anderen Python-Skripten führen. Näheres hierzu findet sich im Artikel pip.

Installation des TTS Python Paketes:

pip install TTS==0.8.0 

Nach der Installation des Python TTS Paketes kann die Stimmerzeugung entweder per Kommandozeilenaufruf oder per lokaler Webanwendung durchgeführt werden.

Stimmerzeugung (Kommandozeile)

Thorsten-DDC:

tts --model_name tts_models/de/thorsten/tacotron2-DDC --out_path output.wav --text "Hier bitte den zu sprechenden Text einfügen." 

oder Thorsten-VITS:

tts --model_name tts_models/de/thorsten/vits --out_path output.wav --text "Hier bitte den zu sprechenden Text einfügen." 

Kommandozeilenparameter
Verfügbare Optionen Bedeutung
model_name tts_models/de/thorsten/tacotron2-DDC oder tts_models/de/thorsten/vits
out_path Verzeichnis und Dateiname der Audio (WAV) Ausgabedatei
text Zu sprechender Text
use_cuda "true" falls NVIDIA CUDA verfügbar ist (bessere Performance)

Stimmerzeugung (Browser)

Der lokal lauffähige TTS-Webserver bietet die folgenden Möglichkeiten:

  • Stimmerzeugung per Webfrontend

  • Stimmerzeugung per API-Aufruf (cURL oder Python Modul)

Start des TTS-Serverprozesses:

tts-server --model_name tts_models/de/thorsten/tacotron2-DDC 

Anschließend kann die Webanwendung unter http://localhost:5002 aufgerufen werden.

Coqui TTS Server mit Thorsten-Voice TTS Modell

Auf Basis des Server Prozesses kann auch ein cURL Aufruf verwendet werden:

curl -o ausgabe.wav http://localhost:5002/api/tts?text=Hallo. 

Stimmerzeugung (Python Anwendung)

Innerhalb einer Python Anwendung kann die Thorsten Stimme per cTTS 🇬🇧 Modul erzeugt werden. Zuerst muss das Modul per pip Kommando installiert werden.

pip install ctts 
1
2
3
from ctts import cTTS

cTTS.synthesizeToFile("output.wav", "Das ist ein Test.")

Thorsten TTS (Mimic3)

Mimic3 ist die lokal lauffähige TTS Lösung von Mycroft AI die darauf ausgelegt ist, performante Ausgaben zu erzeugen – auch auf Geräten mit begrenzter Rechenkapazität wie einem Raspberry Pi. Allerdings geht die schnelle Erzeugung etwas auf Kosten der Qualität, so dass die Qualität etwas schlechter ist als bei den beiden oben genannten Modellen. Als Deutsche Stimme ist Thorsten-Voice ebenfalls verfügbar.

Installation

Es stehen verschiedene Methoden bereit Mimic3 zu installieren. Detaillierte Infos können der Mimic3 🇬🇧 Dokumentation entnommen werden. Die folgenden Schritte zeigen die Installation über den Python Paketmanager (pip).

pip install --upgrade pip
pip install mycroft-mimic3-tts[de] 

Stimmerzeugung

mimic3 --voice de_DE/thorsten_low "Hallo Ubuntu Gemeinschaft." > output.wav 

Emotionale Aussprache

Im Rahmen von Mimic3 sind auch emotionale Ausprägungen von Thorsten-Voice verfügbar. Um ein emotionales Sprachergebnis zu bekommen muss folgender Aufruf verwendet werden.

mimic3 --voice de_DE/thorsten-emotion_low "Hallo flüsternde Ubuntu Gemeinschaft." --speaker 7 > output.wav 

Folgende Tabelle zeigt die unterstützen Emotionen und den zugehörigen, im Befehl zu verwendenden, Wert.

Emotionales Thorsten TTS
speaker Emotion
0 Glücklich
1 Wütend
2 Angeekelt
3 Betrunken
4 Neutral
5 Schläfrig
6 Überrascht
7 Flüsternd

Diese Revision wurde am 30. August 2022 19:57 von karzer erstellt.