Von roboterhaft zu menschlich: Ein Upgrade für die Sprachausgabe
Lange Zeit benutzte ich Piper TTS das ebenfalls als Skill vorliegt– kostenlos, Lokal, brauchbar aber eben zum Teil deutlich maschinell. Die Stimme klang zum Teil ab und an künstlich, die Betonung war bei Englisch unnatürlich. Das musste sich ändern.
Die Lösung kam in Form von ElevenLabs, einem KI-gestützten TTS-Dienst, der eine ganz andere Qualitätsstufe bietet. Statt offensichtlich synthetisch klingt die Ausgabe fast wie ein echter Mensch – mit natürlicher Intonation, richtigen Pausen und einem flüssigen Sprechfluss.
🎧 Beispiel
Hier die Drachenlord-Stimme in Aktion:
🎯 Das Konzept: Eigene Stimme klonen
Besonders spannend ist die Möglichkeit, eigene Stimmen zu klonen. Für dieses Projekt wurde die Stimme von Drachenlord verwendet – ein bekannter Internet-Persönlichkeit mit unverwechselbarer Artikulation. Das Ergebnis überzeugt: Die synthetisierte Stimme klingt authentisch und behält die charakteristischen Eigenheiten bei.
Die Integration erfolgt über die ElevenLabs REST API, die sich simpel in Python-Scripts einbinden lässt. Ein kurzer API-Call genügt, um beliebigen Text in natürlich klingende Sprache zu verwandeln.
🚀 Setup: So klappt das mit seiner Lordschaft
Der Weg zum Lord als Stimme ist simpel:
- Account erstellen: Auf elevenlabs.io registrieren und Guthaben aufladen (z.B. 10€)
- Voice hinzufügen: Im Dashboard zu „Stimmen“ gehen
- Drachenlord auswählen: In der Voice Library Deutsch auswählen und als Dialekt bayerisch, dann nach „Rudolf“ suchen und zu eigene Stimmen hinzufügen
- Voice ID kopieren: Auf die eigene Stimme klicken – dort wird die
voice_idangezeigt (z.B.NkhHdPbLqYzmdIaSUuIy) - In Script eintragen: Die Voice ID im Python-Script kopieren oder einfach eurem OpenClaw geben das er dies macht
Wichtig: Die Voice ID ist der Schlüssel – ohne sie funktioniert die API-Integration nicht.
💰 Die Kosten: Überschaubar und fair
ElevenLabs arbeitet mit einem Prepaid-Modell:
- Startguthaben: z.b. 10€ aufgeladen
- Preis: ca. 0,10€ pro 1.000 Zeichen
- Verbrauch: Je nach Nutzung hält das Guthaben Wochen bis Monate
Für gelegentliche Sprachnachrichten oder Automatisierungen ist das völlig ausreichend. Die Qualität rechtfertigt den minimalen Preis – besonders im Vergleich zu kostenlosen Alternativen, die oft kaum verständlich sind.
🔧 Fallback: Lokales Piper TTS
Für den Fall, dass die ElevenLabs-API mal nicht erreichbar ist oder die Credits aufgebraucht sind, bleibt Piper TTS als lokale Alternative aktiv. Diese läuft komplett offline auf dem eigenen Server – mit der Thorsten-Stimme für deutsche Texte.
Die Kombination aus beidem bietet maximale Zuverlässigkeit: ElevenLabs für Qualität, Piper als Backup für Unabhängigkeit.
🌟 Weitere Stimmen verfügbar
ElevenLabs bietet nicht nur eigene geklonte Stimmen, sondern auch eine Bibliothek bekannter Stimmen – darunter auch prominente Persönlichkeiten (wo lizenziert verfügbar). Die Auswahl reicht von professionellen Sprechern bis zu charakteristischen Stimmen für besondere Anwendungsfälle.
📝 Fazit
Der Umstieg auf ElevenLabs ist für mich ein deutlicher Qualitätssprung. Die Sprachausgabe wirkt nun menschlich statt maschinell, die Stimme passt zum Kontext, und das Hörerlebnis ist um Welten angenehmer. Für alle, die ernsthaft mit TTS arbeiten wollen, ist die Investition von wenigen Cent pro Nachricht absolut gerechtfertigt.
Technische Details:
- Modell: eleven_turbo_v2_5 (optimiert für niedrige Latenz)
- Voice ID: Eure gewünschte oder eigene geklonte Stimme
- Speed: 0.8 (optimal für Verständlichkeit)
- Fallback: Piper TTS mit Thorsten-Stimme (lokal)
GitHub: github.com/James-Butler2026/openclaw-skills/tree/main/elevenlabs-tts