Ja, den Computer sprechen lassen, ist nicht unbedingt so einfach.
Es gibt verschiedene Optionen, wie von Google Preis pro Minute Preis pro Zeichen, Amazon Preis, IBM, allerdings möchte ich hier hauptsächlich auf Kostenlose Lokale Lösungen eingehen und einen Dienst für euch bereitstellen.
In meinem Fall habe ich mich für Coqui TTS entschieden, welches auf dem Mozilla TTS basiert und gute Ergebnisse liefert und zu dem einige gute Modelle in Deutsch bietet.
Wovon eines der besten von Thorsten Voice stammt, welcher auf YouTube auch erklärt in Englisch und manchmal auch Deutsch wie man diese Modelle trainiert und welcher Aufwand dahinter steckt.
Ich habe natürlich auch weitere TTS Software wie Mimic 3 versucht und auch nicht Neuronale Software, allerdings hatte Mimic 3 für mich zu viele hörbare Artefakte, aber dafür wird der Text schnell generiert.
Und die Software ohne Maschinenlernen hat sich Robotisch angehört, braucht dafür natürlich weniger Leistung.
Also wenn es um Qualität geht, wäre Coqui TTS eine gute Wahl, wenn es bessere TSS Modelle gibt, die Lokal ausgeführt werden können, könnt ihr das aber gerne in die Kommentare schreiben.
Momentan gibt es aber mit dem tacotron2-DDC Model Probleme bei Sätzen mit wenig Kommas und Punkten oder unbekannten Wörtern.
Deshalb habe ich schon den Model Entwickler Kontaktiert, vielleicht kann er mir sagen ob ich da noch etwas verbessern kann.
Aus dem Grund könnte es sein ich nutze das Vits Model, was nicht so hübsch klingt.
Wer das TTS lokal auf seinem PC nutzen will, kann das einfach per Docker, beide TTS Modelle können auch leicht mit beispielsweise Python genutzt werden.
Allerdings muss ich bei der Weboberfläche hinweisen, die API sollte nicht direkt für Nutzer zugänglich gemacht werden. Ihr solltet diese API am besten mit PHP oder NodeJS beschränken und weiterleiten und alle Verbindungen, die nicht von eurem Server kommen verwerfen.
Am besten wäre aber natürlich das Erstellen einer eigenen API, die dann nur die Befehle für euch ausführt.
Sie sind aber noch nicht so gut von der Qualität wie die großen, besonders im Deutschen fehlen noch einige Stimmen.
Dennoch ist es beeindruckend welche Qualität diese Projekte erreicht haben und wie viel Arbeit in diese TTS Modele und Software gesteckt wurden.
Wie oben Gesagt, will ich auch einen Dienst für euch Anbieten, mit welchem ihr eure Beiträge in Sprache umwandeln könnt.
Dieser Dienst wird wahrscheinlich Werbefinanziert und ob sich das lohnt, naja wahrscheinlich sind die Stromkosten höher.
Aber falls es jemanden motiviert sich mal mit den kostenlosen TTS Alternativen auseinanderzusetzen, wäre das schon toll.
Eine WebAssembly Version, da Javascript langsam wäre, wäre natürlich auch schön und würde das ganze noch leichter machen und vielleicht für mehr Verbreitung sorgen und ja meinen Server entlasten.
Link zum Dienst:
https://heldendesbildschirms.de/tts/