TTS-Systeme – Ansichtssache

TTS-Systeme klingen immer „menschlicher“: https://google.github.io/tacotron/publications/tacotron2/index.html

Woran kann man erkennen, dass kein Mensch spricht? Bei Zungenbrechern zum Beispiel – das bekommt ein Mensch kaum so schnell hin – und das fröhliche Lachen beim Verhaspeln fehlt:

“Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?”

An den Vergleichen ganz unten auf der oben angegebenen Seite hört man schon heraus, was von einem Menschen gesprochen wurde, was nicht. Aber warum?

https://www.wolfgangfenske.de/impressum-datenschutz.html

Schreibe einen Kommentar Antwort abbrechen