TTS-Systeme klingen immer „menschlicher“: https://google.github.io/tacotron/publications/tacotron2/index.html
Woran kann man erkennen, dass kein Mensch spricht? Bei Zungenbrechern zum Beispiel – das bekommt ein Mensch kaum so schnell hin – und das fröhliche Lachen beim Verhaspeln fehlt:
“Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?” |
An den Vergleichen ganz unten auf der oben angegebenen Seite hört man schon heraus, was von einem Menschen gesprochen wurde, was nicht. Aber warum?