An die Verlagsetage

Wie es mit der Stimme aus der Konserve weitergeht

Wir müssen reden. Übers Hören.

Von Olivier Baumann und Patrick Venetz, 04.05.2022

Journalismus kostet. Dass Sie diesen Beitrag trotzdem lesen können, verdanken Sie den über 28'000 Leserinnen, die die Republik schon finanzieren. Wenn auch Sie unabhängigen Journalismus möglich machen wollen: Kommen Sie an Bord!

Eine synthetische Stimme liest seit Anfang April jeden unserer Texte ein.

Die Hoffnung: Die Republik wird so zugänglicher. Zum Beispiel für Menschen, die Mühe haben, längere Zeit am Bildschirm zu lesen. Oder für Menschen, die wenig Zeit zum Lesen haben, aber etwas mehr Zeit zum Hören – beim Spazieren­gehen, Wäsche­falten oder Autofahren.

Das Ziel: Die Stimme aus der Konserve soll nützlich sein. Kein Genuss – sondern zweckmässig. Dosen­pelati sozusagen. Kein Ersatz für frische Tomaten, für eine gute Sugo aber völlig ausreichend.

Wir baten Sie um schonungs­loses Feedback, und Sie haben geliefert – danke dafür. Wie zahlreich und überwiegend positiv die Rückmeldungen ausfielen, hat uns überrascht. Gefreut hat uns, wie viele Stimmen darunter waren, die unsere Hoffnungen punkto Zugänglichkeit bestätigten.

Auch die Nutzungs­daten weisen darauf hin, dass das Feature bereits nach vier Wochen für Hunderte von Verlegerinnen zu einer zusätzlichen Art geworden ist, die Republik zu nutzen.

Die Konsequenz daraus ist klar: Die synthetische Stimme bleibt. Wir möchten sie aber weiter­entwickeln. Die Weiter­entwicklung lässt sich grob in zwei Kategorien teilen.

1. Die Stimm­synthese

Zusammengefasst ist das Verdikt zur Stimme: «gut genug». Ganz zufrieden sind wir aber noch nicht, denn jeder Stolperer, jede unfreiwillige Komik und jede holprige Aussprache hat das Potenzial, Hörer aus dem Text zu werfen. Und da gibt es noch ein paar hörbare Widrigkeiten zu beseitigen.

Dazu gehört die oft fehlerhafte Aussprache von Begriffen in Fremd­sprachen. Auch das in der Schweiz fehlende Eszett bereitet der synthetischen Stimme Mühe – so ergibt sich die richtige Aussprache von «Busse» oder «Masse» einzig aus dem Kontext.

Zwar können wir teilweise eingreifen: Uns steht zur Korrektur ein phonetisches Alphabet zur Verfügung. Allerdings kann die von uns ausgewählte Stimme nicht alle Laute wiedergeben und aus «Millennials» wird notgedrungen «Mieleniells», aus «Gilets-jaunes-Proteste» halt «Schileh-schohn-Proteste».

Deswegen sind wir auf der Suche nach Lösungen, um zu verhindern, dass wir manuell für jeden Begriff die Aussprache diktieren müssen. Denkbar ist auch, dass der Anbieter unserer Sprach­synthese selbst in Zukunft eine mehrsprachige Stimme anbietet. Aber es wird wohl noch eine Weile dauern, bis das so weit ist.

Ich möchte es genauer wissen: Woher kommt die Republik-Stimme?

Die Stimme, die wir für die Sprach­synthese verwenden, stammt aus dem Katalog von Microsofts «Text to speech». Die Stimme von Microsoft ist unserer Meinung nach anderen Anbietern derzeit hörbar überlegen. Beim Publizieren eines Republik-Beitrags wird der Text bereinigt und an einen Azure-Server geschickt, der die Sprach­synthese durchführt und uns innerhalb weniger Minuten ein Audiofile zurückgibt. Korrekturen und Änderungen lösen jeweils eine neue Synthese aus, sodass Text und Stimme immer auf dem gleichen Stand sind. Vorgelesen wird gegenwärtig nur der Fliesstext. Elemente wie Infoboxen, Grafiken und Bilder werden nicht zur Sprach­synthese übermittelt. Das wollen wir in Zukunft verbessern, sodass Sie beim Hören keine wichtigen Informationen verpassen.

2. Bedienung und Komfort

Die Stimm­synthese ist das eine, ihre Nützlichkeit ergibt sich aber erst im Zusammen­spiel mit der Bedienung und der Integration in die Republik-App. Folgende Verbesserungen möchten wir diesen Sommer umsetzen:

  • Die Abspiel­geschwindigkeiten sollen feingliedriger eingestellt werden können.

  • Lese- und Hörposition sollen zusammen­geschaltet werden. So können Sie einen Teil des Beitrags lesen und danach nahtlos zur gesprochenen Version wechseln.

  • Der Audioplayer soll um eine Wiedergabe­liste ergänzt werden, zu der Sie Beiträge, die Sie hören möchten, hinzufügen und die Sie nahtlos nacheinander abspielen können.

In fernerer Zukunft ist zudem denkbar, dass wir einen RSS-Feed anbieten, mit dem Sie die vorgelesenen Beiträge in Ihrer bevorzugten Podcast-App hören können. Ausserdem soll das ganze Republik-Archiv hörbar werden.

Und wenn Sie gerne Republik-Beiträge hören, Ihnen die synthetische Stimme aber noch nicht gut genug ist, dann dürfen Sie sich über das wieder­belebte Format «Vorgelesen» freuen. Gleichzeitig mit der Einführung der synthetischen Stimme haben wir nämlich begonnen, jede Woche mindestens einen Beitrag von einer echten Stimme vorlesen zu lassen.

So viel zu unseren Plänen. Wir sind auch weiterhin froh um Rückmeldungen, wenn unsere synthetische Stimme unfreiwillig komisch war oder Worte seltsam ausspricht: Hier sammeln wir ab sofort Feedback zur synthetischen Stimme.

Wir hören uns.

Wenn Sie weiterhin unabhängigen Journalismus wie diesen lesen wollen, handeln Sie jetzt: Kommen Sie an Bord!

seit 2018

Republik AG
Sihlhallenstrasse 1
8004 Zürich
Schweiz

kontakt@republik.ch
Medieninformationen

Der Republik Code ist Open Source