Wie es mit der Stimme aus der Konserve weitergeht

An die Verlagsetage

Wie es mit der Stimme aus der Konserve weitergeht

Wir müssen reden. Übers Hören.

Von Olivier Baumann und Patrick Venetz, 04.05.2022

Teilen 215 Beiträge215

Synthetische Stimme

0:00 / 4:24

Journalismus, der Ihnen hilft, Entscheidungen zu treffen. Und der das Gemeinsame stärkt: die Freiheit, den Rechtsstaat, die Demokratie. Lernen Sie uns jetzt 21 Tage lang kostenlos und unverbindlich kennen:

Eine synthetische Stimme liest seit Anfang April jeden unserer Texte ein.

Die Hoffnung: Die Republik wird so zugänglicher. Zum Beispiel für Menschen, die Mühe haben, längere Zeit am Bildschirm zu lesen. Oder für Menschen, die wenig Zeit zum Lesen haben, aber etwas mehr Zeit zum Hören – beim Spazierengehen, Wäschefalten oder Autofahren.

Das Ziel: Die Stimme aus der Konserve soll nützlich sein. Kein Genuss – sondern zweckmässig. Dosenpelati sozusagen. Kein Ersatz für frische Tomaten, für eine gute Sugo aber völlig ausreichend.

Wir baten Sie um schonungsloses Feedback, und Sie haben geliefert – danke dafür. Wie zahlreich und überwiegend positiv die Rückmeldungen ausfielen, hat uns überrascht. Gefreut hat uns, wie viele Stimmen darunter waren, die unsere Hoffnungen punkto Zugänglichkeit bestätigten.

Lädt…

vor 2 y

Superidee! Leide seit 6 Wochen unter einer Gehirnerschütterung und kann nicht lange lesen, endlich kann ich die Republik wieder mitverfolgen. Unbedingt beibehalten!

Beitrag in «Sie hören diesen Beitrag mithilfe einer synthetischen Stimme»

Lädt…

vor 2 y

Als Vater eines Kleinkindes bin ich froh, um alles was sich anhören lässt. Überraschend angenehme Stimme. Unfreiwillige Situationskomik gehört bei solchen Tools natürlich immer ein Stück weit dazu. […]

Beitrag in «Sie hören diesen Beitrag mithilfe einer synthetischen Stimme»

Auch die Nutzungsdaten weisen darauf hin, dass das Feature bereits nach vier Wochen für Hunderte von Verlegerinnen zu einer zusätzlichen Art geworden ist, die Republik zu nutzen.

Die Konsequenz daraus ist klar: Die synthetische Stimme bleibt. Wir möchten sie aber weiterentwickeln. Die Weiterentwicklung lässt sich grob in zwei Kategorien teilen.

1. Die Stimmsynthese

Zusammengefasst ist das Verdikt zur Stimme: «gut genug». Ganz zufrieden sind wir aber noch nicht, denn jeder Stolperer, jede unfreiwillige Komik und jede holprige Aussprache hat das Potenzial, Hörer aus dem Text zu werfen. Und da gibt es noch ein paar hörbare Widrigkeiten zu beseitigen.

Dazu gehört die oft fehlerhafte Aussprache von Begriffen in Fremdsprachen. Auch das in der Schweiz fehlende Eszett bereitet der synthetischen Stimme Mühe – so ergibt sich die richtige Aussprache von «Busse» oder «Masse» einzig aus dem Kontext.

Zwar können wir teilweise eingreifen: Uns steht zur Korrektur ein phonetisches Alphabet zur Verfügung. Allerdings kann die von uns ausgewählte Stimme nicht alle Laute wiedergeben und aus «Millennials» wird notgedrungen «Mieleniells», aus «Gilets-jaunes-Proteste» halt «Schileh-schohn-Proteste».

Deswegen sind wir auf der Suche nach Lösungen, um zu verhindern, dass wir manuell für jeden Begriff die Aussprache diktieren müssen. Denkbar ist auch, dass der Anbieter unserer Sprachsynthese selbst in Zukunft eine mehrsprachige Stimme anbietet. Aber es wird wohl noch eine Weile dauern, bis das so weit ist.

Ich möchte es genauer wissen: Woher kommt die Republik-Stimme?

Die Stimme, die wir für die Sprachsynthese verwenden, stammt aus dem Katalog von Microsofts «Text to speech». Die Stimme von Microsoft ist unserer Meinung nach anderen Anbietern derzeit hörbar überlegen. Beim Publizieren eines Republik-Beitrags wird der Text bereinigt und an einen Azure-Server geschickt, der die Sprachsynthese durchführt und uns innerhalb weniger Minuten ein Audiofile zurückgibt. Korrekturen und Änderungen lösen jeweils eine neue Synthese aus, sodass Text und Stimme immer auf dem gleichen Stand sind. Vorgelesen wird gegenwärtig nur der Fliesstext. Elemente wie Infoboxen, Grafiken und Bilder werden nicht zur Sprachsynthese übermittelt. Das wollen wir in Zukunft verbessern, sodass Sie beim Hören keine wichtigen Informationen verpassen.

2. Bedienung und Komfort

Die Stimmsynthese ist das eine, ihre Nützlichkeit ergibt sich aber erst im Zusammenspiel mit der Bedienung und der Integration in die Republik-App. Folgende Verbesserungen möchten wir diesen Sommer umsetzen:

Die Abspielgeschwindigkeiten sollen feingliedriger eingestellt werden können.

Lese- und Hörposition sollen zusammengeschaltet werden. So können Sie einen Teil des Beitrags lesen und danach nahtlos zur gesprochenen Version wechseln.

Der Audioplayer soll um eine Wiedergabeliste ergänzt werden, zu der Sie Beiträge, die Sie hören möchten, hinzufügen und die Sie nahtlos nacheinander abspielen können.

In fernerer Zukunft ist zudem denkbar, dass wir einen RSS-Feed anbieten, mit dem Sie die vorgelesenen Beiträge in Ihrer bevorzugten Podcast-App hören können. Ausserdem soll das ganze Republik-Archiv hörbar werden.

Und wenn Sie gerne Republik-Beiträge hören, Ihnen die synthetische Stimme aber noch nicht gut genug ist, dann dürfen Sie sich über das wiederbelebte Format «Vorgelesen» freuen. Gleichzeitig mit der Einführung der synthetischen Stimme haben wir nämlich begonnen, jede Woche mindestens einen Beitrag von einer echten Stimme vorlesen zu lassen.

So viel zu unseren Plänen. Wir sind auch weiterhin froh um Rückmeldungen, wenn unsere synthetische Stimme unfreiwillig komisch war oder Worte seltsam ausspricht: Hier sammeln wir ab sofort Feedback zur synthetischen Stimme.

Wir hören uns.

Wie es mit der Stimme aus der Konserve weitergeht

1. Die Stimm­synthese

2. Bedienung und Komfort

1. Die Stimmsynthese