Algorithmen des Fraunhofer IDMT in Oldenburg geben Handlungsempfehlungen durch eine objektive Bewertung der Höranstrengung in Echtzeit. RTW hat die Technologie integriert.

In Film-, Fernseh-, Streaming- oder Live-Produktionen ist die Gewährleistung guter Sprachverständlichkeit eine der größten Herausforderungen von professionellen Tonschaffenden. Algorithmen des Fraunhofer IDMT in Oldenburg geben Handlungsempfehlungen durch eine objektive Bewertung der Höranstrengung in Echtzeit. In enger Zusammenarbeit und nach langjähriger Forschungskooperation integrierte RTW die Technologien nun in seine hardwarebasierte Audiomessplattform.

Unklare Dialoge in einer Fernsehserie, zu laute Hintergrundmusik im Reality TV oder ein durch Zuschauerjubel überlagertes Sport-Interview können das Medienerlebnis von Zuschauenden schmälern. Zur Überprüfung von Pegeln und Lautstärke kommen technische Messgeräte während der Produktion von Medien zum Einsatz. Eine objektive Messung der Verständlichkeit von Sprache muss sich erst noch etablieren. Sie würde Arbeitsprozesse erleichtern, denn Tonschaffende hören Audiomischungen so oft, dass Gewöhnungseffekte leicht zu einer Fehleinschätzung der Verständlichkeit führen können.

Der Oldenburger Institutsteil Hör-, Sprach- und Audiotechnologie HSA des Fraunhofer IDMT hat in den vergangenen Jahren Technologien für eine objektive Bewertungsgrundlage von Sprachverständlichkeit entwickelt.

»Speech Intelligibility Meter« für Profi-Hardware

Im September präsentierte das Unternehmen RTW das »Speech Intelligibility Meter« und dessen Integration in das hardwarebasierte Messgerät TMxCore als optionale Software. Produktionsprofis aus den Bereichen Rundfunk, Fernsehen und Streaming sollen mit diesem Werkzeug sicherstellen können, dass Dialoge objektiv bewertet werden und gleichbleibend klar für das Publikum verständlich sind. »Unsere Zukunftsvision ist es, gemeinsam mit anderen Branchenakteuren, wie dem Fraunhofer IDMT, internationale Empfehlungen zur Messung und Wahrung von Sprachverständlichkeit in Medienproduktionen zu formulieren. Das Speech Intelligibility Meter kann als Ausgangspunkt für diese Bemühungen dienen«, sagt Thomas Valter, Director of Product Management & Marketing bei RTW.

Kooperation als Fundament für besonders robuste Technologien

Die Kooperation des Fraunhofer IDMT mit RTW begann bereits vor neun Jahren. In den Projekten »SI4B« (Speech Intelligibility for Broadcasting)1 und »SITA« (Speech Intelligibility Transformation & Autocorrection) verfolgte man gemeinsam das Ziel, Sprache im Broadcast-Bereich besser verständlich zu machen. Die Partner fokussierten insbesondere die Entwicklung und Evaluation von Algorithmen zur automatischen Bewertung und Korrektur von Sprachverständlichkeit.

»Durch die Zusammenarbeit in Forschungsprojekten haben wir bereits frühzeitig tiefe Einblicke in die Produktion von Medien im Broadcastbereich erhalten. Dadurch konnten wir in den letzten Jahren an Technologien arbeiten, die nicht nur die Bedürfnisse der Zuschauenden berücksichtigen, sondern auch die konkreten Herausforderungen von Tonschaffenden adressieren«, erklärt Prof. Dr. Jan Rennies-Hochmuth, Gruppenleiter Persönliche Hörsysteme am Fraunhofer IDMT.

KI misst die Höranstrengung in Echtzeit

Im Rahmen der Entwicklung arbeiteten die Forschenden mit Branchenexperten zusammen. Die Sprachverständlichkeitsmessung wurde bereits in die Postproduktionssoftware Nuendo von Steinberg Media Technologies integriert sowie als Plug-in von Nugen Audio realisiert. Technisch basiert die Messung auf einer Kombination aus automatischer Spracherkennung und psychoakustischer Modellierung, und hat in den vergangenen Jahren viele Evaluationstests durchlaufen. Über die einfache Messung der Sprachverständlichkeit sind noch weitere Funktionalitäten denkbar, wie zum Beispiel das automatische Markieren kritischer Bereiche direkt in der Timeline oder eine automatisierte Verbesserung der Sprachverständlichkeit.