Editing, Test, Top-Story: 23.08.2021

Ausprobiert: Sprache zu Text und Untertitel

Premiere Pro bietet in der neuesten Version mit Sprache zu Text und dem neuen Untertitel-Workflow zwei hilfreiche Tools. film-tv-video.de hat sie ausprobiert.




Praxis
Transkription und Dialekt

film-tv-video.de nutzt die Sprache zu Text-Transkription nun bereits seit einigen Monaten. Teilweise gab es Clips, bei denen es inhaltlich nahezu nichts zu korrigieren gab. Die Videoreports mit Thomas Riedel transkribierte Adobe gut. Schwierigkeiten gab es bei seinen Passagen lediglich bei Fachbegriffen oder auch bei Firmennamen.

Videobeispiel Thomas Riedel, unbearbeitete Untertitel so eingebrannt, wie sie die Transkription liefert.

Sprechen Personen sehr schnell oder mit leichter Färbung, tut sich die KI etwas schwerer und kreiert auch mal seltsame Wortschöpfungen. In der Regel passiert das dann, wenn die Sprechenden eben auch mal eine Silbe verschlucken, sehr schnell sprechen oder kaum Pausen lassen.

Beim DIY-Video mit unserem Autor Sas Kaykha etwa kam die Software bei der Transkription ganz gut mit, stolperte aber bisweilen über Fachbegriffe oder Wörter mit verschluckten Silben.

Videobeispiel Sas Kaykha, unbearbeitete Untertitel so eingebrannt, wie sie die Transkription liefert.

Wird langsam und vor allem deutlich gesprochen, funktioniert die KI erstaunlich gut. Fachbegriffe, Firmen- oder Produktnamen sind aber auch dann schwierig, wenn sie langsam und deutlich ausgesprochen werden. In einem Clip über eine Varicam-Produktion in Hamburg machte die KI aus Varicam auch mal kurzerhand Wahlnacht.

Videobeispiel Varicam-Produktion, unbearbeitete Untertitel so eingebrannt, wie sie die Transkription liefert.

Bei starkem Dialekt geht es der KI so, wie auch vielen Menschen aus anderen Sprachräumen: Sie versteht dann nur wenig und liefert »Übersetzungen«, die eher Unterhaltungswert haben. Schweizerdeutsch etwa ist eine große Herausforderung und auch tiefstes Schwäbisch oder Alemannisch brachten die Software an ihre Grenzen.

Eine andere Erkenntnis: Beim Thema Groß- und Kleinschreibung und Zeichensetzung muss man meist noch etwas nacharbeiten – hier gibt es eigentlich den größten Korrekturbedarf. Teilweise erscheinen in der Transkription auch zwei Wörter, wo es sich eigentlich um ein zusammengesetztes Hauptwort handelt: die »Zuschauer Resonanz«, der »Versuchs Ballon« etc. Solche Begriffe muss man zwar nicht korrigieren, um sie verständlicher zu machen, aber wer Wert auf Rechtschreibung legt, tut es dann deshalb.

Arbeit mit langen Interview-Files
Blick aufs rohe Transkript.

Transkripte längerer Interviews als Textfile zu speichern, um dann anhand dieser Textdateien das Videomaterial inhaltlich vorab für einen späteren Schnitt besser zu strukturieren, funktioniert nur bedingt. Sprechen die Personen im Video sehr gutes Schriftdeutsch, kann es gelingen, denn dann kann man davon ausgehen, dass auch die Transkription sehr gut ausfällt.

Spricht eine Person hingegen Dialekt oder mit leichter Sprachfärbung, können im Transkript auch eher mal Fehler auftauchen, die man nicht dechiffrieren kann. Dann muss man doch wieder in den Clip reinhören, um das Rätsel zu lösen – sprich man tut das, was man sich eigentlich sparen wollte. Insofern funktioniert dieser Workflow nur eingeschränkt.

Alter vs. neuer Rechner

Natürlich bringt ein neuer Rechner immer mehr Leistung, und natürlich schwächelt ein alter Rechner viel eher. Interessanterweise funktionierten Sprache zu Text und auch der Untertitel-Workflow aber selbst auf einem fünf Jahre alten Macbook vergleichsweise gut.

Für die Transkription benötigt man einen Internetzugang.

Ein neuer Mac Mini mit M1-Prozessor absolvierte die Transkription zwar einen Tick schneller, aber nicht so viel schneller wie zunächst erwartet. Das hat aber einen einfachen Grund, denn der Großteil des Processings findet bei Sprache-zu-Text in der Cloud statt – insofern spielt die Processing-Power des eingesetzten Rechners keine große Rolle. Um ein paar grobe Zahlen zu nennen: Ein 13 min 23 sec-Clip benötigte auf dem Macbook 3:50 für die Transkription, während der MacMini in 3:20 fertig war.

Resümee

Das Sprache zu Text-Modul ist für die Arbeit von film-tv-video.de eine echte Bereicherung. In nur wenigen Minuten eine ordentliche Transkription einer längeren Audioaufnahme oder eines Videoclips zu erhalten, beschleunigt Abläufe, die zuvor sehr lange dauerten, ganz erheblich. Wer schon mal stundenlang irgendwelche Aufzeichnungen abtippen oder abhören musste, der weiß, was wir meinen.

Natürlich funktioniert das nicht mit jedem Interview gleich gut, es geht mal besser und mal schlechter. Aber immer nimmt Sprache zu Text der Redaktion einen unliebsamen Job ab, der auch gerne mal liegenbleibt. Plötzlich wird wahr, was man nur vom Hörensagen kennt: es bleibt tatsächlich endlich mehr Zeit für die inhaltliche Arbeit.

Wenn man so ein tolles Tool an die Hand bekommt, wird man allerdings auch gierig. Überprüft man etwa die Untertitel nochmals, die man zuvor auf so bequeme Art und Weise generieren konnte, hat man plötzlich keine Lust mehr, Groß-/Kleinschreibung zu korrigieren oder mal ein Komma oder ein Fragezeichen korrekt zu platzieren. Das könnte die KI doch auch gleich noch machen, denkt man sich … Doch eine kurze Rückbesinnung reicht, um sich zu vergegenwärtigen: Sprache zu Text und das Untertitel-Menü sind tolle Werkzeuge, die tatsächlich viel Zeit sparen. Und das Beste daran: Man muss für diesen Service nicht mal einen Aufpreis zahlen.

Seite 1: Einleitung, Transkription
Seite 2: Untertitel
Seite 3: Praxis
Seite 4: Feedback geben/Kurzinterview A. Knoblach

Nützliche Links

Untertitel-Arbeitsablauf in Premiere Pro

User Voice

Premiere Pro Support Community

Premiere Pro Tutorials

Landingpage Creative Cloud Video

Neue Funktionen in Premiere Pro (Version Juli 2021)

Keine Infos mehr verpassen und einfach den Newsletter abonnieren: