Home » KI in der Postproduktion – ein Erfahrungsbericht

Technology

KI in der Postproduktion – ein Erfahrungsbericht

Welche KI-Tools kann man in der Postproduktion jetzt schon nutzen? 

15.06.2023

Audio

Ein sehr gutes Beispiel für KI in diversen Belangen ist die Audiobereinigung.

Screenshot, DaVinci Resolve, Voice Isolation, © Sas Kaykha

Schon früh in DaVinci Resolve implementiert: das Tool »Voice Isolation«.

Blackmagic etwa hat ja schon sehr früh angefangen, KI in diesem Bereich in DaVinci Resolve einzubauen. So war unter anderem relativ früh schon das Tool »Voice Isolation« implementiert.

Dieses Tool isoliert eine Stimme und entfernt Hintergrundgeräusche wie Rauschen und alles andere Unliebsame aus der Tonspur.

Screenshot, Audition, Rauschfilter, © Sas Kaykha

Am besten funktioniert die Rauschreduktion, wenn man eine Audiostelle hat, an der nur das Rauschen zu hören ist.

Um diese KI-Funktion zu verstehen, vergleichen wir sie einfach mal mit bisherigen Rauschreduktionsfunktionen. Am besten funktioniert das, wenn man eine Audiostelle hat, an der nur das Rauschen zu hören ist.

Audition filtert dann dieses Rauschen aus den Frequenzen der ganzen Audiospur heraus.

Ist Adobe Audition das Werkzeug der Wahl, dann markiert man das Rauschen und erstellt damit ein Rauschmuster. Audition filtert dann dieses Rauschen aus den Frequenzen der ganzen Audiospur heraus.

Voice Isolation in DaVinci Resolve.

KI-Funktionen, die in diesem Bereich arbeiten, können hingegen genau andersherum vorgehen: Durch Deep Learning wissen und schlussfolgern sie, wie sich verschiedene menschliche Stimmen anhören. Also isolieren sie nur die Stimme und werfen alles andere raus. Damit werden auf einen Schlag nicht nur das Rauschen, sondern auch Vogelgezwitscher, Verkehrslärm und vieles weitere eliminiert. So wird dann etwa auch der Nachhall drastisch reduziert. Es gibt dabei dann nur einen ganz einfachen Schieberegler, mit dem man die Stärke der Isolation ändern kann, um sich somit doch noch etwas von den Hintergrundgeräuschen zu bewahren, damit das nicht zu steril und unrealistisch klingt.

Meine Bewertung: Die KI in DaVinci Resolve funktioniert in puncto Stimmisolation schon ganz gut, man sollte aber auch keine Wunder erwarten.

Das gilt meiner Erfahrung nach letztlich bei allen KI-Hilfen: Hinterher akribisch kontrollieren, reinhören — und entsprechend bei Videofunktionen auch mal Einzelbilder anschauen und reinzoomen.

Das Plug-In EchoRemover von CrumblePop.

Zurück zum Ton: Mit Hall kommt etwa auch das Plug-In EchoRemover von CrumblePop zurecht. Ich verwende es in Premiere. Man kann hier die Stärke einstellen, verschiedene Parameter auswählen, um das Ergebnis zu verbessern, die Lautstärke zu pegeln, und man kann sich Presets speichern. CrumblePop ist im monatlichen Abo verfügbar, man kann es also auch projektbezogen nutzen.

Hier stellt sich eine Frage: Ist CrumblePop jetzt schon ein KI-Tool, oder ist es nur ein gut programmierter Filter?

In Wahrheit ist das für den Anwender letztlich schwer zu beurteilen. Hier kommt man in einen Grenzbereich, wo die meisten wohl pragmatisch agieren werden: Wenn es funktioniert, werde ich es nutzen, wenn nicht, dann eben nicht. Ist es eine KI? Who cares?

Audo Studio Online.

Außerdem gibt es noch einige andere Online-KIs, bei denen man seine Audio-Files hochladen kann, um sie dort bereinigen zu lassen. So habe ich schon gute Erfahrungen mit Audo Studio Online gemacht, das kostenlos genutzt werden kann.

Um auf die anfangs erwähnte Aktualität von Artikeln über KI zurückzukommen – ich könnte jetzt natürlich die genannten oder andere Tools beschreiben oder empfehlen… Das kann ich mir aber sparen, denn Adobe hat inzwischen mit Adobe Podcast schon wieder mal alles auf den Kopf gestellt.

Auf Adobe Podcast kommt man über »Quick Tools« auf »Enhanced Speech«.

Hier lädt man seine Audio-Files mit maximal einer Stunde Länge hoch, um sie dann online bearbeiten zu lassen. Auf dieser Seite kommt man über »Quick Tools« auf »Enhanced Speech«. Man muss lediglich einen Account bei Adobe besitzen.

Ich habe dazu ein einfaches Praxisbeispiel: Für einen Webcast musste ich mehrere Stunden an Material schneiden und aufhübschen. Da war von Material von einer FX7 über PTZ-Kameras bis hin zu (live) Messenger-Aufnahmen vom Laptop — auch mit dementsprechend schlechter Sound-Qualität — einfach alles dabei.

Ich habe einfach nach dem Schnitt jeweils die komplette Audiospur exportiert, in Adobe Podcast hochgeladen und mich dann entspannt zurückgelehnt. Was ich dann zu hören bekam, hat bei mir seit langem mal wieder einen »Oha«-Effekt hervorgerufen. Jedes Gespräch, das auch nur ansatzweise mit einem einigermaßen guten Mikrofon aufgenommen wurde, hatte eine unglaublich gute Qualität. Und selbst viele der Messenger-Live-Aufnahmen mit den typischen digitalen Störgeräuschen waren durchaus brauchbar.

Aber auch hier kommt die weiter oben erwähnte Kontrolle wieder ins Spiel: Überlappen sich Stimmen oder sind die Störgeräusche zu heftig, kommt auch Adobes Podcast an seine Grenzen. Interessant ist der Umgang mit Hall bei Podcast. Er wird nicht komplett eliminiert, sondern auf ein Maß heruntergefahren, das natürlich und nicht störend wirkt. Will man den Hall ganz entfernen, ist CrumblePop eine gute Hilfe.

Hier habe ich im Vorfeld dann alles dafür getan, um ein möglichst verständliches Ausgangsmaterial zu haben. Dies beinhaltete unter anderem, möglichst alles gleichmäßig auszupegeln und manchmal auch manuell über Keyframes nachzuhelfen. Das bereinigte Audio habe ich dann als WAV heruntergeladen und einfach über die originale Audiospur gelegt. So kann man bei Bedarf das unbereinigte Audio noch etwas durchschimmern lassen, um Atmosphäre zu schaffen.

Gerade was Tonoptimierung angeht, bin ich voll von KI-Funktionalität überzeugt. Werde ich also jetzt nur noch mein iPhone verwenden, um Ton aufzunehmen? Mitnichten: Ein von vornherein besserer Ton ist in jedem Fall noch besser und verursacht weniger Arbeit. Aber KIs sind hier eben mein Airbag.

Ich denke, jeder, der selbst Videos produziert, hatte schon mal Videos zu bearbeiten, bei denen der Ton einfach nicht gut war, hallte oder irgendetwas im Hintergrund störte. Bei solchen Problemfällen führt zumindest im Audiobereich mittlerweile mein erster Weg zur Künstlichen Intelligenz, wenn es schnell und (fast) gut sein soll.

Bevor ich nun den Audio-Abschnitt mit Speech-to-Text abschließe, möchte ich noch kurz auf Text-to-Speech eingehen.

Da KIs zumindest auf Stufe 2 noch nichts von Emotionen verstehen, wird dies allerdings relativ kurz: Eine menschliche Sprecherin oder ein Sprecher ist aus meiner Sicht unersetzbar.

Für Spielereien oder quick und dirty Instagram-Videos könnte man eventuell mal darüber nachdenken. Hier ein eigenes Beispiel. Bei diesem Video wurden Sprechertext, Hashtags und Beschreibung bei Instagram rein per KI erledigt.

Eine Online-Service für Text-to-Speech: PlayHT.

Die Seite PlayHT bietet diverse Text-to-Voice-Generatoren und kann auch deutsch (Beispiel). Einige der deutschen Stimmen klingen sogar ganz passabel, einige englischsprachige Stimmen sind sogar recht gut. Man kann hier 5.000 Wörter im Monat unkommerziell nutzen. Ganz praktisch, um mal herumzuspielen. So fragwürdige Dinge wie Voice-Cloning kann man dort übrigens ebenfalls ausprobieren.

Was 2017 noch separate Produkte waren, gibt es heute schon als Teilaspekt von Premiere und DaVinci Resolve.

In der anderen Richtung zu arbeiten, also Speech-to-Text mit KI-Unterstützung zu nutzen, das bieten derzeit schon DaVinci Resolve und Premiere an.

Text-based Editing von Adobe bei der NAB2023.

Das Transkribieren von Text gibt es zumindest bei Adobe ja schon länger, mit Künstlicher Intelligenz ist die ganze Sache jetzt endlich auch wirklich praktisch und gut nutzbar. Ein Video zu transkribieren, bringt mehrere Vorteile mit sich: Ich kann automatische Untertitel erstellen, bei denen zudem auch automatisch »Ähs« und Ähnliches weggeschnitten werden. Diese können in die Untertitelspur gelegt oder als Datei für Youtube exportiert werden.

Interviews lassen sich jetzt auch einfach am Text orientiert schneiden – dort wo ich im Transkript den Schnitt setze, wird er auch im Video gesetzt.

Und ich kann im transkribierten B-Material einfach nach einem Schnittbild suchen, indem ich den Text eingebe, der an der Stelle gesprochen wird. Das beschleunigt unkreative Arbeiten ganz massiv.

Seite 1: KI-Grundlagen
Seite 2: Audio
Seite 3: Foto, Video
Seite 4: Live, Archiv, Fazit

‹›

AI Artificial Intelligence KI Künstliche Intelligenz Postproduction Technology Top-Story

Autor: Sas Kaykha, (Christine Gebhard, Gerd Voigt-Müller)

Bildrechte: Sas Kaykha (18), Pixabay (5), Nonkonform (4), Archiv

WM 2026: ARD und ZDF im Remote-Modus

25.06.26

MagentaTV: Die WM schläft nie – die Regie auch nicht

02.07.26

Broadcast Solutions übernimmt BFE

09.07.26

Neue Maßstäbe in der Virtual Production

16.07.26

Broadcast Defense 4: Phishing im Mediensektor

26.06.26

NEP verlängert Wimbledon-Deal

09.07.26

Tests

Kopfhörer-Test: Sony MDR-MV1

18.06.2026

Praxistest: Kompakte DJI-Drohnen Lito 1 und Lito X1

11.06.2026

Praxistest: DJI Osmo Pocket 4

21.05.2026

Load More Posts

26.-28. August

IBC

Führende Veranstaltung für Content und Technologie in der Medienbranche.

Amsterdam

11. bis 14. September

MTH Conference

Die MediaTech Hub Conference ist eine führende internationale Boutique-Veranstaltung.

Potsdam

29. bis 30. September

Imaging World

Das Festival für Foto, Film und Content Creation.

Nürnberg

2. bis 4. Oktober

CABSAT

CABSAT wurde 1993 gegründet und hat sich zu einer etablierten Veranstaltung für die Medien- und Kommunikationsbranche in der MEASA-Region (Naher Osten, Afrika, Südasien) entwickelt

Dubai

5. bis 7. Oktober

LEaT con 26

Mit 140 Speakern bot die letzte LEaT con ein beeindruckendes Programm aus Vorträgen und Workshops.

Hamburg

6. bis 8. Oktober

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-advertisement	1 year	WebToffee: Erfasst die Einwilligung fuer die Kategorie 'Werbung'.
cookielawinfo-checkbox-analytics	1 year	WebToffee: Erfasst die Einwilligung fuer die Kategorie 'Analyse'.
cookielawinfo-checkbox-necessary	1 year	WebToffee: Erfasst die Einwilligung fuer die Kategorie 'Notwendige Cookies'.
CookieLawInfoConsent	1 year	WebToffee: Speichert die kategorienweise Einwilligung des Besuchers.
PHPSESSID	session	Serverseitige Session-ID zur Aufrechterhaltung des Nutzerzustands; sofern Sessions genutzt werden.
viewed_cookie_policy	1 year	WebToffee: Speichert, ob der Besucher dem Cookie-Banner zugestimmt hat.
wordpress_logged_in_*	session	WordPress: Haelt die Anmeldung angemeldeter Nutzer (Redaktion) aufrecht.
wordpress_sec_*	session	WordPress: Sicherheits-Cookie fuer angemeldete Nutzer ueber HTTPS.
wp-settings-*	1 year	WordPress: Speichert Oberflaechen-Einstellungen angemeldeter Nutzer im Adminbereich.

Cookie	Dauer	Beschreibung
_pk_id.*	13 months	Matomo: Eindeutige Besucher-ID zur Wiedererkennung wiederkehrender Besucher.
_pk_ref.*	6 months	Matomo: Speichert die Herkunftsquelle (Referrer) des Besuchers.
_pk_ses.*	30 minutes	Matomo: Kurzlebiges Cookie fuer Daten der aktuellen Sitzung.

Cookie	Dauer	Beschreibung
VISITOR_INFO1_LIVE	6 months	YouTube: Steuert die Wiedergabe eingebetteter Videos und dient der Reichweitenmessung.
YSC	session	YouTube: Sitzungs-ID zur Erfassung von Aufrufen eingebetteter Videos.

KI in der Postproduktion – ein Erfahrungsbericht

Audio

Most Popular

WM 2026: ARD und ZDF im Remote-Modus

MagentaTV: Die WM schläft nie – die Regie auch nicht

Broadcast Solutions übernimmt BFE

Neue Maßstäbe in der Virtual Production

Broadcast Defense 4: Phishing im Mediensektor

NEP verlängert Wimbledon-Deal

Newsletter

Tests

Kopfhörer-Test: Sony MDR-MV1

Moments Lab bringt KI-gestützte Videosuche in lokale Archive

TERMINE

Ufa Filmnächte

IBC

MTH Conference

Imaging World

CABSAT

LEaT con 26

Jobs

Programmierer* Mesh-Technologie in Vollzeit (m/w/d)

Technischer Assistent* in Vollzeit (m/w/d)

Elektroingenieur* in Vollzeit (m/w/d)

Get in touch

Legal

SERVICES

Know more

KI in der Postproduktion – ein Erfahrungsbericht

Audio

Ähnliche Beiträge:

Most Popular

Newsletter

Keep in Touch

Get in touch

Legal

SERVICES

Know more