Artificial Intelligence, Dokumentation, Top-Story: 27.11.2025

Bildgestaltung: KI wird erwachsen

KI etabliert sich als ernstzunehmende Option für die visuelle Fernsehproduktion. André Götzmann berichtet, wie er für eine WISO-Doku mit KI Szenarien zukünftiger Welthandelspolitik bebilderte.



Workflow

Alle Wege führen nach Rom, wenn es um KI geht. Es gibt nicht den einen Königsweg, und es gibt auch nicht das eine Programm, um gute Ergebnisse zu erzielen. 

Eine Besonderheit, wenn man KI für eine Sendeanstalt nutzt, gilt es zu beachten: Die eingesetzten Programme müssen von der Rechtsabteilung freigegeben werden. Damit kam bei dieser Produktion das chinesische Seedance nicht in Frage, was in puncto Natürlichkeit der Figuren ganz weit vorne liegt.

Szenen wie diese skizzieren verschiedene Zukunftsszenarien.

André Götzmann André Götzmann
André Götzmann André Götzmann
André Götzmann André Götzmann

 

Diese Modell gab das ZDF jedoch frei: Veo, Kling, Sora, Midjourney, Nano Banana und Flux.

Alle Programme neigen leider dazu, die Menschen schön zu machen und Hautfehler herauszurechnen. Um die Menschen normaler, die Haut natürlicher wirken zu lassen, benutzte ich daher noch diverse Bildverbesserer und Upscaler.

André Götzmann
KI kann nun auch Menschen generieren, die nicht wie auf Instagram aussehen.

Sora verweigert sich generierten KI-Figuren, somit ist es für meine Arbeit sehr begrenzt einsetzbar gewesen. Ich habe damit nur Teile vor der mauretanischen Küste erstellt.

Aufgrund meiner bisherigen Arbeiten startete ich die Szenen Anfangs mit einem generierten Bild von Midjourney, was gut funktioniert bei einem Flug über eine Fabrik oder wenn ein LKW durchs Bild fährt. Sobald aber szenische Elemente auftauchen, spezifische Schwenks, Worte oder Logos im Bild, oder auch Dinge passieren, die man bisher mit VFX gemacht hat, ist diese Methode nicht mehr ausreichend.

André Götzmann
Hier der Beginn eines weiteren Prompt-Beispiels: »Ultra-realistic biomedical and healthcare research laboratory, indian scientists in lab coats and gloves working with microscopes, petri dishes, centrifuges, and digital diagnostic monitors, DNA strands and cell structures on holographic displays, sterile and well-lit lab environment with modern equipment, white and blue color tones, clean countertops, subtle reflections, professional clinical setting, stock photo style composition, 8k, perfect for medical innovation and biotechnology visuals –ar 16:9 –raw.«

Ein fertiges Bild hat den Vorteil, dass die KI den First Frame hat und man dann nur noch erzählt, was passieren soll. Gerade bei Naheinstellungen von Personen ist das ein sehr guter Weg, um lebendige Gesichter zu erhalten.

André Götzmann
Eine KI-generierte Börsenmaklerin …

Für komplexe Einstellungen benötige ich einen komplett anderen Workflow. Wenn sich zum Beispiel die Kamera vor einer Börsenmaklerin durch eine sehr belebte Börse mit vielen Menschen bewegt, dann zu einem Mann schwenkt, der nach oben auf einen Monitor blickt, seinem Blick folgt und dann ein Chart eines Rohstoffs zu sehen ist. Oder wenn die Kamera auf einen leeren Containerhafen zufliegt und die Container plötzlich wie aus dem Nichts sich zu stapeln beginnen.

André Götzmann
… blickt auf aktuelle Charts.

Hier ist anderes Prompting gefragt. Ich habe mir dafür eine eigene JSON Routine erstellt, bei der ich sekundenweise angeordnet habe, was passieren wird. Damit sind solche präzisen Einstellungen überhaupt erst möglich. Inspiriert zu diesem komplexen Einstellungen hat mich übrigens der Ikea-Spot, bei dem aus einer Kiste in einem leeren Raum die ganze Einrichtung des Zimmers springt.

André Götzmann

Prompts für diese Art von Einstellungen sind oft bis zu 2 Seiten lang. Der Vorteil: Ist der Prompt erst einmal geschrieben, habe ich oft nur 2–3 Re-Runs benötigt um das gewünschte Ergebnis zu bekommen.

André Götzmann
Eine junge KI-Frau wurde zum verbindenden Element. (Upscaled with Gigapixel v1.0.2. 1312×736 => 2624×1472 (2x) Model: Standard V2, denoise: 0.01, sharpen: 0.01, decompression: 0.01).
Consistent Character 

In der Eröffnungszene des Filmes etablierte ich eine junge moderne Figur in dieser ungewissen Zukunft. Kirsten Hoehne fand diese Figur so gut, dass wir mit ihr das lange gesuchte verbindende Element für die Szenen fanden. Ich baute sie immer wieder ein – mal prominent, mal versteckt.

Bei der Erstellung eines Consistent Character hat sich meiner Meinung nach am meisten getan. War es vor zwei Jahren unendlich viel Arbeit, eine konsistente Lucrezia zu entwerfen, kann ich heute in kürzester Zeit eine durchgängige Figur erstellen. Bis September hätte ich dafür ComfyUI benutzt, doch dann kam VEO 3.1., und das änderte für mich alles.

André Götzmann
Sie tauchte immer wieder …

Bildlich liegt es manchmal hinter der Visualität von Kling und Sora, aber das Verständnis der KI ist deutlich präziser und führt schneller zu besseren Ergebnissen. Auch ist es ein unendlicher Vorteil einen Anfangs und einen Endframe haben zu können. Noch besser ist aber die Funktion »Elemente«. Damit erübrigt es sich in fast allen Fällen, ein LoRA Modell zu erstellen.

André Götzmann
… in der Doku auf …

Meistens genügt ein Portrait einer generierten Figur, um sie dann in den Kontext der Szene zu bauen. Hinzu kommt die Möglichkeit, die wir für unseren Film nicht benötigten, ein bereits teilweise sehr brauchbares Sounddesign dazu zu generieren. Selbst Dialoge sind möglich. Seit einigen Tagen, kommt noch die Möglichkeit diverser Kamerafahrten hinzu, das verkürzt den Prompt ungemein. Hatte Kling bei der Kamerabewegung die Nase deutlich vorne,  geht momentan der Kelch zu VEO 3.1.

André Götzmann
… und wurde zum verbindenden Element.

Für mich ist die KI-Welt seit September mit Seedance und Veo 3.1. eine andere geworden. Bis dahin sahen die KI-Ergebnis immer noch recht künstlich aus. Charaktere blickten apathisch irgendwo hin, und man musste sich mit schnellen Schnitten helfen, um den Unzulänglichkeiten in den Gesichtern auszuweichen.

André Götzmann
KI kann nun auch Emotionen in die Gesichter bringen.
©André Götzmann
Rechts: Autor André Götzmann.

Nun hingegen möchte man den Figuren zuschauen und ihre Emotionen ergründen. Ja richtig, KI kann nun Emotion. Die Bilder sprechen somit eine eigene Sprache, sie entwickeln etwas Eigenes und sind grenzenlos.

Während Florian, Andrea und Andrea um die Welt gereist sind, saß ich am Computer und bin doch weiter gereist als alle andern.

Ich war nicht nur an ihren Drehorten, ich war auch in der Zukunft, unter der Erde, auf Hochseeschiffen und im Weltall mit dabei.

Seite 1: Hintergründe, Aufwand
Seite 2: Workflow, Consistent Character
Seite 3: Infos zur Doku