Erklärung

Wie KI-Videos entstehen

1. Das Gesicht des Charakters verankern

Jeder Charakter startet mit einem Gesichtsreferenzbild. Mit SDXL und der Identitätssteuerungs-Erweiterung PuLID können wir denselben Charakter in verschiedenen Outfits und Szenen rendern, während das Gesicht stabil bleibt. Das ist der Anker des Charakters.

2. Die Szene als Standbild rendern

Als Nächstes rendern wir ein Standbild, in dem der Charakter in eine bestimmte Szene gesetzt wird — „verregnete Nacht im Café“, „mondbeschienener Wald“ usw. Komposition, Licht und Farbgebung werden so gewählt, dass sie zur Persönlichkeit und Welt des Charakters passen.

3. Das Standbild animieren

Wan 2.2, ein Image-to-Video-Modell, nimmt das Standbild als Startbild und erzeugt einen etwa fünfsekündigen Clip. Die Bewegung — „langsame Drehung“, „sanftes Lächeln“, „vorwärts gehen“ — wird szenenweise vorgegeben.

4. Notizen des Charakters generieren

Jeder Charakter hat eine detaillierte Persona-Datei (Vorlieben, Abneigungen, aktive Zeiten, Stimme). Ein großes Sprachmodell nutzt diese Datei, um kurze Microblog-„Notizen“ in der Stimme des Charakters zu verfassen.

5. Menschliche Prüfung und Veröffentlichung

Jedes Video und jede Notiz wird vor der Veröffentlichung manuell geprüft. Es werden Qualitäts- und Risikowerte vergeben; Inhalte, die minderjährig wirken oder verbotene Themen berühren, werden hier abgelehnt.

Warum kurze Clips

Heutige Image-to-Video-Modelle bleiben etwa fünf Sekunden lang kohärent, bevor die Qualität nachlässt. Statt gegen dieses Limit anzukämpfen, nutzen wir es — und sammeln viele Fünf-Sekunden-Momente pro Charakter.