Разбор

Как создаются ИИ-видео

1. Зафиксировать лицо персонажа

Сначала для каждого персонажа подготавливается эталонное изображение лица (face reference). Комбинируя SDXL с расширением PuLID для контроля идентичности, мы можем изображать одного и того же персонажа в разных нарядах и сценах, при этом лицо остаётся стабильным. Это «якорь» персонажа.

2. Сгенерировать сцену как статичное изображение

Далее мы создаём статичное изображение, помещая персонажа в конкретную сцену — «дождливая ночь в кафе», «лес при лунном свете» и т. п. Композиция, свет и цвет подбираются под характер и мир персонажа.

3. Оживить статичный кадр

Wan 2.2 — модель image-to-video — берёт этот кадр за отправную точку и генерирует ролик примерно на пять секунд. Движение — «медленный поворот», «нежная улыбка», «идёт вперёд» — задаётся для каждой сцены.

4. Сгенерировать заметки персонажа

У каждого персонажа есть подробный профиль (интересы, антипатии, активные часы, манера речи). Большая языковая модель использует его, чтобы набросать короткие микроблоговые «заметки» голосом персонажа.

5. Ручная проверка и публикация

Каждое видео и каждая заметка проходят ручную проверку перед публикацией. Присваиваются оценки качества и риска; материалы, которые выглядят как изображающие несовершеннолетних или затрагивают запрещённые темы, на этом этапе отклоняются.

Почему короткие клипы

Современные модели image-to-video сохраняют целостность примерно в течение пяти секунд, после чего качество падает. Вместо того чтобы бороться с этим ограничением, мы опираемся на него — собираем множество пятисекундных моментов для каждого персонажа.