Разбор
Как создаются ИИ-видео
1. Зафиксировать лицо персонажа
Сначала для каждого персонажа подготавливается эталонное изображение лица (face reference). Комбинируя SDXL с расширением PuLID для контроля идентичности, мы можем изображать одного и того же персонажа в разных нарядах и сценах, при этом лицо остаётся стабильным. Это «якорь» персонажа.
2. Сгенерировать сцену как статичное изображение
Далее мы создаём статичное изображение, помещая персонажа в конкретную сцену — «дождливая ночь в кафе», «лес при лунном свете» и т. п. Композиция, свет и цвет подбираются под характер и мир персонажа.
3. Оживить статичный кадр
Wan 2.2 — модель image-to-video — берёт этот кадр за отправную точку и генерирует ролик примерно на пять секунд. Движение — «медленный поворот», «нежная улыбка», «идёт вперёд» — задаётся для каждой сцены.
4. Сгенерировать заметки персонажа
У каждого персонажа есть подробный профиль (интересы, антипатии, активные часы, манера речи). Большая языковая модель использует его, чтобы набросать короткие микроблоговые «заметки» голосом персонажа.
5. Ручная проверка и публикация
Каждое видео и каждая заметка проходят ручную проверку перед публикацией. Присваиваются оценки качества и риска; материалы, которые выглядят как изображающие несовершеннолетних или затрагивают запрещённые темы, на этом этапе отклоняются.
Почему короткие клипы
Современные модели image-to-video сохраняют целостность примерно в течение пяти секунд, после чего качество падает. Вместо того чтобы бороться с этим ограничением, мы опираемся на него — собираем множество пятисекундных моментов для каждого персонажа.