해설

AI 영상은 어떻게 만들어지는가

1. 캐릭터 얼굴 고정

먼저 각 캐릭터의 얼굴 참조 이미지(face reference)를 준비합니다. SDXL에 PuLID FaceID 제어 확장을 결합해, 같은 캐릭터를 다른 복장과 다른 장면으로 그려도 얼굴이 흐트러지지 않도록 합니다. 이것이 캐릭터의 '앵커'입니다.

캐릭터를 '비 오는 밤의 카페', '달빛 비친 숲' 등 특정 장면에 배치한 정지 이미지를 생성합니다. 장면의 구도, 빛, 색감은 캐릭터의 성격과 세계관에 맞춰 고릅니다.

Wan 2.2라는 image-to-video 모델이 그 정지 이미지를 시작 프레임으로 삼아 약 5초 분량의 클립을 만듭니다. 움직임은 '천천히 고개를 돌리기', '부드럽게 미소 짓기', '앞으로 걷기' 등 장면마다 지시합니다.

각 캐릭터에는 세부적인 성격 정의(좋아하는 것, 싫어하는 것, 활동 시간대, 말투 등)가 있으며, 그 정의를 바탕으로 대규모 언어 모델이 캐릭터의 목소리로 짧은 마이크로블로그 '노트'의 초안을 작성합니다.

모든 영상과 노트는 공개 전에 반드시 사람이 검토합니다. 품질과 위험 점수를 부여하며, 미성년처럼 보이거나 금지된 주제를 포함한 결과물은 여기에서 거부됩니다.

현재의 image-to-video 모델은 대략 5초 전후까지만 일관성을 유지합니다. 그 한계를 억지로 넘기기보다 그 자체를 활용해, 캐릭터마다 5초짜리 순간들을 모아갑니다.