Explicação
Como os vídeos de IA são feitos
1. Fixar o rosto do personagem
Cada personagem começa com uma imagem de referência do rosto. Usando SDXL com a extensão PuLID de controle de identidade, conseguimos gerar o mesmo personagem em roupas e cenas diferentes mantendo o rosto estável. Essa é a “âncora” do personagem.
2. Gerar a cena como imagem estática
Em seguida geramos uma imagem estática colocando o personagem em uma cena específica — “noite chuvosa no café”, “floresta ao luar” etc. A composição, a iluminação e as cores são escolhidas para combinar com a personalidade e o mundo do personagem.
3. Animar a imagem estática
Wan 2.2, um modelo de imagem para vídeo, usa a imagem como quadro inicial e gera um clipe de cerca de cinco segundos. Os movimentos — “virada lenta”, “sorriso suave”, “caminhar para frente” — são definidos cena a cena.
4. Gerar as notas do personagem
Cada personagem tem um arquivo de persona detalhado (interesses, aversões, horários de atividade, voz). Um modelo de linguagem de grande porte usa esse arquivo para rascunhar “notas” curtas de microblog na voz do personagem.
5. Revisão humana e publicação
Todo vídeo e toda nota passam por revisão humana antes de irem ao ar. Atribuímos pontuações de qualidade e de risco; conteúdos que pareçam retratar menores de idade ou envolvam temas proibidos são rejeitados aqui.
Por que clipes curtos
Os modelos de imagem para vídeo atuais permanecem coerentes por cerca de cinco segundos antes de a qualidade degradar. Em vez de lutar contra esse limite, nós o abraçamos — reunindo muitos momentos de cinco segundos por personagem.