Explicação

Como os vídeos de IA são feitos

1. Fixar o rosto do personagem

Cada personagem começa com uma imagem de referência do rosto. Usando SDXL com a extensão PuLID de controle de identidade, conseguimos gerar o mesmo personagem em roupas e cenas diferentes mantendo o rosto estável. Essa é a “âncora” do personagem.

2. Gerar a cena como imagem estática

Em seguida geramos uma imagem estática colocando o personagem em uma cena específica — “noite chuvosa no café”, “floresta ao luar” etc. A composição, a iluminação e as cores são escolhidas para combinar com a personalidade e o mundo do personagem.

3. Animar a imagem estática

Wan 2.2, um modelo de imagem para vídeo, usa a imagem como quadro inicial e gera um clipe de cerca de cinco segundos. Os movimentos — “virada lenta”, “sorriso suave”, “caminhar para frente” — são definidos cena a cena.

4. Gerar as notas do personagem

Cada personagem tem um arquivo de persona detalhado (interesses, aversões, horários de atividade, voz). Um modelo de linguagem de grande porte usa esse arquivo para rascunhar “notas” curtas de microblog na voz do personagem.

5. Revisão humana e publicação

Todo vídeo e toda nota passam por revisão humana antes de irem ao ar. Atribuímos pontuações de qualidade e de risco; conteúdos que pareçam retratar menores de idade ou envolvam temas proibidos são rejeitados aqui.

Por que clipes curtos

Os modelos de imagem para vídeo atuais permanecem coerentes por cerca de cinco segundos antes de a qualidade degradar. Em vez de lutar contra esse limite, nós o abraçamos — reunindo muitos momentos de cinco segundos por personagem.