Anúncio do lançamento do WAN 2.6 da Alibaba (Tongyi Lab), com…

INEMA

🚨 Alibaba lança o WAN 2.6 com sincronização labial nativa e narrativa multi-cenas 🚨

Apenas dois meses após o WAN 2.5, o Tongyi Lab da Alibaba lançou uma grande atualização que resolve os principais gargalos da geração de vídeos com IA. Veja o que mudou e por que isso importa:

🎬 Narrativa Multi-Cenas Chega ao WAN

O WAN 2.6 cria automaticamente um storyboard a partir do seu prompt, gerando sequências narrativas completas. Um único prompt produz planos abertos, closes e transições, mantendo consistência visual e de áudio em todas as cenas. Nada de gerar clipes separados e juntar tudo na pós-produção.

⏱️ Vídeos 50% Mais Longos

A duração passa de 10 para 15 segundos, com estabilidade muito maior. No WAN 2.5, a qualidade geralmente se degradava após 5–7 segundos. O WAN 2.6 mantém a coerência durante todo o tempo, permitindo demonstrações completas de produtos e arcos narrativos em uma única geração.

🎙️ Sincronização Labial Nativa Muda Tudo

Sincronização labial em nível de fonema, com suporte a múltiplas vozes e expressões emocionais. É possível enviar áudio personalizado para clonagem de voz ou gerar diálogos sincronizados diretamente. Vídeos de “talking head” agora ficam prontos para produção sem ferramentas externas de sincronização.

🎭 Referências em Vídeo Preservam a Identidade

O novo sistema de “starring” aceita clipes de vídeo de 2 a 30 segundos como referência de personagem, mantendo aparência, voz e interações em novos cenários. No WAN 2.5, referências por imagem frequentemente causavam variações no personagem. Agora, conteúdos de marca podem usar porta-vozes consistentes em vídeos ilimitados.

⚡ Física Mais Suave

Simulação aprimorada de fluidos, cabelo e roupas. Ações complexas como saltos e movimentos rápidos de câmera apresentam menos tremulação. Ainda há alguns artefatos em movimentos extremamente rápidos, mas a melhora em relação ao 2.5 é clara.

🧠 Interpretação Inteligente de Prompts

O WAN 2.6 entende prompts em múltiplas camadas, incluindo direções de câmera, emoções e ações sequenciais. Você pode especificar algo como “zoom lento no rosto surpreso enquanto ela abre o presente” e obter exatamente o momento cinematográfico desejado.

Veja logo nos no INEMA.TOOLS

WAN. 2.6