Tópico dedicado ao **inemaVOX**, suite de voz/dublagem de vídeo.…

INEMA

Resumo do texto:

O documento compara inemaVOX com Voicebox e depois analisa Qwen3-TTS e Kokoro como possíveis engines para o inemaVOX.

Comparação inemaVOX × Voicebox

O Voicebox é mais forte como estúdio pessoal de voz/áudio: tem 7 engines TTS, cloning multi-engine, suporte a 23 idiomas, dictation global, MCP server e roda em várias plataformas/GPU backends.

O inemaVOX é mais forte como pipeline completo de dublagem de vídeo: baixa vídeos, faz transcrição, diarização, sync labial, mux, freeze frame, música/SFX e resumo automático via Ollama. O Voicebox praticamente não cobre vídeo.

Onde o Voicebox ganha

Mais engines TTS.
Melhor variedade de voice cloning.
Mais idiomas.
Dictation no sistema.
MCP server.
Mais flexibilidade de hardware/plataforma.

Onde o inemaVOX ganha

Pipeline completo para vídeo longo.
Diarização com pyannote.
Parakeet para long-form.
Sync labial por tipo de conteúdo.
Summary automático via Ollama.

Ideias anotadas para o inemaVOX

Adicionar Qwen3-TTS e/ou Kokoro ao model_manager.
Criar MCP server para TTS/STT.
Criar aba de capturas locais.
Criar página /dictate como alternativa mais simples a hotkey global.

Qwen3-TTS

Foi considerado o candidato mais promissor para substituir ou complementar o Chatterbox VC, especialmente para PT-BR. Pontos fortes: licença Apache-2.0, PT-BR oficial, voice clone com 3 segundos de áudio, controle por instrução natural, streaming nativo e modelo 1.7B que cabe no GB10.

Recomendação: usar Qwen3-TTS-1.7B-Base como opção principal para dublagem com clone de voz.

Kokoro-82M

Foi visto como excelente para narração padrão/fallback, mas não para cloning. É leve, Apache-2.0, tem PT-BR via lang_code='p', roda muito rápido e poderia substituir Edge TTS em casos como resumo Ollama, narração genérica e fallback.

Limitação principal: não clona voz, só usa vozes embutidas.

Conclusão prática

Adicionar os dois com papéis diferentes:

Qwen3-TTS: dublagem com clone de voz, possível substituto do Chatterbox VC.
Kokoro: narração rápida, summary, fallback e casos onde clone não importa.
Chatterbox: manter como opção adicional, especialmente para inglês ou comparação A/B.

github.com/inematds/inemavox ↗

inemaVOX - Suite de Voz

Tópico dedicado ao inemaVOX, suite de voz/dublagem de vídeo.…

Recursos