Tópico dedicado ao **inemaVOX**, suite de voz/dublagem de vídeo.…
INEMA
Resumo do texto:
O documento compara inemaVOX com Voicebox e depois analisa Qwen3-TTS e Kokoro como possíveis engines para o inemaVOX.
Comparação inemaVOX × Voicebox
O Voicebox é mais forte como estúdio pessoal de voz/áudio: tem 7 engines TTS, cloning multi-engine, suporte a 23 idiomas, dictation global, MCP server e roda em várias plataformas/GPU backends.
O inemaVOX é mais forte como pipeline completo de dublagem de vídeo: baixa vídeos, faz transcrição, diarização, sync labial, mux, freeze frame, música/SFX e resumo automático via Ollama. O Voicebox praticamente não cobre vídeo.
Onde o Voicebox ganha
- Mais engines TTS.
- Melhor variedade de voice cloning.
- Mais idiomas.
- Dictation no sistema.
- MCP server.
- Mais flexibilidade de hardware/plataforma.
Onde o inemaVOX ganha
- Pipeline completo para vídeo longo.
- Diarização com pyannote.
- Parakeet para long-form.
- Sync labial por tipo de conteúdo.
- Summary automático via Ollama.
Ideias anotadas para o inemaVOX
- Adicionar Qwen3-TTS e/ou Kokoro ao
model_manager. - Criar MCP server para TTS/STT.
- Criar aba de capturas locais.
- Criar página
/dictatecomo alternativa mais simples a hotkey global.
Qwen3-TTS
Foi considerado o candidato mais promissor para substituir ou complementar o Chatterbox VC, especialmente para PT-BR. Pontos fortes: licença Apache-2.0, PT-BR oficial, voice clone com 3 segundos de áudio, controle por instrução natural, streaming nativo e modelo 1.7B que cabe no GB10.
Recomendação: usar Qwen3-TTS-1.7B-Base como opção principal para dublagem com clone de voz.
Kokoro-82M
Foi visto como excelente para narração padrão/fallback, mas não para cloning. É leve, Apache-2.0, tem PT-BR via lang_code='p', roda muito rápido e poderia substituir Edge TTS em casos como resumo Ollama, narração genérica e fallback.
Limitação principal: não clona voz, só usa vozes embutidas.
Conclusão prática
Adicionar os dois com papéis diferentes:
- Qwen3-TTS: dublagem com clone de voz, possível substituto do Chatterbox VC.
- Kokoro: narração rápida, summary, fallback e casos onde clone não importa.
- Chatterbox: manter como opção adicional, especialmente para inglês ou comparação A/B.
github.com/inematds/inemavox ↗
inemaVOX - Suite de Voz
1