cerebro-vip INEMA.CLUB
inícioINEMA.VIBE

Tópico dedicado ao **inemaVOX**, suite de voz/dublagem de vídeo.…

INEMA.VIBE · 2026-02-23 · ~2 min · ver no Telegram ↗

INEMA

Resumo do texto:

O documento compara inemaVOX com Voicebox e depois analisa Qwen3-TTS e Kokoro como possíveis engines para o inemaVOX.

Comparação inemaVOX × Voicebox

O Voicebox é mais forte como estúdio pessoal de voz/áudio: tem 7 engines TTS, cloning multi-engine, suporte a 23 idiomas, dictation global, MCP server e roda em várias plataformas/GPU backends.

O inemaVOX é mais forte como pipeline completo de dublagem de vídeo: baixa vídeos, faz transcrição, diarização, sync labial, mux, freeze frame, música/SFX e resumo automático via Ollama. O Voicebox praticamente não cobre vídeo.

Onde o Voicebox ganha

  • Mais engines TTS.
  • Melhor variedade de voice cloning.
  • Mais idiomas.
  • Dictation no sistema.
  • MCP server.
  • Mais flexibilidade de hardware/plataforma.

Onde o inemaVOX ganha

  • Pipeline completo para vídeo longo.
  • Diarização com pyannote.
  • Parakeet para long-form.
  • Sync labial por tipo de conteúdo.
  • Summary automático via Ollama.

Ideias anotadas para o inemaVOX

  • Adicionar Qwen3-TTS e/ou Kokoro ao model_manager.
  • Criar MCP server para TTS/STT.
  • Criar aba de capturas locais.
  • Criar página /dictate como alternativa mais simples a hotkey global.

Qwen3-TTS

Foi considerado o candidato mais promissor para substituir ou complementar o Chatterbox VC, especialmente para PT-BR. Pontos fortes: licença Apache-2.0, PT-BR oficial, voice clone com 3 segundos de áudio, controle por instrução natural, streaming nativo e modelo 1.7B que cabe no GB10.

Recomendação: usar Qwen3-TTS-1.7B-Base como opção principal para dublagem com clone de voz.

Kokoro-82M

Foi visto como excelente para narração padrão/fallback, mas não para cloning. É leve, Apache-2.0, tem PT-BR via lang_code='p', roda muito rápido e poderia substituir Edge TTS em casos como resumo Ollama, narração genérica e fallback.

Limitação principal: não clona voz, só usa vozes embutidas.

Conclusão prática

Adicionar os dois com papéis diferentes:

  1. Qwen3-TTS: dublagem com clone de voz, possível substituto do Chatterbox VC.
  2. Kokoro: narração rápida, summary, fallback e casos onde clone não importa.
  3. Chatterbox: manter como opção adicional, especialmente para inglês ou comparação A/B.

github.com/inematds/inemavox ↗

inemaVOX - Suite de Voz

1

Recursos

↑ voltar ao topo · ver no Telegram ↗