cerebro-vip INEMA.CLUB
inícioINEMA.VOZ

Levantamento de soluções open-source para dublagem automática de…

INEMA.VOZ · 2025-09-09 · ~5 min · ver no Telegram ↗

INEMA

Para dublar vídeos técnicos de computador (em inglês) para português, você precisa de uma solução que garanta:

  1. Reconhecimento preciso do inglês técnico (STT)
  2. Tradução fiel para português, sem perder termos técnicos
  3. Geração de voz natural em português
  4. Sincronização com o vídeo para não ficar fora de tempo

Melhor caminho open-source para o seu caso

1. Open Dubbing

2. Linly-Dubbing

  • Traz interface Web fácil de usar.
  • Faz separação de voz, tradução com modelos grandes (ex.: Qwen, GPT), clonagem de voz (CosyVoice), e sincronização labial.
  • Bom se você quiser um resultado mais profissional e visual.
  • Link: https://github.com/Kedreamix/Linly-Dubbing

3. ViDubb

  • Se quiser que os vídeos fiquem mais “realistas”, com lip-sync, preservando até sons de fundo.
  • Ideal se o treinamento for em vídeo com instrutor aparecendo.
  • Link: https://github.com/medahmedkrichen/ViDubb

Fluxo recomendado para treinamentos técnicos

  1. Transcrição (STT): Whisper ou WhisperX para pegar bem os termos técnicos.
  2. Tradução: NLLB-200 ou MarianMT → boas opções para inglês → português mantendo contexto técnico.
  3. TTS: Coqui TTS ou CosyVoice para gerar a voz em português natural.
  4. Sincronização: Aeneas ou os próprios módulos de Open Dubbing/Linly/ViDubb.

Aqui está a lista apenas com os links diretos dos projetos de dublagem open-source:

Soluções prontas, open-source, para dublagem automática (também chamada de speech-to-speech dubbing)—ou seja, ferramentas integradas onde os passos de transcrição, tradução, clonagem de voz e sincronização com vídeo já estão estruturados. Aqui estão algumas opções robustas e prontamente utilizáveis:


Soluções open-source prontas para dublagem

1. Open Dubbing (Softcatala)

  • Ferramenta de linha de comando que engloba STT (Whisper), tradução (ex: NLLB), TTS (Coqui, MMS, Edge, OpenAI), detecção de gênero e sincronização de áudio com vídeo ([GitHub][1]).
  • Funciona localmente e vem com documentação clara e exemplos.
  • Ideal para automatizar traduções de vídeos com modelos open-source integrados.

2. Speech-to-Speech (Hugging Face)

  • Pipeline modular que inclui Voice Activity Detection (VAD), STT, modelo de linguagem (LM) e TTS, com infraestrutura flexível para execução local ou via servidor ([GitHub][2]).
  • Permite customizar cada etapa com modelos do Hugging Face — excelente se quiser construir seu próprio fluxo com componentes ajustáveis.

3. ViDubb

  • Plataforma avançada para dublagem de vídeo com suporte a clone de voz com emoção, sincronização labial (lip-sync), preservação de som ambiente, diarização de falantes, interface web via Gradio e funcionalidade para rodar em CPU/GPU ([GitHub][3]).
  • Perfeita para criar vídeos dublados realistas com fluidez e controle visual.

4. Dubbie

  • Estúdio de dublagem open-source, construído com Next.js, visando oferecer uma solução completa com interface web. Custos estimados de apenas US\$ 0.1/min, muito mais barato que soluções comerciais ([GitHub][4]).
  • Ainda em desenvolvimento, mas já útil para projetos práticos com interface amigável.

5. Linly-Dubbing

  • Ferramenta inspirada no YouDub-webui, com WebUI intuitiva, downloads automáticos de vídeo, separação de voz (Demucs, UVR5), reconhecimento de fala (WhisperX, FunASR), tradução com grande modelo (ex: GPT, Qwen), clonagem de voz (CosyVoice, GPT-SoVITS), sincronia labial e interface de fácil uso ([GitHub][5]).

6. Outros projetos interessantes

  • VideoDubber (am-sokolov): script Python para extrair áudio, transcrever (Whisper), traduzir (Google Translate), gerar novo áudio (Google TTS) e recombinar com o vídeo ([GitHub][6]).
  • SonyTranslate (SoniTranslate): aplicativo web com UI via Gradio para traduzir vídeos com áudio sincronizado ([GitHub][7]).

Qual escolher?

  • Quer algo que funcione já agora, localmente?Open Dubbing é ótimo, direto ao ponto, e usa frameworks reconhecidos.
  • Quer personalizar intensamente?Speech-to-Speech pipeline da HF oferece flexibilidade máxima.
  • Precisa de visual de alta qualidade, sincronização labial, web interface? → Vá com ViDubb ou Linly-Dubbing.
  • Prefere uma solução web mais leve com rapidez de uso? → Considere Dubbie ou SoniTranslate, dependendo do nível de maturidade que busca.

soluções prontas de dublagem open-source, já integradas ou quase prontas para rodar. Aqui estão algumas opções consolidadas:


1. Rask AI (versão open-source limitada pela comunidade)

  • Há forks não-oficiais no GitHub que usam Whisper + TTS.
  • Faz tradução + dublagem com sincronização básica.

2. OpenVoice (Bytedance, open-source no GitHub)

  • Ferramenta de voice cloning cross-lingual.
  • Permite falar em outros idiomas mantendo o timbre original.
  • Já vem com exemplos prontos para dublagem.

3. Sovits + OpenVPI Toolkit

  • Projeto chinês muito usado para dublagem.
  • Clona voz, traduz e dublagem é feita quase automática.
  • Precisa baixar os modelos treinados (comunidade já distribui).

4. Whisper + Coqui TTS + Aeneas (pacote pronto)

  • Existem repositórios no GitHub que já trazem o pipeline fechado:

  • Whisper → traduz → gera áudio no Coqui → sincroniza com Aeneas.

  • Solução prática, com scripts prontos para vídeo.

5. Fairseq S2T (Speech-to-Speech Translation)

  • Da Meta, já vem com suporte para entrada voz e saída voz.
  • Menos plug-and-play que OpenVoice, mas funciona bem para dublagem multilíngue.

6. OpenDubber (comunidade GitHub)

  • Solução específica para dublagem automática.
  • Usa Whisper + VITS ou Coqui.
  • Já entrega vídeo final sincronizado.

Ou seja:

  • Se quiser simples e direto → OpenVoice.
  • Se quiser completo e customizável → Whisper + Coqui + Aeneas (pacote GitHub).
  • Se quiser voz parecida com a original em outro idioma → Sovits ou VALL-E X (versões open).

Soluções de Dublagem

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗