cerebro-vip INEMA.CLUB
inícioINEMA.VOZ

Compilação de ferramentas open-source para TTS (Text-to-Speech)…

INEMA.VOZ · 2025-09-09 · ~4 min · ver no Telegram ↗

INEMA

Vou organizar em blocos separados de instalação para cada opção de TTS local (texto → voz). Assim você pode copiar e testar direto.


1. Coqui TTS

```# criar ambiente virtual python -m venv coqui_env source coqui_env/bin/activate # Linux/Mac coqui_env\Scripts\activate # Windows

instalar Coqui TTS

pip install TTS

testar

tts --text "Olá, mundo! Este é um teste de voz." --out_path saida.wav```


2. Bark (Suno AI)

```# criar ambiente virtual python -m venv bark_env source bark_env/bin/activate

Windows: bark_env\Scripts\activate

instalar dependências

pip install git+github.com/suno-ai/bark.git ↗

opcional: instalar PyTorch com CUDA (se tiver GPU NVIDIA)

pip install torch torchvision torchaudio --index-url download.pytorch.org/whl/cu121 ↗

rodar exemplo

python -m bark --text "Olá, eu sou uma voz gerada pelo Bark!" --output saida_bark.wav```


3. VITS (padrão / fork)

```# criar ambiente python -m venv vits_env source vits_env/bin/activate

Windows: vits_env\Scripts\activate

instalar dependências

pip install torch torchvision torchaudio pip install numpy librosa soundfile

clonar repo VITS

git clone github.com/jaywalnut310/vits.git ↗ cd vits

baixar modelo pré-treinado (exemplo multilingue)

wget github.com ↗

executar inferência (ajustar script conforme repo)

python inference.py --text "Olá, estou testando o VITS" --model_path vits_pt_br.pth --out_path saida_vits.wav```


4. ESPnet-TTS

```# criar ambiente python -m venv espnet_env source espnet_env/bin/activate

Windows: espnet_env\Scripts\activate

instalar ESPnet

pip install torch torchvision torchaudio pip install espnet

testar modelo pré-treinado (Tacotron2 exemplo)

git clone github.com ↗ cd espnet_model_zoo python3 cmd_download.py espnet/kan-bayashi_ljspeech_tacotron2

rodar inferência

python3 -m espnet2.bin.tts_inference --text "Teste rápido de voz com ESPnet" --model espnet/kan-bayashi_ljspeech_tacotron2 --out_path saida_espnet.wav```


5. eSpeak-NG (mais simples)

```# Linux sudo apt update sudo apt install espeak-ng -y

Mac

brew install espeak

Windows

baixar binário: github.com ↗

testar

espeak-ng -v pt "Olá, este é um teste com eSpeak"```


6. VibeVoice (Microsoft)

```# criar ambiente python -m venv vibe_env source vibe_env/bin/activate

Windows: vibe_env\Scripts\activate

clonar repo

git clone github.com ↗ cd VibeVoice

instalar dependências

pip install -r requirements.txt

rodar teste (exemplo)

python inference.py --text "Olá, eu sou gerado pelo VibeVoice" --out saida_vibe.wav```


Vou listar cada uma das opções de TTS locais (texto → voz) que citei antes, e dizer quais são os pré-requisitos mínimos para rodar.


1. Coqui TTS

  • Pré-requisitos:

  • Python 3.8+

  • pip para instalar pacotes
  • PyTorch (CPU ou GPU)
  • Placa de vídeo NVIDIA (opcional, mas recomendado para treinar ou acelerar)
  • Obs: Fácil de instalar via pip install TTS.

2. Bark (Suno AI)

  • Pré-requisitos:

  • Python 3.9+

  • pip install bark
  • PyTorch com suporte CUDA para desempenho aceitável
  • GPU com pelo menos 8GB VRAM (se não, funciona em CPU, mas muito lento)
  • Obs: Modelos pesados, bom ter espaço em disco (5-10GB).

3. VITS (variações)

  • Pré-requisitos:

  • Python 3.7+

  • PyTorch instalado
  • Funciona bem em CPU, mas muito melhor em GPU NVIDIA
  • Biblioteca librosa e dependências de áudio (soundfile, torchaudio)
  • Obs: Mais leve que Bark e Coqui.

4. ESPnet-TTS

  • Pré-requisitos:

  • Python 3.8+

  • PyTorch
  • Instalação do framework ESPnet (pip install espnet)
  • GPU recomendada para inferência rápida
  • Obs: Mais complexo, mas suporta vários modelos (Tacotron2, Transformer-TTS etc).

5. eSpeak-NG / Festival

  • Pré-requisitos:

  • Instalação direta do binário (Linux: apt install espeak-ng)

  • Não precisa de Python nem GPU
  • Obs: Muito leve, mas vozes robóticas.

6. VibeVoice (Microsoft)

  • Pré-requisitos:

  • Python 3.10+

  • PyTorch 2.0+
  • Instalação via GitHub (git clone + pip install -r requirements.txt)
  • GPU recomendada para performance
  • Obs: Projeto recente, focado em qualidade de voz realista.

Para gerar áudio a partir de texto localmente (offline, na sua máquina), você tem algumas opções bem consolidadas. Segue a lista das melhores ferramentas open-source que funcionam em PC:

Opções de TTS (Text-to-Speech) open-source

  1. Coqui TTS
  • Um dos projetos mais fortes e fáceis de rodar.
  • Tem suporte a português do Brasil.
  • Permite treinar ou clonar vozes com modelos adicionais.
  1. Bark (Suno AI)
  • Gera vozes realistas e expressivas.
  • Também pode gerar efeitos sonoros, mas costuma ser mais pesado.
  • Funciona bem em português, mas pode misturar palavras se o modelo não for ajustado.
  1. VITS / VITS-fork (variações, como VITS-Mozilla e VITS-finetuned)
  • Rápido e leve.
  • Suporte para várias línguas, inclusive PT-BR.
  • Permite ajuste fino na prosódia.
  1. ESPnet-TTS
  • Framework avançado de speech (voz e transcrição).
  • Suporta várias arquiteturas (Tacotron2, Transformer-TTS, etc).
  1. Festival / eSpeak-NG
  • Mais antigos, leves e simples.
  • Não têm vozes muito naturais, mas funcionam em qualquer máquina.
  1. Fairseq (TTS models)
  • Framework do Facebook AI.
  • Mais usado para pesquisa, mas pode servir em produção.
  1. VibeVoice (Microsoft, novo)
  • Projeto recente, open-source.
  • Muito natural, com suporte crescente para várias línguas (incluindo português).

Diferença entre eles

  • Mais realistas: Bark, VibeVoice, Coqui TTS
  • Mais leves e rápidos: VITS, eSpeak-NG
  • Mais customizáveis: ESPnet-TTS, Fairseq, Coqui TTS

Minha recomendação

  • Se você quer qualidade alta e realismo, use Coqui TTS ou VibeVoice.
  • Se você quer algo leve e direto, use VITS.
  • Se você quer experimentar efeitos extras, use Bark.

TTS - Gerando Voz de Texto

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗