Compilação de ferramentas open-source para TTS (Text-to-Speech)…

INEMA

Vou organizar em blocos separados de instalação para cada opção de TTS local (texto → voz). Assim você pode copiar e testar direto.

1. Coqui TTS⌗

```# criar ambiente virtual python -m venv coqui_env source coqui_env/bin/activate # Linux/Mac coqui_env\Scripts\activate # Windows

instalar Coqui TTS⌗

pip install TTS

testar⌗

tts --text "Olá, mundo! Este é um teste de voz." --out_path saida.wav```

2. Bark (Suno AI)⌗

```# criar ambiente virtual python -m venv bark_env source bark_env/bin/activate

Windows: bark_env\Scripts\activate⌗

instalar dependências⌗

pip install git+github.com/suno-ai/bark.git ↗

opcional: instalar PyTorch com CUDA (se tiver GPU NVIDIA)⌗

pip install torch torchvision torchaudio --index-url download.pytorch.org/whl/cu121 ↗

rodar exemplo⌗

python -m bark --text "Olá, eu sou uma voz gerada pelo Bark!" --output saida_bark.wav```

3. VITS (padrão / fork)⌗

```# criar ambiente python -m venv vits_env source vits_env/bin/activate

Windows: vits_env\Scripts\activate⌗

instalar dependências⌗

pip install torch torchvision torchaudio pip install numpy librosa soundfile

clonar repo VITS⌗

git clone github.com/jaywalnut310/vits.git ↗ cd vits

baixar modelo pré-treinado (exemplo multilingue)⌗

wget github.com ↗

executar inferência (ajustar script conforme repo)⌗

python inference.py --text "Olá, estou testando o VITS" --model_path vits_pt_br.pth --out_path saida_vits.wav```

4. ESPnet-TTS⌗

```# criar ambiente python -m venv espnet_env source espnet_env/bin/activate

Windows: espnet_env\Scripts\activate⌗

instalar ESPnet⌗

pip install torch torchvision torchaudio pip install espnet

testar modelo pré-treinado (Tacotron2 exemplo)⌗

git clone github.com ↗ cd espnet_model_zoo python3 cmd_download.py espnet/kan-bayashi_ljspeech_tacotron2

rodar inferência⌗

python3 -m espnet2.bin.tts_inference --text "Teste rápido de voz com ESPnet" --model espnet/kan-bayashi_ljspeech_tacotron2 --out_path saida_espnet.wav```

5. eSpeak-NG (mais simples)⌗

```# Linux sudo apt update sudo apt install espeak-ng -y

Mac⌗

brew install espeak

Windows⌗

baixar binário: github.com ↗⌗

testar⌗

espeak-ng -v pt "Olá, este é um teste com eSpeak"```

6. VibeVoice (Microsoft)⌗

```# criar ambiente python -m venv vibe_env source vibe_env/bin/activate

Windows: vibe_env\Scripts\activate⌗

clonar repo⌗

git clone github.com ↗ cd VibeVoice

instalar dependências⌗

pip install -r requirements.txt

rodar teste (exemplo)⌗

python inference.py --text "Olá, eu sou gerado pelo VibeVoice" --out saida_vibe.wav```

Vou listar cada uma das opções de TTS locais (texto → voz) que citei antes, e dizer quais são os pré-requisitos mínimos para rodar.

1. Coqui TTS⌗

Pré-requisitos:
Python 3.8+
pip para instalar pacotes
PyTorch (CPU ou GPU)
Placa de vídeo NVIDIA (opcional, mas recomendado para treinar ou acelerar)
Obs: Fácil de instalar via pip install TTS.

2. Bark (Suno AI)⌗

Pré-requisitos:
Python 3.9+
pip install bark
PyTorch com suporte CUDA para desempenho aceitável
GPU com pelo menos 8GB VRAM (se não, funciona em CPU, mas muito lento)
Obs: Modelos pesados, bom ter espaço em disco (5-10GB).

3. VITS (variações)⌗

Pré-requisitos:
Python 3.7+
PyTorch instalado
Funciona bem em CPU, mas muito melhor em GPU NVIDIA
Biblioteca librosa e dependências de áudio (soundfile, torchaudio)
Obs: Mais leve que Bark e Coqui.

4. ESPnet-TTS⌗

Pré-requisitos:
Python 3.8+
PyTorch
Instalação do framework ESPnet (pip install espnet)
GPU recomendada para inferência rápida
Obs: Mais complexo, mas suporta vários modelos (Tacotron2, Transformer-TTS etc).

5. eSpeak-NG / Festival⌗

Pré-requisitos:
Instalação direta do binário (Linux: apt install espeak-ng)
Não precisa de Python nem GPU
Obs: Muito leve, mas vozes robóticas.

6. VibeVoice (Microsoft)⌗

Pré-requisitos:
Python 3.10+
PyTorch 2.0+
Instalação via GitHub (git clone + pip install -r requirements.txt)
GPU recomendada para performance
Obs: Projeto recente, focado em qualidade de voz realista.

Para gerar áudio a partir de texto localmente (offline, na sua máquina), você tem algumas opções bem consolidadas. Segue a lista das melhores ferramentas open-source que funcionam em PC:

Opções de TTS (Text-to-Speech) open-source⌗

Coqui TTS

Um dos projetos mais fortes e fáceis de rodar.
Tem suporte a português do Brasil.
Permite treinar ou clonar vozes com modelos adicionais.

Bark (Suno AI)

Gera vozes realistas e expressivas.
Também pode gerar efeitos sonoros, mas costuma ser mais pesado.
Funciona bem em português, mas pode misturar palavras se o modelo não for ajustado.

VITS / VITS-fork (variações, como VITS-Mozilla e VITS-finetuned)

Rápido e leve.
Suporte para várias línguas, inclusive PT-BR.
Permite ajuste fino na prosódia.

ESPnet-TTS

Framework avançado de speech (voz e transcrição).
Suporta várias arquiteturas (Tacotron2, Transformer-TTS, etc).

Festival / eSpeak-NG

Mais antigos, leves e simples.
Não têm vozes muito naturais, mas funcionam em qualquer máquina.

Fairseq (TTS models)

Framework do Facebook AI.
Mais usado para pesquisa, mas pode servir em produção.

VibeVoice (Microsoft, novo)

Projeto recente, open-source.
Muito natural, com suporte crescente para várias línguas (incluindo português).

Diferença entre eles⌗

Mais realistas: Bark, VibeVoice, Coqui TTS
Mais leves e rápidos: VITS, eSpeak-NG
Mais customizáveis: ESPnet-TTS, Fairseq, Coqui TTS

Minha recomendação⌗

Se você quer qualidade alta e realismo, use Coqui TTS ou VibeVoice.
Se você quer algo leve e direto, use VITS.
Se você quer experimentar efeitos extras, use Bark.

TTS - Gerando Voz de Texto

chatgpt.com ↗

Compilação de ferramentas open-source para TTS (Text-to-Speech)…

1. Coqui TTS⌗

instalar Coqui TTS⌗

testar⌗

2. Bark (Suno AI)⌗

Windows: bark_env\Scripts\activate⌗

instalar dependências⌗

opcional: instalar PyTorch com CUDA (se tiver GPU NVIDIA)⌗

rodar exemplo⌗

3. VITS (padrão / fork)⌗

Windows: vits_env\Scripts\activate⌗

instalar dependências⌗

clonar repo VITS⌗

baixar modelo pré-treinado (exemplo multilingue)⌗

executar inferência (ajustar script conforme repo)⌗

4. ESPnet-TTS⌗

Windows: espnet_env\Scripts\activate⌗

instalar ESPnet⌗

testar modelo pré-treinado (Tacotron2 exemplo)⌗

rodar inferência⌗

5. eSpeak-NG (mais simples)⌗

Mac⌗

Windows⌗

baixar binário: github.com ↗⌗

testar⌗

6. VibeVoice (Microsoft)⌗

Windows: vibe_env\Scripts\activate⌗

clonar repo⌗

instalar dependências⌗

rodar teste (exemplo)⌗

1. Coqui TTS⌗

2. Bark (Suno AI)⌗

3. VITS (variações)⌗

4. ESPnet-TTS⌗

5. eSpeak-NG / Festival⌗

6. VibeVoice (Microsoft)⌗

Opções de TTS (Text-to-Speech) open-source⌗

Diferença entre eles⌗

Minha recomendação⌗

Recursos