Compilação de ferramentas open-source para TTS (Text-to-Speech)…
INEMA
Vou organizar em blocos separados de instalação para cada opção de TTS local (texto → voz). Assim você pode copiar e testar direto.
1. Coqui TTS⌗
```# criar ambiente virtual python -m venv coqui_env source coqui_env/bin/activate # Linux/Mac coqui_env\Scripts\activate # Windows
instalar Coqui TTS⌗
pip install TTS
testar⌗
tts --text "Olá, mundo! Este é um teste de voz." --out_path saida.wav```
2. Bark (Suno AI)⌗
```# criar ambiente virtual python -m venv bark_env source bark_env/bin/activate
Windows: bark_env\Scripts\activate⌗
instalar dependências⌗
pip install git+github.com/suno-ai/bark.git ↗
opcional: instalar PyTorch com CUDA (se tiver GPU NVIDIA)⌗
pip install torch torchvision torchaudio --index-url download.pytorch.org/whl/cu121 ↗
rodar exemplo⌗
python -m bark --text "Olá, eu sou uma voz gerada pelo Bark!" --output saida_bark.wav```
3. VITS (padrão / fork)⌗
```# criar ambiente python -m venv vits_env source vits_env/bin/activate
Windows: vits_env\Scripts\activate⌗
instalar dependências⌗
pip install torch torchvision torchaudio pip install numpy librosa soundfile
clonar repo VITS⌗
git clone github.com/jaywalnut310/vits.git ↗ cd vits
baixar modelo pré-treinado (exemplo multilingue)⌗
wget github.com ↗
executar inferência (ajustar script conforme repo)⌗
python inference.py --text "Olá, estou testando o VITS" --model_path vits_pt_br.pth --out_path saida_vits.wav```
4. ESPnet-TTS⌗
```# criar ambiente python -m venv espnet_env source espnet_env/bin/activate
Windows: espnet_env\Scripts\activate⌗
instalar ESPnet⌗
pip install torch torchvision torchaudio pip install espnet
testar modelo pré-treinado (Tacotron2 exemplo)⌗
git clone github.com ↗ cd espnet_model_zoo python3 cmd_download.py espnet/kan-bayashi_ljspeech_tacotron2
rodar inferência⌗
python3 -m espnet2.bin.tts_inference --text "Teste rápido de voz com ESPnet" --model espnet/kan-bayashi_ljspeech_tacotron2 --out_path saida_espnet.wav```
5. eSpeak-NG (mais simples)⌗
```# Linux sudo apt update sudo apt install espeak-ng -y
Mac⌗
brew install espeak
Windows⌗
baixar binário: github.com ↗⌗
testar⌗
espeak-ng -v pt "Olá, este é um teste com eSpeak"```
6. VibeVoice (Microsoft)⌗
```# criar ambiente python -m venv vibe_env source vibe_env/bin/activate
Windows: vibe_env\Scripts\activate⌗
clonar repo⌗
git clone github.com ↗ cd VibeVoice
instalar dependências⌗
pip install -r requirements.txt
rodar teste (exemplo)⌗
python inference.py --text "Olá, eu sou gerado pelo VibeVoice" --out saida_vibe.wav```
Vou listar cada uma das opções de TTS locais (texto → voz) que citei antes, e dizer quais são os pré-requisitos mínimos para rodar.
1. Coqui TTS⌗
-
Pré-requisitos:
-
Python 3.8+
pippara instalar pacotes- PyTorch (CPU ou GPU)
- Placa de vídeo NVIDIA (opcional, mas recomendado para treinar ou acelerar)
- Obs: Fácil de instalar via
pip install TTS.
2. Bark (Suno AI)⌗
-
Pré-requisitos:
-
Python 3.9+
pip install bark- PyTorch com suporte CUDA para desempenho aceitável
- GPU com pelo menos 8GB VRAM (se não, funciona em CPU, mas muito lento)
- Obs: Modelos pesados, bom ter espaço em disco (5-10GB).
3. VITS (variações)⌗
-
Pré-requisitos:
-
Python 3.7+
- PyTorch instalado
- Funciona bem em CPU, mas muito melhor em GPU NVIDIA
- Biblioteca
librosae dependências de áudio (soundfile,torchaudio) - Obs: Mais leve que Bark e Coqui.
4. ESPnet-TTS⌗
-
Pré-requisitos:
-
Python 3.8+
- PyTorch
- Instalação do framework ESPnet (
pip install espnet) - GPU recomendada para inferência rápida
- Obs: Mais complexo, mas suporta vários modelos (Tacotron2, Transformer-TTS etc).
5. eSpeak-NG / Festival⌗
-
Pré-requisitos:
-
Instalação direta do binário (Linux:
apt install espeak-ng) - Não precisa de Python nem GPU
- Obs: Muito leve, mas vozes robóticas.
6. VibeVoice (Microsoft)⌗
-
Pré-requisitos:
-
Python 3.10+
- PyTorch 2.0+
- Instalação via GitHub (
git clone+pip install -r requirements.txt) - GPU recomendada para performance
- Obs: Projeto recente, focado em qualidade de voz realista.
Para gerar áudio a partir de texto localmente (offline, na sua máquina), você tem algumas opções bem consolidadas. Segue a lista das melhores ferramentas open-source que funcionam em PC:
Opções de TTS (Text-to-Speech) open-source⌗
- Coqui TTS
- Um dos projetos mais fortes e fáceis de rodar.
- Tem suporte a português do Brasil.
- Permite treinar ou clonar vozes com modelos adicionais.
- Bark (Suno AI)
- Gera vozes realistas e expressivas.
- Também pode gerar efeitos sonoros, mas costuma ser mais pesado.
- Funciona bem em português, mas pode misturar palavras se o modelo não for ajustado.
- VITS / VITS-fork (variações, como VITS-Mozilla e VITS-finetuned)
- Rápido e leve.
- Suporte para várias línguas, inclusive PT-BR.
- Permite ajuste fino na prosódia.
- ESPnet-TTS
- Framework avançado de speech (voz e transcrição).
- Suporta várias arquiteturas (Tacotron2, Transformer-TTS, etc).
- Festival / eSpeak-NG
- Mais antigos, leves e simples.
- Não têm vozes muito naturais, mas funcionam em qualquer máquina.
- Fairseq (TTS models)
- Framework do Facebook AI.
- Mais usado para pesquisa, mas pode servir em produção.
- VibeVoice (Microsoft, novo)
- Projeto recente, open-source.
- Muito natural, com suporte crescente para várias línguas (incluindo português).
Diferença entre eles⌗
- Mais realistas: Bark, VibeVoice, Coqui TTS
- Mais leves e rápidos: VITS, eSpeak-NG
- Mais customizáveis: ESPnet-TTS, Fairseq, Coqui TTS
Minha recomendação⌗
- Se você quer qualidade alta e realismo, use Coqui TTS ou VibeVoice.
- Se você quer algo leve e direto, use VITS.
- Se você quer experimentar efeitos extras, use Bark.
TTS - Gerando Voz de Texto
1