cerebro-vip INEMA.CLUB
inícioINEMA.VOZ

Exploração do modelo de Text-to-Speech open-source Qwen3-TTS, com…

INEMA.VOZ · 2026-04-07 · ~4 min · ver no Telegram ↗

INEMA

huggingface.co/spaces/Qwen/Qwen3-TTS ↗

estou testando

Você não instala “qwen” diretamente porque ele não é uma biblioteca, e sim um modelo hospedado no Hugging Face.


🧠 Então por que instalar essas libs?

🔹 transformers

👉 É a principal biblioteca que carrega e roda modelos (incluindo Qwen)

  • Faz download automático do modelo:

AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base")

➡️ Ou seja: o Qwen vem daqui


🔹 torch

👉 É o “motor” que executa o modelo

  • Faz os cálculos (GPU/CPU)
  • Sem ele, o modelo não roda

🔹 soundfile

👉 Serve só pra salvar o áudio gerado

sf.write("saida.wav", audio, 16000)


📦 Resumindo

Biblioteca Função
transformers baixa e usa o modelo Qwen
torch executa o modelo
soundfile salva o áudio

📌 Onde está o “Qwen” então?

Aqui 👇

model_name = "Qwen/Qwen3-TTS-12Hz-1.7B-Base"

👉 Isso faz download direto de: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base


⚠️ Analogia simples

  • transformers = player de vídeo
  • torch = placa de vídeo
  • Qwen = o filme

Você não instala o filme — você carrega ele pelo player


🚀 Se quiser algo mais direto

Tem opções como:

  • APIs prontas (sem instalar nada)
  • Web demo (Hugging Face Spaces)

Como usar o Qwen3-TTS 👇


🧠 1. Forma mais simples (Python + Hugging Face)

🔧 Instalar

pip install torch transformers soundfile


▶️ Exemplo básico (gerar voz)

```from transformers import AutoProcessor, AutoModelForCausalLM import torch import soundfile as sf

model_name = "Qwen/Qwen3-TTS-12Hz-1.7B-Base"

processor = AutoProcessor.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

text = "Olá, isso é um teste de voz com o modelo Qwen."

inputs = processor(text=text, return_tensors="pt")

with torch.no_grad(): audio = model.generate(**inputs)

salvar áudio

sf.write("saida.wav", audio[0].cpu().numpy(), 16000)```


🎤 2. Com controle de voz (emoção, estilo)

Você pode escrever instruções no texto:

text = "Fale de forma animada: Olá! Bem-vindo ao futuro da inteligência artificial!"

👉 O modelo interpreta o estilo (tipo um prompt de LLM)


🧬 3. Clonagem de voz (VoiceDesign)

Se usar o modelo VoiceDesign, você passa um áudio de referência:

inputs = processor( text="Olá, essa é minha voz clonada", audio=audio_referencia, return_tensors="pt" )

👉 Isso faz ele imitar a voz


⚡ 4. Streaming (tempo real)

  • Usar geração em chunks
  • Ideal para chatbot com voz

Isso geralmente envolve:

model.generate(stream=True)


🖥️ 5. Usar sem código (mais fácil)

Opções:

  • Hugging Face Spaces (interface pronta)
  • Gradio apps
  • APIs prontas (quando disponíveis)

🎯 Casos de uso práticos

Você pode usar para:

  • 🔊 Narrador automático (YouTube, TikTok)
  • 🤖 Assistente com voz
  • 🎮 NPCs em jogos
  • 📚 Audiobooks
  • 🧑‍💻 Bots com voz realista

⚠️ Requisitos

  • GPU recomendada (mínimo ~8–16GB VRAM)
  • CPU funciona, mas lento
  • Modelos quantizados ajudam muito

🚀 Dica importante

Se você quer começar rápido, faça assim:

  1. Use o modelo Base
  2. Teste no Hugging Face
  3. Depois vá para VoiceDesign se quiser qualidade maior

Parece que você quis perguntar: “quais são os modelos diferentes e para

🔊 Modelos da família Qwen3-TTS

1. 🧠 Qwen3-TTS-1.7B-Base

👉 Modelo principal (o que você mandou)

Para que serve:

  • Gerar voz a partir de texto
  • Base para customizações
  • Pesquisa / desenvolvimento

Características:

  • Mais “cru” (menos otimizado para uso direto)
  • Mais flexível
  • Melhor para quem quer adaptar ou treinar

2. 🎤 Qwen3-TTS-1.7B-VoiceDesign

👉 Versão mais avançada / controlável

Para que serve:

  • Criar vozes personalizadas
  • Controlar emoção, estilo, entonação
  • Clonagem de voz mais precisa

Características:

  • Melhor controle expressivo
  • Ideal para produtos (apps, assistentes, dublagem)

3. ⚡ Variantes (quantização / otimizações)

👉 Mesmos modelos, mas adaptados

Para que servem:

  • Rodar em GPU menor ou até CPU
  • Produção com menos custo

Exemplos:

  • INT4 / INT8 (mais leves)
  • versões otimizadas para streaming

🧩 Diferença resumida

Modelo Melhor uso
Base Pesquisa, customização
VoiceDesign Produção, voz realista e controlável
Quantizados Rodar mais leve / barato

📌 Em resumo

  • Base → cérebro bruto
  • VoiceDesign → voz bonita e controlada
  • Quantizados → performance leve

🔊 Qwen3-TTS-12Hz-1.7B-Base (resumo)

É um modelo open-source de Text-to-Speech (TTS) da família Qwen que converte texto em fala natural.

🧠 O que ele faz

  • Gera voz humana realista a partir de texto
  • Suporta 10 idiomas (incluindo português)
  • Permite clonar vozes com poucos segundos de áudio (≈3s)
  • Controla tom, emoção e velocidade da fala com base no texto/instruções

⚙️ Características principais

  • Arquitetura end-to-end: não usa pipelines tradicionais → menos erros e mais eficiência
  • Baixa latência (streaming): pode gerar áudio quase em tempo real
  • Alta fidelidade: mantém nuances da voz (emoção, estilo, ambiente)
  • Robusto a texto “ruim” (erros, ruído, etc.)

🧩 Tecnologia por trás

  • Usa um tokenizer próprio (12Hz) que comprime áudio de forma eficiente
  • Baseado em modelo de linguagem com múltiplos codebooks (para áudio)
  • Otimizado para streaming rápido + qualidade alta

🎯 Para que serve

  • Assistentes de voz
  • Dublagem / narração automática
  • Clonagem de voz
  • Geração de vozes personalizadas

📌 Em uma frase

Um modelo TTS moderno, multilíngue e rápido, focado em voz realista, controle fino e baixa latência.

Qwen3-TTS-12Hz-1.7B-Base

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗