O mundo da inteligência artificial de voz acaba de dar um salto gigante com o lançamento da família Qwen3-TTS pela equipe do Alibaba. Se você já brincou com geração de áudio antes, sabe que os maiores desafios sempre foram: latência (demora para gerar o áudio), falta de emoção na voz e sotaques robóticos. O Qwen3-TTS ataca exatamente esses pontos.
Neste post, vamos explorar o que esse modelo traz de novo, o que é possível construir com ele e como você pode rodar o seu primeiro teste em Python.
O que torna o Qwen3-TTS especial?
Diferente de arquiteturas tradicionais que usam cascatas de modelos (LM + DiT), o Qwen3-TTS utiliza uma arquitetura ponta-a-ponta baseada em um modelo de linguagem de múltiplos codebooks discretos. Na prática, isso significa:
- Multilíngue de Verdade: Suporta 10 idiomas nativamente, incluindo Português, Inglês, Espanhol, Japonês e Chinês.
- Controle Emocional via Prompt: Você pode passar instruções em texto para o modelo, como “fale com um tom de voz muito irritado” ou “sussurrando”, e ele adapta a entonação, o ritmo e a emoção da voz.
- Latência Ultra Baixa (Streaming): Ele foi desenhado para aplicações em tempo real. O modelo consegue começar a cuspir o áudio em apenas 97 milissegundos após receber o primeiro caractere.
- Clonagem de Voz (Zero-Shot): A versão Base do modelo consegue clonar a voz de uma pessoa com apenas 3 segundos de áudio de referência.
O que é possível construir com esse modelo?
Com essas capacidades, as possibilidades vão muito além de simples leitores de tela:
- Assistentes Virtuais e NPCs em Tempo Real: Graças à latência de 97ms, você pode plugar esse TTS na saída de um LLM (como o ChatGPT ou o próprio Qwen) e criar assistentes de voz ou NPCs de jogos que conversam com você sem aquele “delay” constrangedor.
- Criação de Audiobooks e Podcasts: Como o modelo entende o contexto e aceita direções de emoção, é possível narrar histórias onde o narrador muda o tom de voz dependendo da cena (tensão, alegria, tristeza).
- Aplicativos de Ensino de Idiomas: Você pode gerar áudios perfeitos para treinar listening e pronúncia em diversos idiomas, escolhendo sotaques e velocidades diferentes.
- Dublagem Automática: Combinado com ferramentas de tradução, você pode traduzir vídeos e manter a emoção original da fala.
Mão na massa: Gerando seu primeiro áudio
Para rodar o modelo localmente, você precisará do pacote oficial qwen-tts e do transformers (atualmente na versão 4.57.3).
Aqui está um script simples usando o modelo Qwen3-TTS-12Hz-1.7B-CustomVoice, que já vem com 9 vozes premium embutidas (como a Vivian, Ryan, Eric, etc).
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# ID do modelo no Hugging Face
model_id = "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice"
print("Carregando configuração e modelo customizado...")
# Carrega o modelo otimizado para a sua GPU (se disponível)
model = Qwen3TTSModel.from_pretrained(
model_id,
device_map="auto",
dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
)
# O texto que queremos transformar em voz
text = "I am an expert in cybersecurity and I am improving my English fluency every day."
print("Gerando áudio...")
# Gerando a voz usando a speaker 'Ryan'
wavs, sr = model.generate_custom_voice(
text=text,
language="English",
speaker="Ryan",
# instruct="say it with a very confident and professional tone" # Você pode adicionar instruções!
)
# Salvando o resultado em um arquivo WAV
sf.write("english_practice.wav", wavs[0], sr)
print("Pronto! Arquivo 'english_practice.wav' gerado com sucesso.")
