Explorando o Qwen3-TTS: A Nova Geração de Text-to-Speech com Emoção e Baixa Latência

O mundo da inteligência artificial de voz acaba de dar um salto gigante com o lançamento da família Qwen3-TTS pela equipe do Alibaba. Se você já brincou com geração de áudio antes, sabe que os maiores desafios sempre foram: latência (demora para gerar o áudio), falta de emoção na voz e sotaques robóticos. O Qwen3-TTS ataca exatamente esses pontos.

Neste post, vamos explorar o que esse modelo traz de novo, o que é possível construir com ele e como você pode rodar o seu primeiro teste em Python.

Sumário

O que torna o Qwen3-TTS especial?

Diferente de arquiteturas tradicionais que usam cascatas de modelos (LM + DiT), o Qwen3-TTS utiliza uma arquitetura ponta-a-ponta baseada em um modelo de linguagem de múltiplos codebooks discretos. Na prática, isso significa:

Multilíngue de Verdade: Suporta 10 idiomas nativamente, incluindo Português, Inglês, Espanhol, Japonês e Chinês.
Controle Emocional via Prompt: Você pode passar instruções em texto para o modelo, como “fale com um tom de voz muito irritado” ou “sussurrando”, e ele adapta a entonação, o ritmo e a emoção da voz.
Latência Ultra Baixa (Streaming): Ele foi desenhado para aplicações em tempo real. O modelo consegue começar a cuspir o áudio em apenas 97 milissegundos após receber o primeiro caractere.
Clonagem de Voz (Zero-Shot): A versão Base do modelo consegue clonar a voz de uma pessoa com apenas 3 segundos de áudio de referência.

O que é possível construir com esse modelo?

Com essas capacidades, as possibilidades vão muito além de simples leitores de tela:

Assistentes Virtuais e NPCs em Tempo Real: Graças à latência de 97ms, você pode plugar esse TTS na saída de um LLM (como o ChatGPT ou o próprio Qwen) e criar assistentes de voz ou NPCs de jogos que conversam com você sem aquele “delay” constrangedor.
Criação de Audiobooks e Podcasts: Como o modelo entende o contexto e aceita direções de emoção, é possível narrar histórias onde o narrador muda o tom de voz dependendo da cena (tensão, alegria, tristeza).
Aplicativos de Ensino de Idiomas: Você pode gerar áudios perfeitos para treinar listening e pronúncia em diversos idiomas, escolhendo sotaques e velocidades diferentes.
Dublagem Automática: Combinado com ferramentas de tradução, você pode traduzir vídeos e manter a emoção original da fala.

Mão na massa: Gerando seu primeiro áudio

Para rodar o modelo localmente, você precisará do pacote oficial qwen-tts e do transformers (atualmente na versão 4.57.3).

Aqui está um script simples usando o modelo Qwen3-TTS-12Hz-1.7B-CustomVoice, que já vem com 9 vozes premium embutidas (como a Vivian, Ryan, Eric, etc).

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# ID do modelo no Hugging Face
model_id = "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice"

print("Carregando configuração e modelo customizado...")
# Carrega o modelo otimizado para a sua GPU (se disponível)
model = Qwen3TTSModel.from_pretrained(
    model_id,
    device_map="auto",
    dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
)

# O texto que queremos transformar em voz
text = "I am an expert in cybersecurity and I am improving my English fluency every day."

print("Gerando áudio...")
# Gerando a voz usando a speaker 'Ryan'
wavs, sr = model.generate_custom_voice(
    text=text,
    language="English",
    speaker="Ryan",
    # instruct="say it with a very confident and professional tone" # Você pode adicionar instruções!
)

# Salvando o resultado em um arquivo WAV
sf.write("english_practice.wav", wavs[0], sr)
print("Pronto! Arquivo 'english_practice.wav' gerado com sucesso.")

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# ID do modelo no Hugging Face
model_id = "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice"

print("Carregando configuração e modelo customizado...")
# Carrega o modelo otimizado para a sua GPU (se disponível)
model = Qwen3TTSModel.from_pretrained(
    model_id,
    device_map="auto",
    dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
)

# O texto que queremos transformar em voz
text = "I am an expert in cybersecurity and I am improving my English fluency every day."

print("Gerando áudio...")
# Gerando a voz usando a speaker 'Ryan'
wavs, sr = model.generate_custom_voice(
    text=text,
    language="English",
    speaker="Ryan",
    # instruct="say it with a very confident and professional tone" # Você pode adicionar instruções!
)

# Salvando o resultado em um arquivo WAV
sf.write("english_practice.wav", wavs[0], sr)
print("Pronto! Arquivo 'english_practice.wav' gerado com sucesso.")

O que torna o Qwen3-TTS especial?

O que é possível construir com esse modelo?

Mão na massa: Gerando seu primeiro áudio

Deixe um comentário Cancelar resposta

Vibe Coding, Erros Antigos: Por que a exposição de chaves de API não é culpa da IA.