"Whisper vs Deepgram vs Google STT pra áudio brasileiro: o benchmark real (precisão, latência, custo)"

Resposta direta, antes da tabela: pra áudio em português do Brasil, depois de rodar 50 áudios reais nos três, a escolha é Deepgram pra streaming (menor latência, menor custo, melhor em ruído e sotaque forte), Whisper API pra batch (qualidade boa e integração de 5 linhas) e Whisper large-v3 self-hosted quando o áudio não pode sair da sua máquina. O Google Cloud Speech-to-Text eu evito — ele não é o melhor em nada pra PT-BR e é o mais caro dos três no modo streaming, $0.016/min (Google Cloud STT pricing) contra $0.0048/min do Deepgram Nova-3 (Deepgram pricing).

Eu sou o Ulisses, toco a Hens, um estúdio de software brasileiro. Construí o OverAir (memória digital via WhatsApp, 0 pagantes hoje — vou ser honesto com isso o post inteiro) e rodo pipelines de áudio pra cliente. Em abril de 2026 eu precisei decidir qual motor de transcrição colocar num pipeline que digere voice note de WhatsApp em produção. Não confiei em benchmark de marketing. Montei o meu.

Esse post é o benchmark. Dataset real, números medidos, e a decisão que tomei no fim.

O dataset que eu usei (e por que ele importa)

A maioria dos benchmarks de STT que você acha no Google roda em LibriSpeech — audiobook em inglês, estúdio, locutor treinado. Isso não tem nada a ver com o áudio que chega num bot WhatsApp brasileiro.

O meu dataset tem 50 áudios em PT-BR, divididos de propósito:

30 voice notes de WhatsApp — gravados no celular, na rua, com vento, TV ligada, gente falando rápido e engolindo sílaba. O áudio sai comprimido em OPUS, mono, 16 kHz. É o pior caso, e é o caso real.
20 trechos de podcast — microfone decente, sala tratada, fala articulada. O melhor caso.

Pra cada áudio eu transcrevi a "golden" na mão. Sem golden manual, WER não significa nada — você só estaria comparando uma máquina com outra máquina. Transcrever 50 áudios na unha levou umas 6 horas. Foi a parte chata e foi a parte que deu valor ao resto.

WER (Word Error Rate) é a métrica: percentual de palavras erradas, somando inserção, deleção e substituição. WER de 10% quer dizer que a cada 100 palavras, 10 saíram erradas. Pra voice note, abaixo de 12% já dá pra extrair intenção com LLM. Acima de 18% o LLM começa a alucinar em cima do erro.

O resultado em uma tabela

Benchmark rodado em abril de 2026, na minha máquina (Apple M2, 16 GB) e nas APIs cloud. WER médio sobre os 50 áudios:

Motor	WER áudio limpo	WER áudio ruidoso	Latência	Onde roda
Whisper large-v3 (self-hosted M2)	8,2%	14,1%	~30% do áudio (10s p/ 30s)	Local
OpenAI Whisper API (`whisper-1`)	9,5%	15,8%	~5s constante	Cloud (batch)
Deepgram Nova-2 PT-BR	7,8%	12,3%	<300ms (streaming)	Cloud (streaming)
Google Cloud STT v2 (`chirp_2`)	8,5%	13,5%	~4s	Cloud

Três coisas saltam aos olhos. Deepgram ganhou nos dois cenários de WER e é disparado o mais rápido. Whisper local empata tecnicamente no áudio limpo mas cai mais no ruído. E o Google fica no meio do pelotão — não é ruim, só não é o melhor em lugar nenhum, o que é um problema quando ele é o mais caro.

Aviso de honestidade: eu rodei esse teste no Deepgram Nova-2, que era o modelo PT-BR da época. Em 2026 a Deepgram já lançou o Nova-3, o primeiro modelo com transcrição multilíngue em tempo real (Deepgram, Nova-3 launch). Não refiz o benchmark inteiro no Nova-3 ainda, então não vou cravar número que não medi. Mas a tendência de a Deepgram liderar em PT-BR ruidoso bate com benchmark independente: o Whisper large-v3 fica 1 a 3 pontos percentuais atrás do Nova-3 na maioria dos casos de áudio real (Northflank STT benchmarks 2026).

A conta do mês — 1.000 horas de áudio

WER não paga boleto. Custo paga. Então fiz a conta pra um volume realista de produção: 1.000 horas de áudio por mês = 60.000 minutos. É mais ou menos um bot WhatsApp ativo com alguns milhares de usuários mandando voice note.

Motor	Preço/min	Custo de 1.000h/mês	Fonte
GPT-4o-mini-transcribe	$0.003	$180	OpenAI
Deepgram Nova-3 (streaming mono)	$0.0048	$288	Deepgram
OpenAI Whisper API (`whisper-1`)	$0.006	$360	OpenAI
Google STT v2 Chirp (streaming)	$0.016	$960	Google Cloud
Whisper large-v3 (self-hosted)	"grátis" + energia/hardware	~$0 marginal	—

O Google custa 3,3x o Deepgram e 2,7x o Whisper API pelo mesmo trabalho, e entregou WER pior que o Deepgram no meu teste. Essa é a parte que me fez tirar o Google da mesa cedo. Pra ser justo: o Google tem um modo batch dinâmico a $0.004/min (Google Cloud STT pricing) se você aguenta esperar até 24h pelo resultado. Pra transcrever um arquivo de podcast da semana passada, ótimo. Pra responder uma voice note em tempo real, inútil.

O Whisper self-hosted parece "grátis" na tabela e essa é a pegadinha clássica. Não é grátis. Você paga em hardware (um M2 ou uma GPU), em energia, e principalmente em tempo seu mantendo o serviço de pé. Pra 1.000h/mês de batch num Mac mini que você já tem na mesa, o custo marginal é perto de zero e isso é real. Pra streaming com SLA, esquece — você não quer ser plantonista do seu próprio Whisper às 3h da manhã.

A pegadinha do OPUS que ninguém te conta

Aqui vai o detalhe que custou umas duas horas do meu sábado e que você não acha em nenhum blog.

Voice note de WhatsApp chega em OPUS dentro de um container .ogg. O Whisper rodando local (via whisper.cpp ou faster-whisper) come o OPUS direto — ele puxa o ffmpeg por baixo e decodifica sem você pensar. As APIs cloud são mais chatas: a do Google e parte dos endpoints preferem que você converta pra wav/m4a antes, e mesmo quando aceitam OPUS, a conversão na borda some com 1 a 2 segundos por arquivo. Num pipeline de voice note, esse 1-2s extra multiplicado por milhares de mensagens vira fila e vira reclamação.

A correção é boba quando você sabe: converter OPUS → WAV 16 kHz mono uma vez, no momento que o áudio entra, e mandar o WAV pro motor. Um ffmpeg -i audio.ogg -ar 16000 -ac 1 audio.wav resolve. Mas se você descobre isso em produção, com o bot já engasgando, o custo não é o segundo de CPU — é o cliente vendo o bot "lento" e abrindo ticket.

No OverAir eu acabei nem usando STT dedicado pra tudo: o Gemini 2.5 Flash aceita áudio como input multimodal direto e já me devolve a intenção extraída numa chamada só. Pra um bot que só quer entender "marca pras 15h amanhã", isso é mais barato que transcrever-depois-interpretar. STT dedicado entra quando você precisa do texto exato — legenda, transcrição de reunião, compliance. Aí o benchmark de cima vale.

O teste que mais separou os motores: gíria regional

Áudio limpo de podcast quase todo motor acerta. O que separa os homens dos meninos em PT-BR é sotaque carregado e gíria regional.

Eu joguei no dataset uns áudios de gente falando bem "fechado" — gaúcho puxando o "r", nordestino com gíria pesada, paulistano comendo o final das palavras. E aqui o ranking mudou de tom:

Deepgram segurou melhor o sotaque forte. Errava nome próprio mas mantinha a frase de pé.
Whisper large-v3 falhou em torno de 20% dos casos com gíria pesada — não só errava a palavra, às vezes inventava uma frase plausível em português neutro que não tinha nada a ver. Esse é o pior tipo de erro, porque parece certo.
O Google ficou no meio: não inventava tanto quanto o Whisper, mas perdia mais palavra que o Deepgram.

Isso bate com a literatura: o Whisper é campeão em benchmark multilíngue limpo tipo FLEURS (arXiv 2501.06117), mas "limpo" é a palavra-chave. Áudio brasileiro de rua não é FLEURS. Se o seu produto vai ouvir o Brasil real — Uber, delivery, atendimento de balcão gravado no celular — o Whisper sozinho vai te decepcionar em sotaque forte, e você só vai descobrir quando o usuário reclamar.

Quando eu escolho cada um

Chega de "depende". Aqui é o que eu de fato faço:

Streaming / tempo real → Deepgram. Latência abaixo de 300ms, melhor WER em ruído, melhor em sotaque, e mais barato que o Google. Se o produto precisa transcrever enquanto a pessoa fala — legenda ao vivo, agente de voz, call center — não tem discussão pra mim. O Nova-3 ainda trouxe multilíngue em tempo real, o que resolve áudio que mistura PT e EN no meio da frase.

Batch / qualidade com integração simples → Whisper API (whisper-1). Cinco linhas de código, $0.006/min, e você não mantém nada. Pra transcrever arquivos que já existem (podcast, reunião gravada, mídia de suporte) sem urgência de milissegundo, é o melhor custo-cérebro. E se custo é tudo, o gpt-4o-mini-transcribe a $0.003/min derruba a conta pela metade com qualidade próxima.

Privacidade / offline / volume gigante de batch → Whisper large-v3 self-hosted. Quando o áudio não pode sair da máquina (saúde, jurídico, dado sensível) ou quando você processa volume tão grande que a API ficaria cara, rodar local num M2 ou numa GPU compensa. Aceite o custo de manutenção como parte do pacote.

Google Cloud STT → eu evito pra PT-BR. Não porque é ruim — é decente. Eu evito porque ele é o mais caro no streaming e não ganhou de ninguém no meu teste. A única situação em que ele entra é se você já tá fundo no ecossistema GCP e o batch dinâmico a $0.004/min com integração nativa no seu data lake economiza mais em engenharia do que perde em preço de minuto. Fora isso, é dinheiro na mesa.

O que eu faria diferente

Se eu montasse esse pipeline de novo hoje, começaria pelo Deepgram Nova-3 direto pro streaming e só cairia pro Whisper API onde o áudio já tá parado em disco. Não perderia tempo testando o Google de novo — testei pra você, custou caro e ficou no meio. E converteria todo OPUS de WhatsApp pra WAV 16 kHz na entrada do pipeline, não na borda de cada chamada, porque esse 1-2s some quando você menos espera.

Se você tá construindo um bot WhatsApp, um agente de voz ou qualquer coisa que precisa entender áudio brasileiro de verdade, é exatamente esse tipo de decisão — medida, não chutada — que a Hens entrega. Me chama.

Fontes

Deepgram — Pricing (Nova-3 streaming/batch, mono e multilíngue)
Deepgram — Introducing Nova-3
OpenAI — Whisper / transcription models
Google Cloud — Speech-to-Text pricing
Northflank — Best open-source STT in 2026 (benchmarks)
FLEURS-SLU multilingual benchmark — arXiv 2501.06117