Quanto tempo leva pra construir um SaaS WhatsApp com IA do zero

Você já deve ter visto por aí: "crie seu chatbot WhatsApp com IA em 10 minutos!" ou "lance seu SaaS em um fim de semana!". Essas promessas vendem curso, não software.

A realidade é outra. Eu construí o OverAir — um SaaS de memória digital via WhatsApp que usa IA pra organizar lembretes, finanças e listas a partir de áudio, imagem ou texto — e levei ~3 meses do primeiro commit até o bot respondendo em produção. Sozinho. Um dev.

Neste post vou abrir a timeline completa: cada fase, quantas semanas, onde o tempo sumiu de verdade, e quanto custaria se você contratasse alguém pra fazer a mesma coisa.

O que é "pronto" nesse contexto

Antes de falar de tempo, preciso definir o que significa "bot respondendo em produção":

Webhook recebendo mensagens da API oficial do WhatsApp (não Z-API, não Baileys)
Pipeline que classifica, extrai dados e responde em segundos
Áudio, imagem e texto processados por IA (Gemini 2.5 Flash)
App Flutter funcional pra o usuário ver suas informações
Lembretes com cron disparando templates utility via WhatsApp
Testes cobrindo os fluxos críticos
Rodando em Firebase (Functions + Firestore) sem intervenção manual

Isso não é um "bot de FAQ". É um produto com backend, IA multimodal, app mobile e infra de produção.

A timeline real: 12 semanas, 4 fases

Aqui está como os 3 meses se dividiram:

Fase	Duração	O que foi feito
1. Webhook + Pipeline	2 semanas	Receber mensagens da Meta, validar assinatura, rotear por tipo (texto/áudio/imagem), responder via API
2. IA + Extração	3 semanas	Integração com Gemini 2.5 Flash, prompt engineering, schema de extração estruturada, tratamento de edge cases
3. App Flutter	4 semanas	App mobile para visualizar lembretes, finanças e listas. Auth, sync com Firestore, push notifications via FCM
4. Polimento + Testes	3 semanas	Testes de integração, tratamento de erros, otimização de latência, templates WhatsApp, deploy final

Total: ~12 semanas / 3 meses.

Mas esses números escondem onde o tempo realmente foi. Deixa eu detalhar.

Fase 1: Webhook + Pipeline (2 semanas)

Essa foi a fase mais "previsível". A documentação da Meta é razoável, o Cloud API não precisa de servidor próprio, e Firebase Functions encaixa como luva pra receber webhooks.

O que levou tempo aqui:

Entender o fluxo de verificação do webhook (Meta manda um GET de challenge antes de ativar)
Lidar com os diferentes payloads: mensagem de texto, áudio (mediaId que precisa de download separado), imagem, reação, status update
Montar a fila de processamento pra não perder mensagem em pico

Se eu fizesse de novo hoje, terminaria em 1 semana. Mas na primeira vez, são 2.

Fase 2: IA + Extração (3 semanas)

Aqui é onde a mágica acontece — e onde o tempo some.

O OverAir usa Gemini 2.5 Flash com uma única chamada unificada por mensagem. O modelo recebe o áudio/imagem/texto diretamente (multimodal nativo) junto com um schema Zod que define a estrutura esperada da resposta.

Parece simples. Não é.

40% do tempo desta fase foi gasto em edge cases de áudio. WhatsApp comprime áudio em Opus com bitrate baixo. Pessoas falam com ruído de fundo, cortam no meio da frase, misturam português com inglês. O modelo precisa lidar com tudo isso e ainda extrair datas, valores e contexto.

Exemplos reais de problemas que enfrentei:

"Lembra de pagar o cartão na quinta" — qual quinta? A IA precisa resolver datas relativas usando o dia atual
Áudio de 3 segundos com "oi" no meio de ruído → modelo retorna transcrição vazia, pipeline precisa tratar graciosamente
"Gastei vinte conto no Uber" → extrair R$ 20,00 de linguagem coloquial
Pessoa manda áudio em espanhol (brasileiros em viagem) → modelo precisa detectar e processar

O que acelerou essa fase: Firebase Functions + Gemini 2.5 Flash com uma chamada unificada por mensagem. Antes eu tinha um pipeline de 2-3 chamadas (classificar → extrair → responder), e migrar pra chamada única cortou complexidade e latência.

Fase 3: App Flutter (4 semanas)

A fase mais longa, mas por boas razões: um app precisa de UX, e UX consome tempo de design e iteração, não só código.

Breakdown:

Semana 1: Auth (Firebase Auth + deep link de onboarding)
Semana 2: Telas de lembretes e finanças com sync real-time do Firestore
Semana 3: Push notifications via FCM, tratamento de permissões iOS/Android
Semana 4: Polimento de UI, empty states, loading states, error handling

Se o seu SaaS WhatsApp não precisa de app mobile (muitos não precisam), você economiza 4 semanas inteiras.

Fase 4: Polimento + Testes (3 semanas)

A fase que todo mundo subestima. "Ah, o bot já responde, tá pronto." Não tá.

Nessas 3 semanas:

Testes de integração com mensagens reais (não mocks)
Tratamento de rate limits da API da Meta
Templates WhatsApp de lembrete submetidos e aprovados
Monitoramento de erros (Firestore logs + alertas)
Performance: reduzir latência de resposta de ~8s pra ~3s

E aqui entra meu maior erro de tempo: gastei 2 semanas inteiras num sistema de correção de mensagens — onde o usuário poderia corrigir o que a IA entendeu errado mandando "não, eu quis dizer X". Parecia essencial. Na prática, é algo que talvez 2% dos usuários usaria. Overengineered.

Se eu descontasse essas 2 semanas desperdiçadas, a fase 4 teria sido 1 semana. Lição: valide com usuários reais ANTES de polir features secundárias.

Comparando com o Studio Kallos

Pra dar perspectiva, também construí o Studio Kallos — um SaaS de agendamento e gestão financeira pra estúdios de beleza, também via WhatsApp.

A timeline foi diferente porque não tem IA pesada. O foco é agendamento (horários, confirmação, lembrete) e financeiro (entradas, saídas, relatório). Sem processamento de áudio, sem extração multimodal.

Resultado: timeline mais curta no backend, mais longa no app (mais telas, mais regras de negócio). Mas o total ficou similar: ~3 meses pra um dev solo.

A lição: IA não é necessariamente o gargalo de tempo. Regras de negócio complexas consomem tanto quanto prompts complexos.

Quanto custaria terceirizar?

Baseado na minha experiência e nos preços de mercado em abril/2026:

Escopo	Freelancer BR	Agência BR	Agência gringa
Bot WhatsApp simples (FAQ + IA)	R$ 8.000–20.000	R$ 20.000–40.000	R$ 50.000–100.000
Bot + Pipeline de IA + Extração	R$ 20.000–40.000	R$ 40.000–80.000	R$ 80.000–150.000
Bot + IA + App Flutter (MVP)	R$ 30.000–80.000	R$ 60.000–150.000	R$ 150.000–300.000
Manutenção mensal	R$ 2.000–5.000/mês	R$ 5.000–15.000/mês	R$ 10.000–30.000/mês

Esses números são consistentes com o que portais como FWC Tecnologia e Mind Consulting reportam pra MVPs em Flutter no Brasil (R$ 30.000–80.000 em 2026).

Se eu fosse contratar alguém pra fazer o que fiz no OverAir, estimaria 3-5 meses para um MVP funcional e um orçamento de R$ 30.000–80.000 dependendo do escopo.

Pra quem tem R$ 30k sobrando, vale. Pra quem não tem, aprender a construir é o caminho — mas não acredite em quem diz que leva "um fim de semana".

O que surpreende quem nunca construiu

Se eu pudesse resumir o que ninguém conta sobre o tempo de desenvolvimento:

1. Edge cases consomem 40% do tempo. O "caminho feliz" (mensagem de texto limpa, formato perfeito) funciona em 2 dias. Os outros 60 dias são os 10.000 jeitos que pessoas reais usam WhatsApp: áudio cortado, emoji no meio de frase, encaminhamento de mensagem, figurinha, resposta a mensagem antiga.

2. A IA é rápida de integrar, lenta de calibrar. Conectar o Gemini e receber uma resposta leva 30 minutos. Fazer o modelo acertar extração de datas brasileiras ("segunda que vem", "dia 15", "daqui a 3 dias") com 95%+ de precisão leva semanas.

3. Deploy não é a última etapa. Depois que "funciona", você ainda precisa: pedir aprovação de template na Meta (1-2 dias), configurar Business Verification (pode levar semanas), passar no Display Name review (escrevi um post inteiro sobre essa saga).

4. O app Flutter é metade do tempo. Se você consegue entregar valor só via WhatsApp sem app, faça isso primeiro. O app pode vir na v2.

A versão "faça em 10 minutos"

Sim, existem plataformas que montam um "chatbot WhatsApp com IA" em minutos. SocialHub, BotConversa, AgeuBot — todas legítimas pro que se propõem. O setup inicial leva 2-8 horas pra um bot funcional de FAQ.

Mas essas plataformas resolvem um problema diferente: atendimento automatizado com base de conhecimento. Não são um SaaS customizado que processa áudio, extrai dados financeiros, agenda lembretes inteligentes e tem app próprio.

A comparação justa não é "plataforma no-code vs código próprio". É "produto genérico vs produto único". Se o que você precisa existe como ferramenta pronta, use. Se não existe, prepare-se pra 3+ meses.

Timeline resumida pra quem quer planejar

Se você está pensando em construir um SaaS WhatsApp com IA:

Cenário	Timeline	Investimento
Bot simples (FAQ + IA, sem app)	4-6 semanas	R$ 0 (se fizer) ou R$ 8k-20k
Bot com pipeline de extração	6-8 semanas	R$ 0 ou R$ 20k-40k
Bot + IA + App mobile (MVP completo)	12-16 semanas	R$ 0 ou R$ 30k-80k
Usando plataforma no-code	1-3 dias	R$ 100-500/mês

Essas estimativas assumem 1 dev full-time com experiência em TypeScript/Dart, Firebase e a API do WhatsApp. Se for sua primeira vez com qualquer uma dessas tecnologias, adicione 30-50% no tempo.

Conclusão: 3 meses é rápido ou devagar?

Depende do referencial. Comparado com as promessas de "SaaS em um fim de semana": é lento. Comparado com o tempo real que produtos sérios levam pra chegar ao mercado: é rápido.

O OverAir hoje ainda tem zero clientes pagantes — estou em fase de validação. Mas a infraestrutura está pronta, o bot responde em 3 segundos, e o app sincroniza em real-time. Foram 3 meses bem investidos.

Se eu fizesse de novo com o conhecimento que tenho agora? Diria 8 semanas em vez de 12. As 4 semanas que economizaria: 2 semanas do sistema de correção (eliminado), 1 semana da fase de webhook (agora trivial), 1 semana de configuração Meta/display name (que agora entendo o processo).

Mas esse é o ponto: você só descobre o que é desnecessário depois de construir pela primeira vez. E esse post existe pra encurtar esse aprendizado pra quem vem depois.

No próximo post: Gemini 2.5 Flash vs GPT-4o vs Claude Sonnet pra bot WhatsApp — comparação real de custo, velocidade e qualidade em produção.