Quando demitir o Lovable e contratar um dev — matriz de decisão em 7 sinais

Resposta direta, antes do post: se você marca 2 ou mais sinais dessa lista, pare de iterar no Lovable/Bolt/Replit e contrate um dev humano pra fazer code review pontual. Se marca 5 ou mais, contrate um dev sênior full-time pra liderar reescrita — o produto já está em dívida técnica que dobra de tamanho a cada sprint.

Eu construí dois SaaS sozinho — OverAir (memória digital via WhatsApp, 0 pagantes hoje, vou falar disso aberto) e Studio Kallos (agendamento pra estúdios de beleza). Os dois rodam em produção. Em paralelo, em 2026 já consultei founder de SaaS Lovable em pelo menos 4 ocasiões — sempre o mesmo padrão: chegam quando o app trava aos ~200 usuários, conta de infra triplica num mês, e ninguém entende mais o próprio código.

Esse post é a matriz que uso pra decidir, em 30 minutos de conversa, se vale a pena fazer review pontual ou se já é hora de aposentar a ferramenta. Sete sinais. Sistema de pontuação. Faixa de ação.

Por que essa matriz existe

Estudo da DX/Apiiro publicado em dezembro de 2025: código gerado por IA tem 10,83 issues por request contra 6,45 do código humano — 1,7x mais bugs (The Register, dezembro 2025). Não é opinião — é medição em pull request real.

Pior ainda: 40–62% do código gerado por IA tem falhas de segurança (Kyros, 2026) e 42% das empresas abandonaram a maior parte das iniciativas de IA em 2025, mais que o dobro de 2024 (Beam, 2026). O Forrester projeta que 75% dos decisores de tecnologia vão enfrentar dívida técnica moderada a severa em 2026 — boa parte induzida por vibe coding sem governança.

A pergunta não é "vou ter dívida técnica?". A pergunta é "quando vou parar de fingir que não tenho?".

A matriz abaixo é a régua. Os sete sinais são sintomas que vi em campo — não inventei nenhum. Cada um vale 1 ponto.

Sinal 1 — Você reconstruiu a mesma feature 3 vezes

Aqui o padrão clássico: o vibe-coder entrega 70% da feature em 2 horas, você fica feliz, manda pro beta. Aparece bug. Pede correção pro agente — ele "conserta", mas introduz outro bug. Pede pra arrumar o segundo — ele quebra a feature original. Você reverte. Recomeça do zero porque é mais barato em créditos do que destrinchar o que ele fez.

Esse loop não é incompetência do agente. É a natureza dele. Lovable, Bolt e Replit não mantêm modelo mental persistente do seu sistema — eles releem o código a cada prompt e re-deduzem intenção. Quando o código fica grande, a chance de regressão sobe linearmente.

Custo invisível: cada rebuild dessa come 5–15 créditos. No plano Pro do Lovable (Lovable Pricing) você tem 100 créditos por mês a US$ 25. Três rebuilds da mesma feature consomem ~30% do mês. Já vi founder estourar Pro em 8 dias por causa de uma única tela que não fechava.

Pontuação: marca esse sinal se em algum momento dos últimos 30 dias você pensou "vou refazer do zero porque é mais rápido". Você já tá pagando o preço do contexto perdido.

Sinal 2 — Infra mensal passou de R$ 200 e você ainda tem menos de 1.000 usuários

Esse é o sinal mais frio porque é número, não sentimento.

Faixa saudável pra SaaS até 1.000 usuários ativos em stack tradicional (Firebase Spark + Cloud Functions, ou Supabase Free): R$ 0 a R$ 80/mês. Já fechei essa conta em detalhe aqui no blog. Se você passou de R$ 200/mês com menos de 1.000 usuários, algo tá dimensionado errado — geralmente é uma das três coisas:

Queries N+1. O agente escreveu uma loop que faz query por item ao invés de batch. Página de dashboard com 50 cards = 50 queries. Multiplica por 200 usuários ativos no horário de pico.
Real-time aberto demais. Lovable adora WebSocket pra "ficar moderno". Cada conexão concorrente conta no Supabase. Aos 500 usuários ativos, você bate o teto do Pro $25 (Supabase Pricing) e cai pro Team a US$ 599.
Storage de mídia sem rotação. Em um sistema com áudio e imagem que mexi, o agente não escreveu lifecycle. Tudo virava bucket eterno. Conta subiu R$ 80/mês em 4 meses sem ninguém perceber.

Em um bot WhatsApp em produção que entreguei recentemente, o cliente tinha vindo de Lovable com infra a US$ 180/mês pra 350 usuários. Reescrevi 3 endpoints, joguei job de áudio pro Cloud Tasks com retry, caiu pra US$ 28/mês. O cliente economizou R$ 760/mês — três meses de consultoria pagos só na economia de infra.

Pontuação: marca se a conta passou de R$ 200/mês. Não importa quão "premium" pareça o plano.

Sinal 3 — Você acumulou 3+ ferramentas de IA sem saber qual usar quando

Bolt pra MVP. Lovable pra editar. Cursor pra refactor local. Claude Code pra debugging. Replit pra deploy. v0 pra UI nova.

Quando o stack de IA fica com mais ferramentas do que o stack de código, a ferramenta virou o produto — e o produto sumiu.

Cada uma cobra crédito separado. Bolt Pro: US$ 25/mês com 10M tokens (Bolt.new Pricing). Lovable Pro: US$ 25/mês com 100 créditos (Lovable Pricing). Cursor Pro: US$ 20/mês. Claude Pro: US$ 20/mês. Replit Core: US$ 25/mês. Quem usa as cinco gasta US$ 115/mês (~R$ 575) só em IA — e ainda não tem produto rodando direito.

Pior: cada agente formata código diferente. Bolt usa Vite + estrutura A. Lovable usa Vite + estrutura B com helper-utils duplicados. Cursor sugere refactor que quebra ambos. O resultado é uma colcha de retalhos onde ninguém — nem você, nem o próximo dev — entende o porquê de cada decisão.

Pontuação: marca se você usa 3+ ferramentas de IA pagas pra construir o mesmo SaaS. Sem clareza de qual entra em cada cenário, isso é stack debt, não produtividade.

Sinal 4 — O mesmo bug crítico voltou 2+ vezes

Webhook duplicado da Meta cobrando o cliente 2 vezes. Race condition em aprovação de pedido. Dado corrompido porque o cron rodou em paralelo com outro processo. Bug que você "consertou" há 3 semanas e voltou ontem.

Vibe-coder não tem modelo mental do sistema. Cada fix é local: ele lê 200 linhas, sugere patch, sai. Quando a causa raiz é arquitetural — falta de idempotência, falta de lock, falta de fila com dedup — o patch só esconde o problema por algumas semanas.

Escrevi inteiro sobre webhook duplicado e idempotência aqui, mas o resumo: Stripe documenta ~0,5% de webhooks duplicados em produção. Em 1.000 cobranças/mês, isso é 5 chargebacks/mês a US$ 15 de dispute fee = R$ 375/mês evaporados — antes de contar o cliente irritado. Lovable não escreve idempotência por padrão. Bolt também não. Cursor escreve se você pedir explicitamente, mas o agente Lovable não sabe que precisa pedir.

Pontuação: marca se um mesmo bug (mesma classe, mesma raiz) reapareceu nos últimos 60 dias. Você não tá consertando — tá adiando.

Sinal 5 — Stakeholder pergunta "como funciona X" e ninguém consegue explicar

Esse é o sinal de bus factor 1 — ou bus factor 0, que é pior.

Estudo de 2015–2016 medindo 133 projetos populares no GitHub: 65% têm bus factor ≤ 2, ou seja, se 1 ou 2 pessoas saem, o projeto trava (Wikipedia: Bus factor; IEEE: Assessing the bus factor of Git repositories). Em SaaS vibe-coded, a estatística é pior: o agente não conta como "pessoa que sabe". Só você sabe — e mesmo assim, parcialmente.

O teste é simples. Pega o investidor, o cofundador ou o seu próximo dev contratado e pede: "explica em 5 minutos como funciona o fluxo de pagamento, desde o checkout até o webhook do Stripe atualizar o status no banco". Se não consegue — porque o código tá espalhado em 12 arquivos com helpers duplicados que o agente foi criando pra resolver atalhos — bus factor 1 está confirmado.

Em uma migração de Delphi pra web que conduzi anos atrás, o cliente carregava bus factor 0,5 — o único dev que entendia o sistema tinha sumido e ninguém conseguia explicar o cálculo de comissão. Levou 4 meses só pra documentar a regra antes de qualquer reescrita. Vibe-coding cria esse cenário em 6 meses ao invés de 6 anos — é a única "aceleração" real que ele entrega.

Pontuação: marca se você ou seu time não consegue explicar arquitetura do sistema em 10 minutos no quadro branco.

Sinal 6 — Existe uma área do código onde ninguém mais mexe

Você sabe qual é. Aquele endpoint de cobrança. Aquela tela de relatório. Aquele job noturno. Quando alguém propõe mudar ali, todo mundo desvia o assunto.

Em uma equipe humana, código radioativo aparece em sistema legado de 10+ anos. Em vibe coding, aparece em 4 meses.

A razão é mecânica: o agente gerou solução naquela área seguindo padrão X. Você pediu ajuste e ele aplicou patch fora do padrão. Pediu outro ajuste e ele criou um helper novo, com nome parecido com outro que já existia. Agora a área tem 3 padrões coexistindo, 2 helpers que fazem quase a mesma coisa, e o teste local quebra de 4 jeitos diferentes dependendo de qual caminho a request pega.

Cursor não te tira disso — ele lê o código, vê o caos, e sugere "talvez seja melhor reescrever esse módulo". Aí volta pro Lovable que reescreve, mas perde 2 features que estavam funcionando.

Pontuação: marca se existe uma pasta, arquivo ou feature que ninguém quer abrir. Se você hesita antes de aceitar um ticket de mudança ali, é radioativo.

Sinal 7 — Dev humano contratado pra revisar abandonou no meio

Esse é o sinal terminal.

Você contrata freelancer sênior pra fazer code review do que o Lovable gerou. Negocia escopo, fecha valor — em São Paulo, dev sênior freela cobra entre R$ 200 e R$ 300/hora, mediana brasileira em 2026 é US$ 42/hora segundo dados do Lemon.io (Lemon.io: Software Developer Salary & Hourly Rate in Brazil 2026). Combina 20 horas pra revisar.

Na quarta hora, ele te manda mensagem: "Cara, acho que vou devolver. Esse código não é refatorável — é reescrever ou continuar". E ele tem razão.

Quando dev humano sênior — pago, com prazo, com promessa de entrega — prefere devolver dinheiro a continuar, o sinal não é "achei freelancer ruim". É "o código já passou do ponto de reparo cosmético".

Em consultorias que peguei em 2025–2026, vi isso 2 vezes — sempre em SaaS Lovable com ~500 usuários ativos onde o founder pedia "só uma revisão de segurança". A revisão virou diagnóstico, o diagnóstico virou proposta de rewrite. Em ambos os casos o founder não aceitou a proposta e desligou o produto 4 meses depois.

Pontuação: marca se você contratou dev pra revisar e ele desistiu ou recomendou rewrite ao invés de patch.

A matriz fechada — pontuação e ação

Soma os sinais que você marcou. Faixa de ação:

Pontuação	Diagnóstico	Ação recomendada	Custo estimado (BR)
0–1	Saudável	Continua iterando no Lovable/Bolt. Mantém disciplina de testes manuais e backup de banco.	R$ 0 (só assinatura)
2–4	Acumulando dívida técnica controlável	Contrata dev sênior pra code review pontual — 8–16 horas/mês. Foco: idempotência, queries N+1, dedup.	R$ 1.600 a R$ 4.800/mês
5–7	Dívida estrutural	Contrata dev sênior full-time (ou agência) pra liderar reescrita parcial ou total. Lovable some.	R$ 18.000 a R$ 32.000/mês CLT, ou R$ 25.000–60.000 fechado por escopo de reescrita

O custo do dev na coluna direita vem do mercado real de São Paulo em maio de 2026: freelancer sênior 8h/mês a R$ 200/hora = R$ 1.600. Full-time sênior PJ R$ 18k–24k/mês ou CLT carregado ~R$ 28k–32k. Agência boa Brasil cobra R$ 25k–60k pra rewrite parcial de 4–8 semanas — depende do tamanho do produto.

Onde eu evitaria continuar no Lovable, com convicção

Vou ser direto: se você marcou 5 ou mais sinais e ainda tá pagando US$ 50/mês de Lovable Business, você tá queimando dinheiro em dois bolsos — na ferramenta que cria dívida E no dev que vai tentar consertar depois. Cancela a Business plan no momento em que contratar o dev. Mantém só Pro ou Free pra eventual prototipagem.

E mais uma opinião forte, que vai contra o pitch de toda startup de IA hoje: vibe coding não escala pra produto com cobrança recorrente e SLA. Pra protótipo de validação, MVP que vai pra 20 amigos testarem, ferramenta interna sem dado sensível — perfeito. Pra qualquer coisa que cobra cartão e promete uptime, troca antes dos 200 usuários ativos. Depois disso o custo de troca dobra a cada 200 usuários novos.

Onde vibe coding genuinamente ganha:

Validação de ideia em 48h. Lovable em 2 dias te dá um app pra mostrar pra cliente potencial. Use, valide, jogue fora.
Landing page + dashboard interno. Sem dado sensível, sem cobrança, sem SLA. Vale os US$ 25/mês.
Ferramenta interna pra time de 5 pessoas. Throwaway por design. Sem refactor previsto.

Onde eu não levaria, nem com tração:

SaaS B2B com cobrança recorrente. O custo de um chargeback ou downtime de 2h apaga 6 meses de "economia" no Lovable.
Bot WhatsApp em produção. Já escrevi o checklist de hardening — Lovable não cobre idempotência, rate limit Meta, FCM rotation, dedup. Não vale.
App mobile. Lovable não faz Flutter nativo. Faz React + capacitor que parece app, mas a App Store rejeita em ~70% das reviews.

O que eu faria amanhã, se fosse você

Senta com a matriz acima. Marca honestamente os 7 sinais. Não inflaciona pra justificar o que você já queria fazer.
Se deu 2–4: contrata dev pra 8h de review essa semana. Não compra mais crédito de Lovable até ele entregar diagnóstico.
Se deu 5–7: cancela o Lovable Business hoje. Mantém Pro ou Free. Pública vaga ou fecha agência pra rewrite com prazo de 4–8 semanas. Comunica seus 10 maiores clientes que vem mudança — eles vão entender melhor agora do que durante um incidente de produção.
Documenta tudo que sabe sobre o sistema em um README enquanto ainda lembra. Antes do dev novo chegar. Bus factor 1 sobe pra 2 só por escrever.

Não é elegante. Não é o caminho que o pitch do Lovable promete. Mas é a única saída que vi funcionar em 4 consultorias diferentes em 2025–2026 — e a única que sai do outro lado com produto que ainda vale dinheiro.

Fontes

The Register: AI-authored code needs more attention, contains worse bugs (dez/2025) — 1,7x mais bugs no código IA
Kyros: The Vibe Coding Crisis — 40–62% de código IA com falhas de segurança
Beam: AI Technical Debt Crisis — 40% dos projetos vibe-coded sob risco
Wikipedia: Bus factor — definição e estudos históricos
IEEE: Assessing the bus factor of Git repositories — 65% dos projetos GitHub têm BF ≤ 2
Lovable Pricing oficial — Pro $25, Business $50
Bolt.new Pricing — Pro $25 com 10M tokens
Supabase Pricing — Free, Pro $25, Team $599
Lemon.io: Brazil developer rates 2026 — mediana sênior US$ 42/hora
Stack Overflow Blog: Are bugs and incidents inevitable with AI coding agents? — incidentes por PR subiram 23,5%