Se você está construindo produto digital e ainda acha que IA em produção significa pagar $20 por milhão de tokens para a OpenAI, precisa atualizar sua planilha. DeepSeek V4 e Qwen 3.6-27B foram lançados nos últimos dias com uma proposta que muda a equação: performance comparável aos melhores modelos do mercado, rodando em infraestrutura que você controla, a um custo que não inviabiliza o unit economics do seu produto.
Não estou falando de modelos de brinquedo. Estou falando de modelos que competem com GPT-4o e Claude 3.5 em benchmarks, disponíveis para self-hosting ou via APIs que custam centavos onde antes se pagavam dólares.
O problema real que ninguém fala em público
A maioria dos produtos digitais brasileiros que “usam IA” na verdade têm uma feature de IA desligada ou limitada. O motivo é simples: o custo por requisição inviabiliza uso em escala.
Faça a conta. Um produto SaaS com 10 mil usuários ativos, cada um fazendo 5 interações com IA por dia, a $0.015 por 1K tokens de input e $0.06 por 1K tokens de output (preços do GPT-4o). Com uma média de 500 tokens por interação, você está olhando para algo entre $15.000 e $30.000 por mês só em API. Para um SaaS brasileiro cobrando R$99/mês, isso simplesmente não fecha.
O resultado prático: empresas criam features de IA para marketing, não para valor real. O usuário vê “powered by AI” no site, usa uma vez, e nunca mais. Porque a feature foi desenhada para não ser usada demais.
O que mudou esta semana
DeepSeek V4 e Qwen 3.6-27B representam um ponto de inflexão. Não são modelos “quase bons”. São modelos que estão empatando ou superando GPT-4o em benchmarks que importam — raciocínio, código, instruções complexas — com uma diferença crucial: você pode rodar em infraestrutura própria.
DeepSeek V4 está disponível com pesos abertos. Qwen 3.6-27B roda em uma única GPU de 24GB. A API do DeepSeek custa $0.14 por milhão de tokens de input — isso é 100x mais barato que GPT-4o.
A mesma feature de IA que custaria $20.000/mês via OpenAI pode custar $200/mês via DeepSeek API, ou custo fixo de infraestrutura se você fizer self-hosting.
Modelo via API Premium (GPT-4o)
- $15-60 por milhão de tokens
- Dependência de terceiro
- Latência de rede adicional
- Dados passam por servidor externo
- Custo escala linearmente com uso
Modelo Compacto (DeepSeek V4 API)
- $0.14-0.27 por milhão de tokens
- API ou self-hosted
- Latência controlável
- Dados podem ficar internos
- Self-hosting tem custo fixo
Quando faz sentido migrar (e quando não faz)
Antes de você sair migrando tudo para DeepSeek, precisa entender o trade-off real.
Migrar faz sentido quando:
- Seu volume de uso é alto o suficiente para o custo de API ser problema
- A feature de IA é core do produto, não periférica
- Você tem capacidade técnica para operar infraestrutura de ML (ou pode contratar)
- Latência é crítica e você precisa de controle fino
- Dados sensíveis não podem sair da sua infraestrutura
Não migrar faz sentido quando:
- Seu volume ainda é baixo — o overhead operacional não compensa
- Você precisa do modelo mais avançado do mercado para casos específicos (GPT-4o ainda ganha em alguns cenários)
- Sua equipe não tem experiência com infra de ML e você não quer esse problema agora
- O custo atual de API é aceitável dentro do seu unit economics
- Sua feature de IA tem volume acima de 100K requisições/mês?
- O custo de API representa mais de 10% do seu custo variável?
- Você tem alguém no time que sabe operar GPU em produção?
- A qualidade do modelo compacto é suficiente para seu caso de uso?
- Latência abaixo de 500ms é requisito do produto?
Se você respondeu sim para 3 ou mais, vale investigar seriamente.
O caminho de menor fricção
Você não precisa fazer self-hosting para capturar a maior parte do benefício. O caminho mais pragmático para a maioria dos produtos:
Fase 1: Trocar de API
Mantenha sua arquitetura atual. Troque a chamada de OpenAI para DeepSeek ou outro provider de modelo compacto. Reduza custo em 90%+ sem mexer em infraestrutura. Tempo de implementação: horas.
Fase 2: Avaliar qualidade
Rode as duas em paralelo por uma semana. Compare outputs. Na maioria dos casos de uso — classificação, extração, geração de texto estruturado — a diferença é imperceptível. Em alguns casos, DeepSeek é melhor.
Fase 3: Self-hosting (se fizer sentido)
Se o volume justificar e você tiver capacidade operacional, migre para infraestrutura própria. Aqui o custo vira fixo: uma GPU A100 na AWS custa ~$3/hora. Se você está gastando mais que $2.000/mês em API, provavelmente compensa.
O que isso significa para produto
Para PMs e líderes de produto, a implicação é direta: features de IA que estavam no backlog por inviabilidade de custo agora são viáveis.
Aquela ideia de ter um assistente contextual dentro do produto? Viável. Análise automática de documentos enviados pelo usuário? Viável. Personalização de conteúdo em tempo real? Viável.
O limitador deixou de ser “quanto custa a API” e passou a ser “o que faz sentido para o usuário”. Isso é uma mudança de paradigma.
Mas atenção: viabilidade de custo não significa viabilidade de produto. A pergunta continua sendo “essa feature resolve um problema real?” — não “essa feature é barata de rodar?”. Muita empresa vai cair na armadilha de adicionar IA porque agora é barato, não porque agora é útil.
O elefante na sala: latência e experiência
Custo é metade da equação. A outra metade é latência.
Modelos grandes via API têm latência de rede + latência de processamento. Em uso típico, você está olhando para 2-5 segundos de tempo de resposta. Para muitas features, isso é aceitável. Para outras, mata a experiência.
Modelos compactos rodando localmente ou em edge computing podem entregar respostas em centenas de milissegundos. Isso abre possibilidades de UX que simplesmente não existiam antes:
- Autocompletar inteligente enquanto o usuário digita
- Validação semântica de formulários em tempo real
- Sugestões contextuais instantâneas
- Busca com compreensão de linguagem natural
Essas features só funcionam com latência baixa. E latência baixa em IA, até semana passada, significava custo proibitivo ou qualidade ruim. Esse trade-off está desaparecendo.
O que eu faria agora
Se você tem um produto digital com feature de IA ou planeja ter:
-
Revise sua planilha de custos — recalcule o unit economics com os novos preços de API. Provavelmente você pode aumentar o uso permitido ou remover limitações artificiais.
-
Teste os modelos novos — DeepSeek V4 e Qwen 3.6-27B têm playgrounds gratuitos. Rode seus casos de uso reais, não benchmarks genéricos.
-
Reavalie features no backlog — aquela ideia que foi descartada por custo há 6 meses pode ser viável agora.
-
Não faça self-hosting por hype — se a API resolve seu problema por $200/mês, você não precisa operar GPUs. Complexidade operacional tem custo invisível.
-
Pense em latência, não só em custo — algumas features de IA que você considera inviáveis são inviáveis por latência, não por preço. Modelos locais resolvem isso.
A janela de oportunidade está aberta. Empresas que entenderem rápido que IA deixou de ser custo premium e virou commodity vão construir features que os concorrentes vão levar meses para copiar. Não por falta de tecnologia — por falta de atualização de premissas.
Suas premissas de 6 meses atrás sobre IA em produção provavelmente estão erradas. Atualize-as.
Autor
Raphael Pereira
Designer e estrategista focado em experiências digitais orientadas por performance.
Relacionados
Como Avaliar se sua IA em Produção está Realmente Funcionando
A maioria das empresas coloca IA em produção sem saber como medir se está funcionando. Este guia transforma monitoramento técnico em decisão estratégica.
Continuar leitura
Engenharia Ágil com IA: Quando o 'Vibe Coding' Vira Produção
O código gerado por IA deixou de ser curiosidade. Agora é decisão de arquitetura.
Continuar leitura