Você colocou uma funcionalidade de IA no ar. O time comemorou. O board gostou da narrativa. Três meses depois, alguém pergunta: “Isso está funcionando?”
E você percebe que não sabe responder.
Esse é o cenário mais comum hoje em empresas brasileiras que adotaram IA. Implementação rápida, monitoramento inexistente. O problema não é técnico. É de produto: ninguém definiu o que “funcionar” significa nesse contexto.
Por que monitoramento de IA é diferente
Software tradicional tem uma característica reconfortante: se o código não muda, o comportamento não muda. Um bug que existia ontem existe hoje. Uma feature que funcionava continua funcionando.
IA não opera assim.
Modelos de linguagem e machine learning têm outputs probabilísticos. Isso significa que a mesma entrada pode gerar saídas diferentes. E mais importante: o contexto ao redor do modelo muda o tempo todo. Usuários fazem perguntas diferentes. Dados de entrada evoluem. O mundo muda.
A Anthropic, no playbook que publicou sobre IA em produção, chama atenção para um ponto que parece óbvio mas raramente é tratado com seriedade: sistemas de IA precisam de avaliação contínua, não apenas validação no lançamento.
O que realmente importa medir
A tentação é medir tudo. Latência, tokens, custo por request, taxa de erro. Esses dados são úteis, mas não respondem a pergunta central: a IA está entregando valor para o usuário e para o negócio?
Para um PM, as métricas que importam são as que conectam comportamento do modelo com resultado de produto.
Métricas de qualidade de output
Antes de pensar em volume ou custo, você precisa saber se o que a IA entrega é bom. Isso exige definir “bom” de forma concreta para o seu caso de uso.
Alguns critérios comuns:
- Relevância: a resposta endereça o que o usuário perguntou?
- Completude: faltou informação importante?
- Precisão factual: quando aplicável, a informação está correta?
- Tom adequado: o estilo de comunicação está alinhado com a marca?
Nenhum desses critérios é medido automaticamente por uma métrica de sistema. Exigem avaliação humana ou sistemas de avaliação próprios (LLM-as-judge, por exemplo).
Métricas de engajamento
Se a IA está em uma interface de usuário, você pode medir o que acontece depois da interação:
- Taxa de aceitação de sugestões
- Taxa de edição de respostas geradas
- Tempo até ação após receber a resposta
- Taxa de abandono no meio do fluxo
Uma IA que gera respostas ignoradas não está funcionando. Mesmo que tecnicamente esteja respondendo.
Métricas de impacto no negócio
Aqui entra o que justifica o investimento:
- Redução de tempo em tarefas que a IA automatiza
- Diminuição de volume de tickets ou chamados de suporte
- Aumento de conversão em fluxos assistidos por IA
- Custo evitado por automação de processos
Se você não consegue conectar a feature de IA a pelo menos uma métrica de negócio, a feature é um experimento, não um produto.
Drift: quando o modelo “estraga” sozinho
Drift é o termo técnico para o fenômeno em que um modelo começa a performar pior ao longo do tempo, mesmo sem mudanças no código.
Existem dois tipos principais:
Data drift: o perfil dos dados de entrada muda. Se você treinou um chatbot com perguntas de 2023 e agora os usuários fazem perguntas sobre temas de 2025, o modelo pode não lidar bem com o contexto novo.
Concept drift: a relação entre entrada e saída esperada muda. O que era uma boa resposta há seis meses pode não ser mais.
Sem detecção de drift
- Problemas aparecem via reclamação
- Investigação reativa e demorada
- Decisões baseadas em intuição
Com detecção de drift
- Alertas antes do impacto ao usuário
- Diagnóstico com dados estruturados
- Decisões baseadas em tendência
Para detectar drift, você precisa de duas coisas: uma baseline de performance definida no lançamento, e medições regulares comparando com essa baseline.
Framework prático de monitoramento
Esse framework não exige ferramentas sofisticadas. Exige clareza sobre o que observar e disciplina para fazer isso regularmente.
Nível 1: Saúde operacional
Medido automaticamente, revisado semanalmente:
- Latência média e percentil 95 estão dentro do aceitável?
- Taxa de erro está abaixo do threshold definido?
- Custo por request está dentro do orçamento?
- Volume de uso está no padrão esperado?
Nível 2: Qualidade de output
Medido por amostragem, revisado quinzenalmente:
- Amostra de N respostas foi avaliada manualmente?
- Score de qualidade médio está estável ou melhorando?
- Tipos de erro mais comuns estão mapeados?
- Há padrões de degradação em casos de uso específicos?
Nível 3: Impacto no negócio
Medido mensalmente, reportado para stakeholders:
- Métrica primária de negócio está sendo impactada positivamente?
- ROI estimado do sistema de IA está positivo?
- Feedback qualitativo de usuários está sendo coletado?
- Comparação com baseline pré-IA está atualizada?
Avaliação automatizada com LLM-as-judge
Uma técnica que a Anthropic detalha no playbook é usar um modelo de linguagem para avaliar outputs de outro modelo. Isso não substitui avaliação humana, mas escala a capacidade de detectar problemas.
O conceito é simples: você define critérios de qualidade, cria prompts que instruem um modelo avaliador, e roda avaliações automatizadas sobre amostras de produção.
Funciona bem para critérios objetivos (a resposta contém informação X?) e razoavelmente para critérios subjetivos (a resposta é útil?). Funciona mal para nuances de marca e tom que exigem contexto humano.
A recomendação prática: use LLM-as-judge para triagem em escala, e avaliação humana para calibração e casos de borda.
O erro mais comum: medir só quando há problema
Se você está lançando IA agora, defina as métricas antes de ir para produção. Se já lançou sem métricas, comece a coletar agora. Você não vai conseguir provar melhoria futura sem um ponto de partida documentado.
Como justificar o investimento em monitoramento
O custo de monitorar IA é uma fração do custo de operar IA. Mas esse argumento nem sempre convence.
O argumento que funciona melhor: monitoramento transforma IA de custo recorrente em ativo mensurável.
Sem monitoramento, você só tem duas opções: acreditar que está funcionando, ou esperar até quebrar visivelmente. Com monitoramento, você pode:
- Demonstrar ROI com dados
- Antecipar problemas antes do impacto
- Justificar investimentos adicionais com evidência
- Descontinuar features que não estão entregando
Começando com o que você tem
Não precisa de plataforma de MLOps para começar. Precisa de disciplina.
Comece com:
- Uma planilha com métricas semanais de saúde operacional
- Uma rotina quinzenal de avaliação manual de amostra
- Um report mensal conectando uso de IA com métrica de negócio
Isso já coloca você à frente de 80% das empresas que operam IA no Brasil hoje.
A pergunta que você precisa responder não é “a IA está rodando?”. É “a IA está valendo o que custa?”. Só métricas estruturadas respondem isso. E só PMs têm a visão de negócio necessária para definir quais métricas importam.
Autor
Raphael Pereira
Designer e estrategista focado em experiências digitais orientadas por performance.
Relacionados
Engenharia Ágil com IA: Quando o 'Vibe Coding' Vira Produção
O código gerado por IA deixou de ser curiosidade. Agora é decisão de arquitetura.
Continuar leitura
Por que seu time de produto precisa monitorar IA em produção (e como começar)
A maioria dos times trata monitoramento de IA como problema de engenharia. O custo dessa miopia aparece quando o produto começa a degradar sem ninguém perceber.
Continuar leitura