starsAutomatize a validação de tarefas de IA com um quality gate

Aprenda a construir um agente que avalia uma lista de tarefas e classifica se elas atendem aos critérios definidos.

Este guia rápido mostra como configurar um Agent Component como um auditor automatizado para validar tarefas geradas por IA com base em um padrão definido e como analisar seu comportamento após a execução.

O que você vai construir

Você vai configurar um Agent Avaliador que verifica se uma lista de tarefas está correta antes do pipeline continuar.

Neste exemplo:

  • Um Gerador de Passos cria tarefas para consolidar dados de vendas de várias planilhas.

  • O Avaliador compara essas tarefas com as esperadas e decide se elas passam.

circle-info

Para manter o foco neste guia:

  • As tarefas geradas vêm de um Dataset.

  • As tarefas esperadas são definidas diretamente na Mensagem de Usuário.

Em um cenário real, ambas viriam de fontes externas.

Pré-requisitos

Antes de começar, certifique-se de que você tem:

Configuração inicial

Adicione o Agent Component ao seu pipeline imediatamente após o trigger e configure-o da seguinte forma:

  • Modelo: Selecione GPT-4o Mini (recomendado para este guia). Este modelo foi escolhido porque tende a seguir instruções estruturadas de forma consistente, o que torna os resultados da avaliação mais previsíveis. Os resultados podem variar se você usar um modelo diferente.

  • Conta: Clique no ícone de engrenagem ao lado do parâmetro Modelo, vá em Conta e selecione a conta Secret Key que você criou na Digibee.

Após concluir a configuração básica, configure as seguintes mensagens e o JSON Schema:

Mensagem do Sistema

Esta versão é intencionalmente rígida. Você verá por que isso é um problema após a primeira execução.

Mensagem do Usuário

O prompt inclui tanto as Tarefas Esperadas (fixas) quanto a variável {{ message.agent1_output }}, que é injetada automaticamente a partir do seu Dataset em tempo de execução.

JSON Schema

Clique no ícone de engrenagem (⚙️) ao lado de Modelo, ative Usar Esquema JSON e defina o schema abaixo. Isso garante um formato de output consistente para que seu pipeline possa sempre interpretar o resultado de forma confiável.

Passo a passo

Nas próximas etapas, você criará um Dataset mockado para simular o comportamento do Agente 1 e configurará uma Regra de Avaliação para automatizar o veredicto.

1

Crie dois Casos de Teste em um Dataset

Crie um novo Dataset com o nome Avaliação de Precisão de Tarefas. Dentro dele, crie dois Casos de Teste para simular diferentes comportamentos do Agente 1.

Como sua Mensagem do Usuário contém a variável {{ message.agent1_output }}, cada Caso de Teste pode injetar um output gerado diferente sem modificar o prompt.

Consistência Semântica

- Mesclar o trio de arquivos CSV de entrada em uma única estrutura de array unificada.

- Garantir a unicidade da chave primária eliminando todos os registros de transações duplicados.

- Aplicar uma máscara derivada de ISO-8601 em todas as entradas temporais para exibição com o dia primeiro.

- Padronizar a precisão decimal conforme as especificações monetárias brasileiras (R$).

- Acrescentar uma planilha de resumo multidimensional para agregar os resultados por vendedor.

Todas as 5 tarefas estão funcionalmente corretas, mas descritas com vocabulário técnico diferente. Testa se o auditor resolve sinônimos.

Omissão Funcional

- Mesclar os três documentos fornecidos em uma única aba principal.

- Limpar o banco de dados excluindo registros com IDs duplicados.

- Garantir que todas as datas estejam no padrão DD/MM/AAAA.

- Formatar as colunas financeiras para exibir o símbolo do BRL.

- Alterar a fonte de toda a planilha para Arial e deixar os cabeçalhos em negrito.

A etapa da Tabela Dinâmica está genuinamente ausente e há uma etapa extra. Testa se o auditor identifica ambos.

2

Adicione uma Regra de Avaliação

Crie uma Avaliação para automatizar o veredicto após cada execução:

Campo
Valor

Nome da Avaliação

final_status_check

JSONPath

$.body.answer

Tipo de Scorer

STRING

Operador

Exato

Em seguida:

  1. Clique nos três pontos ao lado da Avaliação e selecione Adicionar ao Dataset. Escolha o Dataset Avaliação de Precisão de Tarefas.

  2. Abra a aba Datasets, acesse cada Caso de Teste criado na Etapa 1 e defina o Valor de Avaliação como Passed para ambos.

vial

O que isso verifica?

3

Execute e inspecione os resultados

Na aba Datasets, selecione Avaliação de Precisão de Tarefas e clique em Executar. Aguarde a conclusão de ambos os Test Cases.

Quando o Dataset é executado:

  • Ambos os Casos de Teste são executados sequencialmente.

  • Para cada execução, a plataforma extrai o valor em $.body.answer.

  • A Avaliação verifica se ele corresponde a Passed.

  • Cada Caso de Teste é marcado como Aprovado ou Falhou independentemente.

Ambos retornarão Not Passed. O resultado do Omissão Funcional é esperado, pois uma tarefa está genuinamente ausente. Foque no Consistência Semântica: ele falha mesmo com todas as 5 tarefas corretas. Abra-o na aba Execuções para inspecionar o output:

O que aprendemos?

Este é um falso negativo: todas as 5 tarefas estão funcionalmente corretas, mas o Avaliador as rejeitou completamente.

Ele não conseguiu reconhecer terminologias diferentes, nem que "planilha de resumo multidimensional" é o mesmo que uma Tabela Dinâmica. Como o prompt compara tarefas de forma literal em vez de semântica, até outputs corretos falham.

Próximos passos

Você construiu e testou com sucesso um quality gate e identificou exatamente por que ele ainda não está pronto para produção. Pronto para corrigir? No guia Otimize o auditor de IA com inteligência semântica, você versionará o Prompt do Sistema e implementará o refinamento semântico.

Atualizado

Isto foi útil?