vialConstrua seu primeiro workflow de testes de IA com Datasets e Avaliações

Crie um workflow funcional de testes de IA que valide saídas JSON estruturadas em múltiplas variações de entrada.

Este guia rápido mostra como usar Datasets e Avaliações para verificar automaticamente se seu agente gera consistentemente os campos obrigatórios, mesmo quando o tópico muda, garantindo respostas estruturadas confiáveis e prontas para produção.

Pré-requisitos

Antes de começar, certifique-se de que você possui:

Configuração inicial

Adicione o Agent Component ao seu pipeline imediatamente após o trigger e configure-o da seguinte forma:

  • Modelo: Selecione o modelo de sua preferência (por exemplo, OpenAI – GPT-4o Mini).

  • Conta: Clique no ícone de engrenagem ao lado do parâmetro Modelo, vá em Conta e selecione a conta Secret Key que você criou na Digibee.

Após concluir a configuração básica, você estará pronto para configurar seus testes.

Cenário

Você está construindo um agente de IA que converte informações técnicas recuperadas em documentação estruturada em JSON.

Essa saída será consumida por sistemas downstream, portanto a consistência estrutural é essencial. Mesmo um campo ausente pode quebrar integrações determinísticas.

Para garantir confiabilidade, configure o Agent com as seguintes mensagens e JSON Schema:

Mensagem do Sistema

Define o papel e o tom do agente:

Mensagem do Usuário

Define a tarefa dinâmica e introduz uma variável:

A variável {{ message.topic }} permite simular diferentes contextos semânticos sem modificar a estrutura do prompt. Isso a torna ideal para testes controlados em múltiplos cenários.

JSON Schema

Defina o schema de saída:

Esse schema impõe:

  • Campos estruturais obrigatórios

  • Restrições mínimas de conteúdo

  • Controle estrito de propriedades, sem campos inesperados

Passo a passo

Nos próximos passos, você criará testes estruturados para garantir que campos obrigatórios, como description, sejam sempre gerados, independentemente do tópico fornecido.

1

Crie três Experimentos em um Dataset

Crie um novo Dataset, que é um agrupamento lógico de cenários de teste, e nomeie-o como Validador de Documentação.

Dentro desse Dataset, crie três Experimentos para simular diferentes cenários de execução. Como sua Mensagem do Sistema contém a variável {{ message.topic }}, cada Experimento pode definir um valor diferente para ela.

Use a seguinte configuração:

Experimentos
message.topic

Experiment 1

Arquitetura Orientada a Eventos

Experiment 2

Limitação de Taxa de API

Experiment 3

Indexação de Banco de Dados

Cada Experimento simula um domínio semântico diferente mantendo a estrutura do prompt inalterada. Isso permite validar a consistência estrutural em contextos variados.

2

Crie a regra de Avaliação

Agora que seu Dataset está configurado, crie uma Avaliação, que é uma regra automatizada que valida parte da saída do modelo, com a seguinte configuração:

Nome da Avaliação description_exists

JSONPath $.body.description

Tipo de Scorer String

Variante

Não Vazio

Considerando que a IA foi instruída a seguir estritamente o JSON Schema definido anteriormente, essa regra verifica se o campo description está presente no JSON de saída e contém um valor não vazio.

3

Associe a Avaliação ao Dataset

Após criar a Avaliação, clique nos três pontos ao lado dela e selecione Adicionar ao Dataset. Em seguida, escolha o Dataset criado no Passo 1.

Como a operação selecionada é Não Vazio, não é necessário definir um valor esperado nos Experimentos. A Avaliação será aprovada automaticamente desde que o campo alvo exista e contenha um valor não vazio.

4

Execute o Dataset

Na aba Datasets, selecione seu Dataset e clique em Executar.

Quando o Dataset for executado:

  • Os três Experimentos são executados sequencialmente.

  • Para cada execução, a plataforma extrai o valor em $.body.description.

  • A Avaliação verifica se o campo está presente e não está vazio.

  • Cada Experimento é avaliado de forma independente e marcado como Aprovado ou Falhou.

Isso permite confirmar que o campo description é gerado consistentemente em diferentes tópicos.

Você pode consultar informações mais detalhadas sobre cada execução na aba Execuções.

O que isso valida

Este experimento confirma a consistência estrutural em diferentes variações semânticas.

Mesmo que os tópicos sejam significativamente distintos, o agente deve sempre:

  • Respeitar o JSON schema

  • Preencher todos os campos obrigatórios

  • Produzir uma string válida em description

Se algum tópico resultar em ausência do campo description, a Avaliação falhará, evidenciando imediatamente uma regressão estrutural.

Por que isso é importante

As saídas de LLMs são probabilísticas. Um prompt que funciona para um tópico pode degradar para outro.

Ao testar múltiplos contextos semânticos com uma única regra estrutural, você garante:

  • Estabilidade do formato de saída

  • Conformidade com o schema

  • Detecção de regressões quando prompts são modificados

Este é um exemplo simples, porém poderoso, de como Datasets e Avaliações introduzem confiabilidade mensurável em workflows orientados por IA.

Atualizado

Isto foi útil?