> For the complete documentation index, see [llms.txt](https://docs.digibee.com/documentation/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.digibee.com/documentation/connectors-and-triggers/pt-br/connectors/ai-tools/llm/results-analysis.md).

# Executando testes no Agent: Resultados, análise e versionamento

Este guia mostra como executar testes, revisar resultados e usar avaliações automatizadas e manuais para entender o que está funcionando e o que precisa de melhoria. Você também aprenderá a salvar resultados, identificar padrões com anotações e insights, e comparar diferentes versões do agente usando o mesmo conjunto de dados.

{% hint style="warning" icon="books" %}
**Pré-requisito:** Leia [**Construindo testes para o Agent: Datasets, Casos de Teste e Avaliações**](/documentation/connectors-and-triggers/pt-br/connectors/ai-tools/llm/testing-your-agent.md) para aprender a configurar os testes.
{% endhint %}

## **Executando os Testes**

Para executar os Casos de Teste em um Dataset:

1. Selecione o Dataset.
2. Clique em **Executar**.

Fluxo de trabalho recomendado:

1. Crie os Casos de Teste.
2. Execute-os para revisar as saídas brutas.
3. Defina Avaliações com base na estrutura esperada.
4. Execute novamente para validar os resultados de aprovação/reprovação automaticamente.

Após a conclusão da execução, os resultados aparecem na aba **Execuções**. Clique em uma execução para ver os detalhes.

<figure><img src="/files/tOFITp7iBeCpp31ZLnyK" alt=""><figcaption></figcaption></figure>

## **Interpretando os resultados**

### **Detalhes da saída**

No topo da página, você pode imediatamente ver se a execução foi bem **sucedida** ou se **falhou**. Você também tem acesso ao **horário** do dia em que a execução ocorreu, à **duração** da execução em milissegundos, e ao número de **tokens** usados, reportado diretamente pelo provedor LLM.

{% hint style="info" %}
Se o provedor LLM não retornar as informações de uso, o número de tokens não será exibido no resultado da execução.
{% endhint %}

Para ver informações mais detalhadas sobre a execução, expanda as seguintes seções no componente:

#### **Logs de execução**

Cada execução inclui logs que mostram como o componente se comportou:

* **Configuração**: Configurações de provedor e modelo.
* **Entrada**: Contexto, configuração de ferramentas e status de recuperação.
* **Sistema**: A Mensagem de Sistema enviada ao modelo.
* **Usuário**: A Mensagem de Usuário enviada ao modelo.
* **Ferramentas**: Chamadas de ferramentas, argumentos e resultados.
* **Guardrail de entrada/saída**: Guardrails aplicados e seu impacto.

Use esses logs para validar o comportamento e solucionar problemas.

#### **Output**

O resultado final é retornado em formato JSON. Você pode inspecionar e consultar campos usando JSONPath.

#### **Logs de Avaliação**

Mostra os resultados das Avaliações para cada Caso de Teste, incluindo o status de aprovação/reprovação e detalhes de configuração.

### **Avaliação manual**

A avaliação manual permite que especialistas de domínio e desenvolvedores avaliem a qualidade da execução além das verificações automatizadas. Ela captura observações qualitativas como raciocínio ambíguo, casos extremos e problemas de design de prompt. Inclui três ferramentas: **classificações**, **anotações** e **insights**.

#### **Classificações (Ratings)**

Cada execução pode ser marcada como positiva (<i class="fa-thumbs-up">:thumbs-up:</i>) ou negativa (<i class="fa-thumbs-down">:thumbs-down:</i>). Foque na qualidade da saída ao classificar. Uma execução bem-sucedida ainda pode receber uma classificação negativa se a saída estiver incorreta, incompleta ou não for útil.

Após classificar, uma coluna **manual-evaluation** é adicionada à aba **Execuções**. Ela reflete suas classificações e calcula uma taxa de sucesso para o Dataset.

<figure><img src="/files/FHPHNLhgEvh58Dm8gwU4" alt=""><figcaption></figcaption></figure>

**Exemplo**

Se um Dataset tiver três Casos de Teste:

* Dois recebem classificação positiva
* Um recebe classificação negativa

O resultado é uma **taxa de sucesso manual de 67%**. Isso é combinado com as pontuações automatizadas na coluna **Total**.

#### **Anotações**

As anotações permitem registrar descobertas diretamente em:

* **Ferramentas (Tools)**
* **Mensagem de Sistema**
* **Mensagem de Usuário**
* **Guardrails**

Para adicionar uma anotação, abra uma execução e clique em **Adicionar Anotação** abaixo da seção relevante.

Foque em explicar *por que* algo funcionou ou falhou. Notas claras e específicas se tornam mais valiosas com o tempo.

Uma única anotação reflete uma execução. Múltiplas anotações revelam padrões, como problemas recorrentes ou interpretações equivocadas. Esses padrões tornam os Insights mais úteis.

**Exemplos**

*Ferramentas (Tools)*

> A ferramenta retornou dados irrelevantes porque o índice está desatualizado. A fonte precisa ser atualizada.

*Mensagem de Sistema*

> A regra rejeitou uma saída válida porque "DD/MM/AAAA" não foi reconhecido como equivalente a "máscara derivada de ISO-8601 com dia primeiro". O prompt precisa aceitar reformulações técnicas que preservem o significado original.

*Mensagem de Usuário*

> A entrada está clara. O problema vem da Mensagem de Sistema, não dessa parte.

#### **Insights**

Após adicionar várias anotações, vá para a aba **Insights de anotações** e clique em **Gerar Insights**.

<figure><img src="/files/ahhkWkm2WpRATvoVfyME" alt=""><figcaption></figcaption></figure>

O Insight agrupa padrões entre as anotações e destaca:

* O que está funcionando
* O que precisa de atenção
* Principais problemas
* Correções recomendadas

Isso reduz a necessidade de revisar cada execução individualmente.

{% hint style="warning" icon="lightbulb-on" %}
Para melhores resultados, anote pelo menos 5 a 10 Casos de Teste. Mais variedade resulta em insights mais confiáveis.
{% endhint %}

### **Salvando os resultados**

Todas as execuções são armazenadas na aba **Execuções** com as seguintes regras de retenção:

* **Salvo automaticamente**: Execuções são armazenadas por 5 dias.
* **Armazenamento permanente**: Selecione as execuções e clique em **Salvar** para mantê-las permanentemente. O pipeline deve ser salvo antes que as execuções possam ser armazenadas de forma permanente.

## **Versionamento e iteração**

O [versionamento](/documentation/connectors-and-triggers/pt-br/connectors/ai-tools/llm.md#versionando-o-componente) ajuda a testar mudanças de forma controlada. Quando usado com Datasets e Avaliações, ele fornece uma configuração consistente onde você pode medir o impacto das mudanças em vez de depender de suposições.

Você pode reutilizar o mesmo Dataset em diferentes versões do Agente. Isso mantém as condições de teste iguais enquanto apenas a configuração muda. Por exemplo:

* **v1** → Modelo: gpt-4o
* **v2** → Modelo: gpt-5
* **v3** → Mensagem de Sistema atualizada

#### **Abordagem recomendada**

1. **Comece de forma simples**: Trabalhe em um único prompt sem criar versões inicialmente. Foque em corrigir problemas melhorando instruções, estrutura ou restrições.
2. **Crie uma linha de base**: Quando precisar comparar resultados, salve a configuração atual como uma versão. Use-a como seu ponto de referência principal.
3. **Teste alternativas**: Experimente diferentes configurações. Salve novas versões somente quando realmente precisar compará-las.
4. **Mantenha os testes consistentes**: Use o mesmo Dataset entre versões para que os resultados sejam comparáveis.
5. **Promova melhorias**: Se uma versão tiver desempenho melhor que sua linha de base, torne-a sua nova versão principal.

Use a mesma abordagem ao atualizar Datasets ou regras de avaliação: defina uma linha de base estável, teste nas mesmas condições e promova mudanças somente após validá-las.

## **Próximos Passos**

Agora que você entende tanto o modelo conceitual quanto o processo de implementação, aprenda a [**construir seu primeiro fluxo de trabalho de testes de IA usando Datasets, Avaliações e Versionamento**](/documentation/resources/pt-br/quickstarts/first-ai-testing-workflow.md).


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.digibee.com/documentation/connectors-and-triggers/pt-br/connectors/ai-tools/llm/results-analysis.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
