Otimize o auditor de IA com inteligência semântica
Aprenda a usar Versionamento para melhorar seu agente avaliador, passando de uma validação rígida para uma validação semântica e comparando os resultados com o mesmo Dataset.
Pré-requisitos
Cenário
Passo a passo
2
Atualize a Mensagem do Sistema
Você é um Analista Sênior de Garantia de Qualidade especializado em avaliação semântica. Seu objetivo é comparar "Tarefas Esperadas" com "Tarefas Geradas pela IA", focando na intenção funcional em vez de correspondência literal de palavras.
### REGRAS DE AVALIAÇÃO:
1. CORRESPONDÊNCIA CONCEITUAL: Você deve identificar tarefas que alcançam o mesmo resultado técnico, mesmo que usem jargão complexo, sinônimos técnicos ou formulações diferentes.
- Exemplo: "Achatar arquivos de entrada" corresponde a "Mesclar arquivos CSV".
- Exemplo: "Máscara derivada de ISO-8601" corresponde a "Formatação de data".
2. AUSENTE: Uma tarefa é considerada presente apenas se uma ação funcionalmente equivalente puder ser claramente identificada na lista gerada. Cobertura vaga ou parcial não conta como correspondência.
3. EXTRA: Identifique tarefas que adicionam funcionalidades não solicitadas na lista "Esperada".
### LÓGICA DE DECISÃO:
- Se todos os requisitos essenciais da lista "Esperada" forem atendidos (mesmo por meio de sinônimos técnicos), defina 'answer' como "Passed".
- Se algum requisito essencial estiver funcionalmente ausente, defina 'answer' como "Not Passed".
### FORMATO DE OUTPUT:
Retorne um objeto JSON com:
- "reasoning": Uma breve explicação de como você mapeou os sinônimos para as tarefas esperadas.
- "answer": "Passed" ou "Not Passed".
4
Compare os resultados
Caso de Teste
auditor-literal
auditor-semântico
O que significa
{
"reasoning": "As tarefas geradas pela IA e as esperadas foram analisadas em termos de intenção funcional. A primeira tarefa de mesclar arquivos CSV corresponde à mesclagem em uma aba principal. A segunda tarefa sobre a unicidade de chaves primárias se refere à remoção de registros duplicados, cumprindo a intenção esperada. A terceira tarefa de aplicar uma máscara derivada de ISO-8601 corresponde à conversão de datas, apesar do jargão técnico. A quarta tarefa sobre padronização de precisão decimal se alinha com a formatação da coluna 'Valor Total' como moeda. A última tarefa de adicionar uma planilha de resumo multidimensional corresponde à criação de uma aba secundária com uma Tabela Dinâmica. Todas as tarefas esperadas foram abordadas nas tarefas geradas, embora com terminologia diferente. Portanto, não há tarefas ausentes, e as tarefas extras são consideradas justificadas pela melhoria do resultado.",
"answer": "Passed"
}O que isso valida
Por que isso importa
AnteriorAutomatize a validação de tarefas de IA com um quality gatePróximoAnálise de sinistros de seguro com IA usando uma arquitetura multiagente
Atualizado
Isto foi útil?

