Passar para o conteúdo principal

Como usar a avaliação automatizada de agentes da Astra para implementar agentes de IA confiáveis

Atualizado ontem

Resumo

Quando você cria um agente de IA no Astra, o sistema não apenas o gera e deixa você descobrir o resto. Ele gera casos de teste automaticamente para ajudar você a avaliar e melhorar seu agente desde o início.

Este artigo explica como o teste automatizado, a otimização de prompts e o painel de avaliação funcionam juntos para ajudar você a lançar um agente confiável e de alto desempenho com menos esforço manual.

Instruções

Como funciona a avaliação automatizada do agente

Assim que seu agente é criado, o Astra gera casos de teste automaticamente. Isso elimina a necessidade de configuração de teste manual e reduz o tempo gasto em tentativa e erro.

Quando você abre a página Avaliação, você verá um conjunto de casos de teste gerados automaticamente a partir das instruções atuais do seu agente.

Esses casos de teste estabelecem uma linha de base de desempenho. Eles ajudam você a entender como seu agente responde em diferentes tipos de conversas, casos extremos e cenários de risco. Esses cenários variam de consultas padrão a problemas complexos.

Como executar a avaliação e visualizar os resultados

Você pode selecionar casos de teste específicos da lista para executar a avaliação ou clicar em Executar tudo para avaliar todos os casos de teste disponíveis de uma só vez.

Depois que a avaliação for concluída, o sistema mostrará como o agente se comporta em tempo real. Isso ajuda você a identificar rapidamente instruções confusas, incompletas ou conflitantes.

Você verá os resultados gerais da avaliação, incluindo:

  • Pontuação de eficiência - Quão bem o agente de IA lidou com as perguntas.

  • Precisão - Quão corretas foram as respostas do agente de IA.

  • Latência - Quão rápido o agente de IA respondeu.

Você também pode visualizar os seguintes detalhes no resumo da avaliação:

  • Pergunta - A pergunta de teste usada para avaliar o agente de IA.

  • Categoria - O tipo de pergunta, como consulta padrão, problema implícito ou pergunta fora do tópico.

  • Resposta esperada - A resposta que o agente de IA deve fornecer.

  • Resposta da IA - A resposta real gerada pelo agente de IA.

  • Métricas - Exibe a pontuação de eficiência para a resposta.

  • Status - Indica se o agente de IA passou ou falhou na avaliação.

  • Notas - Mostra informações adicionais sobre o caso de teste, como se a pergunta foi gerada automaticamente, carregada via CSV ou adicionada manualmente.

Você pode clicar em qualquer caso de teste individual para visualizar os resultados detalhados, incluindo:

  • Resumo da avaliação - Uma análise de como o agente respondeu e por que aprovou ou reprovou.

  • Comportamento esperado - A resposta correta ou ideal que o agente deveria ter fornecido.

Cada resultado inclui uma explicação detalhada de como o agente interpretou a entrada do usuário e se respondeu corretamente. Isso facilita a identificação de lacunas e o refinamento de suas instruções com precisão.

O que você precisa fazer:

  • Revise os resultados para cada caso de teste.

  • Compare a resposta do agente com o resumo da avaliação.

  • Verifique se a resposta corresponde ao comportamento esperado.

Como visualizar a análise e as recomendações da IA

Clique em Analisar resultados para revisar o resultado da avaliação. O sistema pode levar alguns instantes para processar a análise.

Após a conclusão da análise, clique em Visualizar recomendação para ver as sugestões de otimização desenvolvidas por IA.

O sistema resume os principais problemas e fornece recomendações práticas para melhorar a precisão e a confiabilidade do agente.

Revise as sugestões de alta prioridade com atenção. Estas podem incluir a adição de regras claras para determinadas solicitações ou a definição de instruções passo a passo para tarefas complexas, como o rastreamento de pedidos.

Como atualizar as instruções do agente

Depois de revisar as sugestões, clique em Atualizar instruções para aplicar as melhorias automaticamente. Este recurso ajuda a agilizar o processo de refinamento do agente usando insights de testes e análises do mundo real. Isso levará alguns instantes e exibirá os resultados.

Revisar e aplicar alterações

A tela Revisar instruções atualizadas exibirá as alterações propostas. Aqui, você pode ver como as novas regras e diretrizes são adicionadas às instruções existentes do agente.

Após a otimização:

  • O portal destaca as atualizações propostas.

  • Você pode ver claramente o que foi modificado e por quê.

  • Revise as melhorias sugeridas com atenção.

Role pelas instruções atualizadas para garantir que elas atendam aos seus requisitos.

Confirme se as sugestões de IA estão alinhadas com a sua voz da marca e os seus processos de negócios.

Clique em Aceitar para finalizar a atualização.

Execute a avaliação mais uma vez

Após salvar as alterações, clique em Executar tudo novamente para reavaliar o agente usando os mesmos casos de teste. O sistema executará a avaliação com as instruções atualizadas. Quando o teste for concluído, você deverá ver que todos os cenários são aprovados.

Este processo mostra como os recursos de análise e recomendação ajudam você a melhorar e otimizar iterativamente o desempenho do seu agente de IA.

Respondeu à sua pergunta?