Resumen

Cuando creas un agente de IA en Astra, el sistema no solo lo genera y te deja que averigües el resto. Genera casos de prueba automáticamente para ayudarte a evaluar y mejorar tu agente desde el principio.

Este artículo explica cómo las pruebas automatizadas, la optimización de las instrucciones y el panel de evaluación trabajan juntos para ayudarte a lanzar un agente fiable y de alto rendimiento con menos esfuerzo manual.

Instrucciones

Cómo funciona la evaluación automatizada de agentes

Tan pronto como se crea tu agente, Astra genera automáticamente casos de prueba. Esto elimina la necesidad de la configuración manual de pruebas y reduce el tiempo dedicado a prueba y error.

Cuando abras la página Evaluación, verás un conjunto de casos de prueba generados automáticamente a partir de las instrucciones actuales de tu agente.

Estos casos de prueba establecen una línea de base de rendimiento. Te ayudan a entender cómo responde tu agente a través de diferentes tipos de conversación, casos extremos y escenarios de riesgo. Estos escenarios van desde consultas estándar hasta problemas complejos.

Cómo ejecutar la evaluación y ver los resultados

Puedes seleccionar casos de prueba específicos de la lista para ejecutar la evaluación, o hacer clic en Ejecutar todo para evaluar todos los casos de prueba disponibles a la vez.

Una vez que se completa la evaluación, el sistema te mostrará cómo se desempeña el agente en tiempo real. Esto te ayuda a identificar rápidamente instrucciones poco claras, incompletas o contradictorias.

Verás los resultados generales de la evaluación, incluyendo:

Puntuación de eficiencia: cómo manejó el agente de IA las preguntas.
Precisión: cuán correctas fueron las respuestas del agente de IA.
Latencia: cuán rápido respondió el agente de IA.

También puedes ver los siguientes detalles en el resumen de la evaluación:

Pregunta: la pregunta de prueba utilizada para evaluar al agente de IA.
Categoría: el tipo de pregunta, como consulta estándar, problema implícito o pregunta fuera de tema.
Respuesta esperada: la respuesta que se espera que proporcione el agente de IA.
Respuesta de la IA: la respuesta real generada por el agente de IA.
Métricas: muestra la puntuación de eficiencia para la respuesta.
Estado: indica si el agente de IA aprobó o no aprobó la evaluación.
Notas: muestra información adicional sobre el caso de prueba, como si la pregunta fue generada automáticamente, cargada a través de CSV o añadida manualmente.

Puedes hacer clic en cualquier caso de prueba individual para ver los resultados detallados, incluyendo:

Resumen de la evaluación: un desglose de cómo respondió el agente y por qué aprobó o no aprobó.
Comportamiento esperado: la respuesta correcta o ideal que el agente debería haber proporcionado.

Cada resultado incluye una explicación detallada de cómo interpretó el agente la entrada del usuario y si respondió correctamente. Esto hace que sea más fácil detectar carencias y refinar tus instrucciones con precisión.

Lo que tienes que hacer:

Revisa los resultados de cada caso de prueba.
Compara la respuesta del agente con el resumen de la evaluación.
Comprueba si la respuesta coincide con comportamiento esperado.

Cómo ver el análisis y las recomendaciones de la IA

Haz clic en Analizar resultados para revisar el resultado de la evaluación. El sistema puede tardar unos instantes en procesar el análisis.

Una vez que se completa el análisis, haz clic en Ver recomendación para ver las sugerencias de optimización impulsadas por IA.

El sistema resume los principales problemas y proporciona recomendaciones prácticas para mejorar la precisión y fiabilidad del agente.

Revisa cuidadosamente las sugerencias de alta prioridad. Estas pueden incluir añadir reglas claras para ciertas solicitudes o definir instrucciones paso a paso para tareas complejas como el rastreo de pedidos.

Cómo actualizar las instrucciones del agente

Tras revisar las sugerencias, haz clic en Actualizar instrucciones para aplicar automáticamente las mejoras. Esta función ayuda a agilizar el proceso de perfeccionamiento del agente utilizando información de pruebas y análisis del mundo real. Tardará unos instantes y mostrará los resultados.

Revisa y aplica los cambios

La pantalla Revisar instrucciones actualizadas mostrará los cambios propuestos. Aquí, puedes ver cómo se añaden las nuevas reglas y directrices a las instrucciones existentes del agente.

Después de la optimización:

El portal destaca las actualizaciones propuestas.
Puedes ver claramente lo que se ha modificado y por qué.
Revisa cuidadosamente las mejoras sugeridas.

Desplázate por las instrucciones actualizadas para asegurarte de que cumplen tus requisitos.

Confirma que las sugerencias de la IA se ajustan a la voz de tu marca y a tus procesos de negocio.

Haz clic en Aceptar para finalizar la actualización.

Vuelve a ejecutar la evaluación

Después de guardar los cambios, haz clic en Ejecutar todo de nuevo para volver a evaluar el agente utilizando los mismos casos de prueba. El sistema ejecutará la evaluación con las instrucciones actualizadas. Cuando se complete la prueba, deberías ver que todos los escenarios se aprueban.

Este proceso muestra cómo las funciones de análisis y recomendación te ayudan a mejorar y optimizar iterativamente el rendimiento de tu agente de IA.

Cómo usar la evaluación automatizada de agentes de Astra para implementar agentes de IA confiables