基于指标的评估#

在 Pro 和 Enterprise 计划中可用

基于指标的评估适用于 Pro 和 Enterprise 计划。注册社区和 Starter 计划用户也可以将其用于单个工作流。

一旦您的工作流准备部署，您通常希望在比构建时更多的示例上测试它。

例如，当生产执行开始出现边缘情况时，您希望将它们添加到您的测试数据集中，以确保它们得到覆盖。

对于从生产数据构建的大型数据集，仅通过直观查看结果很难了解性能表现。相反，您必须测量性能。基于指标的评估可以为每次测试运行分配一个或多个分数，您可以将其与以前的运行进行比较。单个分数会被汇总来测量整个数据集的性能。

此功能允许您运行计算指标的评估，跟踪这些指标在运行之间的变化，并深入了解这些变化的原因。

指标可以是确定性函数（如两个字符串之间的距离），或者您可以使用 AI 来计算它们。指标通常涉及检查输出与 参考输出（也称为基础事实）的距离。要做到这一点，数据集必须包含该参考输出。但是，有些评估不需要这个参考输出（例如，检查文本的情感或毒性）。

如何工作#

需要 Google Sheets

评估使用 Google Sheets 来存储测试数据集。要使用评估，您必须配置 Google Sheets 凭证。

按照设置说明创建数据集并将其连接到您的工作流，将输出写回数据集。

以下步骤使用轻量评估文档中相同的支持工单分类工作流：

指标是用于对工作流输出进行评分的维度。它们通常将实际工作流输出与参考输出进行比较。使用 AI 来计算指标是常见的，尽管有时也可以只使用代码。在 n8n 中，指标始终是数字。

您需要在工作流产生输出之后的某个点添加计算指标的逻辑。您可以将指标使用的任何参考输出作为数据集中的一列添加。这确保它们在工作流中可用，因为它们将由评估触发器输出。

使用 设置指标 操作来计算：

您也可以添加自定义指标。只需在工作流内计算指标，然后将其映射到评估节点。使用 设置指标 操作并选择 自定义指标 作为指标。然后您可以为要返回的指标设置名称和值。

例如：

计算指标可能会增加延迟和成本，因此您可能只希望在运行评估时才这样做，并在进行生产执行时避免这样做。您可以通过将指标逻辑放在“检查是否评估”操作之后来做到这一点。

切换到您工作流的评估选项卡，并单击 运行评估 按钮。评估将开始。评估完成后，它将显示每个指标的汇总分数。

您可以通过单击测试运行行来查看每个测试用例的结果。单击单个测试用例将在新选项卡中打开产生它的执行。

此页面是否

💬 微信

关注公众号

n8n实战笔记
📚 教程 💡 案例 🔧 技巧

添加微信

1对1 专业指导
⚡ 快答 🎯 定制 🚀 支持

添加后请直说来意，看到会回复。谢谢