概览#
什么是评估?#
评估是检查您的 AI 工作流是否可靠的关键技术。它可能是不稳定的概念验证和稳固的生产工作流之间的关键区别。在构建阶段和部署到生产环境后,评估都非常重要。
评估的基础是通过您的工作流运行测试数据集。该数据集包含多个测试用例。每个测试用例包含您工作流的样本输入,并且通常也包含预期的输出。
评估允许您:
- 在一系列输入上测试您的工作流,这样您就知道它在边缘情况下的表现如何
- 以自信的方式进行更改,而不会无意中在其他地方使情况变得更糟
- 比较性能,在不同模型或提示之间进行比较
以下视频解释了什么是评估、为什么有用以及它们如何工作:
为什么需要评估?#
AI 模型从根本上不同于代码。代码是确定性的,您可以对其进行推理。对于 LLM 来说这很难做到,因为它们是黑盒子。相反,您必须通过运行数据并观察输出来 测量 LLM 输出。
只有在对多个准确反映生产环境中必须处理的所有边缘情况的输入运行模型后,您才能建立对模型可靠性能的信心。
两种类型的评估#
轻量评估(部署前)#
构建干净、全面的数据集是困难的。在初始构建阶段,通常只需生成少数几个示例就有意义。这些足以将工作流迭代到可发布状态(或概念验证)。您可以直观地比较结果以了解工作流的质量,无需设置正式的指标。
基于指标的评估(部署后)#
一旦您部署工作流,就更容易从生产执行中构建更大、更具代表性的数据集。当您发现错误时,可以将导致错误的输入添加到数据集中。修复错误时,重要的是再次在整个数据集上运行工作流作为回归测试,以检查修复是否无意中使其他地方变得更糟。
由于有太多测试用例需要单独检查,评估使用指标(代表特定特征的数值)来测量输出的质量。这也允许您跟踪运行之间的质量变化。
评估类型比较#
轻量评估(部署前) | 基于指标的评估(部署后) | |
---|---|---|
每次迭代的 性能改进 |
大 | 小 |
数据集大小 | 小 | 大 |
数据集来源 | 手工生成 AI 生成 其他 |
生产执行 AI 生成 其他 |
实际输出 | 必需 | 必需 |
预期输出 | 可选 | 必需(通常) |
评估指标 | 可选 | 必需 |
了解更多#
- 轻量评估:在开发过程中针对手动选择的测试用例评估您的 AI 工作流的完美选择。
- 基于指标的评估:通过使用大型数据集的评分和指标来维护生产环境中性能和正确性的高级评估。
- 提示和常见问题:学习如何设置特定的评估用例并解决常见问题。
此页面是否
微信
🚀 与作者交流
关注公众号

n8n实战笔记
📚 教程 💡 案例 🔧 技巧
📚 教程 💡 案例 🔧 技巧
添加微信

1对1 专业指导
⚡ 快答 🎯 定制 🚀 支持
⚡ 快答 🎯 定制 🚀 支持