Evaluation
下面是一份针对《AI Engineering》第 3 章“Evaluation Methodology”中“评价(Evaluation)”部分的结构化读书笔记,已补充更多常用指标、方法和实践思路,并突出Fact Check 与领域知识的重要性,供参考和进一步完善。
⸻
- 评价的挑战 • 开放性输出:Foundation Models 生成的文本、图像等都是开放式的,可能有无限多种合理答案,缺乏确定的“标准答案”来做比对。 • 领域差异:不同应用(法律、医学、金融)需要不同领域知识,模型在某些领域可能表现优秀,在另一些领域则“术业有专攻”难以评估。 • 事实正确性(Fact Check):生成内容往往包含未经验证的信息或“幻觉”(hallucination),需要自动和人工结合的事实校验机制。 • 人类偏好:用户对“好回答”的定义极度主观,需要通过人类反馈或代理模型来捕捉偏好。
⸻
- 基于概率的核心指标
| 指标 | 含义 | 公式(简化) | 注释 |
|---|---|---|---|
| 熵(Entropy) | 随机变量不确定度;字符/token 所携带的信息量,通常以比特(bits)为单位 | 最高熵发生在所有事件等概率时,信息量最大 | |
| 交叉熵(Cross-Entropy) | 真实分布 与模型分布 的平均差异 | 等于真实熵 与 KL 散度 之和 | |
| KL 散度 | 衡量 相对于 的偏差 | 非对称,非度量;常作为损失的一部分 | |
| 困惑度(Perplexity) | 语言建模上的“疑惑”程度;越低越好 | 直观:模型相当于在词表上平均挑选 个 token | |
| 比特/字符(BPC) | 以字符为单位的交叉熵度量 | 与 PPL 对应,适合字符级模型 |
示例:若训练集真实熵 bits、模型交叉熵 bits,则 • 模型困惑度 • 说明生成每个 token 时相当于在 个最可能的选项里平均挑 个
⸻
- 精确评价(Exact Evaluation)
- 功能正确性(Functional Correctness) • 适用于有“标准答案”的任务:数学题、编程题、用户意图分类。 • 常用指标:Accuracy、Precision/Recall、F1-Score
| 指标 | 公式 | 说明 |
|---|---|---|
| Accuracy | 整体正确比例 | |
| Precision | 正类预测的准确性 | |
| Recall | 正类召回率 | |
| F1-Score | 准确率与召回的调和平均 |
2. 参考对齐度(Similarity to References)
• 机器翻译:BLEU、TER
• 文本摘要:ROUGE-L、BERTScore
• 对话生成:Meteor、CIDEr 等
3. 嵌入相似度(Embedding Similarity)
• 将生成文本与多参考答案编码为向量,计算余弦相似度
• 适合开放式回答任务:问答、对话
注意:以上方法依赖“参考答案集”,难以囊括所有合理输出。
⸻
- 人工与代理评判(Human & AI-as-Judge) • 人工评判(Human Evaluation) • 维度:正确性、流畅度、连贯性、有用性、安全性 • 打分方式:5 分制、A/B 测试、对比打分 • 成本:耗时高、主观性大,需要严格设计问卷与评分指南 • AI 作为评判(AI-as-Judge) • 使用更强/专门的 LLM 对输出打分(如 Claude3、GPT-4) • 优点:成本低,速度快;可快速迭代 • 缺陷:自身存在偏差,可能放大生成模型的错误
⸻
- 比较评价(Comparative Evaluation) • 多个模型/版本同时生成输出,评测者只需选择更好的一条 • 优势:相对简单,不要求给定“理想参考”;更契合 A/B 场景 • 局限:对比集规模决定统计功效,需足够样本量
⸻
- 事实校验与领域知识 • 事实校验(Fact Check) • 集成外部知识源:检索实时百科、新闻、数据库 • 自动校验:使用 QA 模型判断生成文本中的声称是否在可信文档中出现 • 领域知识 • 尽量使用专门 finetune/检索过的领域数据:医学、金融、法律 • 引入领域专家反馈;在关键环节使用人机协同审校
⸻
- 多维度指标监控与流水线设计
- 单次请求指标 • 质量(Precision/Recall、困惑度)、安全(Toxicity)、连贯度
- 系统级指标 • 响应时延(TTFT、TPOT)、成本(每请求 Token 数×API 单价)、可用性
- 用户体验指标 • 满意度(CSAT)、留存率、任务完成率
流水线示例
1. 离线评测:模型选择 → 离线基准测试(自动 & 人工)
2. 灰度部署:少量真实流量,监控质量与安全警报
3. 全量上线:开放更多反馈渠道,持续迭代(见第 10 章“User Feedback”)
⸻
- 小结与实践建议 • 指标组合:没有单一万能指标,需结合自动化与人工评估。 • 分层评估:离线→灰度→在线,逐步放大流量与评估力度。 • 领域对齐:在关键场景中引入领域专家与知识检索,降低幻觉风险。 • 持续监控:质量、成本与使用行为多维度跟踪,快速定位回退或升级时机。