原创信息技术 AI

通用机器人指标

发表于2022-09-02更新于2026-05-28

字数总计:770阅读时长:2分钟阅读量: 深圳

信息技术 AI

通用机器人指标

DiffDay2022-09-022026-05-28

通用机器人指标

共识指标

准确率
召回率
- 两个指标做二维图，就可综合做出P-R曲线图，横轴为召回率，用以衡量模型的性能
- ROC（受试者工作特性曲线），横轴为假阳性率，纵轴真阳性率。通过不断调整区分正负的阈值，可得到一个曲线。从医学上看，横轴就是误诊率，纵轴就是检出率
  
  二战期间，雷达兵任务之一就是死死盯住显示器，观察是否有敌机来袭。每个雷达兵都可能研究飞鸟信号和飞机信号的区别，以便增加预测准确性。
  
  问题在于：每个雷达兵（模型）都有自己的判断标准，谨慎的易误报，胆大的易漏报。为了研究每个雷达兵预报的准确性，汇总雷达兵的预报特点，作图在一个曲线上，就是ROC曲线。
  - ROC曲线能降低不同测试集带来的干扰，更客观衡量模型本身的性能。在很多实际问题中，正负样本数量波动，相差悬殊，如广告有转化的数量相较于无转化少很多，不同的测试集，P-R曲线变化大，ROC曲线相对稳定，广泛用于排序，广告等领域。医学上也是（越陡峭，表明真正的正样本排在前面）
- 若你更希望看到模型在特定数据集上的表现，PR曲线能更更直观反映其性能。
ROC两个指标，一个聚焦于正例（TP），一个聚焦于负例（FP），所以比较均衡。PR的两个指标都聚焦于正例，所以对正例量更为敏感。

用户维度的指标

DAU
意图丰富度（使用率 > x%的意图个数）
满意度评估（语音语义的情绪分类）

对话型

公共指标

达成率
交互效率（步长）

细分指标

问答型

求助人工比例
重复同样问题比例
没答案类的比例

任务型

留存率

闲聊型

CPS（对话轮数）
相关性 & 新颖性

搜索特性指标

很多指标靠常规的用户行为上报设想，是难以覆盖的。全面的收集必须【谋划在先、才能为目标节省时间】。如Search exit，高跳出率意味着搜索引擎给出的结果，用户找不到他想要的，但此类行为收集一般不在早期规划中。

Request/Session
CTR（Click-Through-Rate）: 搜索结果点击次数占访问次数的比例
平均点击深度
Search exit：跳失率

评估指标	召回（Recall）	排序（Ranking）	综合
查询无结果率	$\frac{无结果搜索PV}{总搜索PV}$
平均点击深度		$\frac{PV中用户【首次】点击链接所处的深度}{搜索次数}$
CTR			$搜索结果点击次数/访问次数$
跳失率			进入页面后没有任何操作，直接退出的比例（没有点击搜索结果，没有翻页等）

DiffDay

We are here to be creators!

原创通用机器人指标

打赏作者

感谢你的肯定与鼓励

微信
支付宝

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Diffday！

喜欢这篇文章的人也看了

企业大数据历史与应用趋势

办公AI生产力工具

协同过滤（CF）的一些小笔记

大语言模型LLM

智能驾驶的中国故事

浪潮之巅NVIDIA

评论

匿名评论隐私政策

数据库加载中