当前位置: 首页 > news >正文

机器学习基础理论 - 分类问题评估指标

几个定义:混淆矩阵

  • TP: True Positives, 表示实际为正例且被分类器判定为正例的样本数
  • FP: False Positives, 表示实际为负例且被分类器判定为正例的样本数
  • FN: False Negatives, 表示实际为正例但被分类器判定为负例的样本数
  • TN: True Negatives, 表示实际为负例且被分类器判定为负例的样本数

一个小技巧, 第一个字母表示划分正确与否, T 表示判定正确(判定正确), F表示判定错误(False); 第二个字母表示分类器判定结果, P表示判定为正例, N表示判定为负例。

几个常规的指标

Accuracy: $$ accuracy = \frac{TP + TN}{TP + FP + FN + TN}= \frac{正确预测的样本数}{所有的样本数} \ $$ Accuracy 能够清晰的判断我们模型的表现,但有一个严重的缺陷: 在正负样本不均衡的情况下,占比大的类别往往会成为影响 Accuracy 的最主要因素,此时的 Accuracy 并不能很好的反映模型的整体情况。

Precision: $$ Precision = \frac{TP}{TP + FP} \ Precision = \frac{\sum_{l=1}^{L}TP_l}{\sum_{l=1}^LTP_l + FP_l} = \frac{\text{label 预测为 l 且预测正确的样本个数}}{\text{label 预测为 l 样本个数}} \ $$ Recall: $$ Recall = \frac{TP}{TP + FN} \ Recall = \frac{\sum_{l=1}^L TP_l}{ \sum_{l=1}^LTP_l + FN_l} = \frac{\text{label 预测为 l 且预测正确的样本个数}}{\text{真实样本中所有 label 为 l 的样本个数}} $$

Precision 与 Recall 的权衡

精确率高,意味着分类器要尽量在 “更有把握” 的情况下才将样本预测为正样本, 这意味着精确率能够很好的体现模型对于负样本的区分能力,精确率越高,则模型对负样本区分能力越强。

召回率高,意味着分类器尽可能将有可能为正样本的样本预测为正样本,这意味着召回率能够很好的体现模型对于正样本的区分能力,召回率越高,则模型对正样本的区分能力越强。

从上面的分析可以看出,精确率与召回率是此消彼长的关系, 如果分类器只把可能性大的样本预测为

相关文章:

  • PDF处理控件Aspose.PDF指南:如何使用 C# 在 PDF 中搜索
  • Maven 4.0.0 模式-pom.xml配置详解
  • MSO-Player:基于vlc的Unity直播流播放器,支持主流RTSP、RTMP、HTTP等常见格式
  • LLM模型的几何抽象:上文向量与Token距离的容量优化
  • GRS认证审核内容?GRS认证基本概述?GRS认证的好处?
  • Spark学习全总结
  • 前端零基础入门到上班:【Day8】JavaScript 基础语法入门
  • 面试题】找出两个整数 a,b 中的较大者
  • 【机器学习驱动的智能化电池管理技术与应用】
  • package.json script 中的 prepare 脚本的作用是什么
  • 00-算法打卡-目录
  • ReACT Agent 实战
  • 关于 React Fiber 架构、Hooks 原理
  • Python爬虫(8)Python数据存储实战:JSON文件读写与复杂结构化数据处理指南
  • pycharm无法创建venv虚拟环境
  • 大模型图像编辑那家强?
  • Centos8 安装 Docker
  • ​​全栈自动化:从零构建智能CI/CD流水线​
  • 多模态常见面试题
  • HTML倒数
  • 银川市长信箱被指乱回复:问诗词大会、答工程欠款,官方称工作失误
  • 在上海生活8年,13岁英国女孩把城市记忆写进歌里
  • 利用AI捏造“天价骨灰盒”谣言,内蒙古包头一网民被行政处罚
  • 涉李小龙形象商标被判定无效,真功夫:暂无更换计划
  • 新城市志|中国消费第一城,迎来“补贴力度最大”购物节
  • 陈平评《艺术科学的目的与界限》|现代艺术史学的奠基时代