周志华《机器学习》

第 1 章 绪论

1.2 基本术语

假设(hypothesis):根据数据的潜在规律学习而得的模型。亦称为学习器。

簇(cluster):聚类学习中的一个组。

泛化(generalization):学得模型适用于新样本的能力。

1.3 假设空间

假设空间:机器学习中可能的函数构成的空间。学习的过程即是在假设空间中进行搜索的过程。

第 2 章 模型评估与选择

2.2 评估方法

2.2.1 留出法

留出法(hold-out)将数据集划分为两个互斥的集合,分别作为训练集和测试集。

2.2.2 交叉验证法

2.2.3 自助法

自助采样法(bootstrap sampling)对大小为 m 的数据集进行 m 次放回采样,采样得到的数据作为训练集,初始数据集中大约有 36.8% 的数据未被采样过,这部分数据作为测试集。

自助法在数据集较小、难以划分测试集和训练集时比较有用。但会改变原有数据集的分布,引入估计偏差。

2.2.4 调参与最佳模型

模型评估与选择中,用于评估模型的数据集常称为验证集

2.3 性能度量

性能度量:对模型泛化能力的评价标准。

均方误差(mean squared error):$E(f;D)=\frac{1}{m} \sum^m_{i=1}(f(x_i)-y_i)^2.$ 常用于回归任务中。

2.3.1 错误率与精度

  • 错误率(error rate):分类错误的样本数占样本总数的比例
  • 精度(accuracy):分类正确的样本数占样本总数的比例

此处的评估标准仅仅是根据样本分类的正误个数进行评估,没有表现出单个样本的错误程度。

2.3.2 查准率、查全率与 F1

在信息检索等应用场景中经常出现如下的需求,比如想知道“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。此时用查准率(precision)和查全率(recall,也被称为召回率)更为适合此类需求。

混淆矩阵:

nfoRB9.png

查准率 P 和查全率 R 分别被定义为

查全率和查准率是一对矛盾的度量。一般来说,查全率高时查准率低,查准率高时查全率低。

P-R曲线、ROC和AUC可参考机器学习中的评价指标

2.3.4 代价敏感错误率与代价曲线

不同类型的错误所造成的后果不同,为权衡不同类型错误所造成的不同损失,可以为错误赋予非均等代价

在非均等代价下,我们所希望的不再是简单地最小化错误次数,而是希望最小化总体代价。以二分类为例,其代价敏感错误率为:

其中$I(·)$为指示函数,$cost$为错误的权重(即代价)。

代价曲线可以直接反映非均等代价下学习器的期望总体代价。代价曲线的绘制很简单:ROC曲线上的每一点对应了代价平面上的一条线段,根据ROC曲线上的每一点的状态绘制一条从(0,FPR) 到 (1, FNR) 的线段,线段下的面积即表示了该条件下的期望总体代价。

n7Ri7j.png

第 3 章 线性模型

-------------本文结束感谢您的阅读-------------