第 1 章 绪论
1.2 基本术语
假设(hypothesis):根据数据的潜在规律学习而得的模型。亦称为学习器。
簇(cluster):聚类学习中的一个组。
泛化(generalization):学得模型适用于新样本的能力。
1.3 假设空间
假设空间:机器学习中可能的函数构成的空间。学习的过程即是在假设空间中进行搜索的过程。
第 2 章 模型评估与选择
2.2 评估方法
2.2.1 留出法
留出法(hold-out)将数据集划分为两个互斥的集合,分别作为训练集和测试集。
2.2.2 交叉验证法
2.2.3 自助法
自助采样法(bootstrap sampling)对大小为 m 的数据集进行 m 次放回采样,采样得到的数据作为训练集,初始数据集中大约有 36.8% 的数据未被采样过,这部分数据作为测试集。
自助法在数据集较小、难以划分测试集和训练集时比较有用。但会改变原有数据集的分布,引入估计偏差。
2.2.4 调参与最佳模型
模型评估与选择中,用于评估模型的数据集常称为验证集。
2.3 性能度量
性能度量:对模型泛化能力的评价标准。
均方误差(mean squared error):$E(f;D)=\frac{1}{m} \sum^m_{i=1}(f(x_i)-y_i)^2.$ 常用于回归任务中。
2.3.1 错误率与精度
- 错误率(error rate):分类错误的样本数占样本总数的比例
- 精度(accuracy):分类正确的样本数占样本总数的比例
此处的评估标准仅仅是根据样本分类的正误个数进行评估,没有表现出单个样本的错误程度。
2.3.2 查准率、查全率与 F1
在信息检索等应用场景中经常出现如下的需求,比如想知道“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。此时用查准率(precision)和查全率(recall,也被称为召回率)更为适合此类需求。
混淆矩阵:
查准率 P 和查全率 R 分别被定义为
查全率和查准率是一对矛盾的度量。一般来说,查全率高时查准率低,查准率高时查全率低。
P-R曲线、ROC和AUC可参考机器学习中的评价指标。
2.3.4 代价敏感错误率与代价曲线
不同类型的错误所造成的后果不同,为权衡不同类型错误所造成的不同损失,可以为错误赋予非均等代价。
在非均等代价下,我们所希望的不再是简单地最小化错误次数,而是希望最小化总体代价。以二分类为例,其代价敏感错误率为:
其中$I(·)$为指示函数,$cost$为错误的权重(即代价)。
代价曲线可以直接反映非均等代价下学习器的期望总体代价。代价曲线的绘制很简单:ROC曲线上的每一点对应了代价平面上的一条线段,根据ROC曲线上的每一点的状态绘制一条从(0,FPR) 到 (1, FNR) 的线段,线段下的面积即表示了该条件下的期望总体代价。