3.2 偏差-方差分析

这章节回答了”为什么训练 loss 相同的两个模型,预测能力却完全不同”的问题. 第一项称为bias 偏差,表示所有数据集的平均预测与期望的回归函数的差异程度.第二个术语,称为variance,衡量单个数据集的解决方案在其平均值附近变化的程度. 我们总结一下公式: 我们的目标是最小化预期损失,我们将其分解为偏差,方差和恒定噪声项的总和.我们将要看到的偏差和方差之间存在权衡,非常灵活的模型具有低偏差和高方差,相对刚性的模型具有高偏差和低方差.具有最佳预测能力的模型是导致偏差和方差之间最佳平衡的模型.(这里就解释了为什么训练 loss 相同的两个模型,预测能力却完全不同呢?) 我们接下来定量分析偏差-方差间的权衡, 我们获得所有模型的平均预测: \hat{y}(x)=\frac1L \sum_{l=1}L y^{(l)}(x) 然后给出偏差和方差: (bias)^2 = 去看看~

3.1 线性回归模型

从概率论的角度看我们的目标是预测分布p(t∣x),这表达了我们对 x 的每个值对样本预测值 t 的不确定性.从这个条件分布中,我们可以对x的任何新值进行t的预测,以便最小化损失函数的期望值。尽管线性模型作为模式识别的实用技术具有显着的局限性,特别是涉及高维度输入空间的问题,但它们具有良好的分析研究的性质,并为后面章节中讨论的更复杂模型奠定了基础。

1.6 信息论

我们首先考虑离散随机变量 x 当我们观察到该变量的值时候,我们可以将信息量视为x 值的”惊喜程度”. 如果我们被告知刚刚发生了一个非常不可能的事件,我们将收到的信息比我们被告知刚刚发生了一些非常可能发生的事件的情况要多,如果我们知道该事件肯定会发生,我们将不会收到任何信息.因此,我们对信息内容的测量将取决于概率p(x), 因此我们要寻找一个函数h(x),它是p(x)的单调函数,表示信息内容.h(⋅)形式可以是:如果我们有两个不相关的事件 x 和 y,那么两者的信息应该是分别获得信息的总和,即

1.5 决策理论

我们在1.2节中看到概率论如何为我们提供量化和操纵不确定性的一致数学框架,在这节,我们转向对决策问题的讨论,当决策问题与概率论结合时,我们能够在涉及不确定性的情况下做出最优决策,例如在模式识别中遇到的那些问题。
假设我们有一个输入向量x和属于向量的标签t,我们的目标是预测给定未知量 x 情况下,给出预测的标签t。对于回归问题,t将包括连续变量;而对于分类问题,t将表示类别标签。联合概率分布p(x,t)为不确定下的参数估计提供一种可行的方法。从训练数据中确定p(x,t)是一个inference的例子,这通常是一个非常困难的问题,其解决方案构成了本书大部分内容的主题。然而,在实际应用中,我们必须经常对t的值进行具体的预测,或者更一般地根据我们不同预测的值采取不同的行动,这个方面是决策问题的主题.例如,考虑一个医疗诊断问题,我们已经拍摄了患者的X射线图像,我们希望确定患者是否患有癌症.在这种情况下,输入向量x是图像中像素的集合,输出变量t将表示癌症的存在,我们用C1类表示,或者没有癌症,我们用C2类表示有癌症.我们可以选择t为二进制变量,使得t=0对应于C1类,t=1对应于C2类.稍后我们将看到,标签值的类型对于概率模型的选择来说特别方便.那么推理问题涉及确定联合分布,这里给出完整的概率概率描述p(x,Ck​)(或者写p(x,t)).这是决策步骤,决策问题告诉我们如何在适当的概率下做出最优决策.我们将看到,一旦我们解决了推理问题,决策阶段通常非常简单.如下介绍决策问题的部分思想:
在进行更详细的分析之前,让我们首先考虑期望概率如何在决策中发挥作用.当我们为新患者获得X射线图像x后,我们的目标是决定分配一个标签给新图像.我们需要的是新患者 x 在两个类的概率,他们由条件概率p(Ck​∣x)确定.基于贝叶斯定理,这些概率可以表述为: