机器学习:Rademacher复杂度
1,记号样例集:独立同分布样本, 仅考虑二分类问题。泛化误差和经验误差:设为从到的一个映射。泛化误差:分类器的期望误差,模型在新样本集(测试集)上的误差。含义:在测试集(可以是整个集合)中任取一个则的概率或期望(因为当值取1或0时,期望=概率),经验误差(经验误差期望):分类器在给定样例集上的平均误差,模型在训练集上的误差。其中表示满足则输出1,否则输出0。含义:训练集 上所有的数据数/训练集样本
1,记号
样例集:独立同分布样本, 仅考虑二分类问题。
泛化误差和经验误差:设 为从 到 的一个映射。
- 泛化误差:模型在新样本集(测试集)上的误差。
含义:在测试集(可以是整个集合) 中任取一个 则 的概率或期望(因为当值取1或0时,期望=概率)。
- 经验误差(经验误差期望):模型在训练集上的误差。
其中 表示满足 则输出1,否则输出0。
含义:训练集 上所有 的数据数/训练集样本数,不能写为概率的原因是,给定 则有确定的 与之对应。
PS:由于 是 的独立同分布采样,因此 的经验误差的期望等于其泛化误差。在上下文明确时,将 和 分别简记为 和 。
误差参数 :
- 为 的上限,即 。
- 表示预先设定的学得模型所应满足的误差要求。
一致性:若 在数据集 上的经验误差为0,则称 与 一致,否则不一致。
不合:对于任意两个映射 ,通过“不合”度量它们的差别:
2,学习
概念:概念是从样本空间 到标记空间 的映射,它决定示例 的真实标记 。
- 目标概念:如果对任何样例 均有 成立,则称 为目标概念。
- 概念类:所有我们希望学得的目标概念所构成的集合称为”概念类”, 用符号 表示。
假设空间:给定学习算法 ,它所考虑的所有可能概念的集合, 用符号 表示。
- 由于学习算法事先并不知道概念类的真实存在, 因此 和 通常是不同的, 学习算法会把自认为可能的目标概念集中起来构成 。
- 对于 ,由于并不能确定它是否真的是目标概念,因此称为“假设”。 显然, 也是从样本空间 到标记空间 的映射。
- 学习过程可以视为 在 中进行的搜索过程。
可分的与不可分的:
- 可分的:若目标概念 ,即 中存在假设能将所有的示例完全正确分开(按照与真实标记一致的方式),则称该问题对学习算法 是“可分的”,也称“一致的”。
- 不可分的:若目标概念 ,则 中不存在任何假设能将所有的示例完全正确分开,则称该问题对学习算法 是“不可分的”,也称“不一致的”。
对于给定训练集 ,我们希望基于学习算法 学得的模型所对应的假设 尽可能接近目标概念 。
为什么不是希望精确地学到目标概念c呢?因为机器学习过程受到很多因素的制约:
- 获得训练结果集 往往仅包含有限数量的样例,因此通常会存在一些在 上“等效”的假设,学习算法无法区别这些假设。
- 从分布 采样得到的 的过程有一定偶然性,即便对同样大小的不同训练集,学得结果也可能有所不同。
3,可学习的
概率近似正确(PAC)
我们希望以比较大的把握学得比较好的模型, 即以较大概率学得,且误差满足预设上限的模型。
令 表示置信度,则上述要求可以表示为:
PAC辨识:对 ,所有 和分布 ,若存在学习算法 ,其输出假设 满足:
则称学习算法 能从假设空间 中PAC辨识概念类 。
换句话说:这样的学习算法 能以较大概率(至少 )学得目标概念 的近似(误差最多为 )。
PAC可学习:令 表示从分布 中独立同分布采样得到的样例数目,,对所有分布 ,若存在学习算法 和多项式函数 ,使得对于任何 , 能从假设空间 中PAC辨识概念类 ,则称概念类 对假设空间 而言是PAC可学习的,有时也简称概念类 是PAC可学习的。
PAC可学习性描述的是概念类 的性质,若考虑到对应学习算法 的时间复杂度,则有:
PAC学习算法:若学习算法 使概念类 为PAC可学习模型,且 的运行时间也是多项式函数 ,则称概念类 是高效PAC学习的,称 为概念类 的PAC学习算法。
假定学习算法 处理每个样本的时间为常数,则 的时间复杂度等价于其样本复杂度。于是,我们对算法时间复杂度的分析可变为对样本复杂度的分析。
样本复杂度:满足PAC学习算法 所需的 中最小的 ,称为学习算法的样本复杂度。
PAC学习的意义:
(1)给出了一个抽象地刻画机器学习能力的框架, 基于这个框架可以对很多重要问题进行理论探讨。
- 研究某任务在什么样的条件下可学得较好的模型?
- 某算法在什么样的条件下可进行有效的学习?
- 需要多少训练样例才能获得较好的模型?
(2)把复杂算法的时间复杂度的分析转变为对样本复杂度的分析。
假设空间 的复杂度是影响可学习性的重要因素:
- 一般而言, 越大,其包含任意目标概念的可能性越大,但从中找到某个具体概念的难度也越大。
- 有限时,我们称 为“有限假设空间”,否则称为“无限假设空间”。
假设空间 复杂度是影响学习任务难度的重要因素之一:
- 恰PAC可学习:假设空间 包含了学习算法 所有可能输出的假设,在PAC学习中假设空间与概念类完全相同,即 。
- 直观的看,这意味着学习算法的能力与学习任务“恰好匹配”,即所有候选假设都来自概念类。
- 然而在现实应用中我们对概念类 通常一无所知,设计一个假设空间与概念类恰好相同的学习算法通常是不切实际的。
研究的重点:当假设空间与概念类不同的情形,即 。
4,Rademacher复杂度
给定训练集:
则假设 的经验误差为(预测错误):
其中 体现了预测值 与样例真实标记 之间的一致性。
若对所有的 ,都有 ,则 。
经验误差最小假设函数为:
表示:当函数值取最大值时, 的取值。
而我们更关注模型的泛化能力:假设标签 受到随机因素的影响,不再是 的真实标记,则应该选择 中事先已经考虑了随机噪声影响的假设函数。
为Rademacher随机变量:以0.5的概率取值-1,0.5的概率取值+1。
考虑 中所有的假设,取期望可得:
其中
的取值范围是 ,体现了假设空间 的表达能力:
- 当 时, 中仅有一个假设,则期望值为0,因为 取值特殊。
- 当 (因为有m个)且 能打散 时,对任意的 总有一个假设使得:,此时 ,可计算出期望值为1。
Rademacher复杂度:
函数空间 关于 的经验Rademacher复杂度:
其中 为实值函数空间,,其中 。
经验Rademacher复杂度衡量了函数空间 与随机噪声在集合 中的相关性。
函数空间 关于 上分布 的经验Rademacher复杂度:
基于Rademacher复杂度可得关于函数空间 的泛化误差界。
回归问题:对实值函数空间 ,根据分布 从 中独立同分布采样得到示例 ,,,对任意 ,以至少 的概率有:
二分类问题:对假设空间 ,根据分布 从 中独立同分布采样得到实例集 ,对任意的 , 以至少 的概率有:
McDiarmid不等式
存在:
若 满足:
则下面不等式成立:
5,证明:公式一
证明:
令
(不等式1)
求 ,因为 满足: (不等式2)
将 做同样变换,故:
因为 和 均表示整个样本集的期望,于是
由于
结合(不等式2)此时,,带入(不等式1)得
进而:
(1)
令
将 反带入(1)得:
该概率类似正态分布,可推出:
(2)
因为:
因为:
由(2)可推出:
,概率至少为
现在唯一需要确定的是
因为 和 均表示整个测试集的期望,有:
由于 中的点是独立同分布的,所有的 成立,故:
其中 与 期望无关,故:
由Jensen不等式和上确界函数的凸性,故:
引入Rademacher变量 ,不影响结果。
故:
,概率至少为
,概率至少为
6,证明:公式二
同理,令 ,对于任意的 ,下面不等式至少 的概率成立。
再次使用 McDiarmid 不等式,下式至少有 的概率成立:
,概率至少为
,概率至少为
7,证明:公式四
由于 部分数学期望为0
下不影响正负
8,证明:公式三
根据公式四和 与 之间关系,可得:
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)