很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。

人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法——赤池信息准则 (Akaike Information Criterion,AIC)和贝叶斯信息准则 (Bayesian Information Criterion,BIC)。

1.AIC准则(Akaike Information Criterion)

AIC是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下,它是拟合精度和参数未知个数的加权函数,AIC定义为:

A I C = 2 k − 2 l n ( L ) AIC=2k-2ln(L) AIC=2k2ln(L)

当在两个模型之间存在着相当大的差异时,这个差异出现于上式第二项,而当第二项不出现显著性差异时,第一项起作用,从而参数个数少的模型是好的模型。

n n n为观察数, R S S RSS RSS为剩余平方和,那么AIC变为:

A I C = 2 k + n l n ( R S S / n ) AIC=2k+nln(RSS/n) AIC=2k+nln(RSS/n)

其中 k k k是模型中未知参数个数, L L L是模型中极大似然函数值似然函数。从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型。

当两个模型之间存在较大差异时,差异主要体现在似然函数项,

当似然函数差异不显著时,上式第一项,即模型复杂度则起作用,从而参数个数少的模型是较好的选择。

一般而言,当模型复杂度提高( k k k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然),而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。可见AIC准则有效且合理地控制了参数的维数k。显然AIC准则追求似然函数尽可能大的同时,k要尽可能的小。

举例:

y 1 , y 2 , ⋯   , y n y_1,y_2,\cdots,y_n y1,y2,,yn是来自未知总体 g ( y ) g(y) g(y)的样本。总体的概率密度为 f ( y ; θ ) f(y;θ) f(y;θ), θ θ θ r ∗ 1 r*1 r1未知参数向量。若 θ θ θ的极大似然估计是 θ ∗ θ^* θ,则 L ( θ ∗ ) = ∑ i = 1 n ( l n f ( y i ; θ ∗ ) 〗 L(θ^*)=\sum_{i=1}^n(lnf(y_i;θ^*)〗 L(θ)=i=1n(lnf(yi;θ)就是对数似然函数,由此,

A I C = − 2 L ( θ ∗ ) + 2 r AIC=-2L(θ^*)+2r AIC=2L(θ)+2r

可以度量 f ( y ; θ ) f(y;θ) f(y;θ) g ( y ) g(y) g(y)之间的差异。

2.BIC准则(Bayesian InformationCriterion)

BIC(Bayesian InformationCriterion)贝叶斯信息准则与AIC相似,用于模型选择,1978年由Schwarz提出。训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

B I C = k l n ( n ) − 2 l n ( L ) BIC=kln(n)-2ln(L) BIC=kln(n)2ln(L)

其中, k k k为模型参数个数, n n n为样本数量, L L L为似然函数。 k l n ( n ) kln(n) kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。

3.QAIC准则

为了使用过度离散(或缺乏拟合),提出了改进的AIC准则QAIC:

Q A I C = − 2 l n ( L ) / c + 2 k QAIC=-2ln(L)/c+2k QAIC=2ln(L)/c+2k
其中,c是方差膨胀因子。

4.QH准则(hannan-quinn criterion)

H Q = − 2 l n ( L ) + l n ( l n ( n ) ) ∗ k HQ=-2 ln(L) + ln(ln(n))*k HQ=2ln(L)+ln(ln(n))k

其中 L L L是在该模型下的最大似然, n n n是数据数量, k k k是模型的变量个数。

注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失【因为不知道真正的模型是什么样子,所以训练得到的所有模型都只是真实模型的一个近似模型】,所以用这些规则不能说明某个模型的精确度。

这些规则理论上是比较漂亮的,但是实际在模型选择中应用比较困难的,如若有 5个变量则有32个变量组合,若为10个变量呢?2的10次方,故不可能对所有这些模型进行一一验证AIC, BIC,QAIC,HQ规则来选择模型,工作量太大。

转载自:
博客一:https://blog.csdn.net/yinyu19950811/article/details/60964782

博客二:https://blog.csdn.net/xianlingmao/article/details/7891277

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐