Jensen 不等式
参考:《数值最优化方法》—— 高立Jensen不等式初步理解及证明Jensen不等式讲解与证明文章目录1. 凸集与凸函数1.1 凸集1.2 凸函数2. Jensen不等式2.1 Jensen不等式2.2 证明2.3 扩展1. 凸集与凸函数1.1 凸集定义:设集合 C⊂RnC \subset \mathbb{R}^nC⊂Rn,若对 ∀x,y∈C\forall x,y \in C∀x,y∈C,有θx+
- 参考:
- 《数值最优化方法》—— 高立
- Jensen不等式初步理解及证明
- Jensen不等式讲解与证明
1. 凸集与凸函数
1.1 凸集
-
定义:设集合 C ⊂ R n C \subset \mathbb{R}^n C⊂Rn,若对 ∀ x , y ∈ C \forall x,y \in C ∀x,y∈C,有
θ x + ( 1 − θ ) y ∈ C , θ ∈ [ 0 , 1 ] \theta x + (1-\theta)y \in C, \theta \in [0,1] θx+(1−θ)y∈C,θ∈[0,1]
则称 C C C 为凸集
-
几何意义:若 x , y x,y x,y 属于凸集 C C C 则 x x x 与 y y y 连线上的所有点都属于凸集 C C C
-
性质:凸集关于加法、数乘和交运算都是封闭的。对于凸集 C 1 , C 2 ∈ R n C_1,C_2 \in \mathbb{R}^n C1,C2∈Rn, β ∈ R \beta \in \mathbb{R} β∈R,则
- C 1 + C 2 = { x 1 + x 2 ∣ x 1 ∈ C 1 , x 2 ∈ C 2 } C_1+C_2 = \{x_1+x_2|x_1 \in C_1,x_2 \in C_2\} C1+C2={x1+x2∣x1∈C1,x2∈C2} 是凸集
- β C 1 = { β x ∣ x ∈ C 1 } \beta C_1 = \{\beta x|x\in C_1\} βC1={βx∣x∈C1} 是凸集
- C 1 ∩ C 2 C_1 \cap C_2 C1∩C2 是凸集
1.2 凸函数
-
定义:设集合 C ⊂ R n C \subset \mathbb{R}^n C⊂Rn 为非空凸集,函数 f : C → R f: C \to \mathbb{R} f:C→R。若对 ∀ x , y ∈ C \forall x,y \in C ∀x,y∈C,有
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) , θ ∈ [ 0 , 1 ] f(\theta x + (1-\theta)y) \leq \theta f(x)+(1-\theta)f(y), \theta \in [0,1] f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y),θ∈[0,1]
则称 f f f 为 C C C 上凸函数
。若不等式对 x ≠ y x\neq y x=y 严格成立,则称 f f f 为 C C C 上的严格凸函数
-
几何意义:凸函数曲线上任意两点连线都在函数曲线之上
-
判定方法
- 一阶判定条件
- 二阶判定条件
- 一阶判定条件
2. Jensen不等式
2.1 Jensen不等式
- 根据凸函数性质,凸集
C
C
C 上的凸函数
f
f
f 上的两点
x
1
,
x
2
x_1,x_2
x1,x2 满足
θ f ( x 1 ) + ( 1 − θ ) f ( x 2 ) ≥ f ( θ x 1 + ( 1 − θ ) x 2 ) , θ ∈ [ 0 , 1 ] \theta f(x_1)+(1-\theta)f(x_2) \geq f(\theta x_1 + (1-\theta)x_2) , \theta \in [0,1] θf(x1)+(1−θ)f(x2)≥f(θx1+(1−θ)x2),θ∈[0,1] - 把上式推广到
n
n
n 个点的情况,即得 Jensen 不等式:对于凸函数
f
f
f,其所在凸集
C
C
C 中的任意点集
{
x
i
}
⊂
C
\{x_i\} \subset C
{xi}⊂C,若
θ
i
≥
0
\theta_i \geq 0
θi≥0 且
∑
i
θ
i
=
1
\sum_i\theta_i = 1
∑iθi=1,则有
∑ i = 1 M θ i f ( x i ) ≥ f ( ∑ i = 1 M θ i x i ) \sum_{i=1}^M\theta_i f(x_i) \geq f(\sum_{i=1}^M\theta_i x_i) i=1∑Mθif(xi)≥f(i=1∑Mθixi)
2.2 证明
- 可以使用数学归纳法证明,参见:Jensen不等式讲解与证明
2.3 扩展
-
在概率论中,如果把 θ i \theta_i θi 看作离散型随机变量 X X X 取值 x i x_i xi 的概率,则根据Jensen不等式
E [ f ( X ) ] ≥ f ( E [ X ] ) E[f(X)] \geq f(E[X]) E[f(X)]≥f(E[X]) -
把Jensen不等式拓展到连续情况,有
∫ f ( x ) p ( x ) d x ≥ f ( ∫ x p ( x ) d x ) \int f(x)p(x)dx \geq f(\int xp(x)dx) ∫f(x)p(x)dx≥f(∫xp(x)dx)
这里 f f f 是凸函数, p p p 是随机变量的概率密度函数 -
当随机变量X是常数时,Jensen不等式中等号成立。从几何角度容易理解(此时凸函数 f ( x ) = c f(x) = c f(x)=c是一条直线)
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)