概率论:基本概念
http://blog.csdn.net/pipisorry/article/details/40709187分布函数/累积分布函数CDF(CDF – Cumulative distribution function或直接就叫 distribution function)定义CDF函数表示随机变量小于或等于其某一个取值x的概率。设X是一个随机变量,x是任意实数,函数称为X的分布函数。有时也记为X
http://blog.csdn.net/pipisorry/article/details/40709187
本文主要讲解pdf, cdf, 置信区间。
分布函数/累积分布函数CDF
(CDF – Cumulative distribution function 或直接就叫 distribution function)
定义
累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。CDF函数表示随机变量小于或等于其某一个取值x的概率。
对于所有实数x ,累积分布函数定义如下:
X之值落在一区间(a,b]之内的概率为
因此,若已知X的分布函数,就可以知道X落在任一区间(x1,x2]上的概率,在这个意义上说,分布函数完整地描述了随机变量的统计规律性。
CDF的性质
- 有界性
- 单调性:
- 右连续性:
一随机变数X的CDF与其PDF的关系为
CDF的反函数
若累积分布函数 F 是连续的严格增函数,则存在其反函数 。累积分布函数的反函数可以用来生成服从该随机分布的随机变量。设若 F_X (x) 是概率分布X的累积分布函数,并存在反函数 F_X^-1 。若a是[0,1)区间上均匀分布的随机变量,则F_X^-1 ( a ) 服从X分布。
互补累积分布函数
互补累计分布函数(complementary cumulative distribution function、CCDF),是对连续函数,所有大于a的值,其出现概率的和。
示例
抛一枚均匀的硬币两次,设随机变量X表示出现正面的次数,那么P(X=0)=P(X=2)=1/4,P(X=1)=1/2,所以这个函数的曲线如下图:
对于这个图,要想清楚清楚如下两个问题:
1)为什么函数始终是右连续的? 因为根据CDF的表达式中的小于等于号,当X=x时,P(X=x)的那部分应该被加到FX上,因此在X=x处有一个值的跃升。如X=1时,P(X=1)已经是1/2了
2)为什么FX(1.4)=0.75? 要注意P(1≤X<2)=1/2(虽然其实X只能取整数值),但是FX是值x之前所有概率的累加,所以FX(1.4)可不是1/2,而是3/4 !!因此F函数始终是非降的,右连续的,且limx→∞F(x)=1
使用累积分布函数进行指标测试
如图右,横轴是某个指标(用于判别是否存在关系的),纵轴是CDF。从图中可知,当这个指标60左右时,基本是只有蓝线Friend了,可区分。
而图左,这个指标并不能很好区分红线和蓝线,就是说这个指标不好。
Note: 某论文中方法,不一定好。
[wiki 累积分布函数]
概率密度函数/概率分布函数PDF
(PDF – Probability density function)
PDF定义
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
对于离散随机变量的PDF为:fX(x)=P(X=x)
最简单的PDF就是比如翻硬币的例子,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}
对于一维实随机变量X,设它的累积分布函数是 F_X ( x ) 。如果存在可测函数 f_X ( x ) 满足:
那么X 是一个连续型随机变量,并且 f_X ( x ) 是它的概率密度函数。
稍微复杂点的PDF就是univariate Gaussian
概率密度函数某点的值:概率密度的含义
连续分布概率密度函数某个点对应的值表示的是概率密度,也就是分布函数的导数,而不是概率!
lz觉得可以近似将ρ(x)δx是是 δx 看成是随机变量在某个点附近取值的概率。或者可以把这个概率密度看成一个 score ,表示算法对自己得出的这个结果的把握。
ρ(x)δx is the probability of measuring X in [x,x+δx] With ρ(x):= probability density. δx:= interval lenght.
The specific values f(x) of the density function f are the probability densities, and they express "relative probabilities".
The probability density function for a given value of random variable X represents the density of probability (probability per unit random variable) at that particular value of random variable X.
[Difference between Probability and Probability Density]
相对概率"relative probabilities"
Probability distribution describes how much the probabilities are spread across the different outcome. If charted on an x y diagram, this is the shape formed by the function. The probability density on this chart is the Y value. It quantifies the probability of an outcome relative to probabilities of other outcome.
这里解释一下相对概率,或者从使用概率密度的角度解释一下(个人理解):你可以使用概率密度代替实际概率,但是这个使用必须是同其它概率密度相比较而言的。比如你要计算某人在两个不同点的访问概率,就可以使用概率密度近似表达概率(或者你可以认为δx=1了),因为这时是相对的概率,我们没法得到两点各自的真实访问概率(因为是连续分布嘛),但是概率密度表达的效果和概率是近似同等的、成正比的。
[What is the difference between probability distribution and probability density?]
PDF性质
连续型随机变量的概率密度函数有如下性质:
- ∀ − ∞ < x < ∞ , f X ( x ) ≥ 0 {\displaystyle \forall -\infty <x<\infty ,\quad f_{X}(x)\geq 0} 概率密度取值范围是>=0,完全可以大于1。
- ∫ − ∞ ∞ f X ( x ) d x = 1 {\displaystyle \int _{-\infty }^{\infty }f_{X}(x)\,dx=1}
- ∀ − ∞ < a < b < ∞ , P [ a < X ≤ b ] = F X ( b ) − F X ( a ) = ∫ a b f X ( x ) d x {\displaystyle \forall -\infty <a<b<\infty ,\quad \mathbb {P} \left[a<X\leq b\right]=F_{X}(b)-F_{X}(a)=\int _{a}^{b}f_{X}(x)\,dx}
如果概率密度函数 f X ( x ) {\displaystyle f_{X}(x)} 在一点 x {\displaystyle x} 上连续,那么累积分布函数可导,并且它的导数: F X ′ ( x ) = f X ( x ) {\displaystyle F_{X}^{\prime }(x)=f_{X}(x)}
由于随机变量X的取值 P [ a < X ≤ b ] {\displaystyle \mathbb {P} \left[a<X\leq b\right]} 只取决于概率密度函数的积分,所以概率密度函数在个别点上的取值并不会影响随机变量的表现。更准确来说,如果一个函数和X的概率密度函数取值不同的点只有有限个、可数无限个或者相对于整个实数轴来说测度为0(是一个零测集),那么这个函数也可以是X的概率密度函数。{LZ表示╮(╯_╰)╭}
连续型的随机变量取值在任意一点的概率都是0(但是概率密度不为0,可以为>=0的任意值)。
作为推论,连续型随机变量在区间上取值的概率与这个区间是开区间还是闭区间无关。
要注意的是,概率***,但 { X = a } {\displaystyle \{X=a\}} 并不是不可能事件,也就是说概率为0的事件不一定是不可能事件。
同样,概率为1的事件不一定是必然事件。(这个应该可以这么理解:P[X!=a] = 1,事件X!=a概率为1了,但是还有事件X=a可能发生,所以概率为1的事件X!=a不是必然事件)。
应用
随机变量X的n阶矩是X的n次方的期望值,即
E [ X n ] = ∫ − ∞ ∞ x n f X ( x ) d x {\displaystyle \mathbb {E} [X^{n}]=\int _{-\infty }^{\infty }x^{n}f_{X}(x)\,dx}
X的方差为
σ X 2 = E [ ( X − E [ X ] ) 2 ] = ∫ − ∞ ∞ ( x − E [ X ] ) 2 f X ( x ) d x {\displaystyle \sigma _{X}^{2}=\mathbb {E} \left[\left(X-\mathbb {E} [X]\right)^{2}\right]=\int _{-\infty }^{\infty }(x-E[X])^{2}f_{X}(x)\,dx}
更广泛的说,设 g {\displaystyle g} 为一个有界连续函数,那么随机变量 g ( X ) {\displaystyle g(X)} 的数学期望
E [ g ( X ) ] = ∫ − ∞ ∞ g ( x ) f X ( x ) d x {\displaystyle \mathbb {E} [g(X)]=\int _{-\infty }^{\infty }g(x)f_{X}(x)\,dx}
特征函数
对机率密度函数作类似傅立叶变换可得特征函数。
Φ X ( j ω ) = ∫ − ∞ ∞ f ( x ) e j ω x d x {\displaystyle \Phi _{X}(j\omega )=\int _{-\infty }^{\infty }f(x)e^{j\omega x}\,dx}
特征函数与机率密度函数有一对一的关系。因此,知道一个分布的特征函数就等同于知道一个分布的机率密度函数。
其实密度估计density estimation(EM algorithm和Sampling Methods)都是要估计出一个PDF来。
置信区间
在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。
举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。
置信水平一般用百分比表示,因此置信水平0.95上的置信区间也可以表达为:95%置信区间。置信区间的两端被称为置信极限。对一个给定情形的估计来说,置信水平越高,所对应的置信区间就会越大,即置信上限和置信下限的差越大。
[wiki 置信区间 ]
ref: 概率论复习 – 基础概率分布
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)