统计学面试经典问题
1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。1) 大数定律弱大数定律(通常指辛钦大数定律):a) 马尔科夫大数定律:随机变量满足马尔科夫条件:1n2D(∑k=1nξk)→0\frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0n21D(∑k=1nξk)→0,则样本均值依概率收敛于期望值。b) 辛钦大数定律...
1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。
1) 大数定律
-
弱大数定律(通常指辛钦大数定律):
a) 马尔科夫大数定律:
随机变量满足马尔科夫条件: 1 n 2 D ( ∑ k = 1 n ξ k ) → 0 \frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0 n21D(∑k=1nξk)→0,则样本均值依概率收敛于期望值。
b) 辛钦大数定律:
随机变量独立同分布,一阶矩存在且等于 a a a,样本均值依概率收敛
于期望值 a a a。 -
强大数定律(柯尔莫哥洛夫):
随机变量独立同分布,一阶矩存在且等于 a a a,样本均值以概率1收敛
于期望值 a a a。
2) 中心极限定理
- Lindeberg-Levy 中心极限定理(最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布):
随机变量 X 1 , X 2 , ⋯ , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,⋯,Xn 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E(Xi)=μ , D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯ , n ) D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n) D(Xi)=σ2=0(i=1,2,⋯,n),记 X ˉ = 1 n ∑ i = 1 n X i , {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}, Xˉ=n1i=1∑nXi, ζ n = X ˉ − μ σ / n , \zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}, ζn=σ/nXˉ−μ,
则 lim n → ∞ P ( ζ n ≤ z ) = Φ ( z ) \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right) n→∞limP(ζn≤z)=Φ(z)
其中 Φ ( z ) \Phi (z) Φ(z) 是标准正态分布的分布函数。
3) 大数定律的应用
抛硬币,抛的次数足够多,正反面出现的概率近乎是一致的。
4) 中心极限定理应用
在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布。
2. 说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。
极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。
矩估计法(也称数字特征法):
- 直观意义比较明显,但要求总体 k 阶矩存在。
- 缺点是不唯一,此时尽量使用样本低阶矩。
- 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
- 估计值可能不落在参数空间
极大似然估计法:
- 具有一些理论上的优点(不变性、相合性、渐近正态性)
- 缺点是如果似然函数不可微,没有一般的求解法则。
3. 详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点
非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验
优点:
- 非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
- 多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。
缺点:
- 由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
- 对于大样本,如不采用适当的近似,计算可能变得十分复杂。
4. 常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。
逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选
- 基本原理: 投影
- 作用: 降维
可参考:一些变量筛选方法——1、综述
5. ① 依概率收敛、② 概率1收敛(几乎处处收敛)的定义分别是什么?二者有什么关系?
依概率收敛(
d
(
X
n
,
X
)
d(X_{n},X)
d(Xn,X) 表示距离,通常可用
∣
X
n
−
X
∣
|X_{n}-X|
∣Xn−X∣):
P
(
d
(
X
n
,
X
)
≥
ε
)
→
0
,
∀
ε
>
0.
\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.
P(d(Xn,X)≥ε)→0,∀ε>0.
概率1收敛:
P
(
lim
n
→
∞
X
n
=
X
)
=
1
\mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1
P(n→∞limXn=X)=1
接着考虑 ③ 依分布收敛,④ r阶矩收敛,有下述关系:
④ -> ①
② -> ①
① -> ③
③ -> ① (当①③ -> 常数C)
6. 阐述极大似然估计法的基本思想、缺陷及解决方案。
-
基本思想: 出现的认为是最有可能发生的。
-
具体定义:
给定一个概率分布 D D D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f D f_D fD,以及一个分布参数 θ \theta θ ,我们可以从这个分布中抽出一个具有 n n n 个值的采样 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,…,Xn,利用 f D f_D fD 计算出其似然函数:
L ( θ ∣ x 1 , … , x n ) = f θ ( x 1 , … , x n ) . {\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} L(θ∣x1,…,xn)=fθ(x1,…,xn). 若 D D D 是离散分布, f θ {\displaystyle f_{\theta }} fθ 即是在参数为 θ \theta θ 时观测到这一采样的概率。若其是连续分布, f θ {\displaystyle f_{\theta }} fθ 则为 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,…,Xn 联合分布的概率密度函数在观测值处的取值。一旦我们获得 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,…,Xn,我们就能求得一个关于 θ \theta θ 的估计。最大似然估计会寻找关于 θ \theta θ 的最可能的值(即,在所有可能的 θ \theta θ 取值中,寻找一个值使这个采样的 “可能性” 最大化)。从数学上来说,我们可以在 θ \theta θ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ ^ \widehat{\theta} θ 值即称为 θ \theta θ 的最大似然估计。由定义,最大似然估计是样本的函数。
-
缺陷及解决方案:
- 均匀分布参数,正态分布的尺度参数的极大似然估计是有偏的,可以乘以一个系数进行校正。
- 极大似然估计的方差在高维情况下会很大,贝叶斯方法通过加先验一定程度上克服了这个问题,形式上就是现在的各种正则化方法,使得估计结果更稳定,更有效。
7. 参数点估计量的评价标准有哪些?
相合性,无偏性(参数估计的期望等于参数),有效性(两个估计均为无偏估计,则方差越小越有效),完备性,渐进正态性……
-
相合性(通常指弱):
弱: θ n ^ → θ \hat{\theta_n} \to \theta θn^→θ,依概率
强: θ n ^ → θ \hat{\theta_n} \to \theta θn^→θ,几乎处处 -
完备性:
∫ ϕ ( x ) d P θ = 0 , ∀ θ ∈ Θ \int \phi(x)dP_\theta = 0, \forall \theta \in \Theta ∫ϕ(x)dPθ=0,∀θ∈Θ ϕ ( x ) = 0 , a . s . P θ \phi(x) = 0, a.s. P_\theta ϕ(x)=0,a.s.Pθ
ϕ ( x ) \phi(x) ϕ(x) 是可测函数,则分布族是完备的。
8. 谈谈你对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。
- 假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程
- 第一类错误(type I error):拒绝了正确零假设
- 第二类错误(type II error):接受了不正确零假设
- 显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)
- 检验功效(power) : 拒绝了不正确零假设概率
- 检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率
9. 什么是统计学?人工智能?机器学习?深度学习?
1) 统计学
- 是利用数据解释自然规律的科学,内容包括如何收集和分析数据。
- 是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。
2) 人工智能
- 指由人制造出来的机器所表现出来的智能。
3) 机器学习
- 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
- 机器学习是对能通过经验自动改进的计算机算法的研究。
- 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
- 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
4) 深度学习
- 深度学习(DL)是一类机器学习算法,使用多个层逐步从原始数据中提取更高层的特征。——wiki
- 深度学习就是构建由参数化功能模块构成的网络,并利用基于梯度的优化方法进行样本训练。——Yann LeCun
其他相关知识点
-
概率的三个公理化条件
非负性,规范性,可列可加性 -
回归分析中的F test 与 t test
OLS 线性回归的假设检验:t 检验和 F 检验 -
样本点:试验可能出现的结果
-
样本空间:样本点全体
-
概率:对于随机事件A,用一个数P(A)表示该事件发生的可能性大小,则此数称为随机事件A的概率。
-
随机变量:给定样本空间 ( S , F ) (S,{\mathbb {F}}) (S,F),如果其上的实值函数 X : S → R X:S\to {\mathbb {R}} X:S→R是 F \mathbb{F} F (实值)可测函数,则称 X X X 为(实值)随机变量。初等概率论中通常不涉及到可测性的概念,而直接把任何 X : S → R X:S\to {\mathbb {R}} X:S→R 的函数称为随机变量。
-
概率空间:(样本空间,事件域,概率)
-
统计量:是样本测量的一种属性(例如,计算样本算术平均值),它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。
-
充分统计量:对于统计量 t = T ( X ) t = T(X) t=T(X),若数据 X X X 在已知 t = T ( X ) t = T(X) t=T(X) 时的条件分布不依赖于参数 θ \theta θ,则称其是关于参数 θ \theta θ 的充分统计量。
-
数学期望:
- 离散:设 ξ \xi ξ 为一离散型随机变量,它取值 x 1 , x 2 , x 3 , … x_1, x_2, x_3, … x1,x2,x3,… 对应的概率为 p 1 , p 2 , p 3 , … p_1, p_2, p_3, … p1,p2,p3,… 如果级数 ∑ i = 1 ∞ x i p i \sum^\infty_{i=1}x_i p_i ∑i=1∞xipi 绝对收敛,则称之为 ξ \xi ξ 的数学期望
- 连续:设 ξ \xi ξ 为具有密度函数 p ( x ) p(x) p(x) 的连续型随机变量,当积分 ∫ x p ( x ) d x \int xp(x)dx ∫xp(x)dx 绝对收敛时,称之为 ξ \xi ξ 的数学期望。
-
方差:若 E ( ξ – E ξ ) E(\xi – E\xi) E(ξ–Eξ) 存在,则称随机变量 ξ \xi ξ 的方差
-
U统计量:所有对称核(无偏估计+样本的对称函数)的平均。
-
UMVUE(一致最小方差无偏估计):
设 g ( θ ) g(\theta) g(θ) 是可估参数,若 T ( X ) T(X) T(X) 是 g ( θ ) g(\theta) g(θ) 的无偏估计,且对 U g U_g Ug(所有无偏估计组成的类)中任一估计 ϕ ( X ) \phi(X) ϕ(X),有:
V a r θ ( T ( X ) ) ≤ V a r θ ( ϕ ( X ) ) , ∀ θ ∈ Θ Var_\theta(T(X)) \leq Var_\theta(\phi(X)), \forall \theta \in \Theta Varθ(T(X))≤Varθ(ϕ(X)),∀θ∈Θ -
AIC,BIC(越小越好):
A I C = 2 k − 2 ln ( L ) AIC=2k-2\ln(L) AIC=2k−2ln(L) B I C = ln ( n ) k − 2 ln ( L ) BIC=\ln(n)k-2\ln(L) BIC=ln(n)k−2ln(L)训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。 -
损失函数:
Hinge 损失(SVM),指数损失函数(Adaboost),平方损失函数(最小二乘法, Ordinary Least Squares ),对数损失函数(逻辑回归,交叉熵损失)
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)