统计学面试经典问题

1. 叙述你所熟悉的大数定律与中心极限定理，并举例说明它在统计学中的应用。1) 大数定律弱大数定律（通常指辛钦大数定律）：a) 马尔科夫大数定律：随机变量满足马尔科夫条件：1n2D(∑k=1nξk)→0\frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0n21D(∑k=1nξk)→0，则样本均值依概率收敛于期望值。b) 辛钦大数定律...

Kanny广小隶

24403人浏览 · 2019-12-29 21:22:00

Kanny广小隶 · 2019-12-29 21:22:00 发布

1. 叙述你所熟悉的大数定律与中心极限定理，并举例说明它在统计学中的应用。

1) 大数定律

弱大数定律（通常指辛钦大数定律）：
a) 马尔科夫大数定律：
随机变量满足马尔科夫条件： $\frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0$ ，则样本均值依概率收敛于期望值。
b) 辛钦大数定律：
随机变量独立同分布，一阶矩存在且等于 $a$ ，样本均值依概率收敛于期望值 $a$ 。
强大数定律（柯尔莫哥洛夫）：
随机变量独立同分布，一阶矩存在且等于 $a$ ，样本均值以概率1收敛于期望值 $a$ 。

2) 中心极限定理

Lindeberg-Levy 中心极限定理（最早的版本是de Moivre – Laplace，指出二项分布的极限为正态分布）：

随机变量 $X_{1},X_{2},\cdots ,X_{n}$ 独立同分布，且具有有限的数学期望和方差 $E(X_{i})=\mu$ ， $D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n)$ ，记 ${\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},$ $\zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}，$

则 $\lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right)$

其中 $\Phi (z)$ 是标准正态分布的分布函数。

3) 大数定律的应用

抛硬币，抛的次数足够多，正反面出现的概率近乎是一致的。

4) 中心极限定理应用

在统计推断中，常需要知道统计量的分布，例如假设检验。这时可以借助大样本理论，在样本量很大时，求出统计量的渐进分布。

2. 说出两种不同的参数估计方法，并详细介绍其中一种估计方法，对某未知参数，如何比较两个不同估计量的优劣。

极大似然估计，最小二乘估计（最小均方误差），矩估计（用样本 k 阶矩代替总体的 k 阶矩）。

矩估计法（也称数字特征法）：

直观意义比较明显，但要求总体 k 阶矩存在。
缺点是不唯一，此时尽量使用样本低阶矩。
观测值受异常值影响较大，不够稳健，实际中避免使用样本高阶矩。
估计值可能不落在参数空间

极大似然估计法：

具有一些理论上的优点（不变性、相合性、渐近正态性）
缺点是如果似然函数不可微，没有一般的求解法则。

3. 详细介绍一种非参数统计的方法，并叙述非参数统计的优缺点

非参数统计：对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

机器学习：决策树，随机森林，SVM；
假设检验：符号，符号秩，秩和检验

优点：

非参数统计方法要求的假定条件比较少，因而它的适用范围比较广泛。
多数非参数统计方法要求的思想与运算比较简单，可以迅速完成计算取得结果。

缺点：

由于方法简单，用的计量水准较低，因此，如果能与参数统计方法同时使用时，就不如参数统计方法敏感。若为追求简单而使用非参数统计方法，其检验功效就要差些。这就是说，在给定的显著性水平下进行检验时，非参数统计方法与参数统计方法相比，第Ⅱ类错误的概率β要大些。
对于大样本，如不采用适当的近似，计算可能变得十分复杂。

4. 常见的数据降维方法有哪些？详细介绍主成分分析的基本原理与作用。

逐步回归，SIS，LASSO，PCA，ICA，随机森林等一些机器学习方法变量重要性筛选

基本原理： 投影
作用： 降维

可参考：一些变量筛选方法——1、综述

5. ① 依概率收敛、② 概率1收敛（几乎处处收敛）的定义分别是什么？二者有什么关系？

依概率收敛（ $d(X_{n},X)$ 表示距离，通常可用 $X_{n}-X|$ ）： $\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.$
概率1收敛： $\mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1$

接着考虑 ③ 依分布收敛，④ r阶矩收敛，有下述关系：

④ -> ①
② -> ①
① -> ③
③ -> ① （当①③ -> 常数C）

6. 阐述极大似然估计法的基本思想、缺陷及解决方案。

基本思想： 出现的认为是最有可能发生的。
具体定义：
给定一个概率分布 $D$ ，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为 $f_D$ ，以及一个分布参数 $\theta$ ，我们可以从这个分布中抽出一个具有 $n$ 个值的采样 $X_1, X_2,\ldots, X_n$ ，利用 $f_D$ 计算出其似然函数：
${L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).$ 若 $D$ 是离散分布， $f_{\theta }$ 即是在参数为 $\theta$ 时观测到这一采样的概率。若其是连续分布， $f_{\theta }$ 则为 $X_1, X_2,\ldots, X_n$ 联合分布的概率密度函数在观测值处的取值。一旦我们获得 $X_1, X_2,\ldots, X_n$ ，我们就能求得一个关于 $\theta$ 的估计。最大似然估计会寻找关于 $\theta$ 的最可能的值（即，在所有可能的 $\theta$ 取值中，寻找一个值使这个采样的 “可能性” 最大化）。从数学上来说，我们可以在 $\theta$ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 $\widehat{\theta}$ 值即称为 $\theta$ 的最大似然估计。

由定义，最大似然估计是样本的函数。
缺陷及解决方案：

均匀分布参数，正态分布的尺度参数的极大似然估计是有偏的，可以乘以一个系数进行校正。
极大似然估计的方差在高维情况下会很大，贝叶斯方法通过加先验一定程度上克服了这个问题，形式上就是现在的各种正则化方法，使得估计结果更稳定，更有效。

7. 参数点估计量的评价标准有哪些？

相合性，无偏性（参数估计的期望等于参数），有效性（两个估计均为无偏估计，则方差越小越有效），完备性，渐进正态性……

相合性（通常指弱）：
弱： $\hat{\theta_n} \to \theta$ ，依概率
强： $\hat{\theta_n} \to \theta$ ，几乎处处
完备性：
$\int \phi(x)dP_\theta = 0, \forall \theta \in \Theta$ $\phi(x) = 0, a.s. P_\theta$
$\phi(x)$ 是可测函数，则分布族是完备的。

8. 谈谈你对假设检验中，显著性水平，第一类错误，第二类错误，p值，真实水平的理解。

假设检验：是根据样本来推断总体的一些给定陈述是否成立的过程
第一类错误(type I error)：拒绝了正确零假设
第二类错误(type II error)：接受了不正确零假设
显著性水平(level of significance) : 拒绝了正确零假设的最大概率（事先给定）
检验功效(power) : 拒绝了不正确零假设概率
检验的p-值：根据样本，在原假设成立的前提下，出现与样本相同或者更极端的情况的概率

9. 什么是统计学？人工智能？机器学习？深度学习？

1) 统计学

是利用数据解释自然规律的科学，内容包括如何收集和分析数据。
是在数据分析的基础上，研究测定、收集、整理、归纳和分析反映数据，以便给出正确消息的科学。

2) 人工智能

指由人制造出来的机器所表现出来的智能。

3) 机器学习

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。
一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

4) 深度学习

深度学习（DL）是一类机器学习算法，使用多个层逐步从原始数据中提取更高层的特征。——wiki
深度学习就是构建由参数化功能模块构成的网络，并利用基于梯度的优化方法进行样本训练。——Yann LeCun

其他相关知识点

概率的三个公理化条件
非负性，规范性，可列可加性
回归分析中的F test 与 t test
OLS 线性回归的假设检验：t 检验和 F 检验
样本点：试验可能出现的结果
样本空间：样本点全体
概率：对于随机事件A，用一个数P(A)表示该事件发生的可能性大小，则此数称为随机事件A的概率。
随机变量：给定样本空间 $(S,{\mathbb {F}})$ ，如果其上的实值函数 $X:S\to {\mathbb {R}}$ 是 $\mathbb{F}$ (实值)可测函数，则称 $X$ 为（实值）随机变量。初等概率论中通常不涉及到可测性的概念，而直接把任何 $X:S\to {\mathbb {R}}$ 的函数称为随机变量。
概率空间：（样本空间，事件域，概率）
统计量：是样本测量的一种属性（例如，计算样本算术平均值），它计算的通过对数据集进行某种函数（统计算法）的运算后得到的值。
充分统计量：对于统计量 $t = T (X)$ ，若数据 $X$ 在已知 $t = T (X)$ 时的条件分布不依赖于参数 $\theta$ ，则称其是关于参数 $\theta$ 的充分统计量。
数学期望：
- 离散：设 $\xi$ 为一离散型随机变量，它取值 $x_1, x_2, x_3, …$ 对应的概率为 $p_1, p_2, p_3, …$ 如果级数 $\sum^\infty_{i=1}x_i p_i$ 绝对收敛，则称之为 $\xi$ 的数学期望
- 连续：设 $\xi$ 为具有密度函数 $p (x)$ 的连续型随机变量，当积分 $\int xp(x)dx$ 绝对收敛时，称之为 $\xi$ 的数学期望。
方差：若 $E(\xi – E\xi)$ 存在，则称随机变量 $\xi$ 的方差
U统计量：所有对称核（无偏估计+样本的对称函数）的平均。
UMVUE（一致最小方差无偏估计）：
设 $g(\theta)$ 是可估参数，若 $T (X)$ 是 $g(\theta)$ 的无偏估计，且对 $U_g$ （所有无偏估计组成的类）中任一估计 $\phi(X)$ ，有：
$Var_\theta(T(X)) \leq Var_\theta(\phi(X)), \forall \theta \in \Theta$
AIC，BIC（越小越好）：
$AIC=2k-2\ln(L)$ $BIC=\ln(n)k-2\ln(L)$ 训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。
损失函数：
Hinge 损失（SVM），指数损失函数（Adaboost），平方损失函数（最小二乘法, Ordinary Least Squares ），对数损失函数（逻辑回归，交叉熵损失）