1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。

1) 大数定律
  • 弱大数定律(通常指辛钦大数定律):
    a) 马尔科夫大数定律:
    随机变量满足马尔科夫条件: 1 n 2 D ( ∑ k = 1 n ξ k ) → 0 \frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0 n21D(k=1nξk)0,则样本均值依概率收敛于期望值。
    b) 辛钦大数定律:
    随机变量独立同分布,一阶矩存在且等于 a a a,样本均值依概率收敛于期望值 a a a

  • 强大数定律(柯尔莫哥洛夫):
    随机变量独立同分布,一阶矩存在且等于 a a a,样本均值以概率1收敛于期望值 a a a

2) 中心极限定理
  • Lindeberg-Levy 中心极限定理(最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布):

随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,,Xn 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E(Xi)=μ D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯   , n ) D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n) D(Xi)=σ2=0(i=1,2,,n),记 X ˉ = 1 n ∑ i = 1 n X i , {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}, Xˉ=n1i=1nXi, ζ n = X ˉ − μ σ / n , \zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}, ζn=σ/n Xˉμ

lim ⁡ n → ∞ P ( ζ n ≤ z ) = Φ ( z ) \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right) nlimP(ζnz)=Φ(z)

其中 Φ ( z ) \Phi (z) Φ(z) 是标准正态分布的分布函数。

3) 大数定律的应用

抛硬币,抛的次数足够多,正反面出现的概率近乎是一致的。

4) 中心极限定理应用

在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布。


2. 说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。

极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。

矩估计法(也称数字特征法):

  • 直观意义比较明显,但要求总体 k 阶矩存在。
  • 缺点是不唯一,此时尽量使用样本低阶矩。
  • 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
  • 估计值可能不落在参数空间

极大似然估计法:

  • 具有一些理论上的优点(不变性、相合性、渐近正态性)
  • 缺点是如果似然函数不可微,没有一般的求解法则。

3. 详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点

非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验

优点:

  • 非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
  • 多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

缺点:

  • 由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
  • 对于大样本,如不采用适当的近似,计算可能变得十分复杂。

4. 常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。

逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选

  • 基本原理: 投影
  • 作用: 降维

可参考:一些变量筛选方法——1、综述


5. ① 依概率收敛、② 概率1收敛(几乎处处收敛)的定义分别是什么?二者有什么关系?

依概率收敛( d ( X n , X ) d(X_{n},X) d(Xn,X) 表示距离,通常可用 ∣ X n − X ∣ |X_{n}-X| XnX): P ( d ( X n , X ) ≥ ε ) → 0 , ∀ ε > 0. \mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0. P(d(Xn,X)ε)0,ε>0.
概率1收敛: P ( lim ⁡ n → ∞ X n = X ) = 1 \mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1 P(nlimXn=X)=1

接着考虑 ③ 依分布收敛,④ r阶矩收敛,有下述关系:

④ -> ①
② -> ①
① -> ③
③ -> ① (当①③ -> 常数C)


6. 阐述极大似然估计法的基本思想、缺陷及解决方案。

  • 基本思想: 出现的认为是最有可能发生的。

  • 具体定义:
    给定一个概率分布 D D D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f D f_D fD,以及一个分布参数 θ \theta θ ,我们可以从这个分布中抽出一个具有 n n n 个值的采样 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn,利用 f D f_D fD 计算出其似然函数:
    L ( θ ∣ x 1 , … , x n ) = f θ ( x 1 , … , x n ) . {\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} L(θx1,,xn)=fθ(x1,,xn). D D D 是离散分布, f θ {\displaystyle f_{\theta }} fθ 即是在参数为 θ \theta θ 时观测到这一采样的概率。若其是连续分布, f θ {\displaystyle f_{\theta }} fθ 则为 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn 联合分布的概率密度函数在观测值处的取值。一旦我们获得 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn,我们就能求得一个关于 θ \theta θ 的估计。最大似然估计会寻找关于 θ \theta θ 的最可能的值(即,在所有可能的 θ \theta θ 取值中,寻找一个值使这个采样的 “可能性” 最大化)。从数学上来说,我们可以在 θ \theta θ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ ^ \widehat{\theta} θ 值即称为 θ \theta θ 的最大似然估计。

    由定义,最大似然估计是样本的函数。

  • 缺陷及解决方案:

  1. 均匀分布参数,正态分布的尺度参数的极大似然估计是有偏的,可以乘以一个系数进行校正。
  2. 极大似然估计的方差在高维情况下会很大,贝叶斯方法通过加先验一定程度上克服了这个问题,形式上就是现在的各种正则化方法,使得估计结果更稳定,更有效。

7. 参数点估计量的评价标准有哪些?

相合性,无偏性(参数估计的期望等于参数),有效性(两个估计均为无偏估计,则方差越小越有效),完备性,渐进正态性……

  • 相合性(通常指弱):
    弱: θ n ^ → θ \hat{\theta_n} \to \theta θn^θ,依概率
    强: θ n ^ → θ \hat{\theta_n} \to \theta θn^θ,几乎处处

  • 完备性:
    ∫ ϕ ( x ) d P θ = 0 , ∀ θ ∈ Θ \int \phi(x)dP_\theta = 0, \forall \theta \in \Theta ϕ(x)dPθ=0,θΘ ϕ ( x ) = 0 , a . s . P θ \phi(x) = 0, a.s. P_\theta ϕ(x)=0,a.s.Pθ
    ϕ ( x ) \phi(x) ϕ(x) 是可测函数,则分布族是完备的。


8. 谈谈你对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。

  • 假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程
  • 第一类错误(type I error):拒绝了正确零假设
  • 第二类错误(type II error):接受了不正确零假设
  • 显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)
  • 检验功效(power) : 拒绝了不正确零假设概率
  • 检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率


9. 什么是统计学?人工智能?机器学习?深度学习?

1) 统计学
  • 是利用数据解释自然规律的科学,内容包括如何收集和分析数据。
  • 是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。
2) 人工智能
  • 指由人制造出来的机器所表现出来的智能。
3) 机器学习
  • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
  • 机器学习是对能通过经验自动改进的计算机算法的研究。
  • 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
  • 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
4) 深度学习
  • 深度学习(DL)是一类机器学习算法,使用多个层逐步从原始数据中提取更高层的特征。——wiki
  • 深度学习就是构建由参数化功能模块构成的网络,并利用基于梯度的优化方法进行样本训练。——Yann LeCun

其他相关知识点

  • 概率的三个公理化条件
    非负性,规范性,可列可加性

  • 回归分析中的F test 与 t test
    OLS 线性回归的假设检验:t 检验和 F 检验

  • 样本点:试验可能出现的结果

  • 样本空间:样本点全体

  • 概率:对于随机事件A,用一个数P(A)表示该事件发生的可能性大小,则此数称为随机事件A的概率。

  • 随机变量:给定样本空间 ( S , F ) (S,{\mathbb {F}}) (S,F),如果其上的实值函数 X : S → R X:S\to {\mathbb {R}} X:SR F \mathbb{F} F (实值)可测函数,则称 X X X 为(实值)随机变量。初等概率论中通常不涉及到可测性的概念,而直接把任何 X : S → R X:S\to {\mathbb {R}} X:SR 的函数称为随机变量。

  • 概率空间:(样本空间,事件域,概率)

  • 统计量:是样本测量的一种属性(例如,计算样本算术平均值),它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。

  • 充分统计量:对于统计量 t = T ( X ) t = T(X) t=T(X),若数据 X X X 在已知 t = T ( X ) t = T(X) t=T(X) 时的条件分布不依赖于参数 θ \theta θ,则称其是关于参数 θ \theta θ 的充分统计量。

  • 数学期望:

    • 离散:设 ξ \xi ξ 为一离散型随机变量,它取值 x 1 , x 2 , x 3 , … x_1, x_2, x_3, … x1,x2,x3, 对应的概率为 p 1 , p 2 , p 3 , … p_1, p_2, p_3, … p1,p2,p3, 如果级数 ∑ i = 1 ∞ x i p i \sum^\infty_{i=1}x_i p_i i=1xipi 绝对收敛,则称之为 ξ \xi ξ 的数学期望
    • 连续:设 ξ \xi ξ 为具有密度函数 p ( x ) p(x) p(x) 的连续型随机变量,当积分 ∫ x p ( x ) d x \int xp(x)dx xp(x)dx 绝对收敛时,称之为 ξ \xi ξ 的数学期望。
  • 方差:若 E ( ξ – E ξ ) E(\xi – E\xi) E(ξEξ) 存在,则称随机变量 ξ \xi ξ 的方差

  • U统计量:所有对称核(无偏估计+样本的对称函数)的平均。

  • UMVUE(一致最小方差无偏估计):
    g ( θ ) g(\theta) g(θ) 是可估参数,若 T ( X ) T(X) T(X) g ( θ ) g(\theta) g(θ) 的无偏估计,且对 U g U_g Ug(所有无偏估计组成的类)中任一估计 ϕ ( X ) \phi(X) ϕ(X),有:
    V a r θ ( T ( X ) ) ≤ V a r θ ( ϕ ( X ) ) , ∀ θ ∈ Θ Var_\theta(T(X)) \leq Var_\theta(\phi(X)), \forall \theta \in \Theta Varθ(T(X))Varθ(ϕ(X)),θΘ

  • AIC,BIC(越小越好):
    A I C = 2 k − 2 ln ⁡ ( L ) AIC=2k-2\ln(L) AIC=2k2ln(L) B I C = ln ⁡ ( n ) k − 2 ln ⁡ ( L ) BIC=\ln(n)k-2\ln(L) BIC=ln(n)k2ln(L)训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

  • 损失函数:
    Hinge 损失(SVM),指数损失函数(Adaboost),平方损失函数(最小二乘法, Ordinary Least Squares ),对数损失函数(逻辑回归,交叉熵损失)

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐