空间扫描统计详解——从空间扫描统计到时空扫描统计
空间扫描统计由学者Kulldorff在1997年提出,是一种利用概率分布模型检测空间数据中是否存在显著聚集或者异常的统计方法,其通过在空间中滑动或“扫描”一个窗口,检查窗口内和窗口外的事件数量(通常计算窗口内外的扫描统计量),是否存在显著差异,以识别可能的空间集群,常用于地理疾病聚集检测、聚类检测和评价。例如,考虑一个地理空间内的疾病发病情况。通过空间扫描统计,可以检测是否存在显著的空间聚类,即疾
这几天因为有个工作涉及到空间扫描统计, 但是上网查了一圈发现对空间扫描统计的相关介绍较少, 于是去阅读了关于空间扫描统计的相关论文, 并将自己对扫描统计的了解和理解进行一个减少, 希望可以帮助到需要快速了解扫描统计的人
下面正式进入关于扫描统计的相关介绍, 主要包括: 什么是空间扫描统计?有哪些作用?基本原理是什么?什么是时空扫描统计
文章目录
什么是空间扫描统计
空间扫描统计由学者Kulldorff在1997年提出,是一种利用概率分布模型检测空间数据中是否存在显著聚集或者异常的统计方法,其通过在空间中滑动或“扫描”一个窗口,检查窗口内和窗口外的事件数量(通常计算窗口内外的扫描统计量),是否存在显著差异,以识别可能的空间集群,常用于地理疾病聚集检测、聚类检测和评价。
例如,考虑一个地理空间内的疾病发病情况。通过空间扫描统计,可以检测是否存在显著的空间聚类,即疾病在某个地理区域内的发病率明显高于其他地方。
顾名思义,空间扫描统计涉及三个核心内容:“窗口”、“扫描”和“统计”。
具体来说,窗口是指在地理空间上滑动的区域,具有如下特点:
- 大小可变:窗口的大小是可调整的,这使得可以在不同的尺度下检测群集。一些窗口可能较小,用于检测局部聚类,而其他窗口可能较大,用于检测更广泛的模式。
- 形状可变:窗口可以采用不同的形状,通常为圆形或椭圆形,以适应不同类型的空间模式。
- 滑动:窗口在地理空间中滑动或移动,覆盖不同的区域。这个滑动过程允许对整个空间范围进行全面的检测。
扫描就是从某个位置开始,不断在地理空间上滑动/移动定义的窗口,直到整个区域扫描完毕,在每次扫描/滑动的过程中,根据窗口内外的事件计算在该位置上的扫描统计量,即统计。
空间扫描统计的基本原理
空间扫描统计方法通过定义的窗口对地理空间进行扫描,通过计算窗口内外事件的扫描统计量(通常是似然比统计量),以识别空间上可能存在的聚集或者异常。
空间扫描统计的基本步骤
1. 扫描窗口定义
给定研究区域S,其被划分为m个子区域 , S = { S 1 , S 2 , . . . , S m } S=\{S_1, S_2, ..., S_m\} S={S1,S2,...,Sm} ,每个子区域i内的的随便变量 N i N_i Ni的观测值为 ∗ n i ( i = 1 , 2 , . . . , m ) *n_i (i=1,2,...,m) ∗ni(i=1,2,...,m), n是研究区域的随便变量的观测值之和, n = n 1 + n 2 + , . . . , n m n=n_1+n_2+, ..., n_m n=n1+n2+,...,nm
假设研究区域内随机变量N独立泊松分布,即:
P
(
N
i
=
k
)
=
λ
i
k
k
!
∗
e
−
λ
i
P(N_i=k)=\frac{λ_i^k}{k!}*e^{-λ_i}
P(Ni=k)=k!λik∗e−λi
式中,
λ
i
λ_i
λi是泊松分布的参数(也是期望值),其极大似然比估计值为:
λ
‾
i
=
∣
B
∣
n
∣
S
∣
\overline\lambda_i=|B|\frac{n}{|S|}
λi=∣B∣∣S∣n
式中,n是研究区域内总的样本数,|B|是区域i内的面积,|S|是研究区域S的总面积。
为了检测研究区域中是否存在聚集,使用统计检验的方式。具体来说,给定零假设
H
0
H_0
H0:研究区域内不存在聚集,那么随机变量(独立泊松变量)
N
i
N_i
Ni在零假设下的期望值为:
H
0
:
E
(
N
i
)
=
ξ
i
,
N
i
∼
P
o
i
s
s
o
n
(
ξ
i
)
H_0: E(N_i)=\xi_i, N_i\sim Poisson(\xi_i)
H0:E(Ni)=ξi,Ni∼Poisson(ξi)
式中,
ξ
i
\xi_i
ξi是在零假设下区域i内随便变量N的期望值
选择一个固定大小和形状或者可变形状和大小的窗口,可以是圆形、椭圆形或者矩形。
这里以圆形窗口为例。
在每个子区域内的质心给定圆形的扫描窗口Z,对于研究区域内的任意一个质心,圆形窗口的半径从0逐渐增加到覆盖到研究区域50%事件的大小。
给定$Z_{ik} (k=1, 2, …, K_i) $ 为研究区域子区域i的k-1个最近邻邻域,则研究区域S内的所有窗口定义为 :
Z
=
{
Z
i
k
∣
1
≤
i
≤
m
,
i
≤
k
≤
K
i
}
Z=\{\mathbf{Z_{ik}} | 1 \leq i\leq m, i\leq k \leq K_i\}
Z={Zik∣1≤i≤m,i≤k≤Ki}
2. 滑动窗口
窗口在地理空间中滑动,覆盖研究区域的不同部分。
3. 统计量的计算
在每个窗口的位置,根据窗口内和窗口外的事件数量计算扫描统计量。这些事件可以是某种现象的发生次数,如疾病病例、环境事件等。
在研究中,似然比统计量 (Likelihood ratio statistic) 是最常用的扫描统计量,而泊松分布是最常用的描述点过程的分布。由于圆形窗口内的点事件发生的数量比窗口外部的点事件发生的数量相比小很多,因此,使用泊松分布的假设是合理的。
在零假设下,我们假设在圆形窗口内观测到点事件的个数和随机变量N的期望值是相似的,那么备择假设则为:窗口内观测到的点事件的个数大于期望值,用数学语言描述则为:
H
0
:
E
(
N
(
Z
)
)
=
μ
(
Z
)
,
f
o
r
a
l
l
Z
s
(
全部的扫描窗口
)
H
1
:
E
(
N
(
Z
)
)
>
μ
(
Z
)
,
f
o
r
s
o
m
e
Z
s
(
对于部分的扫描窗口
)
H_0: E(N(Z))=\mu(Z), for\ all\ Zs(全部的扫描窗口) \\ H_1:E(N(Z)) > \mu(Z), for \ some \ Zs (对于部分的扫描窗口)
H0:E(N(Z))=μ(Z),for all Zs(全部的扫描窗口)H1:E(N(Z))>μ(Z),for some Zs(对于部分的扫描窗口)
式中,
N
(
Z
)
N(Z)
N(Z) 是窗口Z内的点事件个数,
μ
(
Z
)
\mu(Z)
μ(Z) 是零假设下的分布生成的窗口的零期望值,如泊松分布中的
λ
‾
i
\overline\lambda_i
λi。
对于每个扫描窗口***
Z
\mathbf{Z}
Z***, 其窗口内外的似然比统计量计算公式为:
λ
K
=
max
Z
∈
Z
λ
K
(
Z
)
=
max
Z
∈
Z
(
n
(
Z
)
μ
(
Z
)
)
n
(
Z
)
(
n
−
n
(
Z
)
n
−
μ
(
Z
)
)
n
−
n
(
Z
)
I
(
n
(
Z
)
μ
(
Z
)
>
n
−
n
(
Z
)
n
−
μ
(
Z
)
)
\lambda _K=\max\limits_{\mathbf{Z}∈Z}\ \lambda_K(\mathbf{Z})=\max\limits_{\mathbf{Z}∈Z} \ (\frac{n(\mathbf{Z})}{\mu(\mathbf{Z})})^{n(\mathbf{Z})} \ (\frac{n-n(\mathbf{Z})}{n-\mu(\mathbf{Z})})^{n-n(\mathbf{Z})} \ I(\frac{n(\mathbf{Z})}{\mu(\mathbf{Z})}>\frac{n-n(\mathbf{Z})}{n-\mu(\mathbf{Z})})
λK=Z∈Zmax λK(Z)=Z∈Zmax (μ(Z)n(Z))n(Z) (n−μ(Z)n−n(Z))n−n(Z) I(μ(Z)n(Z)>n−μ(Z)n−n(Z))
式中, n ( Z ) n(\mathbf{Z}) n(Z)是指窗口 Z \mathbf{Z} Z内观测到的点事件的个数, μ ( Z ) \mu({\mathbf{Z}}) μ(Z)是在零假设下窗口 Z \mathbf{Z} Z内的观测变量的期望值, n n n是研究区域区域内观测到的点事件的个数, I ( ) I() I()是一个指示函数。
仔细观察该式,可以发现其实际上是一个超几何分布公式。
通过计算窗口内外的极大似然比统计量,可以发现研究区域内最可能存在的聚集区域(簇)。
4. 期望的计算
在步骤3中,需要计算窗口内观测变量的期望,对于不同的情景和假设,期望值的计算方式不同。一般来说,期望的计算通常基于某种随机性模型,例如在没有空间聚集的情况下,事件在整个区域上的均匀分布。大体来说,有以下两种类型的分布模型。
- 均匀分布模型:假设事件在整个地理区域上是均匀分布的。在这种情况下,期望值可以通过窗口的面积乘以整个区域的事件密度来计算。
- 随机分布模型: 假设事件在空间上是随机分布的。在这种情况下,期望值可以通过窗口的面积乘以整个区域的平均事件密度来计算。
具体来说,目前研究中最常用的分布模型为泊松分布:
- 泊松分布:泊松分布的期望值等于其参数 λ i \lambda_i λi,那么窗口内随机变量的期望值计算方式 μ ( Z ) = λ ∗ A / S \mu(\mathbf{Z})=\lambda*A/S μ(Z)=λ∗A/S,其中 A A A是窗口内的面积, S S S是研究区域内的总面积。
此外,当空间扫描统计用于探测研究区域内疾病发病率高发区域时,在估计泊松分布中的参数时,通常利用窗口内的人口数量和研究区域中的人口数量。
当研究区域中的人口数量未知时,若已知过去一定时间该区域的疾病分布情况,还可以利用过去时段该窗口内的点事件数量计算当前时段内的该窗口内随机变量的期望值,如下式所示:
μ
(
Z
t
)
=
1
q
(
n
(
Z
t
−
1
)
+
.
.
.
+
n
(
Z
t
−
q
)
)
\mu(\mathbf{Z_t})=\frac{1}{q} \ (n(\mathbf{Z_{t-1}})+ ... + n(\mathbf{Z_{t-q}}))
μ(Zt)=q1 (n(Zt−1)+...+n(Zt−q))
实际上这其实也是一种时空扫描统计,式中
q
q
q 是指过去多少个时间切片。
5. 显著性检验
上述通过计算扫描窗口内外的最大似然比统计量,可以发现研究区域中最可能聚集的区域,为了评估观察到的聚集或者异常是否是由随机性引起的,还是具有统计学意义上的显著性,因此需要对统计量进行显著性检验。具体原因总结如下:
- 研究观察到的聚集模式是否显著: 空间扫描统计的目标之一是识别在地理空间中显著的聚集或异常模式。通过显著性检验,可以确定观察到的模式是否足够突出,以至于排除了纯随机性导致的模式。
- 排除随机性的影响:地理数据中,由于人口密度、资源分布等原因,一些区域可能本身就存在一定的随机性。显著性检验帮助排除这些随机性的影响,使得分析更加精确。
- 具体应用上的意义:例如在流行病学中为识别疾病的传播热点提供科学依据和解释,从而支持相关决策的制定。
空间统计学中最常用的显著性检验方法为蒙特卡洛模拟,具体步骤如下:
- 选择统计量:如上述提到的似然比统计量,也可以是其他的统计量
- 计算观察到的统计量:基于实际观察到的点事件计算统计量。
- 生成零分布:利用蒙特卡洛模拟或者其他方法生成在零假设下的零分布。这可以通过对真实数据进行重排(permutation)或通过模拟大量随机数据集得到,得到 N m o n t e N_{monte} Nmonte(一般为999,1999,…)个零分布模拟数据集。
- 计算零分布的统计量:根据生成的零分布数据集和零假设下的随机变量的期望值计算零分布的统计量。
- 计算p值:将每次通过重排(或其他)计算得到的统计量与观察到的统计量进行比较与排序(对于高值聚集从大到小排序,对于低值聚 集则从小到大排序),确定真实数据集的统计量值在 N m o n t e + 1 N_{monte}+1 Nmonte+1个值中的位序𝑅𝑎𝑛𝑘,算统计显著性值 p = R a n k N M o n t e + 1 p=\frac{Rank}{N_{Monte+1}} p=NMonte+1Rank 。排序越靠前,p值越小,指示真实数据集由于随机性形成聚集的概率越低。
- 设置显著性分平:设定显著性水平(通常为 0.05 或 0.01),以确定观察到的统计量是否显著。如果 p 值小于显著性水平,通常可以拒绝零假设,得出显著性结论。
6. 聚集或异常的判定
如果在某个窗口位置发现显著的空间差异,就可以认为在该地理区域内存在聚集或异常。这被认为是统计上显著的,因为在期望的随机情况下,很少有可能出现类似或更极端的情况。
从空间扫描统计到时空扫描统计
时空扫描统计是空间扫描统计的扩展,其考虑了地理空间和时间的结合,以检测在时空范围内的聚集或者异常。在时空扫描统计中,既考虑了空间上的聚集,又考虑了时间上的模式,使得分析能够更全面地理解随时间变化的事件分布。
时空扫描统计的窗口不仅可以在空间上滑动,还可以在时间上移动,因此能够捕捉到在整个时空范围内的聚集模式。
时空扫描统计与空间扫描统计过程一样,主要不同之处在于扫描窗口的定义和期望值的计算。空间扫描统计的窗口是二维的(如圆形、椭圆形),而时空扫描统计的扫描窗口是三维的(如椭圆柱、圆柱、立方体等)。而在计算期望值时,可以利用过去时间段内的点事件计算当前时段窗口内的期望值(如前述)。其他步骤和空间扫描统计一样,具体可以参考研究[3-4, 7]
参考文献
[1] Kulldorff M. A spatial scan statistic[J]. Communications in Statistics-Theory and methods, 1997, 26(6): 1481-1496.
[2] Kulldorff M. Spatial scan statistics: models, calculations, and applications[J]. 1999.
[3] Kulldorff M, Heffernan R, Hartman J, et al. A space–time permutation scan statistic for disease outbreak detection[J]. PLoS medicine, 2005, 2(3): e59.
[4] Kulldorff M, Athas W F, Feurer E J, et al. Evaluating cluster alarms: a space-time scan statistic and brain cancer in Los Alamos, New Mexico[J]. American journal of public health, 1998, 88(9): 1377-1380.
[5] Kulldorff M, Huang L, Pickle L, et al. An elliptic spatial scan statistic[J]. Statistics in medicine, 2006, 25(22): 3929-3943.
[6] Tango T, Takahashi K. A flexible spatial scan statistic with a restricted likelihood ratio for detecting disease clusters[J]. Statistics in medicine, 2012, 31(30): 4207-4218.
[7] Kim Y, O’kelly M. A bootstrap based space–time surveillance model with an application to crime occurrences[J]. Journal of Geographical Systems, 2008, 10: 141-165.
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)