1.两变量相关性分析

两变量相关性分析是统计学中用于评估两个变量之间是否存在线性关系以及关系紧密程度的一种方法。相关性的大小通常使用相关系数来衡量,最常用的是皮尔逊相关系数(Pearson correlation coefficient),但还有斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient)和肯德尔等级相关系数(Kendall’s tau coefficient)等其他方法。

1.1 皮尔逊相关系数(Pearson Correlation Coefficient)

皮尔逊相关系数用于度量两个连续变量之间的线性相关性。其取值范围是从-1到1,其中1表示完全正相关,-1表示完全负相关,0表示没有线性相关。

相关系数公式为:
r = ∑ ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 r = \frac{\sum (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum (X_i - \overline{X})^2}\sqrt{\sum (Y_i - \overline{Y})^2}} r=(XiX)2 (YiY)2 (XiX)(YiY)

1.2 斯皮尔曼等级相关系数(Spearman’s Rank Correlation Coefficient)

斯皮尔曼相关系数用于度量两个变量的等级(或顺序)之间的相关性。这适用于定序(ordinal)数据或不完全符合正态分布的连续数据。

斯皮尔曼相关系数的公式为:

r s = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} rs=1n(n21)6di2

这里,( d_i ) 是两个变量的等级之差,( n ) 是数据点的数量。

1.3 肯德尔等级相关系数(Kendall’s Tau Coefficient)

肯德尔等级相关系数是另一种非参数统计方法,用于度量两个变量之间的相关性。它通过比较数据对中的协调和不协调对的数量来计算。

肯德尔 τ \tau τ的计算稍微复杂一些,其公式为:

τ = C − D ( C + D + T ) ( C + D + U ) \tau = \frac{C - D}{\sqrt{(C + D + T)(C + D + U)}} τ=(C+D+T)(C+D+U) CD

这里,C 表示协调对,D 表示不协调对,T 是变量X的绑定对的数量,U 是变量Y的绑定对的数量。

2.SPSS实现

(1)打开“data08-01”数据文件,选择“分析”——“相关”——“双变量”,弹出下图所示的对话框。
在这里插入图片描述(2)将左侧“价格”和“马力”变量移到右侧,然后按照下图所示勾选对应选项。
在这里插入图片描述(3)单击“选项”按钮,弹出“双变量相关性:选项”对话框,按照下图所示勾选对应选项。
在这里插入图片描述(4)完成所有设置后,单击确定。

3.结果分析

在这里插入图片描述

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐