【相关系数怎么计算】在统计学中,相关系数是用来衡量两个变量之间线性关系的强弱和方向的一个指标。常见的相关系数有皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。其中,皮尔逊相关系数是最常用的一种,适用于连续变量之间的线性关系分析。
以下是对相关系数计算方法的简要总结,并通过表格形式展示不同相关系数的适用场景与计算方式。
一、相关系数概述
| 指标 | 说明 | 适用数据类型 |
| 皮尔逊相关系数(Pearson) | 衡量两个连续变量之间的线性相关程度 | 连续变量 |
| 斯皮尔曼等级相关系数(Spearman) | 基于变量的排名,适用于非正态分布或有序数据 | 有序变量 / 非正态连续变量 |
| 肯德尔等级相关系数(Kendall) | 用于评估两个变量的等级一致性 | 有序变量 |
二、皮尔逊相关系数计算方法
公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}
$$
- $ x_i, y_i $:样本数据对
- $ \bar{x}, \bar{y} $:样本均值
步骤:
1. 计算每个变量的平均值;
2. 对每组数据计算 $ (x_i - \bar{x}) $ 和 $ (y_i - \bar{y}) $ 的乘积;
3. 将所有乘积求和;
4. 分别计算 $ (x_i - \bar{x})^2 $ 和 $ (y_i - \bar{y})^2 $ 的总和;
5. 将第3步的结果除以第4步两部分的平方根乘积,得到相关系数 $ r $。
取值范围:
- $ r = 1 $:完全正相关
- $ r = -1 $:完全负相关
- $ r = 0 $:无线性相关
三、斯皮尔曼等级相关系数计算方法
公式:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
- $ d_i $:两个变量的排名差
- $ n $:样本数量
步骤:
1. 对两个变量分别进行排序并赋予等级;
2. 计算每个样本的排名差 $ d_i $;
3. 平方每个 $ d_i $ 并求和;
4. 代入公式计算相关系数 $ \rho $。
四、肯德尔等级相关系数计算方法
公式:
$$
\tau = \frac{C - D}{\frac{n(n - 1)}{2}}
$$
- $ C $:一致对数(即两个变量顺序一致的对数)
- $ D $:不一致对数(即两个变量顺序不一致的对数)
步骤:
1. 对两个变量进行排序;
2. 比较所有样本对的顺序是否一致;
3. 统计一致对数 $ C $ 和不一致对数 $ D $;
4. 代入公式计算 $ \tau $。
五、总结
| 相关系数类型 | 适用场景 | 是否需要正态分布 | 是否适用于非线性关系 |
| 皮尔逊 | 连续变量、线性关系 | 是 | 否 |
| 斯皮尔曼 | 有序变量、非正态分布 | 否 | 是 |
| 肯德尔 | 有序变量、小样本 | 否 | 是 |
通过合理选择相关系数类型,可以更准确地描述变量之间的关系,为数据分析提供有力支持。在实际应用中,还需结合数据特征和研究目的进行判断。


