【相关系数公式】在统计学中,相关系数是衡量两个变量之间线性关系强度和方向的指标。常见的相关系数有皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。以下是对这些相关系数公式的总结,并通过表格形式进行对比。
一、相关系数简介
1. 皮尔逊相关系数(Pearson Correlation Coefficient)
用于衡量两个连续变量之间的线性相关程度,取值范围为 -1 到 1。值越接近 1 或 -1,表示相关性越强;接近 0 表示无相关性。
2. 斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)
适用于非正态分布数据或有序数据,通过将原始数据转换为等级后计算相关性。
3. 肯德尔等级相关系数(Kendall Rank Correlation Coefficient)
用于评估两个变量的排序一致性,常用于小样本或有序数据。
二、相关系数公式汇总
| 相关系数类型 | 公式 | 说明 |
| 皮尔逊相关系数 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $ | 计算两组变量的协方差与标准差的比值 |
| 斯皮尔曼等级相关系数 | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $ | $d_i$ 是每对观测值的等级差,$n$ 是样本数量 |
| 肯德尔等级相关系数 | $ \tau = \frac{C - D}{\frac{1}{2} n(n - 1)} $ | $C$ 是一致对数,$D$ 是不一致对数 |
三、使用场景建议
- 皮尔逊相关系数:适合数据呈正态分布且变量间存在线性关系的情况。
- 斯皮尔曼相关系数:适用于数据不满足正态分布或变量为有序数据时。
- 肯德尔相关系数:适用于小样本数据,尤其是对排名或顺序数据进行分析时。
四、注意事项
- 相关系数仅反映线性关系,不能说明因果关系。
- 在实际应用中,应结合散点图和相关系数共同判断变量间的关系。
- 不同数据类型需要选择合适的相关系数公式,避免误用导致结论偏差。
通过以上内容可以看出,不同相关系数适用于不同的数据分析场景,正确选择和使用相关系数有助于更准确地理解数据之间的关系。


