Table of contents
该教程解释了Excel中相关的基础知识,展示了如何计算相关系数、建立相关矩阵和解释结果。
你可以在Excel中进行的最简单的统计计算之一是相关性。 虽然简单,但它对于理解两个或多个变量之间的关系非常有用。 Microsoft Excel提供了运行相关性分析的所有必要工具,你只需要知道如何使用它们。
Excel中的关联性--基础知识
相关性 是一种描述两个变量之间关系的强度和方向的措施。 它通常被用于统计学、经济学和社会科学的预算、商业计划等方面。
用来研究变量之间的关系有多密切的方法被称为 关联分析 .
这里有几个强相关的例子。
- 你吃的卡路里数量和你的体重(正相关)。
- 外面的温度和你的取暖费(负相关)。
而这里有一些数据的例子,它们的相关性很弱或没有相关性。
- 你的猫的名字和它们最喜欢的食物
- 你的眼睛的颜色和你的身高
要了解的一件重要事情是,它只显示了两个变量的密切关系。 然而,相关性并不意味着因果关系。 一个变量的变化与另一个变量的变化相关,并不意味着一个变量实际上导致另一个变量的变化。
如果你有兴趣了解因果关系并进行预测,那就向前迈一步,进行线性回归分析。
Excel中的相关系数--相关性的解释
两个连续变量之间的关联程度的数字测量被称为 相关系数 (r).
系数值总是在-1和1之间,它衡量变量之间线性关系的强度和方向。
强度
系数的绝对值越大,关系就越强。
- 当所有的数据点都落在一条线上时,-1和1的极端值表示一个完美的线性关系。 在实践中,一个完美的相关性,无论是正还是负,都很少被观察。
- 系数为0表示变量之间没有线性关系。 这就是你有可能得到的两组随机数的情况。
- 0和+1/-1之间的数值代表弱、中、强关系的尺度。 如 r 越来越接近于-1或1,关系的强度就会增加。
方向
系数符号(正或负)表示关系的方向。
- 正面的 系数代表直接相关,并在图表上产生一个向上的斜率--当一个变量增加时,另一个也会增加,反之亦然。
- 负面的 系数代表反相关,在图表上产生一个向下的斜率--当一个变量增加时,另一个变量趋于减少。
为了更好地理解,请看一下以下的相关图表。
- 系数为 1 意味着完美的正向关系--随着一个变量的增加,另一个变量也按比例增加。
- 系数为 -1 意味着完美的负向关系--当一个变量增加时,另一个变量按比例减少。
- 系数为 0 意味着两个变量之间没有关系--数据点散落在图中。
皮尔逊相关
在统计学中,他们根据你所处理的数据类型来衡量几种类型的相关性。 在本教程中,我们将重点讨论最常见的一种。
皮尔逊相关 ,全称是 皮尔逊产品矩相关 (PPMC),是用来评估 线型 当一个变量的变化与另一个变量的比例变化相关时,数据之间的关系。 简单地说,皮尔逊相关性回答了这样一个问题:数据可以在一条线上表示吗?
在统计学中,它是最流行的相关类型,如果你在处理一个没有进一步限定的 "相关系数",它最有可能是皮尔逊。
下面是最常用的公式,用于寻找皮尔逊相关系数,也称为 皮尔逊的R :
有时,你可能会遇到另外两个计算公式。 样本相关系数 (r)和 人口相关系数 (ρ).
如何在Excel中做皮尔逊相关
手工计算皮尔逊相关系数涉及到相当多的数学问题。 幸运的是,Microsoft Excel使事情变得非常简单。 根据你的数据集和你的目标,你可以自由使用以下技术之一。
- 用CORREL函数找出皮尔逊相关系数。
- 通过进行数据分析,制作一个相关矩阵。
- 用一个公式找到多个相关系数。
- 绘制一个相关图,以获得数据关系的直观表示。
如何在Excel中计算相关系数
要手工计算相关系数,你必须使用这个冗长的公式。 要在Excel中找到相关系数,利用CORREL或PEARSON函数,在几分之一秒内得到结果。
Excel的CORREL函数
CORREL函数返回两组数值的皮尔逊相关系数。 其语法非常简单明了。
在哪里?
- 阵列1 是第一个数值范围。
- 阵列2 是第二个数值范围。
这两个数组应该有相等的长度。
假设我们有一组自变量( x )在B2:B13,因变量(y)在C2:C13,我们的相关系数公式如下。
=correl(b2:b13, c2:c13)
或者,我们可以交换范围,仍然得到相同的结果。
=correl(c2:c13, b2:b13)
无论哪种方式,该公式显示月平均温度和销售的加热器数量之间存在强烈的负相关(约为-0.97)。
关于Excel中的CORREL函数,你应该知道的3件事
要在Excel中成功计算相关系数,请记住这3个简单的事实。
- 如果一个数组中的一个或多个单元格包含文本、逻辑值或空白,这些单元格将被忽略;数值为零的单元格将被计算。
- 如果提供的数组长度不同,将返回#N/A错误。
- 如果其中一个数组是空的,或者它们的标准差等于零,就会发生#DIV/0!错误。
Excel的PEARSON函数
Excel中的PEARSON函数做了同样的事情--计算皮尔逊产品矩相关系数。
PEARSON(array1, array2)在哪里?
- 阵列1 是一个独立值的范围。
- 阵列2 是一个从属值的范围。
因为PEARSON和CORREL都是计算皮尔逊线性相关系数的,它们的结果应该是一致的,而且在最近的Excel 2007到Excel 2019版本中,它们一般都是一致的。
然而,在Excel 2003和更早的版本中,PEARSON函数可能会显示一些四舍五入的错误。 因此,在旧版本中,建议优先使用CORREL而不是PEARSON。
在我们的样本数据集上,两个函数表现出相同的结果。
=correl(b2:b13, c2:c13)
=pearson(b2:b13, c2:c13)
如何在Excel中用数据分析法制作相关矩阵
当你需要测试两个以上的变量之间的相互关系时,构建一个相关矩阵是有意义的,它有时被称为 多重相关系数 .
ǞǞǞ 关联矩阵 是一个表格,显示了相应行和列的交叉点的变量之间的相关系数。
Excel中的相关矩阵是通过以下方式建立的 相关性 工具,从 分析工具包 这个插件在Excel 2003到Excel 2019的所有版本中都可用,但默认情况下没有启用。 如果你还没有激活它,请现在按照《如何在Excel中启用数据分析工具箱》中描述的步骤进行激活。
有了添加到Excel功能区的数据分析工具,你就准备好运行相关分析了。
- 在右上角的 数据 标签> 分析报告 组,点击 数据分析 按钮。
- 在 数据分析 对话框,选择 相关性 并单击 "确定"。
- 在 相关性 框,以这种方式配置参数。
- 点击在 输入范围 框,并选择带有你的源数据的范围,包括列标题(在我们的例子中是B1:D13)。
- 在 分组 部分,确保 专栏 单选框被选中(鉴于你的源数据被分组为列)。
- 选择 第一行的标签 如果所选范围包含列标题,则选中该复选框。
- 选择所需的输出选项。 要让矩阵在同一张纸上,选择 输出范围 并指定要输出矩阵的最左边的单元格的引用(本例中为A15)。
完成后,点击 认可 按钮。
你的相关系数矩阵已经完成,看起来应该像下一节所示。
解释相关分析的结果
在你的Excel相关矩阵中,你可以在行和列的交汇处找到系数。 如果列和行的坐标相同,就会输出值1。
在上面的例子中,我们有兴趣知道因变量(售出的加热器数量)和两个自变量(月平均温度和广告费用)之间的相关性。 因此,我们只看这些行和列的交叉点的数字,这些数字在下面的截图中突出显示。
负系数为-0.97(四舍五入到小数点后2位),表明月度温度和暖气片销售之间有很强的反比关系--随着温度越来越高,销售的暖气片越来越少。
0.97的正系数(四舍五入到小数点后2位)表明广告预算和销售之间有很强的直接联系--你花在广告上的钱越多,销售就越高。
如何在Excel中用公式做多重相关分析
用数据分析工具建立相关表是很容易的。 然而,该矩阵是静态的,这意味着每次源数据改变时你都需要重新运行相关分析。
好消息是,你可以很容易地自己建立一个类似的相关表,而且这个矩阵会随着源值的每次变化而自动更新。
要做到这一点,请使用这个通用公式。
CORREL(OFFSET( 第一变量范围 , 0, rows(1:1)-1), offset( 第一变量范围 , 0, columns($a:a)-1))重要提示!为了使该公式发挥作用,你应该使用绝对的单元格引用来锁定第一个变量范围。
在我们的例子中,第一个变量范围是$B$2:$B$13(请注意锁定参考的$符号),我们的相关公式是这样的。
=correl(offset($b$2:$b$13, 0, rows(1:1)-1), offset($b$2:$b$13, 0, columns($a:a)-1)
公式准备好后,我们来构建一个相关矩阵。
- 在矩阵的第一行和第一列,按照与源表中相同的顺序输入变量的标签(请看下面的截图)。
- 在最左边的单元格(本例中为B16)中输入上述公式。
- 向下和向右拖动公式,将其复制到所需的行和列(在我们的例子中是3行和3列)。
结果,我们得到了以下带有多个相关系数的矩阵。 请注意,我们的公式返回的系数与Excel在前面的例子中输出的系数完全相同(相关的系数被突出显示)。
这个公式如何运作
正如你已经知道的,Excel CORREL函数返回你指定的两组变量的相关系数。 主要的挑战是在矩阵的相应单元格中提供适当的范围。 为此,你只在公式中输入第一个变量范围,并使用以下函数进行必要的调整。
- OFFSET - 返回一个距离指定范围有一定数量的行和列的范围。
- ROWS和COLUMNS--分别返回一个范围内的行数和列数。 在我们的相关公式中,两者都是为了一个目的--获得从起始范围偏移的列数。 而这是通过巧妙地使用绝对和相对引用实现的。
为了更好地理解这个逻辑,让我们看看这个公式是如何计算上面截图中强调的系数的。
首先,让我们研究一下B18中的公式,它发现月度温度(B2:B13)和售出的加热器(D2:D13)之间的相关性。
=correl(offset($b$2:$b$13, 0, rows(1:3)-1), offset($b$2:$b$13, 0, columns($a:a)-1)
在第一个OFFSET函数中,ROWS(1:1)已经转变为ROWS(1:3),因为第二个坐标是相对的,所以它根据复制公式的行的相对位置(向下2行)改变。 因此,ROWS()返回3,我们从中减去1,得到一个在源范围右边2列的范围,即$D$2:$D$13(加热器销售)。
第二个OFFSET没有改变指定的范围$B$2:$B$13(温度),因为COLUMNS($A:A)-1返回0。
结果,我们的长公式变成了简单的CORREL($D$2:$D$13, $B$2:$B$13),并准确返回我们想要的系数。
C18中计算广告成本(C2:C13)和销售额(D2:D13)的相关系数的公式也是以类似的方式进行计算。
=correl(offset($b$2:$b$13, 0, rows(1:3)-1), offset($b$2:$b$13, 0, columns($a:b)-1)
第一个OFFSET函数与上面描述的完全一样,返回$D$2:$D$13的范围(加热器销售)。
在第二个OFFSET中,COLUMNS($A:A)-1变为COLUMNS($A:B)-1,因为我们将公式向右复制了1列。 因此,OFFSET得到的范围是源范围右边的1列,即$C$2:$C$13(广告费用)。
如何在Excel中绘制关联图
当在Excel中做相关工作时,获得数据之间关系的可视化表示的最好方法是画一个 散点图 与一个 趋势线 以下是方法。
- 选择两列数字数据,包括列头。 列的顺序是很重要的,即 独立的 变量应该在左列,因为这一列将被绘制在X轴上;而 依赖的 变量应在右列,因为它将被绘制在Y轴上。
- 关于 内页 选项卡,在 聊天记录 组,点击 散点 这将立即在你的工作表中插入一个XY散点图。
- 右击图表中的任何数据点,选择 添加趋势线... 从上下文菜单中选择。
详细的步骤说明,请见。
- 如何在Excel中创建散点图
- 如何在Excel图表中添加趋势线
对于我们的样本数据集,相关图看起来如下图所示。 此外,我们显示了R平方值,也称为 测定系数 该值表示趋势线与数据的对应程度--R2越接近1,拟合程度越高。
从你的散点图上显示的R2值,你可以很容易地计算出相关系数。
- 为了提高准确性,让Excel在R平方值中显示更多的数字,而不是默认的数字。
- 点击图表上的R2值,用鼠标选择它,然后按Ctrl+C复制它。
- 通过使用SQRT函数或将复制的R2值提高到0.5的幂值来获得R2的平方根。
例如,第二张图中的R2值为0.9174339392。 因此,你可以找到相关系数为 广告 和 出售的加热器 用这些公式中的一个。
=sqrt(0.9174339392)
=0.9174339392^0.5
正如你可以确定的那样,以这种方式计算的系数与前面的例子中发现的相关系数完全一致。 除了标志 :
Excel中关联性的潜在问题
ǞǞǞ 皮尔逊产品矩相关 只显示了一个 线型 意思是说,你的变量可能以另一种曲线方式强烈相关,但相关系数仍然等于或接近于零。
皮尔逊相关法无法区分 依赖的 和 独立的 例如,当使用CORREL函数查找月平均温度和售出的加热器数量之间的关联时,我们得到的系数为-0.97,这表明高度负相关。 然而,你可以调换变量,得到同样的结果。 因此,有人可能得出结论,加热器的销售量增加导致温度下降,这显然没有因此,在Excel中运行相关分析时,要注意你所提供的数据。
此外,皮尔逊相关性对以下因素非常敏感 异常值 如果你有一个或多个数据点与其他数据差别很大,你可能会得到一个扭曲的变量之间的关系图。 在这种情况下,你明智地使用Spearman等级相关来代替。
这就是如何在Excel中做相关的工作。 要想仔细看看本教程中讨论的例子,欢迎下载我们下面的样本工作簿。 感谢你的阅读,希望下周在我们的博客上见到你!
实践工作手册
在Excel中计算相关性(.xlsx文件)。