Excel中的关联性:系数、矩阵和图表

  • Share This
Michael Brown

该教程解释了Excel中相关的基础知识,展示了如何计算相关系数、建立相关矩阵和解释结果。

你可以在Excel中进行的最简单的统计计算之一是相关性。 虽然简单,但它对于理解两个或多个变量之间的关系非常有用。 Microsoft Excel提供了运行相关性分析的所有必要工具,你只需要知道如何使用它们。

    Excel中的关联性--基础知识

    相关性 是一种描述两个变量之间关系的强度和方向的措施。 它通常被用于统计学、经济学和社会科学的预算、商业计划等方面。

    用来研究变量之间的关系有多密切的方法被称为 关联分析 .

    这里有几个强相关的例子。

    • 你吃的卡路里数量和你的体重(正相关)。
    • 外面的温度和你的取暖费(负相关)。

    而这里有一些数据的例子,它们的相关性很弱或没有相关性。

    • 你的猫的名字和它们最喜欢的食物
    • 你的眼睛的颜色和你的身高

    要了解的一件重要事情是,它只显示了两个变量的密切关系。 然而,相关性并不意味着因果关系。 一个变量的变化与另一个变量的变化相关,并不意味着一个变量实际上导致另一个变量的变化。

    如果你有兴趣了解因果关系并进行预测,那就向前迈一步,进行线性回归分析。

    Excel中的相关系数--相关性的解释

    两个连续变量之间的关联程度的数字测量被称为 相关系数 (r).

    系数值总是在-1和1之间,它衡量变量之间线性关系的强度和方向。

    强度

    系数的绝对值越大,关系就越强。

    • 当所有的数据点都落在一条线上时,-1和1的极端值表示一个完美的线性关系。 在实践中,一个完美的相关性,无论是正还是负,都很少被观察。
    • 系数为0表示变量之间没有线性关系。 这就是你有可能得到的两组随机数的情况。
    • 0和+1/-1之间的数值代表弱、中、强关系的尺度。 如 r 越来越接近于-1或1,关系的强度就会增加。

    方向

    系数符号(正或负)表示关系的方向。

    • 正面的 系数代表直接相关,并在图表上产生一个向上的斜率--当一个变量增加时,另一个也会增加,反之亦然。
    • 负面的 系数代表反相关,在图表上产生一个向下的斜率--当一个变量增加时,另一个变量趋于减少。

    为了更好地理解,请看一下以下的相关图表。

    • 系数为 1 意味着完美的正向关系--随着一个变量的增加,另一个变量也按比例增加。
    • 系数为 -1 意味着完美的负向关系--当一个变量增加时,另一个变量按比例减少。
    • 系数为 0 意味着两个变量之间没有关系--数据点散落在图中。

    皮尔逊相关

    在统计学中,他们根据你所处理的数据类型来衡量几种类型的相关性。 在本教程中,我们将重点讨论最常见的一种。

    皮尔逊相关 ,全称是 皮尔逊产品矩相关 (PPMC),是用来评估 线型 当一个变量的变化与另一个变量的比例变化相关时,数据之间的关系。 简单地说,皮尔逊相关性回答了这样一个问题:数据可以在一条线上表示吗?

    在统计学中,它是最流行的相关类型,如果你在处理一个没有进一步限定的 "相关系数",它最有可能是皮尔逊。

    下面是最常用的公式,用于寻找皮尔逊相关系数,也称为 皮尔逊的R :

    有时,你可能会遇到另外两个计算公式。 样本相关系数 (r)和 人口相关系数 (ρ).

    如何在Excel中做皮尔逊相关

    手工计算皮尔逊相关系数涉及到相当多的数学问题。 幸运的是,Microsoft Excel使事情变得非常简单。 根据你的数据集和你的目标,你可以自由使用以下技术之一。

    • 用CORREL函数找出皮尔逊相关系数。
    • 通过进行数据分析,制作一个相关矩阵。
    • 用一个公式找到多个相关系数。
    • 绘制一个相关图,以获得数据关系的直观表示。

    如何在Excel中计算相关系数

    要手工计算相关系数,你必须使用这个冗长的公式。 要在Excel中找到相关系数,利用CORREL或PEARSON函数,在几分之一秒内得到结果。

    Excel的CORREL函数

    CORREL函数返回两组数值的皮尔逊相关系数。 其语法非常简单明了。

    CORREL(array1, array2)

    在哪里?

    • 阵列1 是第一个数值范围。
    • 阵列2 是第二个数值范围。

    这两个数组应该有相等的长度。

    假设我们有一组自变量( x )在B2:B13,因变量(y)在C2:C13,我们的相关系数公式如下。

    =correl(b2:b13, c2:c13)

    或者,我们可以交换范围,仍然得到相同的结果。

    =correl(c2:c13, b2:b13)

    无论哪种方式,该公式显示月平均温度和销售的加热器数量之间存在强烈的负相关(约为-0.97)。

    关于Excel中的CORREL函数,你应该知道的3件事

    要在Excel中成功计算相关系数,请记住这3个简单的事实。

    • 如果一个数组中的一个或多个单元格包含文本、逻辑值或空白,这些单元格将被忽略;数值为零的单元格将被计算。
    • 如果提供的数组长度不同,将返回#N/A错误。
    • 如果其中一个数组是空的,或者它们的标准差等于零,就会发生#DIV/0!错误。

    Excel的PEARSON函数

    Excel中的PEARSON函数做了同样的事情--计算皮尔逊产品矩相关系数。

    PEARSON(array1, array2)

    在哪里?

    • 阵列1 是一个独立值的范围。
    • 阵列2 是一个从属值的范围。

    因为PEARSON和CORREL都是计算皮尔逊线性相关系数的,它们的结果应该是一致的,而且在最近的Excel 2007到Excel 2019版本中,它们一般都是一致的。

    然而,在Excel 2003和更早的版本中,PEARSON函数可能会显示一些四舍五入的错误。 因此,在旧版本中,建议优先使用CORREL而不是PEARSON。

    在我们的样本数据集上,两个函数表现出相同的结果。

    =correl(b2:b13, c2:c13)

    =pearson(b2:b13, c2:c13)

    如何在Excel中用数据分析法制作相关矩阵

    当你需要测试两个以上的变量之间的相互关系时,构建一个相关矩阵是有意义的,它有时被称为 多重相关系数 .

    ǞǞǞ 关联矩阵 是一个表格,显示了相应行和列的交叉点的变量之间的相关系数。

    Excel中的相关矩阵是通过以下方式建立的 相关性 工具,从 分析工具包 这个插件在Excel 2003到Excel 2019的所有版本中都可用,但默认情况下没有启用。 如果你还没有激活它,请现在按照《如何在Excel中启用数据分析工具箱》中描述的步骤进行激活。

    有了添加到Excel功能区的数据分析工具,你就准备好运行相关分析了。

    1. 在右上角的 数据 标签> 分析报告 组,点击 数据分析 按钮。
    2. 数据分析 对话框,选择 相关性 并单击 "确定"。
    3. 相关性 框,以这种方式配置参数。
      • 点击在 输入范围 框,并选择带有你的源数据的范围,包括列标题(在我们的例子中是B1:D13)。
      • 分组 部分,确保 专栏 单选框被选中(鉴于你的源数据被分组为列)。
      • 选择 第一行的标签 如果所选范围包含列标题,则选中该复选框。
      • 选择所需的输出选项。 要让矩阵在同一张纸上,选择 输出范围 并指定要输出矩阵的最左边的单元格的引用(本例中为A15)。

    完成后,点击 认可 按钮。

    你的相关系数矩阵已经完成,看起来应该像下一节所示。

    解释相关分析的结果

    在你的Excel相关矩阵中,你可以在行和列的交汇处找到系数。 如果列和行的坐标相同,就会输出值1。

    在上面的例子中,我们有兴趣知道因变量(售出的加热器数量)和两个自变量(月平均温度和广告费用)之间的相关性。 因此,我们只看这些行和列的交叉点的数字,这些数字在下面的截图中突出显示。

    负系数为-0.97(四舍五入到小数点后2位),表明月度温度和暖气片销售之间有很强的反比关系--随着温度越来越高,销售的暖气片越来越少。

    0.97的正系数(四舍五入到小数点后2位)表明广告预算和销售之间有很强的直接联系--你花在广告上的钱越多,销售就越高。

    如何在Excel中用公式做多重相关分析

    用数据分析工具建立相关表是很容易的。 然而,该矩阵是静态的,这意味着每次源数据改变时你都需要重新运行相关分析。

    好消息是,你可以很容易地自己建立一个类似的相关表,而且这个矩阵会随着源值的每次变化而自动更新。

    要做到这一点,请使用这个通用公式。

    CORREL(OFFSET( 第一变量范围 , 0, rows(1:1)-1), offset( 第一变量范围 , 0, columns($a:a)-1))

    重要提示!为了使该公式发挥作用,你应该使用绝对的单元格引用来锁定第一个变量范围。

    在我们的例子中,第一个变量范围是$B$2:$B$13(请注意锁定参考的$符号),我们的相关公式是这样的。

    =correl(offset($b$2:$b$13, 0, rows(1:1)-1), offset($b$2:$b$13, 0, columns($a:a)-1)

    公式准备好后,我们来构建一个相关矩阵。

    1. 在矩阵的第一行和第一列,按照与源表中相同的顺序输入变量的标签(请看下面的截图)。
    2. 在最左边的单元格(本例中为B16)中输入上述公式。
    3. 向下和向右拖动公式,将其复制到所需的行和列(在我们的例子中是3行和3列)。

    结果,我们得到了以下带有多个相关系数的矩阵。 请注意,我们的公式返回的系数与Excel在前面的例子中输出的系数完全相同(相关的系数被突出显示)。

    这个公式如何运作

    正如你已经知道的,Excel CORREL函数返回你指定的两组变量的相关系数。 主要的挑战是在矩阵的相应单元格中提供适当的范围。 为此,你只在公式中输入第一个变量范围,并使用以下函数进行必要的调整。

    • OFFSET - 返回一个距离指定范围有一定数量的行和列的范围。
    • ROWS和COLUMNS--分别返回一个范围内的行数和列数。 在我们的相关公式中,两者都是为了一个目的--获得从起始范围偏移的列数。 而这是通过巧妙地使用绝对和相对引用实现的。

    为了更好地理解这个逻辑,让我们看看这个公式是如何计算上面截图中强调的系数的。

    首先,让我们研究一下B18中的公式,它发现月度温度(B2:B13)和售出的加热器(D2:D13)之间的相关性。

    =correl(offset($b$2:$b$13, 0, rows(1:3)-1), offset($b$2:$b$13, 0, columns($a:a)-1)

    在第一个OFFSET函数中,ROWS(1:1)已经转变为ROWS(1:3),因为第二个坐标是相对的,所以它根据复制公式的行的相对位置(向下2行)改变。 因此,ROWS()返回3,我们从中减去1,得到一个在源范围右边2列的范围,即$D$2:$D$13(加热器销售)。

    第二个OFFSET没有改变指定的范围$B$2:$B$13(温度),因为COLUMNS($A:A)-1返回0。

    结果,我们的长公式变成了简单的CORREL($D$2:$D$13, $B$2:$B$13),并准确返回我们想要的系数。

    C18中计算广告成本(C2:C13)和销售额(D2:D13)的相关系数的公式也是以类似的方式进行计算。

    =correl(offset($b$2:$b$13, 0, rows(1:3)-1), offset($b$2:$b$13, 0, columns($a:b)-1)

    第一个OFFSET函数与上面描述的完全一样,返回$D$2:$D$13的范围(加热器销售)。

    在第二个OFFSET中,COLUMNS($A:A)-1变为COLUMNS($A:B)-1,因为我们将公式向右复制了1列。 因此,OFFSET得到的范围是源范围右边的1列,即$C$2:$C$13(广告费用)。

    如何在Excel中绘制关联图

    当在Excel中做相关工作时,获得数据之间关系的可视化表示的最好方法是画一个 散点图 与一个 趋势线 以下是方法。

    1. 选择两列数字数据,包括列头。 列的顺序是很重要的,即 独立的 变量应该在左列,因为这一列将被绘制在X轴上;而 依赖的 变量应在右列,因为它将被绘制在Y轴上。
    2. 关于 内页 选项卡,在 聊天记录 组,点击 散点 这将立即在你的工作表中插入一个XY散点图。
    3. 右击图表中的任何数据点,选择 添加趋势线... 从上下文菜单中选择。

    详细的步骤说明,请见。

    • 如何在Excel中创建散点图
    • 如何在Excel图表中添加趋势线

    对于我们的样本数据集,相关图看起来如下图所示。 此外,我们显示了R平方值,也称为 测定系数 该值表示趋势线与数据的对应程度--R2越接近1,拟合程度越高。

    从你的散点图上显示的R2值,你可以很容易地计算出相关系数。

    1. 为了提高准确性,让Excel在R平方值中显示更多的数字,而不是默认的数字。
    2. 点击图表上的R2值,用鼠标选择它,然后按Ctrl+C复制它。
    3. 通过使用SQRT函数或将复制的R2值提高到0.5的幂值来获得R2的平方根。

    例如,第二张图中的R2值为0.9174339392。 因此,你可以找到相关系数为 广告 出售的加热器 用这些公式中的一个。

    =sqrt(0.9174339392)

    =0.9174339392^0.5

    正如你可以确定的那样,以这种方式计算的系数与前面的例子中发现的相关系数完全一致。 除了标志 :

    Excel中关联性的潜在问题

    ǞǞǞ 皮尔逊产品矩相关 只显示了一个 线型 意思是说,你的变量可能以另一种曲线方式强烈相关,但相关系数仍然等于或接近于零。

    皮尔逊相关法无法区分 依赖的 独立的 例如,当使用CORREL函数查找月平均温度和售出的加热器数量之间的关联时,我们得到的系数为-0.97,这表明高度负相关。 然而,你可以调换变量,得到同样的结果。 因此,有人可能得出结论,加热器的销售量增加导致温度下降,这显然没有因此,在Excel中运行相关分析时,要注意你所提供的数据。

    此外,皮尔逊相关性对以下因素非常敏感 异常值 如果你有一个或多个数据点与其他数据差别很大,你可能会得到一个扭曲的变量之间的关系图。 在这种情况下,你明智地使用Spearman等级相关来代替。

    这就是如何在Excel中做相关的工作。 要想仔细看看本教程中讨论的例子,欢迎下载我们下面的样本工作簿。 感谢你的阅读,希望下周在我们的博客上见到你!

    实践工作手册

    在Excel中计算相关性(.xlsx文件)。

    Michael Brown is a dedicated technology enthusiast with a passion for simplifying complex processes using software tools. With more than a decade of experience in the tech industry, he has honed his skills in Microsoft Excel and Outlook, as well as Google Sheets and Docs. Michael's blog is dedicated to sharing his knowledge and expertise with others, providing easy-to-follow tips and tutorials for improving productivity and efficiency. Whether you're a seasoned professional or a beginner, Michael's blog offers valuable insights and practical advice for getting the most out of these essential software tools.