Table of contents
该教程解释了回归分析的基础知识,并展示了在Excel中进行线性回归的几种不同方法。
想象一下:你得到了一大堆不同的数据,并被要求预测你公司明年的销售数字。 你已经发现了几十个,甚至几百个可能影响数字的因素。 但你怎么知道哪些因素是真正重要的呢? 在Excel中运行回归分析,它会给你这个问题和更多问题的答案:哪些因素这些因素之间的关系有多密切? 你对预测的把握有多大?
Excel中的回归分析--基础知识
在统计建模中。 回归分析 是用来估计两个或多个变量之间的关系。
因变量 (aka 准则 变量)是你试图了解和预测的主要因素。
独立变量 (aka 解释性的 变量,或 预测者 )是可能影响因变量的因素。
回归分析帮助你了解当其中一个自变量变化时,因变量如何变化,并允许从数学上确定这些变量中的哪一个真正具有影响。
从技术上讲,回归分析模型的基础是 方位数之和 模型的目标是获得尽可能小的平方之和,并画出一条最接近数据的线。
在统计学中,他们区分了简单线性回归和多元线性回归。 简单线性回归 如果你使用两个或更多的解释变量来预测因变量,你就需要处理以下问题 多重线性回归 如果因变量被建模为一个非线性函数,因为数据关系不遵循直线,使用 非线性回归 本教程的重点将是一个简单的线性回归。
作为一个例子,让我们把过去24个月的雨伞销售数字和同期的月平均降雨量找出来。 把这些信息绘制在图表上,回归线将显示自变量(降雨量)和因变量(雨伞销售)之间的关系。
线性回归方程
在数学上,线性回归是由这个方程定义的。
y = bx + a + ε在哪里?
- x 是一个独立变量。
- y 是一个因变量。
- a 是指 Y-截距 的预期平均值,也就是 y 当所有 x 在回归图上,它是直线与Y轴的交叉点。
- b是指 坡度 的回归线,这是一个变化率为 y 作为 x 变化。
- ε 是随机误差项,是因变量的实际值与预测值之间的差异。
线性回归方程总是有一个误差项,因为在现实生活中,预测者从来都不是完全精确的。 然而,一些程序,包括Excel,在幕后进行误差项的计算。 因此,在Excel中,你做线性回归时使用 最小二乘法 方法和寻求系数 a 和 b 这样,。
y = bx + a对于我们的例子,线性回归方程的形状如下。
售出的雨伞 = b * 降雨量 + a
存在一些不同的方法来寻找 a 和 b .在Excel中进行线性回归分析的三种主要方法是。
- 包括在分析工具包中的回归工具
- 带趋势线的散点图
- 线性回归公式
下面你将看到使用每种方法的详细说明。
如何在Excel中用Analysis ToolPak做线性回归
这个例子显示了如何通过使用Analysis ToolPak插件中的特殊工具在Excel中运行回归。
启用Analysis ToolPak插件
分析工具箱在Excel 365到2003的所有版本中都可用,但默认情况下没有启用。 因此,你需要手动打开它。 下面是方法。
- 在你的Excel中,点击 文件 > 选择 .
- 在 Excel选项 对话框,选择 附加元件 在左边的侧栏,确保 Excel插件 中选择了 管理 框,并点击 进展 .
- 在 附加元件 对话框,勾掉 分析工具箱 ,然后点击 认可 :
这将增加 数据分析 工具到 数据 在你的Excel功能区的选项卡上。
运行回归分析
在这个例子中,我们要在Excel中做一个简单的线性回归。 我们所拥有的是B列中过去24个月的月平均降雨量,这是我们的自变量(预测因子),C列中的雨伞销售数量,这是因变量。 当然,还有许多其他因素可以影响销售,但现在我们只关注这两个变量。
在添加了Analysis Toolpak的情况下,执行这些步骤,在Excel中进行回归分析。
- 关于 数据 选项卡,在 分析报告 组,点击 数据分析 按钮。
- 选择 回归 并点击 认可 .
- 在 回归 对话框,配置以下设置。
- 选择 输入Y范围 ,这是你的 因变量 就我们而言,是雨伞销售(C1:C25)。
- 选择 输入X范围 ,即你的 自变量 在这个例子中,它是月平均降水量(B1:B25)。
如果你要建立一个多元回归模型,请选择两个或多个相邻的列,并选择不同的自变量。
- 检查 标签箱 如果在你的X和Y范围的顶部有标头。
- 选择你喜欢的 输出选项。 在我们的例子中,一个新的工作表。
- 可选的是,选择 残留物 复选框来获得预测值和实际值之间的差异。
- 点击 认可 并观察Excel创建的回归分析输出。
解释回归分析输出
正如你刚才所看到的,在Excel中运行回归很容易,因为所有的计算都是自动进行的。 对结果的解释则有点棘手,因为你需要知道每个数字背后的内容。 下面你将看到回归分析输出的4个主要部分的分类。
回归分析输出:摘要输出
这一部分告诉你计算出来的线性回归方程与你的源数据的吻合程度。
以下是每条信息的含义。
多个R 它是C 相关系数 相关系数可以是-1到1之间的任何数值,其绝对值表示关系强度。 绝对值越大,关系就越强。
- 1意味着强烈的正向关系
- -1意味着强烈的负面关系
- 0表示完全没有关系
R方 它是 测定系数 它显示了有多少个点落在回归线上。 R2值是由总的平方和计算出来的,更确切地说,它是原始数据与平均值的平方偏差之和。
在我们的例子中,R2是0.91(四舍五入到2位数),这是相当好的。 这意味着我们91%的数值符合回归分析模型。 换句话说,91%的因变量(y值)被自变量(x值)所解释。 一般来说,R平方度在95%以上被认为是一个良好的拟合。
调整后的R平方 它是 R方 你想用这个值来代替 "自变量"。 R方 用于多元回归分析。
标准误差 它是另一种拟合度测量方法,显示回归分析的精确性--数字越小,你就越能确定你的回归方程。 R2代表模型所解释的因变量变量的百分比,而标准误差是一种绝对测量方法,显示数据点与回归的平均距离。行。
观察到的情况 这只是你的模型中的观察值的数量。
回归分析输出:方差分析
输出的第二部分是方差分析(ANOVA)。
基本上,它将方差之和分割成各个部分,提供关于回归模型内变异水平的信息。
- df 是与方差源相关的自由度的数量。
- 党卫军 剩余SS与总SS相比越小,你的模型就越适合数据。
- MS 是均方。
- F 是F统计量,即对无效假设的F检验。 它被用来检验模型的总体显著性。
- 显著性 F 是F的P值。
方差分析部分很少用于Excel中的简单线性回归分析,但你肯定应该仔细看看最后一个部分。 显著性 F 如果显著性F小于0.05(5%),你的模型是可以的。 如果它大于0.05,你可能最好选择另一个自变量。
回归分析输出:系数
本节提供了关于你的分析的组成部分的具体信息。
本节中最有用的部分是 系数 它使你能够在Excel中建立一个线性回归方程。
y = bx + a对于我们的数据集,其中 y 是售出的雨伞数量,x是月平均降雨量,我们的线性回归公式如下。
Y=降雨系数*x+截距
配备了四舍五入到小数点后三位的a和b值,变成了。
Y=0.45*x-19.074
例如,在月平均降雨量等于82毫米的情况下,雨伞销售量约为17.8。
0.45*82-19.074=17.8
以类似的方式,你可以通过你指定的任何其他月度降雨量(x变量)来了解要卖出多少把雨伞。
回归分析输出:残差
如果你比较月降雨量82毫米所对应的估计和实际售出的雨伞数量,你会发现这些数字略有不同。
- 估计:17.8(以上计算)。
- 实际:15(源数据第2行)。
为什么会有这样的区别呢? 因为自变量从来不是因变量的完美预测者。 而残差可以帮助你了解实际值与预测值的距离。
对于第一个数据点(降雨量为82毫米),残差约为-2.8。因此,我们将这个数字与预测值相加,得到实际值:17.8 - 2.8 = 15。
如何在Excel中制作一个线性回归图
如果你需要快速直观地了解两个变量之间的关系,可以画一个线性回归图。 这非常容易!下面是方法。
- 选择有你的数据的两列,包括标题。
- 关于 内页 选项卡,在 聊天记录 组,点击 散点图 图标,并选择 散点 缩略图(第一张)。
这将在你的工作表中插入一个散点图,它将类似于这个图。
- 现在,我们需要绘制最小二乘法回归线。 要做到这一点,在任何一个点上点击右键并选择 添加趋势线... 从上下文菜单中选择。
- 在右边的窗格中,选择 线性 趋势线形状,并可选择检查 在图表上显示方程式 来得到你的回归公式。
你可能注意到,Excel为我们创建的回归方程与我们根据系数输出建立的线性回归公式相同。
- 切换到 填充& 线 选项卡,并根据自己的喜好定制线条。 例如,你可以选择不同的线条颜色,并使用实线而不是虚线(选择 "实线")。 仪表盘类型 盒)。
在这一点上,你的图表已经看起来像一个体面的回归图。
尽管如此,你可能还想再做一些改进。
- 把方程拖到你认为合适的地方。
- 添加轴的标题 ( 图表元素 按钮>。 轴心标题 ).
- 如果你的数据点像本例中那样从横轴和/或纵轴的中间开始,你可能想去掉过多的留白。 下面的提示解释了如何做到这一点:缩放图表轴以减少留白空间。
这就是我们改进后的回归图的样子。
重要提示!在回归图中,自变量应始终在X轴上,因变量在Y轴上。 如果你的图是以相反的顺序绘制的,在工作表中交换列,然后重新绘制图表。 如果你不允许重新排列源数据,那么你可以在图表中直接切换X轴和Y轴。
如何在Excel中用公式做回归运算
Microsoft Excel有一些统计函数可以帮助你做线性回归分析,如LINEST、SLOPE、INTERCEPT和CORREL。
LINEST函数使用最小二乘回归法来计算一条最能解释你的变量之间关系的直线,并返回一个描述该直线的数组。 你可以在本教程中找到该函数语法的详细解释。 现在,让我们只为我们的样本数据集制作一个公式。
=linest(c2:c25, b2:b25)
由于LINEST函数返回的是一个数组值,你必须以数组公式的形式输入。 选择同一行中相邻的两个单元格,在我们的例子中是E2:F2,输入公式,然后按Ctrl + Shift + Enter完成。
该公式返回 b 系数(E1)和 a 已经熟悉的线性回归方程的常数(F1)。
y = bx + a
如果你避免在工作表中使用数组公式,你可以计算出 a 和 b 单独用常规公式计算。
获取Y截距(a)。
=intercept(c2:c25, b2:b25)
得到斜率(b)。
=斜率(c2:c25, b2:b25)
此外,你可以找到 相关系数 ( 多个R 在回归分析总结输出中),表明两个变量之间的关系有多强。
=CORREL(B2:B25,C2:C25)
下面的截图显示了所有这些Excel回归公式的运行情况。
提示:如果你想为你的回归分析获得额外的统计数据,可以使用LINEST函数和s tats 参数设置为TRUE,如本例所示。
这就是你在Excel中做线性回归的方法。 也就是说,请记住,Microsoft Excel不是一个统计程序。 如果你需要在专业水平上进行回归分析,你可能想使用XLSTAT、RegressIt等目标软件。
要想仔细了解我们的线性回归公式和本教程中讨论的其他技术,欢迎下载我们下面的样本工作簿。 谢谢您的阅读!
实践工作手册
Excel中的回归分析--实例(.xlsx文件)