Excelによる線形回帰分析

  • これを共有
Michael Brown

このチュートリアルでは、回帰分析の基本を説明し、Excelで線形回帰を行うためのいくつかの異なる方法を紹介します。

例えば、ある会社で来年の売上高を予測するように言われたとします。 あなたは、売上高に影響を与える可能性のある要因を何十、何百と発見しました。 しかし、どれが本当に重要なのか、どうやって知ることができますか? Excelで回帰分析を実行すると、この他にも多くの疑問に対する答えが得られます:どの要因が重要なのか?また、その予測はどの程度確かなものなのでしょうか?

    Excelでの回帰分析 - 基礎編

    統計的モデリングにおいて。 回帰分析 は、2つ以上の変数間の関係を推定するために使用されます。

    被説明変数 基準 変数)は、理解し予測しようとする主な要因である。

    独立変数 せつめいてき 変数、または 予測変数 )は、従属変数に影響を与える可能性のある要因である。

    回帰分析では、独立変数の1つが変化したときに従属変数がどのように変化するかを理解し、それらの変数のどれが本当に影響を与えるかを数学的に決定することができます。

    技術的には、回帰分析モデルには へいほうわ モデルの目標は、可能な限り小さな二乗和を求め、データに最も近い直線を引くことである。

    統計学では、単回帰と重回帰を区別している。 単回帰分析 従属変数と1つの独立変数の関係を線形関数でモデル化します。 2つ以上の説明変数を使って従属変数を予測する場合、次のような処理を行います。 じゅうせんかいき データ関係が直線でないため、従属変数が非線形関数としてモデル化される場合、以下を使用します。 非線形回帰 このチュートリアルの焦点は、単純な線形回帰にあります。

    例えば、過去24ヶ月間の傘の販売数と、同期間の月平均降水量を調べ、グラフにプロットすると、独立変数(降水量)と従属変数(傘の販売数)の関係を示す回帰直線が得られます。

    線形回帰式

    数学的には、線形回帰はこの式で定義される。

    y = bx + a + ε

    どこで

    • x は独立変数である。
    • y は従属変数である。
    • a Y切片 の期待平均値である。 y と思ったら x 回帰グラフでは、線がY軸と交差する点です。
    • bは 傾き に対する変化率である回帰直線の y かわりに x を変更しました。
    • ε はランダム誤差項であり、従属変数の実際の値とその予測値との差である。

    線形回帰式は常に誤差項を持ちます。 現実には、予測変数が完全に正確であることはないからです。 しかし、Excelを含むいくつかのプログラムは、裏で誤差項を計算します。 つまり、Excelでは、線形回帰を行う際に 最小二乗 メソッドとシーク係数 a b というような。

    y = bx + a

    今回の例では、線形回帰式は次のような形になります。

    傘の販売本数 = b * 雨量 + a

    を見つけるには、さまざまな方法があります。 a b .Excelで線形回帰分析を行うには、主に3つの方法があります。

    • Analysis ToolPakに含まれる回帰ツール
    • トレンドライン付き散布図
    • 線形回帰式

    以下、各方式の詳しい使い方を説明します。

    Analysis ToolPakを使用してExcelで線形回帰を行う方法

    この例では、Analysis ToolPakアドインに含まれる特別なツールを使用して、Excelで回帰を実行する方法を説明します。

    Analysis ToolPakアドインを有効化する

    Analysis ToolPakはExcel 365から2003までのすべてのバージョンで利用可能ですが、デフォルトでは有効になっていません。 そのため、手動でオンにする必要があります。 その方法は次のとおりです。

    1. Excelで、以下をクリックします。 ファイル > オプション .
    2. での エクセルオプション ダイアログボックスで アドイン を左サイドバーで確認してください。 エクセルアドイン が選択されています。 管理する をクリックします。 行く .
    3. での アドイン ダイアログボックスで、チェックボックスをオフにします。 解析ツールパック をクリックします。 よっしゃー :

    を追加することになります。 データ分析 にツールを提供します。 データ をクリックすると、Excel リボンが表示されます。

    回帰分析の実行

    この例では、Excelで単純な線形回帰を行います。 B列に過去24ヶ月の平均月間降水量、これが独立変数(予測変数)、C列に従属変数である傘の販売本数のリストがあります。 もちろん、売上に影響を与える要因は他にもたくさんありますが、今はこの2つの変数だけに注目しましょう。

    Analysis Toolpakを有効にした状態で、以下の手順でExcelで回帰分析を行ってください。

    1. について データ タブで 分析 グループをクリックします。 データ分析 ボタンをクリックします。
    2. 選択 リグレッション をクリックします。 よっしゃー .
    3. での リグレッション ダイアログボックスで、以下の設定を行います。
      • を選択します。 入力Yレンジ というのは、あなたの 従属変数 当社の場合、傘の販売です(C1:C25)。
      • を選択します。 入力X範囲 は、すなわち、あなたの 独立変数 この例では、月平均の降水量(B1:B25)である。

      重回帰モデルを構築する場合、異なる独立変数を持つ2つ以上の隣接する列を選択します。

      • を確認します。 ラベルボックス XとYの範囲の上部にヘッダーがある場合。
      • お好きなものをお選びください 出力オプション。 この例では、新しいワークシートを作成します。
      • オプションで 残差 のチェックボックスで、予測値と実測値の差を取得します。
    4. クリック よっしゃー をクリックし、Excelで作成された回帰分析の出力を観察してください。

    回帰分析の出力を解釈する

    このように、Excelで回帰分析を行うことは、すべての計算が自動的に行われるため簡単ですが、結果の解釈は、各数値の背後にあるものを知る必要があるため、少し厄介です。 以下に、回帰分析の出力の4つの主要な部分の内訳を記載します。

    回帰分析出力:サマリー出力

    この部分は、計算された線形回帰式がソースデータにどの程度フィットしているかを示すものです。

    それぞれの情報の意味を説明します。

    マルチプルR .それは、C 相関係数 相関係数は-1~1の任意の値をとり、その絶対値で関係の強さを表す。 絶対値が大きいほど関係が強いことを意味する。

    • 1は強い正の関係を意味する
    • -1は強い負の関係を意味する
    • 0は全く関係がないことを意味する

    Rスクエア である。 決定係数 R2値は二乗和から計算され、より正確には、元データの平均からの偏差の二乗和である。

    この例では、R2が0.91(2桁に丸めた値)となり、非常に良い値です。 これは、91%の値が回帰分析モデルに適合していることを意味します。 つまり、従属変数(y値)の91%が独立変数(x値)で説明されています。 一般的に、R2が95%以上あれば、適合度は良好と考えられています。

    調整後R二乗 である。 Rスクエア の代わりに、この値を使用します。 Rスクエア を重回帰分析に使用した。

    標準誤差 これは、回帰分析の精度を示すもう1つの適合度指標で、数値が小さいほど、回帰式についてより確信が持てます。 R2がモデルによって説明される従属変数の分散の割合を示すのに対して、標準誤差は、データポイントが回帰式から落ちる平均距離を示す絶対的な指標です。の行になります。

    観察記録 これは、単純にモデルの観測値の数です。

    回帰分析出力:ANOVA

    出力の2つ目は分散分析(ANOVA)です。

    基本的には、平方和を個々の成分に分割し、回帰モデル内のばらつきのレベルについての情報を提供します。

    • デフ は分散源に関連する自由度の数である。
    • 親衛隊 は二乗和であり、残差SSが総SSに比べて小さいほど、モデルのデータへの適合性が高いことを意味します。
    • かくのうメッセージ は二乗平均値である。
    • F は帰無仮説に対するF統計量(F-test)であり、モデルの全体的な有意性を検定するために使用される。
    • 有意差 F はFのP値である。

    ANOVAの部分は、Excelの単純な線形回帰分析ではほとんど使われませんが、最後のコンポーネントは是非ともよく見ておいてください。 です。 有意差 F 有意水準Fが0.05(5%)未満であれば、問題なし。 0.05より大きい場合は、別の独立変数を選択した方がよいでしょう。

    回帰分析の出力: 係数

    このセクションでは、分析の構成要素について具体的な情報を提供します。

    このセクションで最も有用なコンポーネントは 係数 .Excelで線形回帰式を構築することができます。

    y = bx + a

    我々のデータセットでは、ここで y は傘の販売本数、xは月平均の降水量であり、線形回帰式は次のようになる。

    Y = 降雨係数 * x + 切片

    小数点以下3桁に丸められたa、bの値を装備すると、次のようになる。

    Y=0.45*x-19.074

    例えば、月平均降水量が82mmと等しい場合、傘の売上は約17.8となる。

    0.45*82-19.074=17.8

    同様に、他の任意の月降雨量(x変数)を指定して、傘の販売本数を調べることができます。

    回帰分析の出力:残差

    月間降水量82mmに対応する傘の推定販売本数と実売本数を比較すると、この数字が若干異なることがわかります。

    • 推定値:17.8(上記計算値)
    • 実績:15件(ソースデータの2行目)

    なぜ違うかというと、独立変数が従属変数の完全な予測因子であることはないからです。 そして、残差は、実際の値が予測値からどれだけ離れているかを理解するのに役立ちます。

    最初のデータポイント(降雨量82mm)の残差は約-2.8なので、この数字を予測値に加え、実際の値17.8 - 2.8 = 15とする。

    Excelで線形回帰グラフを作成する方法

    2つの変数の関係をすばやく視覚化する必要がある場合は、線形回帰図を描きます。 それは非常に簡単です!ここではその方法を説明します。

    1. ヘッダーを含むデータのある2つの列を選択します。
    2. について インセット タブで チャット グループをクリックします。 散布図 アイコンを選択し 散布 のサムネイル(1枚目)。

      これにより、ワークシートに散布図が挿入され、このような図になります。

    3. 次に、最小二乗回帰線を描きます。 これは、任意の点を右クリックして トレンドラインの追加... をクリックすると、コンテキストメニューが表示されます。
    4. 右ペインで リニア トレンドラインの形状を確認し、オプションで 数式をチャートに表示する を入力し、回帰式を得ます。

      お気づきのように、Excelが作成してくれた回帰式は、Coefficientsの出力に基づいて作成した線形回帰式と同じです。

    5. に切り替えてください。 塗りつぶし・線 タブで、線の色を変えたり、破線ではなく実線を使うなど、お好みに合わせてカスタマイズしてください([Solid line]を選択します)。 ダッシュタイプ ボックス)を使用しています。

    この時点で、すでにまともな回帰グラフのように見えますね。

    それでも、もう少し改良したほうがいいかもしれません。

    • 数式を好きなところにドラッグしてください。
    • 軸のタイトルを追加する( チャートの要素 ボタン> Axisタイトル ).
    • この例のように、データポイントが水平軸や垂直軸の真ん中から始まる場合、余分な余白をなくすことができます。 次のヒントは、余白を減らすためにグラフの軸を拡大縮小する方法を説明します。

      そして、改良した回帰グラフはこのようになります。

      重要な注意点!回帰グラフでは、常に独立変数がX軸、従属変数がY軸になるようにします。 もし、グラフが逆の順番でプロットされていたら、ワークシートの列を入れ替えて、新たにグラフを描いてください。 もし、ソースデータを並べ替えることができない場合は、グラフで直接X軸とY軸を入れ替えるとよいでしょう。

    Excelで数式を使って回帰を行う方法

    Microsoft Excelには、LINEST、SLOPE、INTERCEPT、CORRELといった線形回帰分析を行うのに役立つ統計関数がいくつかあります。

    LINEST関数は、最小二乗回帰法を用いて、変数間の関係を最もよく説明する直線を計算し、その直線を記述した配列を返します。 関数のシンタックスの詳しい説明は、このチュートリアルにあります。 とりあえず、サンプルデータセットの数式を作ってみましょう。

    =linest(c2:c25, b2:b25)

    LINEST関数は値の配列を返すので、配列の式で入力します。 同じ行の隣り合う2つのセル(ここではE2:F2)を選択して式を入力し、Ctrl + Shift + Enterキーで完了させます。

    を返す式です。 b 係数(E1)と a は、すでにおなじみの線形回帰式の定数(F1)である。

    y = bx + a

    ワークシートで配列の計算式を使わないようにすれば a b を個別に正規の数式で表示します。

    Y切片(a)を求めます。

    =切片(c2:c25, b2:b25)

    傾き(b)を求める。

    =slope(c2:c25, b2:b25)

    さらに 相関係数 ( マルチプルR は、2つの変数がお互いにどの程度強く関係しているかを示す回帰分析のサマリー出力) である。

    =CORREL(B2:B25,C2:C25)

    次のスクリーンショットは、これらすべてのExcel回帰式を実際に表示したものです。

    ヒント:回帰分析のための追加統計量を得たい場合は、LINEST関数にs パイナップル パラメータを TRUE に設定します。

    それは、Excelで線形回帰を行う方法です。 とはいえ、Microsoft Excelは統計プログラムではないことを心に留めておいてください。 もし、プロフェッショナルなレベルで回帰分析を行う必要があるなら、XLSTAT、RegressItなどの対象ソフトウェアを使用した方がよいかもしれません。

    このチュートリアルで取り上げた線形回帰の公式やその他のテクニックをより詳しくご覧になるには、以下のサンプルワークブックをダウンロードしてください。 ご愛読ありがとうございました。

    練習用ワークブック

    Excelによる回帰分析 - サンプル (.xlsx ファイル)

    Michael Brown は、ソフトウェア ツールを使用して複雑なプロセスを簡素化することに情熱を注ぐ熱心なテクノロジー愛好家です。テクノロジー業界で 10 年以上の経験があり、Microsoft Excel と Outlook、さらに Google Sheets と Docs のスキルを磨いてきました。 Michael のブログは、彼の知識と専門知識を他の人と共有することに特化しており、生産性と効率を向上させるためのわかりやすいヒントとチュートリアルを提供しています。経験豊富なプロフェッショナルであろうと初心者であろうと、Michael のブログでは、これらの重要なソフトウェア ツールを最大限に活用するための貴重な洞察と実践的なアドバイスを提供しています。