目次
このチュートリアルでは、Excelで相関の基本を説明し、相関係数の計算、相関行列の作成、結果の解釈の仕方を紹介します。
Excelでできる最も簡単な統計計算のひとつに相関関係があります。 簡単ではありますが、2つ以上の変数間の関係を理解するのに非常に有効です。 Microsoft Excelには相関分析を行うために必要なツールがすべて揃っており、その使い方を知っていれば大丈夫です。
Excelでの相関関係 - 基礎編
相関関係 は、2つの変数の関係の強さや方向を表す指標で、統計学や経済学、社会科学の分野で、予算や事業計画などによく使われる。
変数がどの程度密接に関連しているかを調べるために用いられる方法を、次のように呼びます。 相関分析 .
ここで、強い相関関係のある例をいくつか挙げてみましょう。
- 食べたカロリーと体重の関係(正相関)
- 外気温と暖房費(負の相関あり)
そして、相関が弱い、あるいは相関がないデータの例も紹介します。
- 愛猫の名前と好きな食べ物
- 目の色と身長
相関関係とは、あくまでも2つの変数の密接な関係を示すものであり、因果関係を意味するものではありません。 ある変数の変化が他の変数の変化と関連しているからといって、ある変数が他の変数の変化を実際に引き起こすということではありません。
因果関係を知り、予測することに興味があるなら、一歩進んで線形回帰分析をしてみましょう。
Excelでの相関係数-相関の解釈
2つの連続変数の間の関連性の度合いを表す数値指標は、以下のように呼ばれます。 相関係数 (r).
係数値は常に-1~1の間で、変数間の線形関係の強さと方向の両方を測定する。
強さ
係数の絶対値が大きいほど、関係が強いことを意味する。
- 極端な値である-1や1は、すべてのデータ点が直線上にある完全な直線関係を示している。 実際には、正負いずれの場合も完全な相関が観察されることは稀である。
- 係数0は、変数間に線形関係がないことを示します。 これは、2組の乱数で得られる可能性が高いものです。
- 0から+1/-1までの値は、弱い関係、中程度の関係、強い関係のスケールを表しています。 r が-1または1のどちらかに近づくと、関係の強さが増す。
方向性
係数記号(プラスまたはマイナス)は、関係の方向を示す。
- ポジティブ 係数は直接的な相関を表し、グラフ上で上向きの傾斜を生み出す。つまり、一方の変数が増加すると他方の変数も増加し、逆もまた同様である。
- ネガティブ 係数は逆相関を表し、グラフ上で下向きの傾き、つまり一方の変数が増加すると、他方の変数が減少する傾向を示します。
以下の相関グラフをご覧いただくと、より理解が深まるでしょう。
- の係数です。 1 は完全な正の関係を意味し、一方の変数が増加すると、もう一方も比例して増加します。
- の係数です。 -1 は完全な負の関係を意味し、一方の変数が増加すると、他方はそれに比例して減少する。
- の係数です。 0 は、2つの変数の間に関係がないことを意味し、データポイントがグラフ上に散らばっている。
ピアソン相関
統計学では、扱うデータの種類によって、いくつかのタイプの相関を測定します。 このチュートリアルでは、最も一般的なものに焦点を当てます。
ピアソン相関 の場合、フルネームは ピアソン積率相関(Pearson Product Moment Correlation (PPMC)を評価するために使用されます。 線形 簡単に言えば、ピアソン相関は「データは直線で表せるか」という問いに答えるものです。
統計学では最もポピュラーな相関型であり、それ以上の修飾なしに「相関係数」を扱う場合は、ピアソンである可能性が最も高い。
ここでは、最もよく使われるピアソン相関係数を求める公式を紹介します。 ピアソンのR :
時には、他の2つの計算式に出くわすこともあります。 標本相関係数 (r)であり、その 人口相関係数 (ρ).
ExcelでPearson相関を行う方法
ピアソン相関係数を手作業で計算するには、かなり多くの計算が必要です。 幸いなことに、Microsoft Excelは非常に簡単に計算できます。 データセットと目的に応じて、以下のテクニックのいずれかを自由に使用することができます。
- CORREL 関数でピアソン相関係数を求める。
- データ解析を行い、相関行列を作成する。
- 重相関係数を計算式で求める。
- 相関グラフをプロットして、データの関係を視覚的に把握することができます。
Excelで相関係数を計算する方法
相関係数を手計算で求めるには、このように長い計算式が必要ですが、Excelで相関係数を求めるには、CORREL関数やPEARSON関数を活用すれば、一瞬で結果を出すことができます。
エクセルCORREL関数
CORREL関数は、2つの値に対するピアソンの相関係数を返します。 その構文は非常に簡単でわかりやすいです。
CORREL(配列1, 配列2)どこで
- アレイ1 は最初の値の範囲です。
- アレイ2 は2番目の値の範囲である。
2つの配列は同じ長さでなければなりません。
独立変数のセットを持っていると仮定すると( x )をB2:B13に、従属変数(y)をC2:C13に設定すると、相関係数の式は次のようになる。
=correl(b2:b13, c2:c13)
あるいは、範囲を入れ替えても、同じ結果になる。
=correl(c2:c13、b2:b13)
いずれにせよ、月平均気温とヒーターの販売台数には強い負の相関(約-0.97)があることが計算式からわかる。
ExcelのCORREL関数について知っておくべき3つのこと
Excelで相関係数をうまく計算するためには、次の3つの簡単な事実を覚えておいてください。
- 配列中の1つ以上のセルにテキスト、論理値、空白が含まれる場合、そのセルは無視され、値がゼロのセルが計算される。
- 与えられた配列の長さが異なる場合、#N/Aエラーが返されます。
- 配列のどちらかが空であったり、その値の標準偏差が0であったりすると、#DIV/0!エラーが発生します。
Excel PEARSON関数
ExcelのPEARSON関数も同じように、Pearson Product Moment Correlation coefficientを計算します。
PEARSON(配列1, 配列2)どこで
- アレイ1 は独立した値の範囲である。
- アレイ2 は、従属値の範囲である。
PEARSONとCORRELはともにピアソン線形相関係数を計算するため、その結果は一致するはずで、Excel 2007からExcel 2019の最近のバージョンでは一般に一致します。
ただし、Excel2003以前のバージョンでは、PEARSON関数が丸め誤差を表示することがあります。 そのため、古いバージョンでは、PEARSONよりもCORRELを優先して使用することが推奨されます。
今回のサンプルデータセットでは、どちらの関数も同じ結果を示している。
=correl(b2:b13, c2:c13)
=pearson(b2:b13,c2:c13)です。
データ分析でExcelで相関行列を作る方法
2つ以上の変数間の相互関係を調べる必要がある場合、相関行列を作成することは理にかなっており、次のように呼ばれることもあります。 重相関係数 .
があります。 相関行列 は、対応する行と列の交点にある変数間の相関係数を示す表である。
Excelの相関行列は、以下の方法で構築されます。 相関関係 のツールを使用します。 解析ツールパック このアドインは、Excel 2003からExcel 2019までのすべてのバージョンで利用できますが、デフォルトでは有効になっていません。 まだ有効になっていない場合は、「Excelでデータ分析ToolPakを有効にする方法」で説明されている手順に従って、今すぐ有効にしてください。
Excelのリボンに追加されたデータ分析ツールで、相関分析を実行する準備が整いました。
- の右上にある データ tab> 分析 グループをクリックします。 データ分析 ボタンをクリックします。
- での データ分析 ダイアログボックスで 相関関係 をクリックし、OKをクリックします。
- での 相関関係 ボックスで、このようにパラメータを設定します。
- をクリックします。 入力範囲 ボックスに、列のヘッダーを含むソースデータの範囲を選択します(ここではB1:D13)。
- での グループ化 セクションで確認してください。 コラム ラジオボックスが選択されています(ソースデータが列でグループ化されている場合)。
- を選択します。 先頭行のラベル 選択した範囲に列ヘッダーが含まれる場合は、チェックボックスをオンにします。
- 必要な出力オプションを選択します。 マトリックスを同じシートに表示させるには 出力範囲 で,行列を出力する左端のセルへの参照を指定します(この例ではA15)。
完了したら よっしゃー ボタンをクリックします。
相関係数の行列は完成し、次のセクションで示すようなものになるはずです。
相関分析結果の解釈
Excelの相関行列では、行と列の交点で係数を求めることができます。 列と行の座標が同じであれば、値1が出力されます。
上記の例では、従属変数(ヒーターの販売数)と2つの独立変数(月平均気温と広告費)の相関を知りたいと思っています。 そこで、以下のスクリーンショットでハイライトされている、これらの行と列の交点の数字だけを見ます。
負の係数-0.97(小数点第2位を四捨五入)は、月間の気温とヒーターの販売台数の間に強い逆相関があることを示している。
0.97という正の係数(小数点第2位を四捨五入)は、広告予算と売上高の間に強い直接的な関係があることを示しており、広告費をかければかけるほど売上高が高くなることを示しています。
Excelで重相関分析を計算式で行う方法
データ解析ツールで相関表を作るのは簡単ですが、その行列は静的なものなので、元データが変わるたびに新たに相関解析を行う必要があります。
良いことに、同様の相関表を自分で簡単に作ることができ、その行列はソースの値が変わるたびに自動的に更新される。
してもらうには、この汎用式を使ってください。
CORREL(OFFSET( 第一変数範囲 , 0, rows($1:1)-1), offset() 第一変数範囲 , 0, columns($a:a)-1)).重要な注意!数式を動作させるためには、絶対セル参照を使用して最初の変数範囲をロックする必要があります。
この場合、最初の変数の範囲は$B$2:$B$13($の記号が参照をロックしていることに注意してください)であり、相関式はこのような形になります。
=correl(offset($b$2:$b$13, 0, rows($1:1)-1)), offset($b$2:$b$13, 0, columns($a:a)-1))
計算式の準備ができたので、相関行列を構成してみよう。
- マトリックスの最初の行と列に、変数のラベルを、ソース・テーブルに表示されているのと同じ順序で入力します (以下のスクリーンショットを参照してください)。
- 一番左のセル(ここではB16)に上記の数式を入力します。
- 数式を下と右にドラッグして、必要な数だけ行と列にコピーします(この例では3行と列)。
その結果、次のような多重相関係数の行列が得られました。 この式が返す係数は、前の例でExcelが出力したものとまったく同じであることに注意してください(該当するものはハイライトされています)。
この式の仕組み
Excel の CORREL 関数は、指定した 2 つの変数の相関係数を返します。 主な課題は、マトリックスの対応するセルに適切な範囲を指定することです。 このため、最初の変数の範囲のみを数式に入力し、次の関数で必要な調整を行います。
- OFFSET - 指定した範囲から、指定した行数および列数の範囲を返します。
- ROWSとCOLUMNSは、それぞれ範囲内の行と列の数を返します。 今回の相関式では、この2つを、開始範囲からオフセットする列の数を取得するという1つの目的で使用します。 そしてこれは、絶対参照と相対参照を巧みに使うことで実現されています。
このロジックをよりよく理解するために、上のスクリーンショットで強調されている係数を計算式でどのように計算するのかを見てみましょう。
まず、B18の月別気温(B2:B13)と販売したヒーター(D2:D13)の相関を求める計算式を見てみよう。
=correl(offset($b$2:$b$13, 0, rows($1:3)-1)), offset($b$2:$b$13, 0, columns($a:a)-1))
最初のOFFSET関数では、ROWS($1:1)がROWS($1:3)に変換されています。これは、2番目の座標が相対座標なので、数式がコピーされた行の相対位置(2行下)に応じて変化します。 したがって、ROWS()は3を返し、そこから1を引いて、元の範囲の2列右にある範囲、すなわち$D$2:$D$13(ヒーター販売)を得ます。
COLUMNS($A:A)-1が0を返すので、2番目のOFFSETは指定した範囲$B$2:$B$13(温度)を変更しない。
その結果、長い数式が単純なCORREL($D$2:$D$13, $B$2:$B$13) に変わり、まさに欲しい係数が返されるのです。
C18の広告費(C2:C13)と売上高(D2:D13)の相関係数を計算する式も同様の仕組みになっている。
=correl(offset($b$2:$b$13, 0, rows($1:3)-1)), offset($b$2:$b$13, 0, columns($a:b)-1))
最初のOFFSET関数は、上記と全く同じで、$D$2:$D$13の範囲(ヒーター販売)を返します。
2回目のOFFSETでは、数式を1列右にコピーしたため、COLUMNS($A:A)-1がCOLUMNS($A:B)-1に変わります。 結果として、OFFSETでは、元の範囲より1列右の範囲、つまり$C$2:$C$13(広告費)が取得されます。
Excelで相関グラフを作成する方法
Excelで相関をとる場合、データ間の関係を視覚的に表現するのに最適な方法は 散布図 を持っています。 トレンドライン その方法をご紹介します。
- 数値データを含む2つの列を選択します。 列の順序は重要です。 インディペンデント 変数は、X軸にプロットされるため、左の列である必要があります。 ひやめしぐい 変数は、y 軸にプロットされるため、右の列にあるべきです。
- について インセット タブで チャット グループをクリックします。 散布 チャートアイコンをクリックすると、ワークシートにXY散布図が挿入されます。
- チャート内の任意のデータポイントを右クリックし、以下を選択します。 トレンドラインの追加... をクリックすると、コンテキストメニューが表示されます。
詳しい手順については、こちらをご覧ください。
- Excelで散布図を作成する方法
- Excelのチャートにトレンドラインを追加する方法
今回のサンプルデータでは、下図のような相関グラフが表示されました。 また、R2乗の値も表示されました(R2乗とは、「Reduction」とも呼ばれます)。 決定係数 この値は、トレンドラインがデータにどの程度対応しているかを示すもので、R2が1に近いほど適合度が高いことを意味します。
散布図に表示されるR2値から、相関係数を簡単に計算することができます。
- 精度を上げるには、ExcelのR2乗の値をデフォルトより多くの桁で表示させるようにします。
- チャート上の R2 値をクリックし、マウスで選択した後、Ctrl + C キーでコピーします。
- SQRT関数を使うか、コピーしたR2の値を0.5のべき乗にすることで、R2の平方根を求めます。
例えば、2番目のグラフのR2値は0.9174339392です。 ですから、次のような相関係数を求めることができます。 広告宣伝 と ヒーター販売 を、これらの公式のうちの1つで表しています。
=sqrt(0.9174339392)
=0.9174339392^0.5
このようにして算出された係数は、これまでの例で得られた相関係数と完全に一致していることがおわかりいただけると思います。 符号以外 :
Excelでの相関関係における潜在的な問題点
があります。 ピアソン積率相関(Pearson Product Moment Correlation を明らかにするのみです。 線形 つまり、2つの変数が別の曲線で強く関連していても、相関係数はゼロに等しいか、それに近い値になります。
ピアソン相関は区別がつかない ひやめしぐい と インディペンデント 例えば、月平均気温と暖房器具の販売台数の関係をCORREL関数で求めると、係数は-0.97となり、負の相関が高いことがわかります。 しかし、変数を入れ替えても同じ結果になります。 つまり、暖房器具の販売台数が多いと気温が下がると結論づける人がいるかもしれませんが、それは明らかにおかしいのです。したがって、Excelで相関分析を行う場合は、供給するデータに注意する必要があります。
また、ピアソン相関は、以下のような影響を非常に受けやすい。 がいせき この場合、スピアマン順位相関を使用するのが賢明です。
このチュートリアルで取り上げた例をより詳しくご覧になりたい方は、以下のサンプルワークブックをダウンロードしてください。 次回のブログでお会いできるのを楽しみにしています。
練習用ワークブック
Excelで相関を計算する(.xlsxファイル)