「アイスクリームの消費量が増えたのと同じ時期に、ビールの消費量も増えた」というような、両者の変化に関係性が見られることを相関関係という。
相関関係には、片方が増えるともう片方も増える「正の相関」と、片方が増えるともう片方が減る「負の相関」がある。
左のグラフは正の相関で、人口100万人あたりの図書館数と人口100万人あたりの博物館数を表している。グラフから博物館の数が増えると図書館の数も増えていることがわかる。
一方、右のグラフは負の相関で、年間平均気温と年間積雪日数を表している。グラフから平均気温が上がると積雪日数が減っていることがわかる。
相関係数でどれくらい関係があるか分かる
2つの事柄に「どの程度相関関係があるか」を示す指標に相関係数がある。
相関係数は、2つのデータの関係性がどれぐらい直線に近いかを表す数値のことで、-1から1の値をとる。
下の図は、2つのデータXとYの分布をグラフにしている。グラフ①の方がグラフ②よりも右肩上がりの直線に近く、相関係数が大きい。
正の相関がある時は相関係数が0よりも大きくなり、数値が大きくなるほど相関が強い。相関係数が1の時は完全な正の相関がある。一方、負の相関がある時は相関係数が0よりも小さくなり、数値が小さくなるほど相関が強い。相関係数が-1の時は完全な負の相関がある。
下の図は、相関係数が異なるデータをグラフにしたものである。左に行くほど負の相関が強く、グラフが右肩下がりに近くなる。右に行くほど正の相関が強く、グラフが右肩上がりに近くなる。真ん中のグラフは相関がない。
目安として、相関係数が0.5より大きい場合は「正の相関」があり、-0.5より小さい場合は「負の相関がある」とされている。相関係数は「どの程度直線に近いか」を表すものであり、直線からかけ離れているような場合は相関係数が低く算出されることがある。
下のグラフからはXとYが2次関数に近い関係であることが読み取れるが、グラフの形が直線ではないため、相関係数は0に近い。
相関係数を使う前にデータをグラフ化して、2つの事柄の関係が直線に近いことを目視で確認するのが望ましい。
相関関係イコール因果関係ではない
相関関係は2つの事柄に関係があるということを表しており、「因果関係」「単なる偶然」「他の要因がある」「逆の因果関係がある」のいずれかに該当する。
下の図はメイン州の人口1000人あたりの離婚件数と、1人あたりのマーガリン消費量をグラフに表したものである。グラフからは離婚率の低下とマーガリンの消費量低下が同時期に起こるという「相関関係がある」ことが読み取れるが、単なる偶然で因果関係はない。
2つの事柄が同時期に変化しているだけで「因果関係がある」と決めつけてしまうと、「離婚を回避するため、マーガリンをパンに塗るのはやめよう」という間違った理論が導かれてしまうので注意が必要である。
関連用語
参考文献
- 日本統計学会(2012)日本統計学会公式認定 統計検定2級対応 統計学基礎 東京図書
- 中室牧子・津川友介(2017)『「原因と結果」の経済学―データから真実を見抜く思考法』ダイヤモンド社.