TOP UX用語 リサーチ・分析・テスト 相関関係

相関関係 Correlation

2つの事柄のうち片方が変化すると、もう片方も変化する関係

「アイスクリームの消費量が増えたのと同じ時期に、ビールの消費量も増えた」というような、両者の変化に関係性が見られることを相関関係という。
相関関係には、片方が増えるともう片方も増える「正の相関」と、片方が増えるともう片方が減る「負の相関」がある。

左のグラフは正の相関で、人口100万人あたりの図書館数と人口100万人あたりの博物館数を表している。グラフから博物館の数が増えると図書館の数も増えていることがわかる。
一方、右のグラフは負の相関で、年間平均気温と年間積雪日数を表している。グラフから平均気温が上がると積雪日数が減っていることがわかる。

正の相関と負の相関

正の相関と負の相関 (社会生活統計指標-都道府県の指標-2019より作成)

相関係数でどれくらい関係があるか分かる

2つの事柄に「どの程度相関関係があるか」を示す指標に相関係数がある。
相関係数は、2つのデータの関係性がどれぐらい直線に近いかを表す数値のことで、-1から1の値をとる。
下の図は、2つのデータXとYの分布をグラフにしている。グラフ①の方がグラフ②よりも右肩上がりの直線に近く、相関係数が大きい。

グラフの比較

右肩上がりの直線に近い①の方が、XとYの相関係数が大きい

正の相関がある時は相関係数が0よりも大きくなり、数値が大きくなるほど相関が強い。相関係数が1の時は完全な正の相関がある。一方、負の相関がある時は相関係数が0よりも小さくなり、数値が小さくなるほど相関が強い。相関係数が-1の時は完全な負の相関がある。

下の図は、相関係数が異なるデータをグラフにしたものである。左に行くほど負の相関が強く、グラフが右肩下がりに近くなる。右に行くほど正の相関が強く、グラフが右肩上がりに近くなる。真ん中のグラフは相関がない。

相関係数

相関があるグラフ。左端と右端は完全な相関があり、直線と一致している

目安として、相関係数が0.5より大きい場合は「正の相関」があり、-0.5より小さい場合は「負の相関がある」とされている。相関係数は「どの程度直線に近いか」を表すものであり、直線からかけ離れているような場合は相関係数が低く算出されることがある。

下のグラフからはXとYが2次関数に近い関係であることが読み取れるが、グラフの形が直線ではないため、相関係数は0に近い。

2次関数

2次関数に近いグラフだが、相関係数は0に近い

相関係数を使う前にデータをグラフ化して、2つの事柄の関係が直線に近いことを目視で確認するのが望ましい。

相関関係イコール因果関係ではない

相関関係は2つの事柄に関係があるということを表しており、「因果関係」「単なる偶然」「他の要因がある」「逆の因果関係がある」のいずれかに該当する。

相関関係

相関関係があっても因果関係があるとは限らない

下の図はメイン州の人口1000人あたりの離婚件数と、1人あたりのマーガリン消費量をグラフに表したものである。グラフからは離婚率の低下とマーガリンの消費量低下が同時期に起こるという「相関関係がある」ことが読み取れるが、単なる偶然で因果関係はない。

離婚率とマーガリン消費量

1000人あたりの離婚件数と1人あたりのマーガリン消費量が同時に減っているように見える。しかし、ただの偶然である。
Spurious Correlationsを元に作成

2つの事柄が同時期に変化しているだけで「因果関係がある」と決めつけてしまうと、「離婚を回避するため、マーガリンをパンに塗るのはやめよう」という間違った理論が導かれてしまうので注意が必要である。

関連用語

因果関係

錯誤相関

参考文献

  • 日本統計学会(2012)日本統計学会公式認定 統計検定2級対応 統計学基礎 東京図書
  • 中室牧子・津川友介(2017)『「原因と結果」の経済学―データから真実を見抜く思考法』ダイヤモンド社.

参考サイト

フリーランスのエンジニア。 2001年東京都立大学(現首都大学東京)経済学部卒業。独立系ソフトハウス(システム開発)、株式会社シンプレクス(金融機関向け取引システムの開発・運用)を経て2011年よりフリーランス。フリーランスになってからは、スマホアプリ、サーバーサイド(Java,Railsなど)と様々なプロジェクトで開発に携わる。現在は会社員時代にお世話になった企業様でRPAプロジェクトで開発を担当している。 ダイエットのためにランニングとヨガを5年ほど続けているが、どちらもガチになる一方で全く痩せないことが最近の悩み。

「UX用語」のカテゴリー