正規分布
Normal Distribution

データの大半が平均値付近に集中し、それ以外のデータが平均値から離れた位置に同程度分散している左右対称のつりがね型をした分布

身長や体重のデータを集めた時、数人だけのデータはバラバラだったり特定の値に集中していたりするが、数十人分に増やすと平均付近の人が多くなるのが一般的である。

図のように、横軸に身長の範囲、縦軸に人数をとったグラフにすると、データの分布が分かりやすくなる。

調査対象人数を増やしていくと「平均値付近のデータ数が一番多く、両端の方はデータ数が少ない」左右対称のつりがね型の分布になる。このつりがね型の分布を「正規分布」といい、身長や体重、株式市場の変動など多くの分布が正規分布に近い形を取っている。

左右対称のつりがね型に近く

データ数を増やすと左右対称のつりがね型の分布に近づく

横軸で使用するデータの階級(範囲)を1cm刻み、0.5cm刻みとどんどん小さくしていくと、範囲が連続型になり、下のように滑らかなグラフになる。

正規分布のグラフ

正規分布のグラフ

正規分布では平均値付近にデータが集中しており、「平均値付近を手厚くすることで、ターゲット顧客の多くをカバーする」といったマーケティング戦略にも使用される。

正規分布はフランスの数学者Abraham de Moivreアブラーム・ド・モアブルによって1733年に発見され、その後、ドイツの数学者Carolus Fridericus Gaussカール・フリードリヒ・ガウスによって詳細に研究された。そのため、「ガウス分布」と呼ばれることもある。

平均を目安にするには正規分布が前提になる

テストを受けた時など、全体数や、自分の順位がわからない場合は「平均よりも高いから成績は上位の方だ」「平均付近だからみんなこれぐらいの点数だろう」などと考えることが多いのではないだろうか。

平均を指標にしやすいのは正規分布に以下の性質があり、データが正規分布に近いという仮定をしているからである。

  • 平均値が順番の真ん中で、出現数が一番多い
  • 平均値を中心に左右対称である

テストの点数を例に、分布が正規分布に近い場合と偏りがある場合を説明する。

正規分布に近い分布

平均点が全体の真ん中の順位で、平均点に近い点数を取っている人が多い。

正規分布に近い分布

正規分布に近い分布

平均よりも高い人の方が多い分布

平均よりも高い人が多く極端に点数の低い人がいる分布の場合、「平均以上でも順位は下の方」ということが起こる。

平均よりも高い人が多い分布

平均よりも高い人が多い分布

平均点よりも低い人の方が多い分布

平均よりも低い人が多く、極端に点数の高い人がいる分布の場合、「平均以下の値でも順位は上の方」ということが起こる。

平均よりも低い人が多い分布

平均よりも低い人が多い分布

平均付近にあまり人がいない分布

平均付近をターゲットにしたのに、当てはまる人が少ないということが起こる。

平均付近にあまり人がいない分布

平均付近にあまり人がいない分布

グラフの形はデータの散らばり具合によって変わる

データの平均が同じでも散らばり具合が違うと、平均値付近にいる人の数が変わってくる。

AクラスとBクラスは同じテストを受け、両クラスとも平均点が50点である。Aクラスは50点付近の人たちが多いのに対し、Bクラスには50点付近の人たちがいない。

Aクラス 42 53 43 61 51
Bクラス 22 90 72 34 32

データの散らばり具合を数値化したものを「標準偏差」といい、各データが平均からどれぐらい離れているかを元に計算する。

標準偏差は各データが平均からどれぐらい離れているかを指標にしている。具体的には各データと平均値の2乗の合計をデータ数で割ったものの√(平方根)であり、以下の式で算出できる。

標準偏差の公式

標準偏差の公式

Aクラスの標準偏差は以下のように計算する。

1.各データと平均の差分を2乗したものを合計する

(42-50)²+(53-50)²+(43-50)²+(61-50)²+(51-50)²=244

2.No1で求めた値をデータ数で割る

244÷5=48.8

3.No2で求めた値の√(平方根)をとったものが標準偏差

√48.8 = 6.99

同様にBクラスの偏差値を求めると、26.26となり、Aクラスとは約4倍の差がある。

標準偏差が少ないと平均値付近にデータが集中する。以下のグラフは平均が同じ50点の正規分布だが、青のグラフは標準偏差がクラスAと同じ6.99、赤のグラフは標準偏差がBクラスと同じ26.26である。いずれも平均値(50点)のデータ数が一番多いが、標準偏差が小さな青いグラフは平均値付近にデータが集中した鋭い形状をしており、標準偏差が大きな赤いグラフはなだらかな形状をしている。

標準偏差が小さいと、平均値付近に集中する

標準偏差が小さいと、平均値付近に集中する

偏差値も正規分布を前提としている

標準偏差が使われる例として身近なのが、受験でおなじみの「偏差値」である。

偏差値は平均を50、標準偏差を10に設定したもので、平均からどれぐらい離れているか、上位何%に位置しているかを分かりやすく数値化したものである。

偏差値の算出公式

偏差値の算出公式

偏差値は、成績の分布が正規分布であることを前提にしており、偏差値の数値と「上位、下位の何%に位置しているか」が対応している。図のように「偏差値が60だから成績は上位15%ぐらいだ」ということがわかる。

偏差値を使うと上位何%にいるかわかる

偏差値を使うと上位何%にいるかわかる

データが正規分布とかけ離れている場合は、偏差値と上位下位のパーセンテージが対応せず、偏差値を順位の指標にすることができないので注意が必要である。

特定の範囲にデータの含まれる割合が分かる

データが正規分布に従っている場合、標準偏差を「平均からどの程度離れているか」という単位として使うことで「全体のXX割をカバーできるデータの範囲」を導き出すことができる。

下の図の濃い紫で塗られた部分(③と④)は「平均値をはさんだ標準偏差1つ分に収まっている」データであり、全体に占める割合は68.2%(34.1%×2)と計算できる。薄い紫に塗られた部分(②と⑤)を追加した「平均値をはさんだ標準偏差2つ分」は、全体の95.4%(13.6%×2+68.2%)をカバーしているという見方もできる。

標準偏差(σ)をカバーする単位として使ったデータの割合

特定の範囲に含まれるデータの割合を表したグラフ

正規分布の考えはマーケティングにも使われる

正規分布の考えはマーケティングにも使われる。例えば、イノベーター理論で描かれているグラフは正規分布であり、「各消費者層に該当する人が何%いるか」という計算の基本になっている。アーリーマジョリティーとレイトマジョリティーは平均から標準偏差1つ分の範囲に収まっており、それぞれ全体の34%を占めている。

消費者層の分布(σは標準偏差)

消費者層の分布(σは標準偏差)

他の消費者層が全体に占める割合も標準偏差を使って計算されており、5つの消費者層が全体に占める割合は以下の通りである。

  • イノベーター :2.3%
  • アーリーアダプター :13.6%
  • アーリーマジョリティ:34.1%
  • レイトマジョリティ :34.1%
  • ラガード :15.9%

消費者層の分布のグラフと、先ほど説明した標準偏差をカバーする単位として使ったデータの割合のグラフを重ねると、消費者層が全体に占める割合が標準偏差を使って計算されているのが分かる。

消費者層分布と標準偏差(σ)をカバーする単位として使ったデータの割合

消費者層分布と特定の範囲が占めるデータの割合を重ねたグラフ

イノベーター理論を偏差値で考える

イノベーター理論の元になっている正規分布の平均を50、標準偏差を10にすると、各消費者層に対して「新しい物好き偏差値」を設定することができる。新しい物が好きなイノベーターの偏差値が高くなるようにすると、以下のように偏差値を算出することができる。

  • イノベーター :70以上
  • アーリーアダプター :60〜70
  • アーリーマジョリティ:50〜60
  • レイトマジョリティ :40〜50
  • ラガード :40以下

グラフではイノベーターの偏差値を高くするため、横軸の一番右にイノベーターを配置している。

消費者分布を偏差値で表したグラフ

消費者分布を偏差値で表したグラフ
(上のグラフとは左右逆になっているので注意)

データに対する先入観を持たない

提供するサービスや商品のターゲットを決めるときに、「平均付近を手厚くすればある程度の数をカバーできる」と考えてしまうことがある。平均値を指標として用いるには、データが正規分布に近いことが前提になっており、正規分布とかけ離れていると平均値周辺をいくら手厚くしても提供する側が想定する数をカバーできない。

「データは必ず正規分布と近しい」という先入観を無意識に持たないようにするのが重要である。

関連用語

キャズム

イノベーター

アーリーアダプター

アーリーマジョリティ

レイトマジョリティ

ラガード

参考文献

  • 日本統計学会、(2012)、統計学基礎、77-80

参考リンク

blank

かじしま さちこ

フリーランスのエンジニア。
2001年東京都立大学(現首都大学東京)経済学部卒業。独立系ソフトハウス(システム開発)、株式会社シンプレクス(金融機関向け取引システムの開発・運用)を経て2011年よりフリーランス。フリーランスになってからは、スマホアプリ、サーバーサイド(Java,Railsなど)と様々なプロジェクトで開発に携わる。現在は会社員時代にお世話になった企業様でRPAプロジェクトで開発を担当している。
ダイエットのためにランニングとヨガを5年ほど続けているが、どちらもガチになる一方で全く痩せないことが最近の悩み。