身長や体重のデータを集めた時、数人だけのデータはバラバラだったり特定の値に集中していたりするが、数十人分に増やすと平均付近の人が多くなるのが一般的である。
図のように、横軸に身長の範囲、縦軸に人数をとったグラフにすると、データの分布が分かりやすくなる。
調査対象人数を増やしていくと「平均値付近のデータ数が一番多く、両端の方はデータ数が少ない」左右対称のつりがね型の分布になる。このつりがね型の分布を「正規分布」といい、身長や体重、株式市場の変動など多くの分布が正規分布に近い形を取っている。
横軸で使用するデータの階級(範囲)を1cm刻み、0.5cm刻みとどんどん小さくしていくと、範囲が連続型になり、下のように滑らかなグラフになる。
正規分布では平均値付近にデータが集中しており、「平均値付近を手厚くすることで、ターゲット顧客の多くをカバーする」といったマーケティング戦略にも使用される。
正規分布はフランスの数学者Abraham de Moivreによって1733年に発見され、その後、ドイツの数学者Carolus Fridericus Gaussによって詳細に研究された。そのため、「ガウス分布」と呼ばれることもある。
平均を目安にするには正規分布が前提になる
テストを受けた時など、全体数や、自分の順位がわからない場合は「平均よりも高いから成績は上位の方だ」「平均付近だからみんなこれぐらいの点数だろう」などと考えることが多いのではないだろうか。
平均を指標にしやすいのは正規分布に以下の性質があり、データが正規分布に近いという仮定をしているからである。
- 平均値が順番の真ん中で、出現数が一番多い
- 平均値を中心に左右対称である
テストの点数を例に、分布が正規分布に近い場合と偏りがある場合を説明する。
正規分布に近い分布
平均点が全体の真ん中の順位で、平均点に近い点数を取っている人が多い。
平均よりも高い人の方が多い分布
平均よりも高い人が多く極端に点数の低い人がいる分布の場合、「平均以上でも順位は下の方」ということが起こる。
平均点よりも低い人の方が多い分布
平均よりも低い人が多く、極端に点数の高い人がいる分布の場合、「平均以下の値でも順位は上の方」ということが起こる。
平均付近にあまり人がいない分布
平均付近をターゲットにしたのに、当てはまる人が少ないということが起こる。
グラフの形はデータの散らばり具合によって変わる
データの平均が同じでも散らばり具合が違うと、平均値付近にいる人の数が変わってくる。
AクラスとBクラスは同じテストを受け、両クラスとも平均点が50点である。Aクラスは50点付近の人たちが多いのに対し、Bクラスには50点付近の人たちがいない。
Aクラス | 42 | 53 | 43 | 61 | 51 |
Bクラス | 22 | 90 | 72 | 34 | 32 |
データの散らばり具合を数値化したものを「標準偏差」といい、各データが平均からどれぐらい離れているかを元に計算する。
標準偏差は各データが平均からどれぐらい離れているかを指標にしている。具体的には各データと平均値の2乗の合計をデータ数で割ったものの√(平方根)であり、以下の式で算出できる。
Aクラスの標準偏差は以下のように計算する。
1.各データと平均の差分を2乗したものを合計する
(42-50)²+(53-50)²+(43-50)²+(61-50)²+(51-50)²=244
2.No1で求めた値をデータ数で割る
244÷5=48.8
3.No2で求めた値の√(平方根)をとったものが標準偏差
√48.8 = 6.99
同様にBクラスの偏差値を求めると、26.26となり、Aクラスとは約4倍の差がある。
標準偏差が少ないと平均値付近にデータが集中する。以下のグラフは平均が同じ50点の正規分布だが、青のグラフは標準偏差がクラスAと同じ6.99、赤のグラフは標準偏差がBクラスと同じ26.26である。いずれも平均値(50点)のデータ数が一番多いが、標準偏差が小さな青いグラフは平均値付近にデータが集中した鋭い形状をしており、標準偏差が大きな赤いグラフはなだらかな形状をしている。
偏差値も正規分布を前提としている
標準偏差が使われる例として身近なのが、受験でおなじみの「偏差値」である。
偏差値は平均を50、標準偏差を10に設定したもので、平均からどれぐらい離れているか、上位何%に位置しているかを分かりやすく数値化したものである。
偏差値は、成績の分布が正規分布であることを前提にしており、偏差値の数値と「上位、下位の何%に位置しているか」が対応している。図のように「偏差値が60だから成績は上位15%ぐらいだ」ということがわかる。
データが正規分布とかけ離れている場合は、偏差値と上位下位のパーセンテージが対応せず、偏差値を順位の指標にすることができないので注意が必要である。
特定の範囲にデータの含まれる割合が分かる
データが正規分布に従っている場合、標準偏差を「平均からどの程度離れているか」という単位として使うことで「全体のXX割をカバーできるデータの範囲」を導き出すことができる。
下の図の濃い紫で塗られた部分(③と④)は「平均値をはさんだ標準偏差1つ分に収まっている」データであり、全体に占める割合は68.2%(34.1%×2)と計算できる。薄い紫に塗られた部分(②と⑤)を追加した「平均値をはさんだ標準偏差2つ分」は、全体の95.4%(13.6%×2+68.2%)をカバーしているという見方もできる。
正規分布の考えはマーケティングにも使われる
正規分布の考えはマーケティングにも使われる。例えば、イノベーター理論で描かれているグラフは正規分布であり、「各消費者層に該当する人が何%いるか」という計算の基本になっている。アーリーマジョリティーとレイトマジョリティーは平均から標準偏差1つ分の範囲に収まっており、それぞれ全体の34%を占めている。
他の消費者層が全体に占める割合も標準偏差を使って計算されており、5つの消費者層が全体に占める割合は以下の通りである。
- イノベーター :2.3%
- アーリーアダプター :13.6%
- アーリーマジョリティ:34.1%
- レイトマジョリティ :34.1%
- ラガード :15.9%
消費者層の分布のグラフと、先ほど説明した標準偏差をカバーする単位として使ったデータの割合のグラフを重ねると、消費者層が全体に占める割合が標準偏差を使って計算されているのが分かる。
イノベーター理論を偏差値で考える
イノベーター理論の元になっている正規分布の平均を50、標準偏差を10にすると、各消費者層に対して「新しい物好き偏差値」を設定することができる。新しい物が好きなイノベーターの偏差値が高くなるようにすると、以下のように偏差値を算出することができる。
- イノベーター :70以上
- アーリーアダプター :60〜70
- アーリーマジョリティ:50〜60
- レイトマジョリティ :40〜50
- ラガード :40以下
グラフではイノベーターの偏差値を高くするため、横軸の一番右にイノベーターを配置している。
データに対する先入観を持たない
提供するサービスや商品のターゲットを決めるときに、「平均付近を手厚くすればある程度の数をカバーできる」と考えてしまうことがある。平均値を指標として用いるには、データが正規分布に近いことが前提になっており、正規分布とかけ離れていると平均値周辺をいくら手厚くしても提供する側が想定する数をカバーできない。
「データは必ず正規分布と近しい」という先入観を無意識に持たないようにするのが重要である。
関連用語
参考文献
- 日本統計学会、(2012)、統計学基礎、77-80