100個の仮説検定を行った場合、各検定の有意水準を通常の0.05(5%)に設定すると、何も差がない場合でも約5個の検定で「偶然」有意な差が出てしまう可能性がある。
これは、複数の検定を行うことで第1種の過誤(false positive)=誤って棄却してしまうリスクが累積するためである。
つまり、たくさんのテストを一度にやると、間違った答えが出やすくなるという問題である。
たとえば、お菓子の中に1つだけ「当たり」が入っているとする。
それを1人で1回だけ引けば、当たる確率は低いが、100人が100回引いたら、だれかが「たまたま当たった」と思うことがあるかも知れない。実は運がよかっただけなのに、「この箱は当たりやすい!」と勘違いしてしまう。これが「多重検定問題」である。
たくさんやると、たまたま当たっちゃう人が出てきて、本当のことと勘違いするってことでもある。
提唱者
この問題自体は統計的な性質として古くから知られており、特定の「提唱者」は存在しないが、これに対する修正方法として最も有名なボンフェローニ補正(Bonferroni correction)を提唱したカルロ・エミリオ・ボンフェローニ(Carlo Emilio Bonferroni)が関連人物として挙げられる。
デザインへの応用と具体例
多重検定問題は、UXリサーチやA/Bテスト、パーソナライズアルゴリズムの設計において重要な意味を持つ。
特に、多変量なUI要素(ボタンの色、ラベルの文言、位置など)を同時にテストする際には、偶然に起因する「有意差」を誤って意思決定に取り込むリスクがある。
たとえば、A/B/C/Dの4つのUIを比較し、p < 0.05で最もクリック率が高かったDを採用する場合、本当にDが優れていたのか、それとも偶然なのかを慎重に検証する必要がある。
このときに多重検定の調整(例えばボンフェローニ補正)を行わないと、誤った改善判断を下してしまう恐れがある。
具体的なシーンと事例
シーン例:
- 大規模なA/Bテストを複数パターンで同時実施する場面
- ユーザー属性ごとの行動分析(年齢、性別、地域など)
- 機械学習モデルにおける特徴量選択
具体事例:
あるEコマースサイトにおいて、10種類のレコメンドレイアウトをユーザー群に分けて同時テストした結果、p < 0.05の有意差が出た1レイアウトを選択した。しかし、補正を行っていなかったために、実際には偶然のばらつきであった。その後、再テストで差が消失し、「偶然の有意差」に基づいたデザイン変更であったことが判明した。
偽陽性 vs 多重検定問題
ハズレをあたりを間違えること:偽陽性
何回か数多く検証すると当たる確率にたまたま当たった場合に、あたりやすいと勘違いすること:多重検定問題