TOP UX用語 多重検定問題

多重検定問題 multiple testing problem

多数の仮説検定を同時に行った場合、偶然にも有意な結果(p値が低い)が得られてしまう確率が高くなるという統計上の問題

100個の仮説検定を行った場合、各検定の有意水準を通常の0.05(5%)に設定すると、何も差がない場合でも約5個の検定で「偶然」有意な差が出てしまう可能性がある。
これは、複数の検定を行うことで第1種の過誤(false positive)=誤って棄却してしまうリスクが累積するためである。

つまり、たくさんのテストを一度にやると、間違った答えが出やすくなるという問題である。
たとえば、お菓子の中に1つだけ「当たり」が入っているとする。

それを1人で1回だけ引けば、当たる確率は低いが、100人が100回引いたら、だれかが「たまたま当たった」と思うことがあるかも知れない。実は運がよかっただけなのに、「この箱は当たりやすい!」と勘違いしてしまう。これが「多重検定問題」である。
たくさんやると、たまたま当たっちゃう人が出てきて、本当のことと勘違いするってことでもある。

提唱者

この問題自体は統計的な性質として古くから知られており、特定の「提唱者」は存在しないが、これに対する修正方法として最も有名なボンフェローニ補正(Bonferroni correction)を提唱したカルロ・エミリオ・ボンフェローニ(Carlo Emilio Bonferroni)が関連人物として挙げられる。

デザインへの応用と具体例

多重検定問題は、UXリサーチやA/Bテスト、パーソナライズアルゴリズムの設計において重要な意味を持つ。

特に、多変量なUI要素(ボタンの色、ラベルの文言、位置など)を同時にテストする際には、偶然に起因する「有意差」を誤って意思決定に取り込むリスクがある。

たとえば、A/B/C/Dの4つのUIを比較し、p < 0.05で最もクリック率が高かったDを採用する場合、本当にDが優れていたのか、それとも偶然なのかを慎重に検証する必要がある。
このときに多重検定の調整(例えばボンフェローニ補正)を行わないと、誤った改善判断を下してしまう恐れがある

具体的なシーンと事例

シーン例:

  • 大規模なA/Bテストを複数パターンで同時実施する場面
  • ユーザー属性ごとの行動分析(年齢、性別、地域など)
  • 機械学習モデルにおける特徴量選択

具体事例:

あるEコマースサイトにおいて、10種類のレコメンドレイアウトをユーザー群に分けて同時テストした結果、p < 0.05の有意差が出た1レイアウトを選択した。しかし、補正を行っていなかったために、実際には偶然のばらつきであった。その後、再テストで差が消失し、「偶然の有意差」に基づいたデザイン変更であったことが判明した。

偽陽性 vs 多重検定問題

ハズレをあたりを間違えること:偽陽性

何回か数多く検証すると当たる確率にたまたま当たった場合に、あたりやすいと勘違いすること:多重検定問題

UX DAYS TOKYO オーガナイザ/デジタルマーケティングコンサルタント 著書 ・ノンデザイナーでもわかる UX+理論で作るWebデザインGoogle Search Consoleの教科書 毎年春に行われているUX DAYS TOKYOは私自身の学びの場にもなっています。学んだ知識を実践し勉強会やブログなどでフィードバックしています。 UXは奥が深いので、みなさん一緒に勉強していきましょう! スローガンは「早く学ぶより深く学ぶ」「本質のUXを突き止める」です。

「UX用語」のカテゴリー