多重検定問題

100個の仮説検定を行った場合、各検定の有意水準を通常の0.05（5%）に設定すると、何も差がない場合でも約5個の検定で「偶然」有意な差が出てしまう可能性がある。
これは、複数の検定を行うことで第1種の過誤（false positive）＝誤って棄却してしまうリスクが累積するためである。

つまり、たくさんのテストを一度にやると、間違った答えが出やすくなるという問題である。
たとえば、お菓子の中に1つだけ「当たり」が入っているとする。

それを1人で1回だけ引けば、当たる確率は低いが、100人が100回引いたら、だれかが「たまたま当たった」と思うことがあるかも知れない。実は運がよかっただけなのに、「この箱は当たりやすい！」と勘違いしてしまう。これが「多重検定問題」である。
たくさんやると、たまたま当たっちゃう人が出てきて、本当のことと勘違いするってことでもある。

提唱者

この問題自体は統計的な性質として古くから知られており、特定の「提唱者」は存在しないが、これに対する修正方法として最も有名なボンフェローニ補正（Bonferroni correction）を提唱したカルロ・エミリオ・ボンフェローニ（Carlo Emilio Bonferroni）が関連人物として挙げられる。

デザインへの応用と具体例

多重検定問題は、UXリサーチやA/Bテスト、パーソナライズアルゴリズムの設計において重要な意味を持つ。

特に、多変量なUI要素（ボタンの色、ラベルの文言、位置など）を同時にテストする際には、偶然に起因する「有意差」を誤って意思決定に取り込むリスクがある。

たとえば、A/B/C/Dの4つのUIを比較し、p < 0.05で最もクリック率が高かったDを採用する場合、本当にDが優れていたのか、それとも偶然なのかを慎重に検証する必要がある。
このときに多重検定の調整（例えばボンフェローニ補正）を行わないと、誤った改善判断を下してしまう恐れがある。

具体的なシーンと事例

シーン例：

大規模なA/Bテストを複数パターンで同時実施する場面
ユーザー属性ごとの行動分析（年齢、性別、地域など）
機械学習モデルにおける特徴量選択

具体事例：

あるEコマースサイトにおいて、10種類のレコメンドレイアウトをユーザー群に分けて同時テストした結果、p < 0.05の有意差が出た1レイアウトを選択した。しかし、補正を行っていなかったために、実際には偶然のばらつきであった。その後、再テストで差が消失し、「偶然の有意差」に基づいたデザイン変更であったことが判明した。

偽陽性 vs 多重検定問題

ハズレをあたりを間違えること：偽陽性

何回か数多く検証すると当たる確率にたまたま当たった場合に、あたりやすいと勘違いすること：多重検定問題

多重検定問題 multiple testing problem

提唱者

デザインへの応用と具体例

具体的なシーンと事例

シーン例：

具体事例：

偽陽性 vs 多重検定問題

大本あかね

「UX用語」のカテゴリー

ツール・フレームワーク・方法論・分類

テクノロジー・技術

デザイン・情報設計

マーケティング・ビジネス

リサーチ・分析・テスト

心理学・行動経済学・脳科学

思考・マインド・バイアス

組織・ファシリテーション

提唱者

デザインへの応用と具体例

具体的なシーンと事例

シーン例：

具体事例：

偽陽性 vs 多重検定問題

大本 あかね

ツール・フレームワーク・方法論・分類

テクノロジー・技術

デザイン・情報設計

マーケティング・ビジネス

リサーチ・分析・テスト

心理学・行動経済学・脳科学

思考・マインド・バイアス

組織・ファシリテーション

大本あかね