一見、統計的に意味のある観測結果が偶然生じることを意味するが、正式な統計用語ではない。
「多重検定問題(multiple comparisons problem)」や「偽陽性(false positive)」に関する現象をわかりやすく表現するために使われる。
背景となる統計理論
例:p値と偶然
通常、p値(有意確率)が 0.05未満 なら「統計的に有意」と判断される。
しかし、「本当は差がない(帰無仮説が真)」のに、偶然で5%の確率で有意になる。
つまり、100個のテストをすれば5個は偶然有意になる。
結果:「何も意味のない違い」が、あたかも意味のある発見のように見える。
典型的な問題:多重検定問題
研究や分析での具体例
100個の商品カテゴリについて「ユーザーのクリック率に違いがあるか」を検定した。
実際はどのカテゴリにも差がないとする。
しかし、統計検定を100回行うと、平均で5カテゴリは“有意差あり”と判定される。
実際には差がないのに、「この5つに特徴がある」と誤解されてしまう。
「どこでも効果」の意味合い
このような状況では、「どこを見ても効果があるように見える」ため、データ分析者が無関係な変数や条件に意味を見出してしまう錯覚が起きる。
関連用語
用語 | 説明 |
---|---|
多重検定(multiple testing) | 多数の検定を行うことで偽陽性の確率が累積する問題。 |
p-hacking | 有意なp値を出すために分析を繰り返したり調整を加えること。 |
FDR(False Discovery Rate) | 偽陽性の割合。ベンジャミニ–ホッホベルグ法などで補正。 |
UI・プロダクトデザインでの教訓
統計データを使った意思決定(例:A/Bテスト、パーソナライゼーション)においても、この効果は注意が必要である。
実務でありがちな誤用例:
- 無数の要素でA/Bテストをし、「有意差が出た」として変更するが、実は偶然。
- ダッシュボード上の多数のKPIを追い、「動いた数字」に反応して施策を変更する。
「本当に意味がある差なのか?」を検定の設計段階で慎重に考える必要がある。
対策・注意点
対策 | 説明 |
---|---|
ボンフェローニ補正 | 有意水準を検定数で割って補正(例:0.05 → 0.05 ÷ 100) |
FDR補正 | 偽陽性率全体を制御する方法で、実務で広く使われる |
事前登録(pre-registration) | 検定内容を事前に登録しておくことで、p-hackingを防ぐ |