データ分析者に向けた認知バイアスの書籍「データ分析に必須の知識考え方 認知バイアス入門」の読書会を行いました。これまでにも認知バイアスに関する読書会には何度か開催しました。同じバイアスの解説でもデータ分析者に対して解説しているため、違う観点でバイアスを知ることができました。
著者である山田典一先生は、データサイエンティストであり、私が受講した機械学習の講師でもあります。そのご縁もあり、読書会への参加を誘ってみたら、快諾してくださいました。
正しいと思いがちなデータもバイアスに左右される
データというと、客観的なデータを冷静に分析するイメージがありますが、実際には人間が分析しているため、認知バイアスを避けることは難しいです。データを分析するのも人なので、それぞれお気に入りのアイデアや仮説を持っており、たとえそれが反証されても、頑なに仮説を信じてしまうことがあります。
人間はデータをパターンに当てはめるのが得意な一方で、無関係なデータも因果関係があるかのように解釈する傾向があります。山田先生は「95%の相関関係は、因果関係がない疑似相関だと思って望んでいる」と説明してくださいました。このように、バイアスへの意識がなければ、誤って因果関係を見出してしまうことがあります。当然、誤った分析結果をもとに訓練された機械学習モデルは誤ったものになります。
誤った分析結果が社会的バイアスを作ってしまう
例えば、アジア人だけ偶然営業成績が良かったことを営業成績と人種に因果関係があると誤って分析し「アジア人に対して有利に働く採用モデル」が開発されたとします。もし、その採用モデルを使い続けたら、人種差別に基づいた採用が社会に根付いてしまうでしょう。
どんなデータ分析にもバイアスがあり、データを扱う上で人が認知バイアスに支配されていることを理解することが非常に重要です。
第3の因子、交絡(こうらく)には要注意
分析で推定された値と実際の値には誤差が発生し、一定のパターンや規則性があるものを系統誤差、規則性のない誤差を偶然誤差といいます。
系統誤差には、交絡(こうらく)と交絡以外があり、交絡以外には選択バイアスと情報バイアスがあります。その中にある、交絡・選択バイアス・情報バイアスについて説明します。
交絡とは、原因と結果の両方に影響を与える第3の要因の誤差です。この影響を与える要因を交絡因子といいます。
山田先生は、うつ病のカウンセリングを例に交絡を説明してくださいました。
対面カウンセリングとオンラインカウンセリングの比較で、オンラインカウンセリングの方が社会復帰率が高いというデータがあったとします。しかし、この結果には重要な交絡因子が影響していました。
それは、対面カウンセリングを受ける患者はオンラインカウンセリングを受ける患者よりも重症で、社会復帰に時間がかかる傾向がありました。うつ病の重症度が交絡因子として、カウンセリングの種別と効果の両方に関わっていたのです。つまり、オンラインカウンセリングが社会復帰率が高いのではなく、患者の重症度で振り分けられていたのです。
選択バイアスは、サンプルと調査対象の母集団との間に適切な関連性がない場合に生じる誤差です。
例えば、20代の男女に対する意識調査を行う際に、自社の若手社員にアンケートを行ってしまった場合、職種や嗜好が偏ってしまうということがあげられます。
情報バイアスは、データを収集する過程で生じる誤差です。測定機器の誤差や質問方法による回答の変化(フレーミング効果)が例としてあげられます。
データサイエンティストでなくても、分析はしている
データ分析はデータサイエンティスト以外の人たちには無縁と思われるかもしれませんが、私たちも日々の生活で「分析」を行っています。
例えば、市場のデータをもとにターゲットとなるユーザーを絞り込む、システムの不具合の原因を事象から特定するなど、情報を元に仮説を立てて考察する機会があります。
間違った結論を導き出さないためにも、ひとつの仮説に飛びつく前に交絡因子や仮説に反する情報が影響していないかを考えてみることが重要です。
著者の解説まで聞けた豪華な読書会
「読書会に参加すると、誤った解釈を正す事ができる」と、UX DAYS TOKYOオーガナイザの大本さんが話してくださったのですが、改めてそのことを実感しました。私は交絡のことを「原因と結果の両方に影響している」と認識していたのですが、文字通りの理解でしかなく、実例をあげて説明することは出来ませんでした。
今回の読書会では、著者の山田先生が参加してくださったので、普段は接点のないデータサイエンティストの知識や機械学習の説明を聞くことができました。著者自身からの解説を受ける機会は稀であり、非常に貴重なものとなりました。