AIの「精度神話」はデタラメ ― 私たちが取るべきアプローチとは？

AIの精度（Accuracy）は実世界では意味が薄く、価値メトリックス（Value Matrix）を用いてビジネスや人間中心の成果を最適化すべきです。その内容を見ていきましょう。
「UX for AIワークショップ」グレッグ・ヌーデルマン（Greg Nudelman）氏による「AI Accuracy is Bullsh*t. Here’s what UX must do about it. (Part 1)」のブログ翻訳です。
原文：https://www.uxforai.com/p/ai-accuracy-bullsht-heres-ux-must-part-1

データサイエンス界で最も知られていない真実とは何でしょうか？
それは、「AIの精度は現実世界では意味をなさない」ということ。
本記事ではUXデザイナーに向けて、精度の代わりとなる実践的な指標を提案します。
それは、UXとビジネスの観点からAIを最適化し、「人間的な価値観」で“思考”するよう設計するというアプローチです。

大きな秘密

長年にわたり、データサイエンスの世界では、Accuracy（正解率）、Precision（適合率）、Recall（再現率）といった指標が重視されてきました。

データサイエンスや機械学習に特化したプラットフォーム：Kaggle（カグル）のようなデータサイエンスのコンペティションでも、勝者は正解率など単一の指標だけで決められています。
しかし最大の真実は、こうしたデータサイエンスの指標は情報としては有用でも、AIを現実の世界で活用するうえでは、ほとんど意味を持たないということです。

わかりやすい事例として「自動車のメンテナンス」を取り上げてみましょう。
仮に「パスカル・モーターズ」という架空の自動車メーカーがあったとして、会社の車のメンテナンス状態になるとAIがアラートを送る仕組みが搭載されているとします。

問題を早期に発見し未然に防ぐことができれば、その利益は1件あたり1,000ドルだと仮定します。（部品が壊れる前に交換して事故を防ぐ、または走行中に故障して立ち往生するリスクを回避するなど。）
一方で、潜在的な問題を調査するには、整備士が1時間かけて点検する費用の費用が1件あたり100ドルかかるとします。

パスカル・モーターズのエンジニアは、3種類のAIモデルを利用できます。それが「コンサバティブ（Conservative）」「バランスド（Balanced）」「アグレッシブ（Aggressive）」の3つです。
これらのモデルには、それぞれ以下のデータサイエンス指標が設定されています。

AIモデル	Conservative（保守的）	Balanced（バランス型）	Aggressive（積極型）
送信アラート数	10	30	80
発見された問題数	9	15	19
適合率（Precision）	90%	50%	24%
再現率（Recall）	45%	75%	95%
正解率（Accuracy）	88%	80%	38%

表：データサイエンス指標（Accuracy・Precision・Recall）に基づくAIモデルの選定

どのAIモデルが最も優れていると思いますか？

多くの人は「コンサバティブ（Conservative）」なAIを選ぶでしょう。
というのも、正確（Accurate）で、なおかつ精密（Precise）なAIを望まない人なんて、いないからです。

では、以下ならどうでしょうか？

表：現実世界での成果に基づくAIモデルの選定（真陽性を1件あたり1,000ドル、真陰性を100ドルと仮定）

もし最も優れたデータサイエンス指標だけを基準にしてAIを選ぶとしたら、その選択は誤りになるでしょう。

ポジティブ／ネガティブな結果それぞれの実際のコストを考慮して、収益を最適化するという観点で見ると、正しい選択は実はバランスド（Balanced）AI（列2）です。
このモデルは、コンサバティブ（Conservative／慎重な）AIよりも158%以上多くの収益を生み出します。

データサイエンスの指標だけを基準に最適化されたAIは、現実世界での成果のコストと利益を考慮に入れて最適化されたAIに比べると、パフォーマンスが劣ります。

これこそが、知られていない大きな真実です。

「精度の高いAI」が間違っているなんて、どういうこと？

ここまで読んで、少し混乱しているかもしれません。
「精度の高いAIが、どうして間違っているの？精度こそが重要なんじゃないの？」と。

この疑問に答えるには、まず「精度」がどのように計算されるのか、そのシンプルな計算式を見ていく必要があります。

「精度」が何かを理解するために、コンフュージョン・マトリックス（Confusion Matrix）と呼ばれるシンプルな表を見てみましょう。これは、AIモデルが予測した結果を実際の結果と照らし合わせて、件数を分類・集計するための表です。

Image Source: Fortiche Studios via Midjourney Imagine/ a robot checking a car and thinking hard in the style of the arcane.

パスカル・モーターズのAIは、車における100件の潜在的な問題を確認するたびに、アラートを送るかどうかを判断します。

AIがアラートを送る判断をすれば、それは「ポジティブ（Positive）」とみなされます。
逆に、センサーの読み取りを無視すると判断した場合は、それが「ネガティブ（Negative）」です。
1年間に100件の潜在的な事象があると仮定すると、AIは年間で100回の判断ポイントを持っており、それぞれでアラートを送るかどうかを決定します。

ここでおさえておきたいのは、AIが「この車に確実に問題がある」と完全にわかっているわけではないということです。判断としては、エンジンオイルの不純物、振動、異音など、さまざまなセンサーの読み取り結果に頼って判断します。そのため、本来アラートを出すべきではなかったものに、誤って出してしまうこともあります。これを「偽陽性（False Positive）FP」と呼びます。

寒い朝に車がちょっと変な音を立てただけで、AIが「異常あり」と判断してアラートを出したものの、整備士が調べても何の問題も見つからなかった、そんな場合が「偽陽性」の例です。

一方で、AIが本当は問題になり得る状態を見逃してしまい、車が正常に動作していると誤って判断することもあります。深刻な故障の一歩手前であるにもかかわらず、アラートを出さないという誤判断をしてしまうのです。このようなケースが「偽陰性（False Negative）FN」です。

AIが出す可能性のある結果は次の4つです：

True Negative（TN）： 車に問題がなく、AIもアラートを出さない場合
False Negative（FN）： 実際には問題があるのに、AIがそれを知らせてくれない場合
True Positive（TP）： 車に実際に問題があり、AIが正しくアラートを送信する場合
False Positive（FP）： 車は正常に動作しているのに、AIがアラートを出してしまう場合

混同行列（Confusion Matrix）とは、AIモデルがそれぞれの結果を何件ずつ出したかを数えた表にすぎません。混同行列は、異なるAIモデルがどのような結果をどれだけ出すかを比較できます。

先ほど見たコンサバティブ（高精度）AIモデルのConfusion Matrix（混同行列）は以下のようになります。

表: コンサバティブ（慎重な）AIモデルの混同行列

混同行列を読み解くには、表の外側から見ていきます。問題がなかったケースは80件、そのうち実際に問題があったケースは20件です。全体で100件の測定です。

コンサバティブAIは、90件の「問題なし」・10件の「アラート」と判断しました。
この10件のアラートのうち、9件は実際に問題があった（True Positive）一方、1件は誤ってアラートを出してしまった（False Positive）という結果でした。

精度（Accuracy）＝正しい予測数 ÷ 総予測数 × 100％

わかりやすい例を挙げると、もしコインを100回投げて、毎回「表」になると予測したとします。
そのうち実際に「表」になるのはおよそ50回なので、平均して50％の精度（Accuracy）ということになります。

パスカル・モーターズ（Pascal Motors）のケースでは、100件の測定のうち実際の問題は20件でした。
つまり、コンサバティブAIは合計88件の正しい予測（True Negative が79件、True Positive が9件）を行い、全体の100件中88件が正解だったことになります。したがって、このモデルの精度（Accuracy）は：

Accuracy（精度）= (79 + 9)/100 * 100% = 88%

あるAIモデルは「精度（Accuracy）88％」と高い数値を示していましたが、実際には（表の左下）20件中11件もの問題を見逃していました。つまり、このコンサバティブ（慎重な）AIモデルは、我々にとって「使えない」どころか、むしろ有害である――というのが問題の本質だ。半分にも満たない問題しか検出できなかったのだから当然であったのです。

では、なぜ「精度の高いAI」がここまで役に立たなくなるのか？、答えは驚くほど単純です。

Accuracy（精度）を重視して訓練されたAIは「間違えないこと」を最優先するため、アラートを出すべき場面でも躊躇しがちになる。その結果、重要な検出を逃し、ビジネス上の機会（利益）を取りこぼしてしまう。
一方で、Recall（再現率）を重視して訓練されたAIは、可能性のある「異常（ポジティブ）」を漏らさないよう振る舞うため、誤検知（False Positive）を大量に出しがちで、現場で扱いにくくなる。

実例として、20件中19件を見つけようとしたアグレッシブなモデルは、80件ものアラートを出した――とあります。誤検知が多ければ現場の負担が増え、結局ビジネスに悪影響を与えます。

実ビジネスで最適なのは、「バランスドAI（Balanced AI）」であることが多く、特定のデータサイエンス指標で突出しているわけではないが、ROI（投資利益率）が最も高く、例では15,000ドルに達しています。これは高精度モデルより158%以上高い数字です。現実世界で最も重要なのは「精度」や「再現率」だけではなく、最終的なROIなのです。

現実の世界では、本当に重要なのはROI（投資利益率）

価値マトリックス：現実世界で役立つAIを選ぶための道具

価値マトリクスは、Arijit Senguptaによって提案された、混同行列（Confusion Matrix）への実用的な改良です。要点は次の通り。

混同行列の各結果（TP, TN, FP, FN）に対して、UXやプロダクトの観点から金銭的な価値（利益・損失）を割り当てる。
その価値を、混同行列の各セルの件数と掛け合わせることで、**モデル全体が現実世界でもたらす合計の価値（＝ROI）**を算出できる。

例：先のコンサバティブモデルについて、

問題を正しく特定できた場合の利益（TPの価値）＝1,000ドル
潜在的な問題を調査するコスト（FPのコスト）＝100ドル
と仮定すると、混同行列の件数と掛け合わせることで、そのモデルの現実的な収益性が明確になります。

重要なのは、価値（コストや利益）の前提を変えれば、最適なモデルも変わるという点。

たとえば：

FP（誤検知）のコストが大きく（例：来店ごとに800ドルかかる）なれば、「間違えないこと」を重視する高精度（コンサバティブ）モデルが有利になる可能性がある。
逆に、TP（正しく問題を検出すること）の価値が非常に高く（例：1件あたり1万ドルの節約）なれば、Recallを高めるアグレッシブモデルの方が望ましい。

前提条件次第では、あるモデルは12,200ドルの損失を出し、別のモデルは105,000ドルや175,800ドルの収益を生む――といった差が生じ得るのです。

つまり、AccuracyやRecallといった指標だけでモデルを選ぶと、現実世界では大きな損失を招く可能性があるのです。

表：TP を 1,000ドル、TN を 100ドルと仮定した場合のコンサバティブAIモデルの価値マトリクス

正しい予測は「利益（プラス）」となり、誤った予測は「損失（マイナス）」になります

現在の前提条件では、実際には問題がないのに顧客を修理工場に送ってしまうと、企業に100ドルの損失（例：-100ドル）が発生します。逆に、問題がないことを正しく見抜けば、100ドルの節約（例：+100ドル）になります。
また、問題を正しく特定できた場合（True Positive）には、1,000ドルのコストを回避できる（例：+1,000ドル）一方で、問題を見逃してしまうと、1,000ドルの損失（例：-1,000ドル）になります。

※注意：
今回のケースでは TP（真陽性）/ TN（真陰性）と FP（偽陽性）/ FN（偽陰性）の数値を一定にしていますが、ユースケースが異なれば、それぞれの結果に対する「価値（損失・利益）」は必ずしも同じ絶対値になるとは限りません。

価値マトリクスとは、基本的に、あらゆる予測結果が金銭的な影響を持つことを、チーム全体で認識するためのツールです。この価値マトリクスが非常に強力なのは、異なるAIモデルを導入した際の現実世界での結果を評価できるからです。

現実の成果に基づいてAIを訓練し、「人間のように考える」力を育てる

ここまで読んでいただければ、前提となる価値（コストや利益）が変われば、価値マトリクスも大きく変化することは、もう明らかでしょう。

今回のユースケースにおいて、False Positive（誤検知）のコストがもっと高く、たとえば顧客が来店するたびに800ドルかかるとしたら、「間違えないこと」を重視する高精度なコンサバティブAIモデルに、むしろ満足することになるかもしれません。

表: TP を 1,000 ドル、TN を 800 ドルと仮定した場合の、実際の結果に基づく AI モデルの選択

これとは対照的に、もしTrue Positive（問題を正しく検出できた場合）の価値がさらに高くなり、たとえば1件あたり1万ドルの節約につながるとしたら、あらゆる潜在的な問題に対してアラートを出したくなるでしょう。

その場合は、Recall（再現率）を重視して訓練されたアグレッシブAIのほうが適していると言えます。
なぜなら、このようなモデルは、できるかぎり多くのTrue Positiveを見逃さずに検出しようとするからです。

表：TPを1万ドル、TNを100ドルと仮定した場合の、現実世界の成果に基づくAIモデルの選定

注意すべき点として、予測結果に対する価値（コストや利益）の前提を変えると、本来とは逆の目的で訓練されたAIモデルは、ROI（投資利益率）がマイナスになる可能性さえあるのです！

True Positive（真陽性）の価値を1万ドル、True Negative（真陰性）の価値を100ドルと仮定した場合：

コンサバティブで高精度なAIモデルを導入した場合、12,200ドルの損失が発生します。
対照的に、他のモデルを導入すれば、105,000ドルあるいは175,800ドルの収益を得られるのです。

もう一つの例：TSA（空港保安）の比喩

TSAの例は直感的である。ほとんどの旅行者はテロリストではないため、常に「テロリストではない」と判定するモデルは極めて高いAccuracyを示します。しかしそれは、実用的にはほとんど役に立たちません。

ここで価値を考慮すると、テロによる被害の影響（例：1兆ドル）と、追加検査によるコスト（例：1ドル程度）を比較することで、精度ではなく再現率を最適化すべきという結論になります。つまり、より積極的にアラートを出すモデルが望ましい可能性がある――ということです。

結論：現実世界の価値を軸にAIを設計せよ

要するに、AIはもはやデータサイエンティスト任せにできるものではありません。Accuracy, Precision, Recallといった指標だけでは、現実で使えるAIは生まれません。ビジネス上の利益とコスト、そして人間にとってのコストや価値を定量化し、それに基づいてモデルを選び・訓練することが不可欠です。

UXデザイナーやプロダクトのリーダーが果たす役割は大きいです。価値マトリクスのようなツールを用い、4つの可能なアウトカム（TP/TN/FP/FN）それぞれに現実の価値を割り当てて数値化すること。それにより、AIを「人間らしく考えさせる」方向へと導くことができます。

最後にひとつ問いを投げかけます。

なぜTSAは、すべての旅行者に対して追加検査を行わないのか？その答えは、単に技術的な問題だけでなく、ビジネス的・人間的なコストと利益のバランスを取っているからです。AIを現実世界で有用にするためには、まさにその「価値のバランス」を明確にし、モデル設計に反映させることが必要なのです。

ビジネスのROI（投資対効果）と人間的なコストの両方を必ず考慮し、現実世界で通用するAIを訓練するために、Value Matrix（価値マトリクス）を用いて、4つの可能なアウトカムそれぞれをできる限り数値化してみてください。このような実践的かつ本質的なテクニックを見逃さないためにも、ぜひ下のワークショップへ参加をクリックしてください！

ワークショップのご案内

数値は正確であると思ってしまうナンセンスな数式効果があるように、数値に囚われすぎても良い結果を見出すことはできません。数値を見たとしても、的確な判断ができる考え方を学びましょう。

2025年11月15日「AIと共創する次世代プロダクトデザイン」のワークショップに参加して、今やるべきAIプロダクトデザインを学びましょう！

＞＞2025年11月15日「AIと共創する次世代プロダクトデザイン」の特設ページでお申し込みください。

要約動画

Watch on YouTube

AIの「精度神話」はデタラメ ― 私たちが取るべきアプローチとは？

大きな秘密

どのAIモデルが最も優れていると思いますか？

「精度の高いAI」が間違っているなんて、どういうこと？

価値マトリックス：現実世界で役立つAIを選ぶための道具

現実の成果に基づいてAIを訓練し、「人間のように考える」力を育てる

もう一つの例：TSA（空港保安）の比喩

結論：現実世界の価値を軸にAIを設計せよ

ワークショップのご案内

要約動画

菊池聡

「UX用語」のカテゴリー

ツール・フレームワーク・方法論・分類

テクノロジー・技術

デザイン・情報設計

マーケティング・ビジネス

リサーチ・分析・テスト

心理学・行動経済学・脳科学

思考・マインド・バイアス

組織・ファシリテーション

「UX格言」の新着

動画で学ぶUX 「You X Tubo(ゆーえっくすつぼ)」の新着

大きな秘密

どのAIモデルが最も優れていると思いますか？

「精度の高いAI」が間違っているなんて、どういうこと？

価値マトリックス：現実世界で役立つAIを選ぶための道具

現実の成果に基づいてAIを訓練し、「人間のように考える」力を育てる

もう一つの例：TSA（空港保安）の比喩

結論：現実世界の価値を軸にAIを設計せよ

ワークショップのご案内

要約動画

菊池 聡

ツール・フレームワーク・方法論・分類

テクノロジー・技術

デザイン・情報設計

マーケティング・ビジネス

リサーチ・分析・テスト

心理学・行動経済学・脳科学

思考・マインド・バイアス

組織・ファシリテーション

菊池聡