[Math for Medical AI: M4.2] 条件付き確率とベイズの定理 – AIは検査結果をどう解釈するのか?

学習のポイント

このセクションでは、新しい情報によって確率がどう変わるかという「条件付き確率」の基本から、それを用いて「証拠」から「原因」を逆算する強力なツール「ベイズの定理」までを学びます。特に、有病率が低い場合の検査結果の解釈に潜む「罠」を具体例で解き明かします。

条件付き確率
情報が「世界」を絞り込む

ある出来事(条件)が起きたという情報が加わると、考えるべき確率の範囲がその条件を満たすものだけに限定されます。 これにより、注目する事象の確率が更新される、という推論の基本概念です。

ベイズの定理
「証拠」から「原因」を逆算する

検査結果(証拠)から疾患の有無(原因)を推測するような、逆向きの確率計算を可能にする公式です。 「更新後の確率」は、「元の確率」と「証拠のもっともらしさ」の積に比例するという関係を示します。

感度99%の検査の罠
ベースレートの誤謬

有病率が非常に低い場合、たとえ検査の特異度が高くても、疾患のない多数派から生じる「偽陽性」の数が、本当に疾患がある人の「真陽性」の数を上回ることがあります。 この現象はベースレートの誤謬として知られ、陽性的中率が直感より著しく低くなる原因となります。

“`
目次

はじめに:新たな「情報」は、確率をどう変えるか?

前回の講座で、私たちは「確率」という、不確実性を扱うための強力な言語の第一歩を学びましたね。しかし、医療の現場で私たちが日々行っていることは、静的な確率を眺めることではありません。次々と入ってくる新しい情報—患者さんの訴え、検査結果、画像所見—に基づいて、頭の中にある「疾患の可能性リスト」の確率を、常にダイナミックに更新していくことです。

例えば、こんな場面を想像してみてください。

「証拠」による確率の更新 BEFORE: 検査前のあなたの思考 AFTER: 検査結果(証拠)を見た後の思考 疾患Aの可能性: 1% (有病率) 0% 100% 疾患Aの可能性: ?? % (陽性的中率) 0% 100% 陽性という「証拠」

検査を受ける前、あなたの頭の中では、ある疾患Aの可能性は、一般的な有病率である「1%」という非常に低い値だったかもしれません。しかし、その患者さんがある検査で「陽性」という結果(証拠)を受け取った瞬間、あなたの頭の中の確率は更新されるはずです。では、この更新後の確率(事後確率)は、一体何%になるのでしょうか?感度99%の検査なら、99%なのでしょうか?

このように、ある出来事が起こったという「情報(証拠)」が与えられた上で、別の出来事の確率を考えること — これこそが条件付き確率 (Conditional Probability) の世界です。

そして、この条件付き確率を巧みに操り、検査の性能(感度・特異度)といった「原因→証証拠」の確率から、私たちが本当に知りたい「証拠→原因」の確率を逆算する魔法の数式が、ベイズの定理 (Bayes’ Theorem) です。

この定理は、AIによる診断推論モデルから迷惑メールフィルタまで、現代の多くの技術を支えるだけでなく、私たち医療従事者が日常的に行っている「鑑別診断を進める思考プロセス」そのものの数学的な表現だとも言えます。今回は、このAIと人間の「知的な推論」の根幹をなす、ベイズの定理の世界を一緒に探求していきましょう。

1. 条件付き確率 — 情報が「世界」を絞り込む

AIや統計学が「推論」を行うとき、その思考の根幹には条件付き確率という考え方があります。これは、何か新しい情報(=条件)が加わったときに、私たちの確率的な見立てがどう変わるのかを記述するための、とてもパワフルなツールです。

宇宙を「絞り込む」イメージで捉える

この概念は、「私たちが考えるべき確率の世界(標本空間)が、新しい情報によってギュッと絞り込まれる」というイメージで捉えると、非常に直感的だと思います。

具体的な医療シーンを例に、一緒に見ていきましょう。ある集団1000人に関する、喫煙歴と肺がんの有無のデータがあるとします。

条件付き確率のイメージ:標本空間(世界)を絞り込む 世界全体:1000人 絞り込まれた世界 (喫煙者: 200人) 喫煙者 B (200人) 肺がん A (20人) A∩B (15人) P(A) = 20 / 1000 = 2% 世界全体で肺がんである確率 「Bだった」という 情報で世界を絞る A∩B (15人) P(A|B) = 15 / 200 = 7.5% 喫煙者の中で肺がんである確率 ・はじめに、関心の対象は「世界全体(1000人)」です。この中で肺がん(A)の確率は2%です。 ・ここで「選ばれた人は喫煙者(B)だった」という情報が加わると、関心の対象は「喫煙者(200人)」だけに絞られます。 ・この絞られた世界の中で肺がんである人(A∩B)は15人なので、条件付き確率は7.5%に更新されます。

【図の解説】

  1. 最初の世界: まず、最初の「世界」には1000人の人がいます。この中で肺がん(事象A)の人は20人なので、無作為に一人を選んだとき、その人が肺がんである確率は \(P(A) = 20/1000 = 2%\) です。これが私たちの事前の知識です。
  2. 新しい情報: ここで、「選ばれた人は喫煙者(事象B)だった」という新しい情報が加わったとします。この瞬間、私たちの関心は、1000人全体から、喫煙者である200人だけの「絞り込まれた世界」へと移ります。
  3. 更新された確率: この新しい世界(喫煙者200人)の中で、肺がんである人は何人いるでしょうか?図を見ると、AとBが重なる部分に15人いますね。したがって、喫煙者であるという条件下での肺がんの確率は、\(P(A|B) = 15/200 = 7.5%\) となります。確率が2%から7.5%へと、情報によって更新されたわけです。

この、ある事象Bが起こったという条件の下で、別の事象Aが起こる確率を条件付き確率と呼び、\(P(A|B)\) と表記します。「Bが与えられた下でのAの確率」と読みます。

数式との関係

この直感的な計算は、条件付き確率の定義式そのものです。

\[P(A|B) = \frac{P(A \cap B)}{P(B)}\]

  • 分母 \(P(B)\): 「喫煙者である確率」で、200/1000 = 0.2 です。これが、私たちの新しい「世界の広さ」になります。
  • 分子 \(P(A \cap B)\): 「喫煙者であり、かつ肺がんである確率」で、15/1000 = 0.015 です。(\(A \cap B\) はAとBの共通部分を意味します)
  • 計算結果: \(\frac{0.015}{0.2} = 0.075\)、つまり7.5%となり、先ほどの計算と一致しますね。

このように、条件付き確率は、新しい情報(証拠)が得られるたびに、私たちの知識を更新していくという、知的活動の根幹を数学的に表現したものです。そして、この考え方をさらに一歩進めたものが、次にお話しする、AIによる推論の主役、ベイズの定理なのです。

2. ベイズの定理 — 「証拠」から「原因」を逆算する思考法

前のセクションで、私たちは「喫煙者である」という情報から「肺がんである」確率を更新しました。これは、原因から結果を考える、比較的まっすぐな思考でした。

しかし、臨床現場で私たちが毎日行っているのは、その逆です。目の前の「症状や検査結果(証拠)」から、その背後にある「疾患(原因)」の確率を探るという、より困難な逆向きの推論です。

  • 私たちは、検査の性能として「疾患がある(原因)場合に、検査が陽性になる(証拠)確率」、すなわち感度 \(P(\text{陽性}|\text{疾患あり})\) を知っています。
  • しかし、私たちが本当に知りたいのは、その逆。「検査が陽性だった(証拠)場合に、本当に疾患がある(原因)確率」、すなわち陽性的中率 (PPV) \(P(\text{疾患あり}|\text{陽性})\) です。

この「原因→証拠」の確率から、「証拠→原因」の確率を導き出すための強力な道具が、18世紀にトーマス・ベイズによって定式化されたベイズの定理です。

ベイズの定理による「信念」の更新プロセス 事前確率 P(D) (元の常識 / 有病率) × 尤度 P(T+|D) (証拠のもっともらしさ) P(T+|D)P(D) + P(T+|D’)P(D’) = P(T+) (証拠の全体確率) (割り算) 事後確率 P(D|T+) (更新された信念 / PPV)

この式の構造は、実は私たちの脳が行っている推論と非常によく似ています。私たちは、新しい情報(証拠)に出会ったとき、無意識のうちに「それって、そもそもどれくらいあり得る話だっけ?(事前確率)」ということと、「もし仮説が正しいなら、この情報が出てくるのは自然なことか?(尤度)」ということを天秤にかけ、最終的な結論(事後確率)を導き出しているのではないでしょうか。

ベイズの定理は、この知的なプロセスを、数学の言葉で美しく記述したものなのです。 数式で書くと、以下のようになります。

\[P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]

この式の各パーツが、私たちの推論における重要な概念に対応しています。

  • \(P(A|B)\):事後確率 (Posterior)
    検査が陽性だった「」に更新された、疾患を持つ確率。 私たちが最終的に知りたい陽性的中率 (PPV) です。
  • \(P(B|A)\):尤度 (Likelihood)
    もし疾患があった場合に、この陽性という証拠が得られる「もっともらしさ」。検査の感度 (Sensitivity) に相当します。
  • \(P(A)\):事前確率 (Prior)
    検査を受ける「」に持っていた、疾患を持つ確率。 一般的には、その疾患の有病率 (Prevalence) がこれにあたります。
  • \(P(B)\):周辺尤度 (Marginal Likelihood)
    集団全体で、この検査が陽性になる確率。 陽性になるのは、①本当に疾患があって陽性になる(真陽性)場合と、②疾患がないのに陽性になってしまう(偽陽性)場合の両方が考えられます。分母は、この「全てのあり得る陽性の確率」を足し合わせたものです。

ベイズの定理は、「更新後の信念(事後確率)は、元の信念(事前確率)に、証拠のもっともらしさ(尤度)を掛け合わせたものに比例する」という関係性を示しているのです。

3. 実践!ベイズの定理で陽性的中率を計算する — 感度99%の検査の「罠」

数式だけを眺めていても、ベイズの定理の本当の面白さや、時に直感に反する結論を導き出す力は、なかなか実感しにくいかもしれません。そこで、具体的な臨床シナリオを使って、私たちの直感がどれほど当てにならないか、そしてベイズの定理がいかにして「真実」を暴き出すのかを、一緒に体験してみましょう。

シナリオ設定

ある疾患について、以下の情報が分かっているとします。

  • 有病率 (事前確率): この疾患は比較的稀で、集団における有病率は 1% です。
  • 検査性能: この疾患を発見するための非常に優秀な検査があり、感度は99%特異度(疾患がない人を正しく陰性と判断する確率)は95% です。

問題

ある人がこの検査を受けて「陽性」と判定されました。この人が、本当に疾患を持っている確率(陽性的中率)は何%でしょうか?

感度が99%なので、直感的には「99%に近いのでは?」と考えてしまいがちですよね。この問題を、「巨大な干し草の山から、たった数本の針を探す」という状況に例えて、10,000人の集団で何が起こるかを見ていきましょう。

  • 干し草の山: 健康な人々(9,900人)
  • : 疾患を持つ人々(100本)
  • 高性能な金属探知機: 今回の検査

10,000人集団における検査結果の内訳

10,000人集団における検査結果の内訳 全集団: 10,000人 疾患あり (D): 100人 (有病率 1%) 疾患なし (D’): 9,900人 (99%) 真陽性 (T+): 99人 (感度 99%) 偽陰性 (T-): 1人 偽陽性 (T+): 495人 (偽陽性率 5%) 真陰性 (T-): 9,405人 (特異度 95%)

【ステップ・バイ・ステップで考える】

  1. 母集団を分ける まず、10,000人の集団を有病率に基づいて分けます。
    • 疾患あり (針): 10,000人 × 1% = 100人
    • 疾患なし (干し草): 10,000人 × 99% = 9,900人
  2. 金属探知機(検査)をかける 次に、この2つのグループそれぞれに検査を行います。
    • 針(疾患ありの100人): 金属探知機の感度は99%なので、100本の針のうち99本を正しく見つけ出し、「ピピッ!」と音を鳴らします(真陽性)。
    • 干し草(疾患なしの9,900人): しかし、この探知機は完璧ではなく、5%の確率で「ただの藁」にも反応してしまいます(偽陽性率 = 100% – 特異度95%)。干し草の山はとてつもなく大きいので、9,900人 × 5% = 495回 も「ピピッ!」と誤報を鳴らしてしまうのです(偽陽性)。
  3. 「陽性」の内訳を調べる さて、あなたの手元には、探知機が反応した 99回(真陽性) + 495回(偽陽性) = 594回 の「ピピッ!」という信号があります。この594回の陽性反応のうち、本当に「針」だったのは何回でしょうか?
    …そう、たったの99回です。
  4. 陽性的中率を計算する したがって、検査で「陽性」と判定された人が、本当に疾患を持つ確率(陽性的中率)は、 \[ P(D|T+) = \frac{\text{真陽性の人数}}{\text{陽性全体の人数}} = \frac{99}{594} \approx 0.1667 \] 驚くべきことに、約16.7%という結果になりました。

なぜPPVはこれほど低くなったのか? ― 「事前確率」と「特異度」の相互作用

この直感に反する結果は、事前確率(有病率)の低さと、特異度が100%ではないという、2つの要因が掛け合わさることで生まれる「数学的な罠」です。

  1. 「事前確率(有病率)」が低いことの影響 これが最も根本的な理由です。そもそも母集団に占める疾患を持つ人の割合が極端に少ない(今回の例では10,000人中たった100人)ため、絶対数で考えると「疾患を持たない人」が圧倒的多数を占めます。
    • 疾患ありの母集団: 100人
    • 疾患なしの母集団: 9,900人
    この99倍もの人数の差が、全ての計算の土台となります。
  2. 「特異度」が100%ではないことの影響 この特異度が決定的に重要です。感度99%の検査は「病気の人を見つける」力は非常に高いですが、特異度95%ということは「病気でない人を、間違って陽性にしてしまう確率(偽陽性率)」が5%あることを意味します。 この5%という数字は、一見すると十分に小さいように思えます。しかし、この「小さな確率」が、先ほどの圧倒的多数である「疾患なし」の集団(9,900人)に適用されると、何が起こるでしょうか。
    • 真陽性の人数: 100人 × 99% (感度) = 99人
    • 偽陽性の人数: 9,900人 × 5% (偽陽性率) = 495人
    ご覧の通り、「陽性」と判定された人々の中では、本当に疾患を持つ人(99人)よりも、間違って陽性と判定された健康な人(495人)の方が、実に5倍も多くなってしまうのです。

この現象は、ベースレートの誤謬 (Base Rate Fallacy) として知られており、私たちが日常診療で常に意識すべき、非常に重要な統計的な罠です。

この直感的な人数での計算は、実はベイズの定理と全く同じことをしています。分母の\(P(T+)\)は全陽性者の割合(5.94%)、分子の\(P(T+|D)P(D)\)は真陽性者の割合(0.99%)に対応しており、ベイズの定理は、この人数ベースの思考をエレガントな数式で一般化したものなのです。

まとめ:AIと人間のための「推論の文法」

  • 条件付き確率は、ある情報が与えられたときに、確率の評価がどう変わるかを記述します。
  • ベイズの定理は、この条件付き確率の関係を逆転させ、「証拠」から「原因」の確率を合理的に推論するための、エレガントで強力な数式です。
  • この定理は、事前確率(元の信念)が、尤度(証拠のもっともらしさ)によって、事後確率(更新された信念)へと更新されるプロセスを定式化しています。

ベイズの定理は、AIが診断支援システムを構築する際の数学的な背骨であると同時に、私たち医療従事者がエビデンスに基づいて臨床推論を行う際の思考プロセスそのものを映し出す鏡でもあります。 この「推論の文法」を理解することは、AIの出力を正しく解釈し、その限界を見極める上で不可欠なスキルとなるでしょう。

次回は、「M0.4.3: 様々な確率分布」について学び、AIがデータが従うパターンをどのように数学的な「型」としてモデル化しているのかを探求します。


参考文献

  1. Bayes T, Price R. An Essay towards solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society of London. 1763;53:370-418.
  2. Gigerenzer G, Hoffrage U. How to improve Bayesian reasoning without instruction: frequency formats. Psychol Rev. 1995;102(4):684-704.
  3. Goodfellow I, Bengio Y, Courville A. Deep Learning. MIT Press; 2016. Chapter 3.
  4. Rajkomar A, Dean J, Kohane I. Machine Learning in Medicine. N Engl J Med. 2019;380(14):1347-1358.

ご利用規約(免責事項)

当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条(目的と情報の性質)

  1. 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
  2. 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
  3. 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
  4. 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条(医療行為における責任)

  1. 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
  2. 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
  3. 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条(情報の正確性・完全性・有用性)

  1. 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
  2. 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条(知的財産権)

  1. 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
  2. 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条(免責事項)

  1. 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
  2. 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
  3. 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
  4. 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。


For J³, may joy follow you.

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

医師・医学博士・AI研究者・連続起業家
元厚生労働省幹部・ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士(経済)
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長(医療情報・救急災害・国際展開等)を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療関係者向け医療AIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

目次