[Medical Data Science 100 : S14] 因果推論を可能にする3つの約束:観察データから「本当の効果」を見抜くための必須条件

因果推論を支える3つの大原則

医療の観察データから信頼できる結論(因果)を導き出すには、「交換可能性」「ポジティビティ」「整合性」という3つの重要な前提(お約束)を満たす必要があります。これらが分析の土台となり、結果の信頼性を保証します。 [3]

↔️ 約束 1:交換可能性
比較の「公平性」を保つ

介入の有無以外の背景(年齢、重症度など)がグループ間で同質であること。純粋な介入効果を測るための大前提です。RCTの「ランダム化」はこの状態を理想的に作り出します。

🔍 約束 2:ポジティビティ
比較対象が「いる」こと

どのような患者群(例:高齢、男性など)にも、介入された人とされなかった人の両方が存在すること。 [2] 「80歳以上で手術を受けた人」が0人では、その効果をデータから知ることはできません。

📝 約束 3:整合性 (SUTVA)
「介入」の定義は明確か?

分析で使う「介入」の定義が、誰にとっても同じ具体的な行為であること。「降圧薬」ではなく「A薬10mg/日」のように明確に定義し、他人の介入が影響しない(干渉がない)ことが必要です。

⚠️ 約束が破られたら?
分析結果の信頼性が失われる

交換可能性がないと…
→ 結果が歪む (残留交絡)
ポジティビティがないと…
→ 比較不能になる
整合性がないと…
→ 解釈不能になる

目次

イントロダクション:なぜ、私たちは「因果」を知りたいのか?

「もし、あの患者さんにA薬ではなくB薬を使っていたら、予後はどう変わっていただろうか?」
「新しく導入した周術期ケアプランは、本当に在院日数の短縮に貢献したのだろうか?」

医療の現場に立つ私たちは、意識するしないにかかわらず、日々このような「もしも」の問い、すなわち因果関係についての問いと向き合っています。私たちの下す一つひとつの決断が、患者さんの未来に直接的な影響を与えるからです。この因果の問いに、できる限り確信を持って答えるための科学的な羅針盤が、統計学であり、因果推論なのです。


「理想の実験」としてのランダム化比較試験(RCT)とその限界

この因果関係を検証するための最も信頼性の高い方法、いわば科学的な「ゴールドスタンダード」として知られているのが、皆さんご存知のランダム化比較試験(RCT)です。

なぜRCTはそれほどまでに信頼されるのでしょうか? それは、「ランダム化」という魔法のようなプロセスによって、比較したい介入(例えば新しい治療法)以外のあらゆる背景因子(年齢、性別、基礎疾患の有無、重症度など)が、介入を受けるグループと受けないグループの間で理論上、均等に分布するからです。これにより、「リンゴとミカン」のような背景の異なる集団を比べるのではなく、純粋に介入の効果だけを比較することが可能になります。

しかし、この理想的な実験デザインは、残念ながら万能ではありません。医学雑誌『NEJM』に掲載されたBothwellら (2016) のレビューでも詳述されているように、RCTにはいくつかの越えがたい壁が存在します。

  • 倫理的な壁: 喫煙と肺がんの因果関係を調べるために、人をランダムに喫煙群と非喫煙群に割り付けることは許されませんよね。
  • 実務的な壁: 希少疾患を対象とした大規模な研究や、何十年にもわたるような長期的な追跡は、莫大なコストと時間がかかり、現実的ではありません。
  • 一般化可能性の壁: RCTの参加者は、厳格な選択基準・除外基準を満たした、比較的均質な集団になりがちです。その結果が、多様な合併症や背景を持つ日常臨床の患者さん(リアルワールド)にそのまま当てはまるとは限らない、という問題も指摘されています。

なぜ、私たちは「因果」を知りたいのか?
医療現場は「もしも」の問いに満ちている。その答えを探る科学的な羅針盤が因果推論です。
💊
「もし、A薬ではなくB薬を使っていたら、予後はどう変わいただろうか?」
🏥
「新しいケアプランは、本当に在院日数の短縮に貢献したのだろうか?」
「理想の実験」としてのランダム化比較試験(RCT) 「ランダム化」により、背景が異なる集団から純粋な効果を比較できるグループを作る 背景の異なる患者集団 🎲 ランダム化 背景が均等な2つのグループ
介入グループ
(新しい治療法)
対照グループ
(標準治療)
🆚 しかし、この理想には「越えがたい3つの壁」が存在する 🚫 倫理的な壁
有害な介入(例: 喫煙)をランダムに割り付けることは許されない。
実務的な壁
希少疾患や長期追跡の研究は、莫大なコストと時間がかかり、現実的ではない。
🎯 一般化可能性の壁
均質な研究参加者の結果が、多様な日常臨床の患者(リアルワールド)に当てはまるとは限らない。

新たな希望の光:リアルワールドデータ(RWD)の可能性

では、私たちは手をこまねいているしかないのでしょうか? いいえ、そんなことはありません。私たちの目の前には、新たな可能性の海が広がっています。それが、日々の診療で蓄積され続けている電子カルテレセプトデータDPCデータといった、いわゆるリアルワールドデータ(RWD)です。

これらのデータは、RCTのように管理された環境で集められたものではないため、そのままでは様々なバイアス(偏り)を含んでいます。しかし、その規模と多様性は、RCTをはるかに凌駕するポテンシャルを秘めているのです。

この「生の原石」とも言える観察データから、私たちはどうすればバイアスという泥を洗い落とし、信頼できる因果関係という輝きを見つけ出すことができるのでしょうか?

幸いなことに、私たちは全くの素手でこの課題に挑むわけではありません。Cochraneライブラリで公開されたAnglemyerら (2014) のシステマティック・レビューでは、適切な統計手法を用いてバイアスを慎重に調整すれば、多くの観察研究がRCTと非常に近い結論を導き出せることが示されています。

その「適切な統計手法」の根幹をなし、すべての分析の土台となるのが、これからお話しする『3つの大事な約束』、すなわち因果推論を可能にするための基本的な仮定なのです。さあ、一緒にその扉を開けてみましょう。


約束1:交換可能性(Exchangeability)- 「もしも」の世界を比べるための大前提

さて、いよいよ最初のお約束、「交換可能性(Exchangeability)」です。これは、因果推論のすべての土台となる、最も重要で、そして最も直感的なアイデアかもしれません。

因果推論の鍵『交換可能性』とは? 正しい比較をするための大前提 問題点:リンゴとミカンを比べてしまう
これでは介入の効果か、元々の差か分からない
介入グループ (若く健康) 🏃‍💪 💊 対照グループ (高齢・持病あり) 👴🤕
理想解:ランダム化で「交換可能」にする 背景が異なる集団 🏃‍💪👴🤕 ランダム割付 🎲 介入グループ 🏃‍🤕 = 対照グループ 💪👴
背景が均等に分布し、純粋な効果を比較できる! (リンゴとリンゴ)
現実解:「条件」で揃えて交換可能にする (観察研究) 元の介入グループ 🏃‍💪👴 元の対照グループ 🏃‍🤕👴 「背景X」で抽出 🔍 「高齢者」という条件 抽出後の介入群 👴 = 抽出後の対照群 👴
同じ条件の人だけを比べ、交換可能性を擬似的に満たす

🤔 なぜ「交換」できないと困るのか?:リンゴとミカンの比較

本題に入る前に、少し考えてみてください。観察研究でよくあるのは、「新しい介入を受けた患者グループは、受けなかったグループに比べて予後が良かった」というデータです。しかし、この結果を手放しで喜べるでしょうか?

もしかしたら、新しい介入を受けたのは、もともと若くて健康状態の良い患者さんばかりで、受けなかったのは高齢で多くの合併症を抱える患者さんだったのかもしれません。もしそうなら、予後の差は介入の効果ではなく、単に比較しているグループの性質が最初から全く違った(=リンゴとミカンを比べていた)だけかもしれませんよね。

これでは、介入の真の効果は全く分かりません。因果推論の第一歩は、この「リンゴとミカン」問題を乗り越え、比較可能な「リンゴとリンゴ」を見つけ出すことなのです。そのための合言葉が「交換可能性」です。


👬 双子のたとえ話で、本質を掴む

では、交換可能性とは何でしょうか。先ほどの双子のたとえ話を、もう少し深掘りしてみましょう。

ここに、遺伝子から生活習慣まで、健康に関するあらゆる背景(共変量)が全く同じ、完璧な双子のAさんとBさんがいます。彼らは、いわば互いの「もしも」の世界を体現する存在です。

  • Aさん: 新しい健康法を試す(介入 \(T=1\))
  • Bさん: 何もしない(介入 \(T=0\))

1年後、Aさんの方がBさんより健康だったとします。この時、私たちは自信をもって「その差は健康法の効果だ」と言えます。なぜなら、もし介入を受けたのがBさんで、何もしなかったのがAさんだったとしても、全く同じ結果になっただろうと強く期待できるからです。AさんとBさんを「交換」しても結果の期待値は変わらない。これが、交換可能性のど真ん中のアイデアです。

要するに、「介入を受けたグループ」と「受けなかったグループ」が、介入の有無”以外”の点で完全に同質であり、あたかも一つの集団をランダムに2つに分けたかのようにみなせる状態を指します。


📈 数式で見る交換可能性:ポテンシャルアウトカムの視点

この直感的なアイデアを、もう少しだけ専門的な言葉で表現してみましょう。ここで登場するのが「ポテンシャルアウトカム(潜在的結果)」という考え方です。これは、「もしも」の世界の結果を指します。

  • \(Y_i(1)\): 患者 \(i\) さんが、もし介入を受けたらどうなっていたか、という結果。
  • \(Y_i(0)\): 患者 \(i\) さんが、もし介入を受けなかったらどうなっていたか、という結果。

現実の世界では、一人の患者さんについて両方を同時に観測することはできません(介入を受けたら、受けなかった世界は観測できない)。しかし、因果推論では、この2つの「もしも」が各個人に潜在的に存在すると考えます。

この言葉を使うと、交換可能性は次のように定義されます。

\[ (Y(1), Y(0)) \perp T \]

この数式、アレルギーが出そうになるかもしれませんが、分解すれば難しくありません。

  • \((Y(1), Y(0))\): ある人の「ポテンシャルアウトカムのペア」。その人が持つ、介入された場合とされなかった場合の両方の運命です。
  • \(\perp\): 「独立である」ことを示す記号です。サイコロの1回目と2回目の目のように、「互いに関係がない」という意味です。
  • \(T\): 実際に介入を受けたか (\(T=1\))、受けなかったか (\(T=0\)) という事実。

つまり、この数式全体が言っているのは、「ある人の潜在的な運命(介入を受けたらどうなるか、受けなかったらどうなるか)は、その人が実際にどちらのグループに割り振られたかという事実とは無関係ですよ」ということです。言い換えれば、グループの割り振りが、患者さんのもともとの予後(良さ・悪さ)に左右されていない状態を指します。


「交換可能」な状態をどうやって作るか?

🥇 理想的な解決策:ランダム化比較試験(RCT)

では、どうすればこの「交換可能」な状態を作り出せるのでしょうか。その最も強力な答えがランダム化です。RCTでは、コイントスのようにランダムに参加者をグループ分けすることで、既知・未知のあらゆる背景因子(交絡因子)を、確率的に両グループに均等にばらまきます。これにより、先ほどの数式 \((Y(1), Y(0)) \perp T\) が期待値として成立し、交換可能性が保証されるのです。

💡 現実的な挑戦:観察研究と「条件付き交換可能性」

しかし、私たちが向き合う観察研究では、ランダム化は行われません。例えば、新しい心不全治療薬の観察研究を考えてみましょう。実臨床では、より重症な患者さんほど、新しい治療薬が選択される傾向があるかもしれません(これを交絡バイアス、特にindication biasと呼びます)。

この場合、治療薬を使ったグループは、使わなかったグループよりもともと重症、つまり「交換可能ではない」状態からスタートしています。これでは、単純比較はできません。

そこで登場するのが「条件付き交換可能性(Conditional Exchangeability)」という、観察研究における現実的な目標です。

これは、「リンゴとミカンを全部まとめて比べるのは無理でも、特定の条件でスライスして、その中だけで比べれば、リンゴとリンゴの比較ができるんじゃないか?」という考え方です。

例えば、「70代男性で、LVEFが40%未満、かつ基礎疾患に糖尿病を持つ患者さん」という非常に細かいグループに限定して見てみましょう。その小さなグループの中であれば、新薬を使った患者さんと使わなかった患者さんは、ほぼ交換可能(背景が似通っている)とみなせるのではないか、と仮定するわけです。

これを数式で表現したものが以下になります。

\[ (Y(1), Y(0)) \perp T | X \]

先ほどの式に「\(| X\)」が加わりました。

  • \(X\): 私たちが測定した背景情報(年齢、性別、重症度など)の集まりです。
  • \(|\): 「〜という条件のもとで(given / conditional on)」という意味の記号です。

つまり、この式は「背景情報 \(X\) が同じ患者さんたちの中では、ポテンシャルアウトカムと実際の介入の割り当ては独立である」と読んでください。

この「条件付き交換可能性」という大仮定を信じることによって、私たちは観察データから因果に迫る道筋を得ることができます。そして、この後の講座で学ぶ回帰分析傾向スコア・マッチングといった手法は、まさにこの仮定を達成するために、背景情報 \(X\) を統計的に調整するための強力なツールなのです。

約束2:ポジティビティ(Positivity)- 「比較対象」がちゃんといることの保証

1つ目の約束「交換可能性」で、私たちは「リンゴとリンゴ」を比べるための理論的な舞台設定を学びました。背景因子 \(X\) でデータを細かくスライスすれば、その中では公平な比較ができるはずだ、と。

しかし、ここで一つ、とても現実的な問題が立ちふさがります。その「スライスしたデータの中に、ちゃんと比較できる相手がいますか?」という問題です。これを保証してくれるのが、2つ目の約束である「ポジティビティ(Positivity)」、あるいは「正値性」です。

約束2:ポジティビティ (Positivity) 「比較対象」がちゃんといることの保証 ポジティビティがない状態 (比較不能)
データを層別した時、片方のグループしか存在しない
80歳以上の層 👴 👴 👴 全員が内科治療 (⚪) を選択 手術を受けた人: 0% 50歳未満の層 🏃‍ 🏃‍ 🏃‍ 全員が外科手術 (💊) を選択 手術を受けた人: 100%
データの「重なり」がない!
結論:80歳での手術効果は、データがなく誰も分からない
ポジティビティがある状態 (比較可能)
どの層にも、介入あり・なしの両方が混在している
80歳以上の層 👴💊 👴⚪ 手術と内科治療が混在 0% < 手術確率 < 100% 50歳未満の層 🏃‍💊 🏃‍⚪ 手術と内科治療が混在 0% < 手術確率 < 100%
データの「重なり」がある!
結論:各層で公平な比較ができ、分析が破綻しない

🤔 比較対象が「いない」という問題

言葉だけだと少し分かりにくいので、具体的な臨床シナリオで考えてみましょう。ある新しい外科手術の効果を、観察データで検証したいとします。データを分析していくと、ある事実に気づきました。

  • 80歳以上の患者さん: 全員が、身体への負担が少ない内科的治療を選択していた。(手術を受けた人が 0人
  • 50歳未満の患者さん: 全員が、根治を目指せる新しい外科手術を選択していた。(内科的治療を受けた人が 0人

さて、この状況で、私たちは「80歳以上の患者さんにおける、この新しい外科手術の効果は?」という問いに答えられるでしょうか?

答えは、明確に「ノー」です。なぜなら、比較するためのデータが存在しないからです。80歳以上で手術を受けた患者さんが一人もいないので、「もし80歳以上の患者さんが手術を受けていたら…」という世界を、データから知ることは不可能です。逆もまた然りです。

これがまさにポジティビティの仮定が破られている状況です。前の章で学んだ「条件付き交換可能性」を達成するために、データを年齢でスライスしようとしても、そのスライスの中に比較すべき両方のグループ(介入群と非介入群)が存在しないのです。


📊 ポジティビティの核心:すべてのグループに「重なり」があること

ポジティビティの仮定が要求するのは、非常にシンプルです。

「どのような背景(年齢、性別、重症度など)を持つ患者さんの集団においても、介入を受ける確率と、受けない確率が、どちらもゼロではない」

言い換えるなら、私たちがデータをどんな因子でスライスしたとしても、そのすべてのスライスの中に、介入を受けた人と受けなかった人が、必ず混在している状態を指します。このデータの「重なり(Overlap)」があるからこそ、私たちは初めて比較のスタートラインに立てるのです。

この考え方を、傾向スコア(ある背景 \(X\) を持つ人が介入 \(T=1\) を受ける確率)を使って数式で表現すると、以下のようになります。

\[ 0 < P(T=1|X=x) < 1 \quad \text{for all } x \]

この数式を分解してみましょう。

  • \(P(T=1|X=x)\): ある背景 \(X=x\) を持つ人が、介入を受ける確率(傾向スコア)。
  • \(> 0\): その確率がゼロであってはならない、という意味です。もしゼロなら、その背景を持つ人は「誰も」介入を受けないことになります。
  • \(< 1\): その確率が1(100%)であってもならない、という意味です。もし1なら、その背景を持つ人は「全員」が介入を受けることになります。

この両方の条件が満たされて初めて、すべての \(x\) の組み合わせにおいて、比較対象が存在すると言えるわけです。


なぜポジティビティはこれほど重要なのか?

交換可能性は「理論上の仮定」であり、データから証明することはできませんでした。しかし、ポジティビティはデータから直接チェックすることができ、かつ、これが満たされないと多くの統計手法が破綻してしまう、非常に実践的な仮定です。

  • 統計モデルが計算不能になる: 例えば、後ほど学ぶ逆確率重み付け法(IPTW)という手法では、傾向スコアの逆数(1 / 傾向スコア)を「重み」として利用します。もし、あるグループの傾向スコアが限りなく0や1に近いとどうなるでしょう?「1 / 0.0001」や「1 / 0.9999」の逆数を計算すると、重みが天文学的な数値になってしまい、結果が極めて不安定、あるいは計算不能に陥ります。
  • 一般化の範囲を決める: ポジティビティのチェックは、私たちが得た因果効果の結論を「誰に」対して言えるのか、その適用範囲を教えてくれます。もし80歳以上の患者さんでポジティビティが満たされないのであれば、私たちの研究結論は「本研究の因果効果は、80歳未満の患者集団において推定されたものである」と限定する必要があるのです。

このように、ポジティビティは、私たちが観察研究という不確実なデータの大海を航海する上で、分析が座礁しないように導いてくれる、いわば「海図」のような役割を果たしてくれる、極めて重要なチェックポイントなのです。


約束3:整合性(Consistency)とSUTVA – 介入の定義は明確か?

さて、いよいよ最後の約束です。交換可能性で「比較可能なグループ」を準備し、ポジティビビティで「そのグループ内に比較対象がいること」を確認しました。最後のピースは、「そもそも、私たちが比較している『介入』とは、一体何なのか?」を明確にする約束、「整合性(Consistency)」です。

一見すると当たり前に聞こえるかもしれませんが、実はこの仮定は、観察研究の信頼性を左右する非常に重要な「縁の下の力持ち」なのです。

約束3:整合性 (Consistency) 「もしも」と「現実」をつなぐ橋 整合性が成立する状態 (明確な介入) もしも… (介入 T=1) 「薬剤Aを10mg/日 内服する」 💊 Y(1) 現実世界 (T=1を観測) 患者さんが実際に薬剤Aを内服 🧑 → 💊 Y =
介入の定義が明確なため、「もしもの結果」と「現実の結果」が一致する
整合性が不成立な状態 (曖昧な介入) もしも… (介入 T=1) 「運動療法を行う」 Y(1) Aさん: 高強度筋トレ 🏋️ YA Bさん: 軽い散歩 🚶 YB
同じ介入ラベル (T=1) でも実態が異なり、結果が何を意味するのか解釈不能になる
SUTVAと「レシピ」のたとえ 明確なレシピ 📜✅ (薬剤A 10mg) 誰が作っても同じ料理 🥘 曖昧なレシピ 📜❓ (運動療法) 人によって違う料理 🍲🥗

🤔「介入」の定義が曖昧だと何が問題か?

「降圧薬の効果」を電子カルテデータで調べたい、としましょう。データには「降圧薬あり」群の患者さんがたくさんいます。しかし、その中身をよく見てみると…

  • Aさんは、A薬(ARB)を標準用量で服用。
  • Bさんは、B薬(Ca拮抗薬)を低用量で服用し、しばしば飲み忘れている。
  • Cさんは、A薬と利尿薬を併用している。
  • Dさんは、ジェネリックのA薬を服用している。

これらすべてが、データ上では同じ「降圧薬あり」という一つの変数にまとめられていたら、どうなるでしょうか? たとえ解析結果として「降圧薬あり群は、なし群に比べて血圧が平均5mmHg低下した」と出たとしても、この「5mmHg」という数字が一体「何の」効果なのか、誰にも説明できません。ARBの効果なのか、Ca拮抗薬の効果なのか、はたまた服薬アドヒアランスが良いことの効果なのか、全く解釈不能になってしまいます。

これが、整合性が担保されていない状況です。私たちがデータ上で定義した「介入」と、患者さんが実際に受けた「具体的な医療行為」との間に、明確な対応関係が失われているのです。


🔗 現実と「もしも」の世界を繋ぐ、整合性の役割

整合性の仮定が言っているのは、この曖昧さをなくし、現実世界で観測された事実と、私たちが理論的に考えている「もしも」の世界を、しっかりと結びつけることです。

正式な定義はこうです。
「ある個人において、実際に観測された結果は、その人が実際に受けた介入レベルにおけるポテンシャルアウトカムと等しい」

数式で書くと、以下のようになります。

\[ \text{If } T_i = t, \text{then } Y_i = Y_i(t) \]

この式の意味を紐解きましょう。

  • \(T_i = t\): 患者 \(i\) さんが、実際に受けた介入が \(t\) であった、という事実。(例:A薬を10mg/日で服用)
  • \(Y_i\): その結果として、私たちが実際に観測したアウトカム。(例:収縮期血圧130mmHg)
  • \(Y_i(t)\): 患者 \(i\) さんの「もしも介入 \(t\) を受けた場合の」ポテンシャルアウトカム。

つまりこの式は、「私たちが観測した現実の結果(\(Y_i\))は、『もし、A薬を10mg/日で服用したら』というポテンシャルアウトカム(\(Y_i(t)\))と、ちゃんと一致していますよ」ということを宣言しています。この宣言は、介入 \(t\) の内容が誰にとっても同じ、明確で具体的な一つの行為でなければ、成り立ちません。


より大きな枠組み:SUTVA(安定な単位処置効果の仮定)

この「整合性」は、実はSUTVA(Stable Unit Treatment Value Assumption)という、より大きな枠組みの一部として理解すると、さらにその重要性がクリアになります。SUTVAは、因果効果の推定値が「安定」した意味を持つために必要な、隠れた2つの前提をまとめたものです。

1. 介入のバージョンは一つだけ(No Multiple Versions of Treatment)

これは、まさにこれまで説明してきた整合性の核となる部分です。私たちが「介入 T=1」と定義したものが、誰にとっても同じ内容でなければなりません。「運動療法」や「栄養指導」といった介入は、そのままだとこの仮定を満たさない可能性が高いため、「理学療法士による週2回・各60分の筋力トレーニングプログラム」のように、可能な限り具体的に定義する必要があります。

2. 他人からの干渉はない(No Interference)

SUTVAのもう一つの重要な柱が、「ある人の介入が、他の人の結果に影響を与えない」という仮定です。

これはどういうことでしょうか? 例えば、感染症ワクチンの効果を考えてみましょう。私がワクチンを接種する(介入を受ける)と、私自身が感染しにくくなるだけでなく、周囲の人にウイルスをうつす可能性も低くなります。つまり、私の介入が、他の人(介入を受けていない人)の結果にまで影響を与えてしまうのです(集団免疫効果)。このような「干渉」が存在する場合、個人のデータだけを見ていても、介入の真の効果を正しく評価することはできません。

臨床研究の文脈では、例えばこんな状況が考えられます。

  • 干渉がありうる例: 同じ病棟の患者さんを対象に、「新しい食事療法」の効果を検証する。食事療法を受けた患者さんが、受けていない患者さんに「この食事がいいらしいよ」と情報を共有し、行動が変容してしまうかもしれません。
  • 干渉がなさそうな例: スタチンの内服効果。私がスタチンを飲んでも、隣のベッドの患者さんのコレステロール値に直接影響を与えることはありません。

このように、私たちが因果推論を行う際には、分析対象の「単位(Unit)」が互いに独立しているか、常に意識する必要があるのです。

これら3つの約束(交換可能性、ポジティビティ、整合性/SUTVA)は、観察研究から信頼できる因果関係を導き出すための、いわば三位一体の土台です。どれか一つでも欠けてしまうと、その上に立てた結論は、砂上の楼閣のように崩れ去ってしまう危険性をはらんでいるのです。

もし、この約束が破られたら?:因果推論の「落とし穴」

ここまで、因果推論を支える3つの重要な約束について学んできました。これらは、私たちの分析が正しい航路を進むための、いわば「海図」です。しかし、もしこの海図に描かれたルールを無視し、仮定が破られたまま航海を続けると、私たちの分析の船はどのような「座礁」の仕方をするのでしょうか?

それぞれの仮定が破られた場合に何が起こるのか、具体的なシナリオを通じて見ていきましょう。これは、失敗から学ぶ、非常に重要なプロセスです。

もし、この約束が破られたら? 因果推論の3つの「落とし穴」 1 交換可能性が不成立 → 残留交絡という「見えない霧」 🌫️ 結果が歪む (バイアス) 例:「最新シューズの効果」のはずが、ランナーの能力差を見てしまう グループA (最新シューズ 👟) 🏃‍💨 (トップ選手) グループB (普通の靴 👟) 🚶 (市民ランナー) 交絡 タイムが良い タイムが悪い 2 ポジティビティが不成立 → 比較不能な「データの空白地帯」 🗺️❓ 比較不能になる 例:「90歳以上の手術効果」を知りたいが、手術を受けた人がいない 👵👴 90歳以上の患者層 内科治療 (⚪): 全員 外科手術 (🔪): 0人 3 整合性 / SUTVAが不成立 → 解釈不能な「カオスな結果」 🤯❓ 解釈不能になる 【整合性の不成立】 「外食」の定義が曖昧 🍔 🍽️ (何の食事の効果?) 【非干渉の不成立】 介入が他人に波及 💡 🧑 🗣️ 🧑 (純粋な効果が不明)

1. 交換可能性が不成立 → 残留交絡という「見えない霧」

  • 何が起こるか?: 介入群と非介入群の間に、測定されていない、あるいは調整しきれていない系統的な差(残留交絡)が残ってしまいます。
  • たとえるなら…: 「最新のランニングシューズの効果」を検証したいとします。最新シューズを履いたグループAと、普通のシューズのグループBを比較したところ、Aの方がタイムが良かったとします。しかし、もしAのメンバーがもともとトップアスリートで、Bが市民ランナーだったらどうでしょう?そのタイムの差は、本当にシューズの効果でしょうか?それとも、ランナー自身の能力の差でしょうか?おそらく両方が混ざってしまっていますよね。これが交絡です。グループが交換可能ではないため、介入の純粋な効果を取り出せなくなってしまうのです。
  • 臨床現場では?: 「ある新規抗がん剤が、観察研究では生存率を悪化させた」という衝撃的なデータが出たとします。しかし、よくよく背景を見ると、その新規薬剤は、既存治療が効かなくなった、最も重篤な患者さんたちに最終手段として使われていました(Confounding by Indication)。この場合、生存率の悪化という結果は、薬剤の有害事象ではなく、もともとの患者さんの重症度に起因する可能性が非常に高いと言えます。交換可能性が成立していないため、効果の推定値が真実から大きく歪んでしまう(バイアスがかかる)のです。

2. ポジティビティが不成立 → 比較不能という「データの空白地帯」

  • 何が起こるか?: 特定の背景を持つ患者集団において、介入群または非介入群のどちらか一方のデータしか存在しない「データの空白地帯」が生まれます。
  • たとえるなら…: 「ある地域の標高と気温の関係」を調べたいとします。しかし、手元のデータはなぜか「標高500m未満の地点」と「標高3000m以上の高山」のものしかありませんでした。このデータから、「標高1500m地点の気温」を正確に推定することはできるでしょうか?できませんよね。そのエリアのデータがすっぽり抜け落ちているため、比較・推定のしようがないのです。
  • 臨床現場では?: 「超高齢者(90歳以上)における、ある侵襲的な外科手術の効果」を知りたいとします。しかし、病院のデータを確認したところ、倫理的な観点やリスク評価から、90歳以上の患者さんでその手術を受けた人は過去に一人もいませんでした。この場合、私たちは「90歳以上の患者における手術の効果」を、このデータから推定することは原理的に不可能です。ポジティビティが成立していないため、因果効果を主張できる範囲が限定され、問いそのものに答えられなくなってしまうのです。

3. 整合性 / SUTVAが不成立 → 解釈不能という「カオスな結果」

この仮定は2つの側面(整合性と非干渉)から破られる可能性があります。

  • 【整合性の不成立】
    • 何が起こるか?: 「介入」という一つの言葉が、実際には多種多様な異なる行為を指してしまっている状態。
    • たとえるなら…: 「外食の効果」を調査したとします。「外食あり」群には、高級レストランでコース料理を食べた人も、ファストフード店でハンバーガーを食べた人も、両方含まれています。この状態で「外食をすると、健康指標がXXだけ変化する」という平均値を計算しても、その数字に一体何の意味があるでしょうか?結果の解釈が全く不可能になります。
  • 【非干渉の不成立】
    • 何が起こるか?: ある人の介入が、別の人の結果に影響を与えてしまう「介入の波及効果」。
    • たとえるなら…: クラスの半分にだけ「新しい画期的な勉強法」を教えたとします。しかし、その方法を教わった生徒たちが、教わっていない友人たちに「このやり方、すごくいいよ!」と教えてしまったらどうでしょう?教わらなかったはずの生徒たちの成績まで上がってしまい、真の「勉強法の効果」を測ることができなくなります
  • 臨床現場では?: 「病棟での新しい手指衛生キャンペーンの効果」を病棟単位で比較しようとしたとします。しかし、キャンペーンを実施したA病棟のスタッフが、B病棟のスタッフと交流し、その知識や意識が伝播してしまったら、「非干渉」の仮定は破綻します。結果として、キャンペーンの効果を本来より小さく見積もってしまうかもしれません。

このように、3つの約束はそれぞれが、信頼できる結論を得るための防波堤として、異なる種類の「分析の失敗」から私たちを守ってくれているのです。

因果推論における仮定違反の影響 仮定が破れると… 解析結果はどうなる? ⚠️ 交換可能性が不成立 交絡が残り、結果が歪む(バイアス) 🚫 ポジティビティが不成立 特定集団で効果を計算できず、 比較不能になる 🔗 整合性 / SUTVAが 不成立 「何の」効果か分からず、 解釈不能になる

まとめ:データを超えた「知」を信じる勇気

さて、私たちはここまで、観察研究から因果関係という宝を探し出すための、3つの重要な「約束」について学んできました。

  • 交換可能性: 「リンゴとリンゴ」を比べるための理論的な舞台設定。
  • ポジティビティ: 舞台の上に、比較すべき役者がちゃんと揃っているかの確認。
  • 整合性/SUTVA: 役者が演じている「介入」の脚本が、誰にとっても同じものであるという保証。

これらは、いわば因果推論という建物を支える3本の柱です。そして、ここでお伝えしなければならない最も重要な、そして少しだけ哲学的な事実があります。


証明できないからこそ、「専門知」が光る

著名な研究者であるJudea Pearl (2009) や Miguel Hernán & Robins (2020) が繰り返し強調するように、これらの仮定、特に交換可能性は、データだけを使って数学的に「証明する」ことは絶対にできません。なぜなら、交換可能性は「もし介入を受けていなかったら」という反実仮想(Counterfactual)の世界についての仮定だからです。私たちは現実世界で起きた片方の事実しか観測できず、決して「もしも」の世界をデータとして得ることはできません。

では、私たちは何を頼りにすれば良いのでしょうか? それこそが、この記事を読んでくださっている皆さん自身の専門知識(ドメイン知識)なのです。

  • 「この疾患では、年齢と重症度がアウトカムにも、治療選択にも影響するから、これらは絶対に調整すべき交絡因子だ」
  • 「臨床現場の感覚として、この背景を持つ患者さんにA治療が行われることもB治療が行われることも、両方あり得るはずだ」
  • 「カルテに『リハビリテーション』と書かれていても、実際には術後1日目の歩行訓練から、週3回の本格的な機能回復訓練まで、全く中身が違うことを私は知っている」

統計モデルは、私たちが投入したデータと変数から、機械的に数値を弾き出すことしかできません。その土台となる仮定が妥当かどうかを判断し、分析に魂を吹き込むことができるのは、現場を知る人間の「知」だけなのです。データサイエンスと臨床知、その両輪が揃って初めて、因果推論は意味を持ちます。


強力な分析手法を学ぶ、その前に

これらの約束事がなぜこれほどまでに重要かというと、これらが満たされているという信頼の上に、私たちがこれから学んでいく、あらゆる強力な統計手法が成り立っているからです。

回帰分析、傾向スコア、差分の差分法、操作変数法… これらはすべて、交絡というバイアスを取り除き、因果効果の推定値を計算するための洗練されたツールです。しかし、それはあくまで「3つの約束が守られている」という盤石な土台があって初めて、その真価を発揮します。

土台がグラグラなまま、どんなに高性能なクレーン(分析手法)を使っても、建てられるのは傾いた家(誤った結論)だけです。統計ソフトのボタンをクリックする前に、一度立ち止まってこれらの仮定について深く思考すること。それこそが、単なるデータ解析者と、信頼に足る因果推論の実践者を分ける、決定的な違いと言えるでしょう。

観察データという宝の山から、患者さんの未来をより良くするための真の知見を引き出す旅は、まだ始まったばかりです。この最も重要で、少し難解な理論の山を越えた今、皆さんはその宝を掘り当てるための「地図」を手に入れました。

次回以降、この地図を手に、交絡を調整するための具体的な道具の使い方を学んでいきましょう。

参考文献

  • Anglemyer, A., Horvath, H.T., & Bero, L. (2014). Healthcare outcomes assessed with observational study designs compared with RCTs. Cochrane Database of Systematic Reviews, (4), MR000034.
  • Bothwell, L.E., et al. (2016). Randomized controlled trials: history, conduct, and ethics. NEJM, 375(6), 576–585.
  • Hernán, M.A. (2018). The C-word: scientific euphemisms do not improve causal inference from observational data. American Journal of Public Health, 108(5), 616–619.
  • Hernán, M.A., & Robins, J.M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC.
  • Imbens, G.W., & Rubin, D.B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
  • Robins, J.M. (1986). A new approach to causal inference in mortality studies with sustained exposure periods. Mathematical Modelling, 7(9–12), 1393–1512.
  • Rosenbaum, P.R., & Rubin, D.B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55.
  • Rubin, D.B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701.
  • VanderWeele, T.J. (2015). Explanation in Causal Inference: Methods for Mediation and Interaction. Oxford University Press.

ご利用規約(免責事項)

当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条(目的と情報の性質)

  1. 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
  2. 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
  3. 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
  4. 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条(医療行為における責任)

  1. 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
  2. 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
  3. 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条(情報の正確性・完全性・有用性)

  1. 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
  2. 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条(知的財産権)

  1. 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
  2. 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条(免責事項)

  1. 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
  2. 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
  3. 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
  4. 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。


For J³, may joy follow you.

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

医師・医学博士・AI研究者・連続起業家
元厚生労働省幹部・ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士(経済)
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長(医療情報・救急災害・国際展開等)を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療関係者向け医療AIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

目次