[Clinical AI Coding 100 : C22]  「なぜ?」に答える科学、因果推論への招待状

因果推論のポイント 🧭

データから「原因と結果」の関係を見抜くための考え方を整理します。「相関」と「因果」の違いを理解し、見せかけの関係に騙されないための重要なステップと仮定を学びましょう。

⚠️ 相関 ≠ 因果
見せかけの関係に注意

データ上で2つの事柄が関連して見える(相関)だけでは、一方が原因とは限りません。第3の隠れた要因(交絡因子)が、両方に関係して見せかけの相関を生んでいる可能性があります(例: コーヒーと肺がんの間の喫煙)。

🤔 「もしも」を考える
ポテンシャルアウトカム

真の因果効果とは「もし治療したらY(1)」と「もし治療しなかったらY(0)」の差です。しかし、現実に観測できるのは片方だけ(根本問題)。そこで、集団レベルでの平均因果効果 (ATE, ATT) の推定を目指します。

🗺️ 因果の地図 (DAG)
関係性の可視化と分析

変数間の因果関係の仮定を図示するツールがDAGです。DAG上の「裏道 (バックドア・パス)」が交絡の原因。バックドア基準d分離ルールを使い、どの交絡因子(Z)を調整すれば裏道を塞げるかを見極めます。

🔑 3つの重要仮定
観察研究の前提条件

調整で因果を語るには、1) 交換可能性 (調整後、群が比較可能か?未測定交絡は?)、2) 一貫性 (治療T=1の定義は明確か?干渉は?)、3) ポジティビティ (背景Zが同じ群に両治療(T=0,1)の人がいるか?) の仮定が不可欠です。


医療の現場は、日々「なぜ?」という問いに満ちています。

「この新しい免疫チェックポイント阻害薬は、従来の化学療法と比べて、本当に患者さんの生存期間を延ばしているのだろうか?」
「ICUで導入した新しいモニタリングプロトコルによって死亡率が下がったように見えるけれど、これはプロトコルのおかげか、それとも単に最近の患者さんが若かっただけだろうか?」
「日常的に特定のサプリメントを摂取している人々は、そうでない人々と比べて、本当に認知症のリスクが低いのか?」

皆さんも、日々の診療や研究で、こうした種類の疑問に直面しているのではないでしょうか。

こうした一つ一つの「なぜ?」に、科学的根拠(エビデンス)に基づいて答えていくこと。これは、まさにEvidence-Based Medicine (EBM) の実践そのものです (Sackett et al., 1996)。私たちの臨床判断を支え、患者さんにとって最善の医療を提供するため、さらには公衆衛生上の重要な決定(例:どの治療ガイドラインを推奨すべきか)を下すためにも、このプロセスは不可欠です。

しかし、自信を持って「イエス、これが原因です」と答えるのは、思いのほか難しくありませんか?

そう、この「なぜ?」に答えるのは、想像以上に厄介なのです。

なぜなら、データ上で2つの事柄が関連して「見える」こと(=相関)と、一方がもう一方の本当の「原因である」こと(=因果)の間には、深くて大きな溝があるからです。

例えば、ICUの死亡率が下がった(結果)のは、新しいプロトコル(原因と見たいもの)のおかげではなく、単に患者層が若返った(交絡と呼ばれる別の要因)せいかもしれません。

この「相関」と「因果」の混同という、データ分析における最大の落とし穴を避け、真の原因を探り出すための強力な思考の道具立てこそが、これから私たちが探検する「因果推論」の世界なのです。


目次

「相関」と「因果」の大きな落とし穴

「コーヒーを飲む人ほど、肺がんになりやすい」——もし、電子カルテのデータを解析してこんな結果(グラフ)を見たら、私たちは「コーヒーが肺がんの原因だ!」と結論づけてしまうかもしれません。

でも、これは早計です。データをよく調べてみると、この研究に参加した「コーヒーをよく飲む人」は、「タバコもよく吸う人」である傾向が非常に強いことがわかりました。

もうお分かりですね。肺がんの真の原因(主要なリスク因子)は、コーヒーではなく「喫煙」であった可能性が非常に高いわけです。

このように、2つの事柄が単に「統計的に関連して動く」ように見える関係を「相関関係 (Correlation)」と呼びます。一方で、一方がもう一方の「直接的な原因」となっている関係を「因果関係 (Causation)」と呼びます。

先ほどの例における「喫煙」のように、私たちが調べたい原因(この場合はコーヒー)と、調べたい結果(肺がん)の両方に関連し、そのせいで両者の間に「見かけ上の相関」を生み出してしまう「第3の変数」。このような要因を、特に疫学や医療データ解析の分野では「交絡(こうらく)因子 (Confounding Factor)」と呼びます (Glymour and Greenland, 2008)。

この関係は、よく「交絡の三角関係」として図示されます。

「相関」と「因果」の大きな落とし穴 データ解析で「見かけの関係」に騙されないために ☕️ コーヒーを飲む 🫁 肺がん 見かけの相関 “コーヒーが肺がんの原因だ!” 真の関係:「交絡の三角関係」 ☕️ コーヒー (調べたい原因) 🫁 肺がん (結果) 🚬 喫煙 (真の原因=交絡因子) 相関関係 (Correlation) (見かけ上の関連) 因果関係 (Causation) 因果関係 (Causation)

この図が示すのは、喫煙(交絡因子)が「コーヒーを飲む」という行動と関連し、かつ「肺がん」の直接の原因でもある、ということです。この交絡因子が存在するために、私たちはあたかもコーヒーと肺がんの間に因果関係があるかのように(つまり相関として)観測してしまうのです。

医療現場における「相関と因果」の混同

医療現場における「相関と因果」の混同 ホルモン補充療法 (HRT) と冠動脈疾患 (CHD) の事例 🧐 1. 観察研究 (1980-90年代) 多くの観察研究 (例: Nurses’ Health Study) で、 「HRTを受ける女性はCHDリスクが低い」という一貫した相関が示された。 ホルモン補充療法 (HRT) 冠動脈疾患 (CHD) リスク低 見かけの相関 この「相関」に基づき、HRTは心疾患予防目的でも広く処方された。 🧠 2. 潜む交絡 (健康使用者バイアス) しかし、この相関には「交絡」が潜んでいた。 「HRTを選択する女性」は、もともと健康意識が高い傾向があった。 ホルモン補充療法 (HRT) 冠動脈疾患 (CHD) リスク低 見かけの相関 真の原因 (交絡因子) 高いSES / 健康的な食事 / 運動習慣 良好な医療アクセス など これらの「健康的な背景因子」こそが、真のCHDリスク低下要因であり、 HRT自体が保護的に働いていたわけではなかった。 🔬 3. ランダム化比較試験 (RCT) による検証 交絡の影響を排除するため、大規模なRCT (Women’s Health Initiative: WHI) が実施された。 対象者を割付 HRT群 プラセボ群 ランダム化により交絡因子を理論上均等化 【衝撃的な結果】 HRTはCHDリスクを保護するどころか、むしろ増加させる可能性が示唆された。 💡 教訓 観察された「相関関係」を、背景にある交絡の可能性を吟味せずに 「因果関係」と結論づけることには、重大な危険が伴う。 臨床データ分析における最大の敵は、この「相関と因果の混同」である。 🧭 では、どうすれば? RCTが実施困難な観察データ (例: 電子カルテ) からも、 交絡の霧を払い、真の因果関係に迫るための強力な思考の道具立てが必要となる。 それが「因果推論」の世界です

この「相関と因果の混同」は、時に医療現場で重大な誤解を生み、患者さんの健康に影響を与えてきた歴史があります。最も有名な例の一つが、「ホルモン補充療法(HRT)と冠動脈疾患(CHD)」の問題です。

1980年代から90年代にかけて、多くの観察研究(例えば、有名な「Nurses’ Health Study」など)で、「HRTを受けている閉経後女性は、受けていない女性に比べてCHDのリスクが低い」という一貫した結果が示されました (Grodstein et al., 2000)。これは「相関」です。

この結果に基づき、HRTは心血管系を保護する効果があるのではないかと考えられ、心疾患予防の目的でも広く処方されました。しかし、この観察研究には、先ほどのコーヒーの例と非常によく似た「交絡」が潜んでいたのです。

相関と因果の混同 ホルモン補充療法 (HRT) と冠動脈疾患 (CHD) の例 (調べたい原因) HRT (結果) CHD (交絡因子: 健康意識/SES) ・高い社会経済的地位 (SES) ・健康的な食事、運動習慣 ・良好な医療アクセス (見かけの相関: リスク減)

つまり、「HRTを選択する女性」は、もともと健康意識が高く、社会経済的地位(SES)が高く、定期的に運動し、より健康的な食事を摂り、医療機関へのアクセスも良好である傾向がありました。これは疫学で「健康使用者バイアス (Healthy User Bias)」とも呼ばれるものです (Hernán et al., 2004)。これらの「健康的な背景因子」こそが真のCHDリスク低下要因であり、HRT自体が保護的に働いていたわけではなかったのです。

その後、この問題を厳密に検証するため、対象者をランダムに割り付けることでこれらの交絡因子の影響を(理論上)排除できる、大規模なランダム化比較試験(RCT)、すなわち「Women’s Health Initiative (WHI)」が実施されました。

その結果は衝撃的なものでした。WHIの研究では、HRT(特定の配合の薬剤)がCHDのリスクを保護するどころか、むしろ増加させる可能性が示唆されたのです (Writing Group for the Women’s Health Initiative Investigators, 2002)。

このHRTの事例は、観察された「相関関係」を、その背景にある交絡の可能性を深く吟味せずに「因果関係」と結論づけることの危険性を、私たち医療者に痛烈に教えてくれます。

臨床研究や医療データ分析における私たちの最大の敵は、まさにこの「相関」を「因果」と見間違えてしまうことなのです。では、どうすればこの交絡という名の霧を払い、RCTが実施できないような観察データ(例:電子カルテデータ)からも、できるだけ本当の因果関係に迫ることができるのでしょうか?

そのための強力な思考の道具立てが、今回探検する「因果推論(Causal Inference)」の世界です。


「もしも」の世界を考える:ポテンシャルアウトカムという羅針盤

因果関係を考えるとき、私たち医療者が本当に知りたいのは何でしょうか?

例えば、ある患者さんAさん(65歳、男性、2型糖尿病)に新しいSGLT2阻害薬を投与すべきか迷っているとします。私たちが本当に知りたいのは、「もしAさんにこの薬を投与したら、1年後のeGFR(推算糸球体濾過量)はどうなるか」と、「もしAさんにこの薬を投与しなかったら(例えば従来のSU薬を続けたら)、1年後のeGFRはどうなるか」——この2つのシナリオの「差」ですよね。

このように、実際にとった行動とは別に行動した場合の「もしも」の結果を考える枠組みを、専門的には「ポテンシャルアウトカム (Potential Outcomes)」(潜在的結果)と呼びます。これは統計学者のドナルド・ルービン(Rubin)らによって体系化された考え方で、現代の因果推論のまさに「公用語」とも言えるものです (Rubin, 1974)。

少しだけ数式を使って、この「もしも」の世界を厳密に定義してみましょう。患者さん(\(i\)さん)ごとに、2つの「潜在的な」結果を用意します。

  • \( Y_i(1) \): 患者 \( i \) さんが治療を受けた場合(\( T=1 \))の「もしも」の結果(例:1年後のeGFR)
  • \( Y_i(0) \): 患者 \( i \) さんが治療を受けなかった場合(\( T=0 \))の「もしも」の結果(例:1年後のeGFR)

もし私たちが神様のように、あるいはタイムマシンを持っていて、Aさんに薬を投与した世界(\( Y_i(1) \))と、投与しなかった世界(\( Y_i(0) \))の両方を「同時に」観測できるなら、その人にとっての真の「個人の因果効果(ICE: Individual Causal Effect)」は一目瞭然です。

\[ ICE_i = Y_i(1) – Y_i(0) \]

(例:もし投与したらeGFRが55、もし投与しなかったらeGFRが50だったなら、ICEは +5 となります)

「もしも」の世界を考える:ポテンシャルアウトカムという羅針盤 因果推論の「公用語」 👨‍🦳 患者Aさん (65歳, 2型糖尿病) 2つの「もしも」の世界を想定する 💊 もし薬を投与したら (T=1) 1年後のeGFR Yi(1) eGFR = 55 🚫 もし投与しなかったら (T=0) 1年後のeGFR Yi(0) eGFR = 50 ⚖️ 個人の因果効果 (ICE) ICEi = Yi(1) – Yi(0) ICE = 55 – 50 = +5

因果推論の「根本問題」

しかし、現実は非情です。まさにタイムマシンが必要な話で、私たちは決して両方の世界を観測できません。

患者AさんにSGLT2阻害薬を投与する\( T=1 \)という選択をした瞬間、私たちは \( Y_i(1) \) を(1年後に)観測できますが、その瞬間に「薬を投与しなかった世界」(\( Y_i(0) \))は観測不能な『反実仮想(Counterfactual)』となり、永遠に失われます。逆に、投与しなければ(\( T=0 \))、\( Y_i(0) \) は観測できますが、\( Y_i(1) \) が失われます。

この、どちらか一方のポテンシャルアウトカムしか観測できないという問題を、統計学者のポール・ホランド(Holland)は「因果推論の根本問題 (Fundamental Problem of Causal Inference)」と名付けました (Holland, 1986)。私たちは、個人レベルでは決して「もしも」の差(ICE)を直接知ることはできないのです。

では、因果効果を知ることを諦めるしかないのでしょうか?

いいえ。ここからが統計学の出番です。「個人」の因果効果を知ることはできなくても、「集団」としてなら「平均的な」因果効果を推定できる可能性があります。

因果推論の「根本問題」 (Fundamental Problem of Causal Inference – Holland, 1986) 👤 患者Aさん どちらか一方の「世界」しか観測できない 世界1:薬を投与 (T=1) 観測できる Yi(1) 👻 観測不能 (反実仮想) Yi(0) 世界2:投与しない (T=0) 👻 観測不能 (反実仮想) Yi(1) 観測できる Yi(0) 根本問題 個人の因果効果 (ICE) は「両方の差」だが… 👻 ICE = Yi(1) – Yi(0) (片方が必ず観測不能なため、個人レベルでは計算できない) 統計学の出番 個人 👤 集団 👥 「個人」の因果効果 (ICE) は知できなくても、 「集団」の「平均因果効果 (ACE)」なら 推定できる

集団で考える:ATEとATT

そこで登場するのが、集団レベルでの「平均的な」因果効果です。最も代表的なものが、ATE (Average Treatment Effect: 平均処置効果)です。

\[ ATE = E[Y(1) – Y(0)] \]

ここで \( E[\cdot] \) は期待値、つまり集団全体での平均を意味します。これは、「もし仮に、この集団(例:日本の全T2DM患者)全員が治療を受けたら」どうなるかと、「もし仮に、全員が治療を受けなかったら」どうなるかの、平均的な差です。

ATEは、まさに「政策レベル」の問いに答えるための指標です。「この薬を、この集団全体に適応として推奨すべきか?」を考える上で、最も重要な指標の一つとなります。

もう一つ、臨床現場で非常に重要な指標が ATT (Average Treatment Effect on the Treated: 処置群における平均処置効果) です。

\[ ATT = E[Y(1) – Y(0) \mid T=1] \]

これは、少しトリッキーですが非常に重要です。\( \mid T=1 \) というのは、「実際に治療を受けた人たち」という集団に限定するという意味です。

ATTが問うているのは、「(RCTではなく実臨床で)様々な背景や理由から、実際にこの治療を選択した人たちにとって、もし彼らがこの治療を受けていなかったとしたら、どうなっていたか?」との差です。これは「評価レベル」の問い、例えば「すでに導入されているこの治療(あるいは手術)は、それを選んだ患者たちにとって、本当に価値があったのか?」を評価するのに役立ちます。

私たちの当面の目標は、観測できるデータ(例:\( T=1 \) の人の \( Y(1) \) と \( T=0 \) の人の \( Y(0) \))を使いながらも、交絡というバイアスをうまく取り除き、観測できないはずのATEやATTをどうにかして「あぶり出す」こと、になります。

集団で考える:ATEとATT 平均的な因果効果の指標 ATE (平均処置効果) 👥 もし集団「全員」が… ATE = E[Y(1) – Y(0)] 政策レベル 💊 全員が治療 (T=1) した場合 E[Y(1)] 🚫 全員が非治療 (T=0) した場合 E[Y(0)] ATT (処置群における平均処置効果) 🎯 「実際に治療を受けた人」だけで… ATT = E[Y(1) – Y(0) | T=1] 評価レベル 💊 実際の治療結果 E[Y(1) | T=1] 🚫 もし非治療だったら E[Y(0) | T=1] 🔬 私たちの目標 観測データから交絡バイアスを取り除き、 観測できないはずの ATE / ATT を「あぶり出す」 観測データ バイアス除去 ATE/ATT

より詳細な因果推論の手法は、この「[Series C] Clinical AI Coding 100 : 医療AI時代の総合プログラミング大全」のC26以降の講座や、より詳しく発展的な内容は、以下の「[Series S] Medical Data Science 100 : 医療AI時代のデータサイエンス大全:統計・疫学・因果推論・データサイエンス100講」の「第IV部:因果推論の必須ツール (S40–S49)」で学べます!


因果の「地図」を描く:DAG (有向非巡回グラフ)

交絡因子が1つ(喫煙)だけなら、頭の中だけでも整理できるかもしれません。しかし、現実の医療データや臨床現場ははるかに複雑です。

患者さんの年齢、性別、基礎疾患(糖尿病、高血圧、腎機能障害…)、服薬履歴、社会経済的状況(SES)、遺伝的素因、生活習慣…。これら無数の要因が、まるで複雑な配線のように絡み合い、何が原因で、何が結果で、何が交絡で、何がそうでないのか、すぐに頭が混乱してしまいます。

この複雑な「関係性の配線図」を整理し、私たちの思考をクリアにするために、計算機科学者であり哲学者のジューディア・パール(Judea Pearl)が導入した強力なツールがあります。それが「構造的因果モデル (Structural Causal Model, SCM)」であり、それを直感的に視覚化した「有向非巡回グラフ (DAG: Directed Acyclic Graph)」です (Pearl, 2009)。

因果の「地図」を描く:DAG (有向非巡回グラフ) 複雑な関係性を整理する思考ツール 現実の複雑な関係 🤯 年齢 疾患 遺伝 生活習慣 結果 DAGによる因果の地図 🗺️ 年齢 生活習慣 疾患 結果 ➡️ 思考を整理 DAGの2大ルール 1. 有向 (Directed) 原因 → 結果 の一方通行 原因 結果 結果 原因 2. 非巡回 (Acyclic) ループ (巡回) がない A B C A B C

DAGは、私たちがその領域について持っている専門的知識や臨床的経験(例:「喫煙は肺がんの原因になるはずだ」「年齢は重症化に影響するはずだ」)を、変数(ノード)と矢印(エッジ)でつないだ「因果の地図」のようなものです。

この名前には2つの重要なルールが込められています。

  • 有向 (Directed): 矢印()は、必ず私たちが仮定する「原因」から「結果」の方向へ向かいます。時間は一方通行であり、結果が原因に影響することはありません(例:肺がんが過去の喫煙習慣の原因にはならない)。
  • 非巡回 (Acyclic): 矢印をたどっていったときに、グルグルと元の場所に戻ってくるようなループ(巡回)はありません(例: A→B→C→A のようにはならない)。これは、ある瞬間の因果関係のスナップショットを捉えていることを意味します。

この「地図」を描くことこそが、因果推論の第一歩であり、最も重要なプロセスの一つです (Shrier and Platt, 2008)。なぜなら、この地図(DAG)の構造を分析することで、変数間の「情報の流れ(相関)」がどのように伝わるかを、たった3つの基本パターンで理解できるからです。

DAGにおける「情報の流れ」3つの基本パターン

DAGの上では、相関(統計的な関連)は「道(パス)」として表現されます。2つの変数(例えばAとB)の間に矢印をたどる道があれば、そこには(潜在的に)相関が生まれます。しかし、その道が「因果」なのか「非因果(偽の相関)」なのかは、道の構造によって決まります。

この道を「ブロック(遮断)」する操作が「調整(Conditioning)」です。統計モデル(多変量回帰分析など)にその変数を投入すること、あるいはその変数で層別化(例:男女別に分析)することがこれにあたります。

(1) チェーン (Chain) / 媒介 (Mediation)

(1) チェーン (Chain) / 媒介 (Mediation) 因果がMを通じて流れる 情報の流れ:因果の道 A (原因) 例: 肥満 🍔 M (媒介因子) 例: 高血圧 🩸 B (結果) 例: 脳卒中 🧠 Aの因果効果は、Mを通じてBに流れる 調整の影響:道をブロック A (原因) M (媒介因子) Mで調整 B (結果) Mで調整すると、AからBへの因果の道がブロックされる Aの「総因果効果」を知りたい場合は、 Mで調整してはいけない
  • 構造: AがMを引き起こし、そのMがBを引き起こします。Mは媒介因子(Mediator)と呼ばれます。
  • 例: 肥満(A) → 高血圧(M) → 脳卒中(B)
  • 情報の流れ: これは純粋な因果の道です。AからBへの(少なくとも一部の)因果効果は、Mを通じて流れています。
  • 調整の影響: もし私たちが媒介因子 M(高血圧)で「調整」してしまうと、このAからBへの因果の道はブロックされてしまいます。もしAのBに対する「総因果効果」を知りたいのであれば、Mで調整してはいけません。

(2) フォーク (Fork) / 交絡 (Confounding)

🍴 (2) フォーク (Fork / 交絡) デフォルト (調整なし) Z (交絡因子) A (原因?) B (結果?) A ← Z → B の 非因果的な「裏道」が開いている Zで調整 (Conditioning) Z (交絡因子) A (原因?) B (結果?) 「裏道」がブロックされる 結論: Zで調整しなければならない (見せかけの相関を取り除くため)
  • 構造: Zが、AとBの両方の共通の原因となっています。Zは交絡因子(Confounder)です。
  • 例: コーヒー(A) ← 喫煙(Z) → 肺がん(B)
  • 情報の流れ: AとBの間には直接の矢印はありませんが、Z(喫煙)を経由する「裏道(A ← Z → B)」が存在します。この道は、AとBの間に「非因果的」な(見せかけの)相関を生み出します。これが交絡の正体です。
  • 調整の影響: この見せかけの相関を取り除くために、私たちは交絡因子 Z(喫煙)で「調整」しなければなりません。Zで調整することで、この裏道はブロックされ、AからBへの純粋な因果関係(もしあれば)だけを評価できます。

(3) 合流点 (Collider) / 選択バイアス (Selection Bias)

(3) 合流点 (Collider) / 選択バイアス 共通の結果で調整すると、道が開いてしまう 情報の流れ:デフォルトでブロック A (原因1) B (原因2) AとBは無関係(独立) C (合流点) 【最重要】調整の影響:道が開く A (原因1) B (原因2) 非因果的な相関が発生 C (合流点) Cで調整 ⚠️ 合流点バイアス (選択バイアス) 合流点(C)で調整すると、もともと無関係だったAとBの間に 人為的な「非因果的相関」が生まれてしまう
  • 構造: AとBが、共通の結果である C を引き起こします。Cは合流点(Collider)と呼ばれます。AとBの間には(もともと)何の関連もありません。
  • 情報の流れ: この道(A → C ← B)は、デフォルトではブロックされています。Cが合流点であるため、情報はここを流れません。つまり、AとBは(もともと)無関係(独立)です。
  • 調整の影響: 【最重要】もし私たちが、この合流点 C で「調整」してしまうと(=Cで層別化したり、Cが特定の値の人だけを選ぶと)、それまで閉じていた道が人為的に開いてしまいます! その結果、もともと無関係だったAとBの間に、新たな「非因果的」な相関が生まれてしまいます。(本来独立だった変数同士が、条件付けによって関連してしまいます。)

この(3)の「合流点バイアス」は非常に厄介で、臨床研究でよく見られる「選択バイアス」の多くの原因となります (Hernán et al., 2004)。

医療現場での例(合流点バイアス):

例えば、「入院患者」だけを対象に研究するとしましょう。「疾患の重症度(A)」と「特定の基礎疾患(B)」は、一般集団では(仮に)無関係だとします。しかし、どちらも「入院(C)」という結果の(独立した)原因になります。

🏥 医療現場での例(合流点バイアス) 分析対象を「入院患者」に絞り込む (=「入院」で調整する) 疾患の重症度 (A) 特定の基礎疾患 (B) 入院 (C: 合流点) 偽の相関 (バイアス) 発生! 奇妙な(見かけ上の)相関が生まれる (選択バイアス / バークソンのバイアス)

このとき、私たちが「入院患者だけ」を抜き出して分析する(=共通の結果であるC、「入院」で調整する)と、一体何が起こるのでしょうか? ちょっと想像してみてください。

病院のベッドサイドで、非常に「重症度が高い(A)」患者さんを見たとき、その方が何らかの「基礎疾患(B)」を持っているとしても、あまり驚かないかもしれません。「重症だから入院しているんだろうな」と自然に考えますよね。

しかし、もし「重症度が低い(A)」患者さんが入院していたらどうでしょう? 「あれ? この方は比較的軽症なのに、なぜ入院しているんだろう?」と疑問に思うはずです。そして、無意識のうちに「きっと、何か入院が必要になるような重い基礎疾患(B)があるに違いない」と考えてしまうのではないでしょうか。

逆に、「基礎疾患(B)」がほとんどない患者さんが入院していたとしたら? 「この方は基礎疾患がないのに、なぜ入院を?」と考え、「きっと疾患の重症度(A)が非常に高かったのだろう」と推測するはずです。

これがまさに、合流点バイアスによって「負の相関」が生じるメカニズムです。一般集団全体で見れば、「重症度(A)」と「特定の基礎疾患(B)」の間には(仮に)何の関連もなかったとします。両者は独立して「入院(C)」という結果を引き起こす原因です。しかし、「入院患者」という特定の集団(C=1の集団)、つまり「入院という結果がすでに起こってしまった」人々だけに限定して見てしまうと、話が変わってきます。

この限定された集団の中では、「入院」という結果を説明するために、AとBがまるで”トレードオフ”のような関係に見えてしまうのです。

  • 入院(C=1)した人で、重症度(A)が低い → その「入院」という結果を説明するには、基礎疾患(B)が高かった可能性が高い。
  • 入院(C=1)した人で、基礎疾患(B)が低い → その「入院」という結果を説明するには、重症度(A)が高かった可能性が高い。

つまり、「入院患者」というフィルターを通して見ると、「重症度が低い人ほど、基礎疾患を持っている」あるいは「基礎疾患がない人ほど、重症度が高い」かのような、奇妙な負の相関が人為的に生まれてしまうのです。

もともと独立だったはずのAとBが、共通の結果であるC(入院)というフィルターを通して見ることで、見かけ上の(しかも負の)関連性を持ってしまう――これが、合流点で調整することによって生じるバイアスです。疫学の世界では古くから知られており、特に病院ベースのケースコントロール研究(症例対照研究)などで問題となることから、「選択バイアス (Selection Bias)」の一種、あるいは発見者の一人にちなんで「バークソンのバイアス (Berkson’s bias / Berksonian bias)」とも呼ばれています (Berkson, 1946; Sackett, 1979; Cole et al., 2009; Tennant et al., 2021)。

なぜこんなことが起こるのか、もう少しだけ考えてみましょう。DAGのルールでは、合流点 C (A → C ← B) はデフォルトでは A と B の間の道をブロックしています。しかし、C で調整する(C の値が特定の値の人だけを見る)という操作は、このブロックされていた壁を取り払い、A と B の間に新たな情報の流れ(非因果的な相関)を作り出してしまうのです。これは d分離のルールの3番目、「合流点で調整すると道が開く」という、他の2つ(チェーン、フォーク)とは逆の動きをする、非常にトリッキーで重要なルールです。

合流点バイアス(バークソンのバイアス) 1. 一般集団(調整前) 💎 A: 重症度 🧬 B: 基礎疾患 🏥 C: 入院 AとBは独立 (Cが合流点としてブロック) 2. 「入院患者 (C=1)」で調整(フィルター) 💎 A: 重症度 🧬 B: 基礎疾患 📉 見かけ上の負の相関 🧠 バイアス(非因果的関連)が発生 「軽症(A)なのに C=1」 → 「基礎疾患(B)が高い」と推測 「基礎疾患なし(B)なのに C=1」 → 「重症度(A)が高い」と推測 = 選択バイアス (Selection Bias)

この合流点バイアス(選択バイアス)は、研究デザインやデータ解析において、気づかないうちに紛れ込んでいることがよくあります。例えば、

  • 特定の症状で外来を受診した患者だけを対象とする研究
  • 治療によく反応した(生存した)患者だけを追跡する研究
  • 特定のオンラインコミュニティの参加者だけを分析する研究

など、何らかの基準で対象者を「選択」している場合、その選択基準自体が合流点になっていないか、常に注意深く検討する必要があります。もし合流点で調整してしまっていたら、本来存在しないはずの奇妙な関連性を見つけ出してしまい、誤った結論を導きかねません。

ですから、DAGを描いて変数間の関係性を整理する際には、「この変数は合流点ではないか?」と常に自問自答し、もし合流点であれば「決して調整してはいけない」変数としてマークしておくことが、バイアスを避けるために非常に重要になるのです。


このDAGの3つの基本パターンを理解することは、どの変数を調整すべきか(=交絡因子)、そしてどの変数を「決して」調整してはいけないか(=媒介因子や合流点)を見極めるための、強力な武器となります。


交絡の「裏道」を塞ぐ:バックドア基準とd分離

さて、DAGという「因果の地図」を手に入れた私たちは、いよいよ最大の敵である「交絡」を体系的に退治しにかかります。

私たちの目標は、治療(T: Treatment)から結果(Y: Outcome)への純粋な因果効果、つまりDAG上の T → Y という「表玄関」の道の強さだけを推定することです。

問題は、\( T \) と \( Y \) の間にある、この「表玄関」以外のすべての道です。特に、\( T \) と \( Y \) の共通の原因(交絡因子 \( Z \))を経由する道(例: \( T \leftarrow Z \rightarrow Y \))は、\( T \) と \( Y \) の間に見せかけの相関(交絡バイアス)を生み出してしまいます。ジューディア・パールは、このような \( T \) から矢印が出ていく形で始まらない、非因果的な道を「バックドア・パス(Backdoor Path、裏口の道)」と呼びました (Pearl, 2009)。

この「裏道」が開いている限り、私たちが観測する \( T \) と \( Y \) の関連性は、純粋な因果効果と裏道からのバイアスがごちゃ混ぜになってしまいます。

そこで登場するのが、「バックドア基準 (Backdoor Criterion)」です。これは、「どの変数の集まり(調整セット)で調整(Conditioning)すれば、すべての裏道をブロックし、純粋な因果効果(\( T \rightarrow Y \))だけを取り出せるか」を見つけるための、厳密なルールのことです (Pearl, 2009)。

交絡の「裏道」を塞ぐ:バックドア基準 非因果的な道(バックドア)を調整してブロックする 問題:裏道が開いている状態 🧠 C (交絡因子) 💊 T (治療) 📊 Y (結果) 観測される関連 = 純粋な因果 + バイアス ➡️ Cで調整 解決:裏道を塞いだ状態 🛡️ C (調整) 💊 T (治療) 📈 Y (結果) 純粋な因果効果 🎯 バックドア基準 (Backdoor Criterion) 私たちの目標は、TからYへの「表玄関 (T → Y)」以外の すべての「裏道 (T ← … → Y)」をブロックする 最小限の変数の集まり(調整セット)を見つけること

「道」の開閉ルール:d分離 (d-separation)

バックドア基準を理解するために、DAGの核となるルールである「d分離 (d-separation)」について、詳しく見てみましょう。”d”は “direction”(向き)を意味し、「矢印の向きを考慮して、2つの変数が(統計的に)分離されているか(独立か)、つながっているか(関連があるか)を判定する」ルールです。

ある変数(例えば \( Z \))で「調整する」とは、統計的にその変数の影響を取り除くこと、平たく言えば「\( Z \) の値が同じ人たちだけでグループ分けして(層別化して)見る」ような操作だとイメージしてください。

d分離のルールは、前のセクションで見た3つの基本パターンに対応しています。

「道」の開閉ルール:d分離 (d-separation) 「調整する」 = その変数の値が同じ人たちで グループ分けして(層別化して)見ること ⛓️ (1) チェーン (Chain) デフォルト (調整なし) A M B ➡️ 道は「開いている」 (関連) Mで調整 A M B 道は「ブロック」 (遮断) 🍴 (2) フォーク (Fork) デフォルト (調整なし) Z A B ➡️ 道は「開いている」 (交絡) Zで調整 Z A B 道は「ブロック」 (交絡除去) 💥 (3) 合流点 (Collider) デフォルト (調整なし) A B C 🚫 道は「ブロック」 (独立) Cで調整 A B C ⚠️ 道は「開いてしまう」 (バイアス)
  1. チェーン (Chain): \( A \rightarrow M \rightarrow B \)
    • デフォルト: 道は「開いて」います。\( A \) が変われば \( M \) が変わり、\( M \) が変われば \( B \) が変わるので、\( A \) と \( B \) は関連します。
    • \( M \) で調整すると: 道は「ブロック」されます。
      (なぜ?) \( M \) の値を特定の値(例:高血圧=120)に「固定」してしまうと、\( A \)(例:肥満)がいくら変動しても、\( M \) は120のままです。\( M \) が動かなければ、その先にある \( B \)(脳卒中)も \( M \) 経由では影響を受けません。よって、\( A \rightarrow M \rightarrow B \) の道は遮断されます。
  2. フォーク (Fork): \( A \leftarrow Z \rightarrow B \)
    • デフォルト: 道は「開いて」います。\( Z \)(例:喫煙)が共通の原因となり、\( A \)(コーヒー)と \( B \)(肺がん)に見せかけの相関(交絡)を生み出します。
    • \( Z \) で調整すると: 道は「ブロック」されます。
      (なぜ?) \( Z \) の値(例:喫煙者/非喫煙者)で層別化して見るからです。「喫煙者」というグループの中だけ、「非喫煙者」というグループの中だけで見れば、\( Z \) という共通原因はもはや変動しません。共通の原因が固定されれば、それが生み出していた見せかけの相関も消滅します。
  3. 合流点 (Collider): \( A \rightarrow C \leftarrow B \)
    • デフォルト: 道は「ブロック」されています。\( A \) と \( B \) は共通の「結果」である \( C \) を持ちますが、\( A \) と \( B \) 自体は無関係(独立)です。情報は \( C \) で合流して止まります。
    • \( C \) で調整すると: 道は「開いて」しまいます!
      (なぜ?) これが「選択バイアス」の正体です。前のセクションの例(重症度(A) → 入院(C) ← 基礎疾患(B))を思い出してください。「入院患者だけ」(\( C \) で調整) を見ると、「重症度が低いのに基礎疾患がある人」などが集まるため、\( A \) と \( B \) の間に奇妙な(偽の)関連が生まれてしまいました。

バックドア基準の「翻訳」

このd分離のルールを使うと、バックドア基準をより正確に言い換えることができます。

「調整セット \( S \)」がバックドア基準を満たすとは、

  1. \( S \) が、\( T \) と \( Y \) の間のすべてのバックドア・パス(裏道)をd分離(ブロック)すること。
    • (具体的には、裏道上にあるフォークやチェーンの \( Z \) を \( S \) に含める)
  2. かつ、\( S \) が、\( T \rightarrow \dots \rightarrow Y \) という因果のパス(表玄関)をブロックせず、さらに調整によって新たな非因果パス(バイアス)を開かないこと。
    • (具体的には、因果のパス上にある媒介因子 \( M \) や、どのパス上にある合流点 \( C \) も \( S \) に含めない)

つまり、バックドア基準を満たす調整セット \( S \) を見つけるとは、「すべての裏道(\( T \leftarrow \dots \rightarrow Y \))上にあるZ(交絡因子)をうまく選んで \( S \) に含めつつ、同時に、因果の道上のM(媒介因子)や、どの道上のC(合流点)も \( S \) に含めないようにする」という、まさにDAGを使ったパズルなのです。

バックドア基準を満たす「調整セットS」のルール 交絡除去のルール:「調整する」vs「調整しない」 ✅ 調整に「含める」 (1) 裏道 (Backdoor) を塞ぐ Z (交絡因子) T (治療) Y (結果) Zで調整 T Y 裏道ブロック ❌ 調整に「含めない」 (2) 因果の道 (表玄関) T M (媒介因子) Y T Mで調整 Y 因果の道が遮断 ❌ 調整に「含めない」 (3) 合流点 (Collider) T Y C (合流点) TとYは独立 T Y Cで調整 バイアス発生! 🎯 調整セットSのパズル ✅ MUST ADJUST: 裏道上の交絡因子 (Z) ❌ DO NOT ADJUST: 因果の道上の媒介因子 (M), 合流点 (C)

たとえ話:

Tさん(治療)がYさん(結果)に「正面玄関(\( T \rightarrow Y \))」から手紙(=真の因果効果)を送りたいとします。

しかし、TさんとYさんには共通の知人Zさん(交絡因子)がいます。ZさんはTさんの情報(\( T \leftarrow Z \))もYさんの情報(\( Z \rightarrow Y \))も知っており、Yさんに「Tさんとは別に、Tさんに関する噂話」(=交絡バイアス)を伝えてしまいます。この「噂話の道」がバックドア・パスです。

Yさんが受け取った情報(観測される相関)は、「手紙」と「噂話」がごちゃ混ぜになっています。

たとえ話:交絡(バックドア・パス) Zさん (交絡因子) Tさん (治療) Yさん (結果) 観測される相関 [手紙] + [噂話] 🗣️ バックドア・パス (噂話 = 交絡バイアス) 💌 正面玄関 (手紙 = 真の因果効果)

バックドア基準による解決策:

私たち(分析者)は、Yさんに「噂話」を伝えた共通の知人Zさん(交絡因子)をすべて特定し、彼らの証言(\( Z \) の値)を「調整」します。(例:ZさんがAタイプの時、Bタイプの時…と層別化して、各層の中でTとYの関係を見る)。

Zさん(フォーク構図)で調整することで、噂話の道(バックドア・パス)はブロック(d分離)されます。これにより、Yさんに届いた情報のうち「手紙」(\( T \rightarrow Y \))による純粋な効果だけを推定できるのです。

ただし、このとき、Tさん(治療)と、何か別の要因Bさん(例:基礎疾患)の両方が原因となって生じた「結果」であるCさん(例:入院)に話を聞きに行って(=調整して)はいけません。Cさん(合流点)で調整すると、d分離のルール(3)により、TさんとBさんの間に新たな「見せかけの関連」が生まれてしまうからです。

バックドア基準による解決策 「裏道」を塞ぎ、「表玄関」だけを推定する ✅ 解決策:交絡因子(Z)で調整する 🛡️ Zで調整 噂話の道 (裏道) をブロック ✉️ T (手紙) (治療) 👩 Y (Yさん) (結果) 純粋な因果効果 (表玄関) ⚠️ 警告:合流点(C)で調整してはいけない 💊 T (治療) 🧑‍⚕️ B (基礎疾患) 🏥 Cで調整 (合流点) 新たなバイアスが生まれる!

フロントドア基準(補足):

もし、Zさん(交絡因子)が観測不能(例:「性格」や「健康意識」などデータにない)だったらどうでしょう?裏道を塞げず、お手上げでしょうか?

ここで、もし治療Tが「唯一」M(媒介因子)というプロセスを通じてのみYに影響し(\( T \rightarrow M \rightarrow Y \))、かつZもMに影響している(\( Z \rightarrow M \))ような構造がわかっている場合、「フロントドア基準 (Frontdoor Criterion)」という別のアプローチが使えることがあります (Pearl, 2009)。これは、Mを経由する効果を2段階で推定する高度な方法ですが、交絡因子Zを直接測定できなくても因果効果を推定できる道が残されている、ということは知っておいて損はありません。

フロントドア基準 (Frontdoor Criterion) 観測不能な交絡 (Z) がある場合の代替アプローチ Z (交絡因子) 観測不能 (調整できない) T (治療) M (媒介因子) Y (結果) バックドア・パス バックドア・パス フロントドア・パス (観測可能) T→M と M→Y の2段階で推定する

👇 Learn more!


観測データから「因果」を語るための、避けて通れない3つの仮定

さて、DAG(有向非巡回グラフ)という「因果の地図」を広げ、バックドア基準を使って「調整すべき交絡因子」のリスト(調整セット)を特定したとします。そして、私たちはそのリスト(例えば、年齢、性別、基礎疾患の重症度)を使って、統計モデル(多変量回帰分析や傾向スコア分析など)を駆使して「調整済み」の治療効果を計算しました。

これで、私たちが手にした推定値(例:調整後のATE)は、晴れて「因果効果」と呼べるのでしょうか?

実は、そう結論づけるには、私たちが(しばしば暗黙のうちに)受け入れなければならない、非常に強力な「3つの仮定(お約束事)」があります。これらの仮定が一つでも崩れていれば、どれほど洗練された統計手法を使っても、得られた推定値はバイアス(偏り)を含んだものになってしまいます。

この3つの仮定が満たされて初めて、観測データから因果効果を推定できる(これを識別可能性, Identifiability と言います)のです (Hernán and Robins, 2020)。

これら3つは、RCT(ランダム化比較試験)では設計によってクリアできることが多いのですが、観察研究(電子カルテデータなど)では常に脅かされる、非常に重要な「アキレス腱」となります。一つずつ、徹底的に見ていきましょう。

因果推論の3大仮定 「調整」が「因果」になるための3つのアキレス腱 1. 交換可能性 (Exchangeability) ⚖️ 「比べられる」グループか? (リンゴとオレンジの例え) ❌ 悪い例 (交絡) T=1群 🍊🍊 (重症) T=0群 🍎🍎 (軽症) ✅ 良い例 (交換可能) T=1群 🍎🍊 T=0群 🍎🍊 ➡️ 2. 一貫性 (Consistency) 🏷️ 「治療 T=1」の定義は明確か? (“謎のレシピ”の例え) ❌ 悪い例: 「T=1 (食事介入)」がバラバラ T=1 🍇 (地中海食) 🥑 (ケト食) 🚫 (1日1食) ✅ 良い例: 「T=1」が 🍇 (地中海食) で統一 3. ポジティビティ (Positivity) 🔄 比較できる”重なり” (共通サポート) があるか? ✅ 良い例 (重なりあり) T=1 T=0 比較可 (例: Stage II) ❌ 悪い例 (重なりなし) T=1のみ T=0のみ (例: Stage IV) (例: Stage I) 比較不能

1. 交換可能性 (Exchangeability) / 非交絡性 (Unconfoundedness)

仮定1:交換可能性 (Exchangeability) 「比較するグループは、そもそも比べられる状態ですか?」 問題:交換可能性なし (交絡) 新薬群 (T=1) 🍊🍊🍊 (オレンジ = 重症患者ばかり) 標準治療群 (T=0) 🍎🍎🍎 (リンゴ = 軽症患者ばかり) 結果:「新薬群の死亡率が高い」 理由:薬のせいではなく、群の偏り(交絡)のせい 解決策 (A): RCT (ランダム化) 全患者 🍎🍊🍎🍊 ランダム割付 新薬群 🍊🍎🍊 標準群 🍎🍊🍎 両群の背景因子 (測定不能なものも含む) が均等化され、 「交換可能」になる (ゴールドスタンダード) ⚠️ 解決策 (B): 観察研究 (統計的調整) 全患者 🍎🍊🍎🍊 「Z (例: 重症度)」で調整 (層別化) Z = 軽症群 (🍎) のみで比較 新薬群 標準群 Z = 重症群 (🍊) のみで比較 新薬群 標準群 「同じZを持つ群」の中なら「交換可能」と仮定する (= 条件付き交換可能性) 【最大の落とし穴】 Zとして「測定されていない交絡因子」 (例: 医師の”勘”) が 残っていると、この仮定は成立しない。

これは、3つの仮定の中で最も重要であり、そして最も破られやすいものです。「非交絡性」という名前の通り、交絡の問題に直結します。

意味:
「もしも」の世界(ポテンシャルアウトカム)が、その人が実際にどちらの治療(\( T=1 \)か\( T=0 \))を受けたかと無関係であること。

徹底的にわかりやすく言うと:
これは「比較するグループは、そもそも比べられる状態ですか?」という問いです。

【リンゴとオレンジの例え】
新薬(\( T=1 \))の効果を、標準治療(\( T=0 \))と比較したいとします。

  • 新薬(\( T=1 \))を投与されたグループ(治療群)は、もともと「重症で予後が悪そうな患者(オレンジ)」ばかりだったとします。
  • 標準治療(\( T=0 \))を受けたグループ(対照群)は、「軽症で予後が良さそうな患者(リンゴ)」ばかりだったとします。

この2群を単純比較して「新薬グループの方が死亡率が高かった」という結果が出ても、それは「新薬が有害だった」からではなく、「そもそも新薬グループが重症なオレンジばかりだった」からかもしれません。

「交換可能性」が満たされている状態とは、治療群と対照群が、どちらも同じ「リンゴとオレンジが均等に混ざった集団」であり、両グループを「交換」しても結果が変わらない(=比べられる)状態を指します。

どう対処するか:

(A) RCT (ランダム化比較試験) の場合:
「ランダム化(コイントス)」というプロセスが、この問題を強制的に解決します。患者さん(リンゴもオレンジも)をランダムに2群に分けるため、両群の背景因子(重症度、年齢、遺伝的素因、医師の”勘”など、私たちが測定できるものも、できないものも全て)が、統計的に均等になります。だからこそ、RCTは因果推論のゴールドスタンダードと呼ばれるのです。

(B) 観察研究 (電子カルテなど) の場合:
ランダム化はできません。そこで、私たちはDAGとバックドア基準を使い、「リンゴとオレンジを見分けるための重要な要因(=交絡因子 \( Z \))」(例:重症度スコア、年齢、基礎疾患)をすべて特定し、統計的に「調整」します。

これは、「もし交絡因子 \( Z \) の値が同じ人たち(例:重症スコアが10点で、70歳の男性)の中だけで比べるなら、その中でたまたま新薬(\( T=1 \))を使った人と、たまたま標準治療(\( T=0 \))を使った人は、交換可能(=比べられる)だろう」と仮定することです。これを「条件付き交換可能性 (Conditional Exchangeability)」と呼びます。

【最大の落とし穴:測定されていない交絡】
この仮定の真の恐ろしさは、「測定されていない交絡因子 (Unmeasured Confounders)」です。もし、医師が重症度スコアには表れない「なんとなく予後が悪そうだ」という”勘”で薬を使い分けていた場合、私たちはその”勘”を測定も調整もできません。この仮定は、データから数学的に「証明」することは不可能であり、私たちの臨床知識とDAGに基づき「(測定した \( Z \) だけで)すべての交絡を取り除けているはずだ」と強く「仮定」するしかないのです。これが、観察研究が常にもつ限界です。


2. 一貫性 (Consistency)

2. 一貫性 (Consistency) 🏷️ 「治療 T=1」の定義は明確か? ❌ 悪い例 (一貫性なし) ✅ 良い例 (一貫性あり) (A) 介入が不明確 (“謎のレシピ”) T=1 (食事介入) 🍇 🥑 🚫 (A) 介入が明確 T=1 (地中海食) 🍇 (B) 干渉あり (SUTVA違反) 🧑‍🤝‍🧑 T=1 (ワクチン) 🙋 T=0 (私) 🛡️ (感染せず) 集団免疫 (B) 干渉なし (SUTVA) 🧑 T=1 (彼) 🛡️ 🙋 T=0 (私) 😷 (影響なし)

これは、一見当たり前に見えますが、実は「治療の定義」に関わる非常に重要な仮定です。

意味:
ある個人 \( i \) が実際に観測された結果 \( Y_i \) は、その人が受けた治療 \( T_i=t \) に対応するポテンシャルアウトカム \( Y_i(t) \) と一致しなければならない。

徹底的にわかりやすく言うと:
これは「私たちが『治療T=1』と呼んでいるものは、一体何ですか?」という問いです。

【”謎のレシピ”の例え】
「”食事介入”(\( T=1 \))が健康(\( Y \))に与える効果」を調べたいとします。しかし、データ上で「\( T=1 \)」となっている人たちの中身が、

  • Aさんは「地中海食」を実践し、
  • Bさんは「ケトジェニック食」を実践し、
  • Cさんは「1日1食」を実践していた…

…という状態だったら、「\( T=1 \)」という介入は「明確に定義された一つの介入」ではありません。Aさんの結果は \( Y(\text{地中海食}) \)、Bさんの結果は \( Y(\text{ケト食}) \) であり、私たちが知りたい \( Y(1) \) とは異なるかもしれません。これでは、「”食事介入”の効果」と言っても、それが何を指すのか分からず、結果の解釈ができません。

医療現場の例:

  • 手技の差: 「治療A(手術)」(\( T=1 \))と言っても、A病院の20年の経験を持つベテラン外科医による手術と、B病院の卒後3年目のレジデントによる手術がごちゃ混ぜになっていれば、これらは実質的に「異なる治療」です。
  • 用量の差: 「薬剤Xの投与(\( T=1 \))」と言っても、50mg投与された人と100mg投与された人が混在していれば、介入が明確に定義されていません。
  • アドヒアランス(服薬遵守): 「薬剤Xを処方された(\( T=1 \))」というデータ(処方ベース)で分析しても、実際に患者がそれを飲んだかどうか(服薬ベース)は異なります。「処方されたが飲まなかった」人の結果は、私たちが知りたい「もし”飲んだら”どうなっていたか(\( Y(1) \))」とは異なります。

【もう一つの落とし穴:干渉 (Interference)】
一貫性の仮定は、「ある人の結果(\( Y_i \))は、その人自身の治療(\( T_i \))だけで決まり、他人の治療(\( T_j \))には影響されない」という仮定(SUTVA: Stable Unit Treatment Value Assumption の一部)も暗に含んでいます。

例(ワクチン):
私がワクチンを接種しなかった(\( T_i = 0 \))とします。私が知りたいのは \( Y_i(0) \) です。しかし、もし私の周りの人「全員」がワクチンを接種したら(\( T_j = 1 \))、集団免疫によって私が感染する確率は(接種しなくても)激減します。逆に、周りが誰も接種しなかったら、私の感染確率は高いままです。このように、他人の行動が私の結果に影響することを「干渉」と呼び、これが存在すると一貫性の仮定は崩れます。(感染症疫学や、病棟内での教育プログラムの効果を評価する際に、特に問題となります)


3. ポジティビティ (Positivity) / 共通サポート (Common Support)

仮定3:ポジティビティ (Positivity) / 共通サポート 「背景Zが同じ群の中で、両方の治療(T=1, T=0)を選んだ人が存在しますか?」 ポジティビティ違反 (比較不能) Z = ステージIV 新薬群 (T=1) [100%] 標準群 (T=0) [0%] P(T=0 | Z=IV) = 0 Z = ステージI 新薬群 (T=1) [0%] 標準群 (T=0) [100%] P(T=1 | Z=I) = 0 ポジティビティ成立 (共通サポート) Z = ステージII/III 新薬群 (T=1) [60%] 標準群 (T=0) [40%] P(T=1 | Z) > 0 かつ P(T=0 | Z) > 0 両群に「重なり (Overlap)」があり、比較可能 ⚠️ 実質的なポジティビティ違反 Z = ステージIV 新薬群 (T=1) [999人] 1人 P(T=0 | Z=IV) ≈ 0.001 数学上はOKだが、たった1人のデータに依存するため、 推定結果は極めて不安定になる

これは、統計的な比較を可能にするための、非常に実践的な仮定です。

意味:
どのような背景因子(\( Z \))を持つ人であっても、治療を受ける可能性も(\( P(T=1 \mid Z=z) > 0 \))、受けない可能性も(\( P(T=0 \mid Z=z) > 0 \))、どちらも(ゼロではない)可能性があること。

徹底的にわかりやすく言うと:
これは「比較したいグループの中に、両方の選択肢(治療あり/なし)を選んだ人が、ちゃんと存在しますか?」という問いです。

【”比較不能”の例え】
ある進行性がんに対する新薬A(\( T=1 \))の効果を、標準治療(\( T=0 \))と比較したいとします。背景因子として「病期(ステージ)」(\( Z \))で調整することにしました。

しかし、データを調べてみると、臨床ガイドラインや倫理的な理由から、

  • 「ステージIV(\( Z=\text{IV} \))」の患者は全員が新薬Aを投与されており、標準治療を受けた人は一人もいませんでした。(\( P(T=0 \mid Z=\text{IV}) = 0 \))
  • 逆に、「ステージI(\( Z=\text{I} \))」の患者は全員が標準治療を受けていました。(\( P(T=1 \mid Z=\text{I}) = 0 \))

この場合、ポジティビティの仮定は完全に破綻しています。なぜなら、「ステージIVの患者が、もし標準治療を受けていたら(\( Y(0) \))」どうなっていたかを知りたいのに、比較対象となる「ステージIVで標準治療を受けた」患者がデータに一人も存在しないからです。比較する相手がいないため、この集団における因果効果は推定不可能です。

【”共通サポート”とは?】
ポジティビティが満たされている状態とは、治療群と対照群の背景因子(\( Z \))の分布に「重なり(Overlap)」があることを意味します。この重なっている領域を「共通サポート (Common Support)」と呼びます。私たちは、この重なっている領域(例:ステージIIやIIIで、両方の治療を選んだ人がいる領域)でしか、信頼できる比較はできません。

【実質的なポジティビティ違反】
たとえ確率がゼロでなくても、例えばステージIVの患者1000人のうち「たった1人」だけが標準治療だった場合(\( P(T=0 \mid Z=\text{IV}) = 0.001 \))、数学的には仮定は満たされています。しかし、これは非常に危険です。なぜなら、ステージIVの「もしも」の標準治療の効果を、たった1人の特異な患者データから推定することになり、結果は極めて不安定(分散が爆発的に大きく)になるからです。これは「実質的なポジティビティの違反」と呼ばれ、現実の解析で頻繁に問題となります。


これら3つの仮定(交換可能性、一貫性、ポジティビティ)は、観測データから因果関係を導き出すための土台です。私たちが統計ソフトで「調整済み」の結果を出すとき、私たちは「これら3つがすべて満たされている」と強く宣言していることに他ならないのです。


まとめ:因果推論という「思考の羅針盤」

今回は、因果推論の基本的な考え方、その核心にある概念を探検してきました。

ここで改めて強調したいのは、因果推論は、単なる「最新の統計手法(例:傾向スコア分析や操作変数法)」の寄せ集めではない、ということです。それは、私たちが日常的に直面する「相関」という嵐の海の中で、「因果」という目的地(真実)にたどり着くために使う、「思考の羅針盤」であり、「論理的枠組み(フレームワーク)」そのものなのです。

従来の統計学が「データに現れている関連性(相関)」を記述し、モデル化することに主眼を置いていたとすれば、因果推論は「データには現れていない『もしも』の世界(反実仮想)」をいかにして推定するか、という一歩踏み込んだ問いに答えるためのものです。

この羅針盤は、一連の体系的なステップで構成されていることがお分かりいただけたかと思います。

  1. Step 1: ゴールの定義(ポテンシャルアウトカム)
    まず、「もしも」の世界(ポテンシャルアウトカム)を使って、私たちが本当に知りたい「因果効果」(例:ATE, ATT)とは何なのかを厳密に定義します。これが私たちの目指す「目的地」です。
  2. Step 2: 地図の作成(DAG)
    次に、私たちが持てる限りの臨床知識や専門的知見を結集して、「因果の地図」(DAG)を描きます。これは、私たちが「世界はこうなっているはずだ」と信じる仮定(Assumptions)をすべて可視化する、非常に重要な作業です。
  3. Step 3: 障害物の特定(バックドア基準)
    描いた地図の上で、目的地(因果)への道を妨げる「交絡の裏道」(バックドア・パス)を特定します。バックドア基準やd分離といったルールは、この障害物を体系的に見つけ出すための強力なツールです。
  4. Step 4: ルートの確保(調整と3つの仮定)
    特定した裏道を塞ぐため、どの変数(交絡因子)で「調整」すべきかを決定します。そして、この調整によって本当に因果効果が推定できるのかを、3つの大きな仮定(交換可能性、一貫性、ポジティビティ)に照らして、データと真摯に向き合いながら(時には「この仮定は怪しいかもしれない」と批判的に)検証します。

この一連のステップ(羅針盤)を手にすることで、私たちは初めて、「この治療法は、本当に従来の治療法よりも優れているのか?」という、医療現場の根源的な「なぜ?」に対して、単なる「相関がありそうだ」という曖昧な答えではなく、「(これらの仮定の下で)科学的・論理的に誠実な答え」を導き出すためのスタートラインに立てるのです。

因果推論は、私たちに魔法の答えを与えてくれるわけではありません。むしろ、私たちがどのような仮定を置いているのかを自覚させ、その仮定の脆弱性について議論することを促す、科学者としての誠実さを問う学問なのかもしれません。


参考文献

  • Berkson, J. (1946). Limitations of the Application of Fourfold Table Analysis to Hospital Data. Biometrics Bulletin, 2(3), 47–53.
  • Cole, S. R., Platt, R. W., Schisterman, E. F., Chu, H., Westreich, D., Richardson, D., & Poole, C. (2009). Illustrating bias due to conditioning on a collider. International Journal of Epidemiology, 39(2), 417–420.
  • Glymour, M. M., & Greenland, S. (2008). Causal diagrams. In K. J. Rothman, S. Greenland, & T. L. Lash (Eds.), Modern Epidemiology (3rd ed., pp. 183–209). Lippincott Williams & Wilkins.
  • Grodstein, F., Manson, J. E., Colditz, G. A., Willett, W. C., Speizer, F. E., & Stampfer, M. J. (2000). A prospective, observational study of postmenopausal hormone therapy and primary prevention of cardiovascular disease. Annals of Internal Medicine, 133(12), 933–941.
  • Hernán, M. A., Hernández-Díaz, S., & Robins, J. M. (2004). A structural approach to selection bias. Epidemiology, 15(5), 615–625.
  • Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC.
  • Holland, P. W. (1986). Statistics and causal inference. Journal of the American Statistical Association, 81(396), 945–960.
  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
  • Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701.
  • Sackett, D. L. (1979). Bias in analytic research. Journal of Chronic Diseases, 32(1–2), 51–63.
  • Sackett, D. L., Rosenberg, W. M., Gray, J. A., Haynes, R. B., & Richardson, W. S. (1996). Evidence based medicine: what it is and what it isn’t. BMJ, 312(7023), 71–72.
  • Shrier, I., & Platt, R. W. (2008). Reducing bias through directed acyclic graphs. BMC Medical Research Methodology, 8, 70.
  • Tennant, P. W. G., Murray, E. J., Arnold, K. F., Berrie, L., Fox, M. P., Gadd, S. C., … & Tilling, K. (2021). Use of directed acyclic graphs (DAGs) to identify confounders in applied health research: review and recommendations. International Journal of Epidemiology, 50(2), 620–632.
  • Writing Group for the Women’s Health Initiative Investigators. (2002). Risks and benefits of estrogen plus progestin in healthy postmenopausal women: principal results From the Women’s Health Initiative randomized controlled trial. JAMA, 288(3), 321–333.

※本記事は情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。


ご利用規約(免責事項)

当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条(目的と情報の性質)

  1. 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
  2. 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
  3. 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
  4. 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条(医療行為における責任)

  1. 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
  2. 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
  3. 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条(情報の正確性・完全性・有用性)

  1. 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
  2. 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条(知的財産権)

  1. 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
  2. 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条(免責事項)

  1. 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
  2. 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
  3. 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
  4. 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。


For J³, may joy follow you.

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

医師・医学博士・AI研究者・連続起業家
元厚生労働省幹部・ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士(経済)
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長(医療情報・救急災害・国際展開等)を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療関係者向け医療AIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

目次