[Medical Data Science 100 : S13] 「薬の効果はどれくらい?」を正しく測る3つのモノサシ:ATE, ATT, ATC入門

因果推論の学習ポイント

薬の「本当の効果」を知るには、単純比較の落とし穴を避け、因果関係を正しく捉える統計学の視点が必要です。その核心となる3つの重要概念を解説します。

⚠️ 統計学のワナ
なぜ単純比較は危険か

「薬を飲んだ/飲まない」の単純比較は誤解を招きます。観測された「相関」は真の「因果」とは限りません。年齢や健康意識といった「交絡」が、見せかけの効果を生み出すためです。

🔬「もしも」の科学
ポテンシャルアウトカム

「もし薬を飲んだら/飲まなかったら」という2つの未来を想定し、その差を真の効果と考えます。個人では片方しか観測できないため(因果推論の根本問題)、集団の平均で効果を捉えます。

📏 3つの効果モノサシ
ATE / ATT / ATC

誰への効果を知りたいかで指標を使い分けます。ATEは集団全体、ATTは治療を受けた人、ATCは受けなかった人への効果を示し、政策決定や臨床評価など目的別に用います。

目次

「この薬、本当に効いてる?」その問いに潜む統計学のワナ

日常診療で抱く素朴な疑問

新しい治療薬が導入されたり、新しい治療法が推奨されたりしたとき、私たちの頭に浮かぶのは、とても自然で、本質的な問いです。「この治療、患者さんにとって本当に効果があるのだろうか?」。日々の診療で、この薬を処方した患者さんの経過が良いように感じたり、逆に思ったほどの効果が見られなかったり、そんな経験は誰しもあるのではないでしょうか。

私自身、研修医の頃、ある新薬を使った患者さんたちのデータを見て、「お、使っていないグループより明らかに結果が良いじゃないか」と単純に喜んでしまった経験があります。しかし、指導医に「その二つのグループは、本当にリンゴとリンゴを比べていると言えるかな?」と問われ、言葉に詰まってしまいました。

そう、この「効果があるか?」という問いに答えることは、私たちが思う以上に繊細で、注意深い分析を必要とする、因果推論という学問の入り口なのです。


なぜ単純比較は危険なのか?:「相関」と「因果」の深い溝

臨床現場や医学論文で目にするデータについて考えてみましょう。新しい降圧薬Aを服用した患者グループと、従来の薬を服用した患者グループがいるとします。数ヶ月後、グループAの方が平均血圧が有意に低かったとしましょう。このとき、「降圧薬Aは従来薬より効果がある」と結論づけても良いのでしょうか?

答えは、「まだ、わからない」です。

なぜなら、このデータが示しているのは、あくまで「降圧薬Aの服用と、血圧低下との間に相関があった」という事実だけだからです。統計学の世界で古くから言われている格言に、「相関は因果を含意しない(Correlation does not imply causation)」というものがあります。これは、2つの事柄が関連して動いていたとしても、一方がもう一方の原因であるとは限らない、という意味です。この原則を無視すると、時に全く誤った結論を導いてしまう危険性があるのです。


見えない糸を操る「交絡」という存在

では、なぜ相関があるだけでは因果関係があると言えないのでしょうか。その最大の理由の一つが、「交絡(Confounding)」という存在です。

交絡とは、私たちが知りたい「原因(例:新薬の投与)」と「結果(例:病気の回復)」の両方に関係し、その関係性を歪めてしまう「第3の因子」のことです。先ほどの降圧薬の例で考えてみましょう。

もしかしたら、新しい降圧薬Aは副作用が少ないと評判で、健康意識が高い、比較的若い患者さんが多く希望して服用していたのかもしれません。一方で、従来薬を続けているのは、長年の付き合いがある高齢で、合併症も多い患者さんが中心だったとしたらどうでしょう?

この場合、「年齢」や「健康意識の高さ」といった因子が、

  1. 処方される薬の種類(原因)に影響し(若い人ほど新薬を希望)、
  2. 血圧の低下(結果)にも影響します(若い人ほど生活習慣も良好で血圧が下がりやすい)。

このような状況を図で示すと、以下のようになります。

図:交絡の構造。交絡因子が原因と結果の両方に矢印を伸ばしている。

🧘‍♀️
年齢・健康意識
(交絡因子)
💊
新薬の服用
(原因)
📉
血圧の低下
(結果)

この図が示すように、「新薬の服用」から「血圧の低下」への直接の矢印(私たちが本当に知りたい因果効果)だけでなく、「年齢・健康意識」を経由する裏道(バックドアパス)が存在します。この裏道があるせいで、たとえ新薬に全く効果がなかったとしても、もともと血圧が下がりやすい人たちが集まっているために、見かけ上、薬が効いているかのような「見せかけの相関」が生まれてしまうのです。

このような交絡バイアスは、観察研究が抱える根深い課題であり、過去にはホルモン補充療法と心血管疾患の関係のように、医学の常識を覆すような誤った結論を導いた事例も報告されています (Hernán & Robins, 2020)。


では、どうすればいいのか?:因果推論への招待

「じゃあ、観察データからは何も言えないじゃないか」と感じるかもしれません。その通り、単純な比較には大きな落とし穴があります。だからこそ、医学研究ではランダム化比較試験(RCT)がゴールドスタンダードとされるのです。ランダム化は、この厄介な交絡因子(観測できるものも、できないものも)の影響を確率的に断ち切り、2つのグループを比較可能にしてくれる強力な手法です。

しかし、倫理的な問題や費用の問題で、すべての問いに対してRCTを行えるわけではありません。私たちは、日常的に得られる観察データ(リアルワールドデータ)から、なんとかして真実に近づきたい。

そこで登場するのが因果推論です。因果推論は、「観察データからでも、交絡などのバイアスを適切に調整し、あたかもランダム化試験を行ったかのように因果関係を推定するための、統計学的な方法論の体系」と言えます。

その記念すべき第一歩は、「そもそも私たちが知りたい『効果』とは何か?」を厳密に定義することから始まります。同じ「効果」という言葉でも、「社会全体にとっての効果」なのか、「実際に薬を飲んだ人たちにとっての効果」なのかで、意味合いが全く変わってくるからです。

今回は、この「効果」を測るための代表的な3つの「モノサシ」であるATE、ATT、ATCについて、一緒に見ていきましょう。これらは、研究や臨床で因果について議論を整理するための、非常に基本的で重要な用語なのです。

「もしも…」を科学する:ポテンシャルアウトカムという考え方

パラレルワールドを想像する思考実験

さて、交絡という厄介な存在を前に、私たちはどうすれば本当の因果効果に迫れるのでしょうか。そのための強力な武器となるのが、「ポテンシャルアウトカム(Potential Outcome; 潜在的結果)」という考え方です。

私がこの概念を初めて学んだとき、まるでSF映画のような思考実験だな、と感じました。少しの間、お付き合いください。

ここに、高血圧に悩むAさんという患者さんがいるとします。Aさんにとって、選択肢は2つです。

  1. 新薬を服用する
  2. 新薬を服用しない(=従来の治療を続ける)

ポテンシャルアウトカムの考え方では、Aさんという一個人を対象に、両方の選択肢を選んだ場合の「パラレルワールド」を想定します。

  • パラレルワールド①: Aさんが新薬を服用した世界線。1年後のAさんの血圧は130mmHgになったとします。この「もし服用したら」の結果を、数式で \(Y_A(1)\) と書きます。
  • パラレルワールド②: Aさんが新薬を服用しなかった世界線。1年後のAさんの血圧は140mmHgになったとします。この「もし服用しなかったら」の結果を、\(Y_A(0)\) と書きます。

この \(Y(1)\) と \(Y(0)\) が、ポテンシャルアウトカムです。重要なのは、治療が行われる前の時点では、どんな人にとっても、この2つの未来が「潜在的に」存在している、と考える点です。このフレームワークは、ハーバード大学の統計学者ドナルド・ルービンによって体系化されたことから「ルービン因果モデル」とも呼ばれています (Rubin, 1974)。

Aさん個人にとっての真の因果効果(専門的には個人処置効果; Individual Treatment Effect, ITE)は、この2つの世界の差、つまり、

\[ \text{Aさんの個人処置効果} = Y_A(1) – Y_A(0) = 130 – 140 = -10\text{mmHg} \]

となります。つまり、Aさんにとっては、新薬を服用することで血圧が10mmHg余分に下がる、というのが「真実」です。

ポテンシャルアウトカム思考実験
パラレルワールドで考える「真の因果効果」
🧍 Aさん
パラレルワールド ①
💊新薬を服用した世界線
結果 (ポテンシャルアウトカム)
YA(1) = 130 mmHg
パラレルワールド ②
🚫服用しなかった世界線
結果 (ポテンシャルアウトカム)
YA(0) = 140 mmHg
Aさんの個人処置効果 (Individual Treatment Effect)
ITE = YA(1) – YA(0)
130mmHg – 140mmHg = -10mmHg

因果推論の「根本問題」:観測できない「もしも」

「なるほど、簡単じゃないか」と思われたかもしれません。しかし、ここには一つ、どうしようもなく根本的な問題が立ちはだかります。

現実世界では、Aさんはどちらか一方の世界線しか選べません。新薬を服用したAさんを観測できても、その瞬間に「もし服用しなかった場合のAさん」は消えてしまいます。逆もまた然りです。

つまり、私たちは下の表のように、常に半分が「?(観測不能)」のデータしか手に入れることができないのです。

患者さんもし処置した場合の結果
\(Y(1)\)
もし処置しなかった場合の結果
\(Y(0)\)
現実世界で
観測された結果
Aさん(処置あり)130mmHg?130mmHg
Bさん(処置なし)?138mmHg138mmHg
Cさん(処置あり)135mmHg?135mmHg
Dさん(処置なし)?142mmHg142mmHg

表:ポテンシャルアウトカムと観測データ。各個人について片方のポテンシャルアウトカムは常に欠損(?)する。

この、個人レベルでの因果効果は、原理的に計算不可能であるという問題を、統計学者のPaul Hollandは「因果推論の根本問題(Fundamental Problem of Causal Inference)」と名付けました (Holland, 1986)。これは、どんなに優れたAIや統計モデルを使っても乗り越えられない、いわば原理的な壁です。


視点の転換:「個人」から「集団の平均」へ

では、私たちは諦めるしかないのでしょうか?

いいえ、ここで偉大な先人たちは、視点を大きく転換させました。「個人で見るのが無理なら、集団の平均で見ればいいじゃないか」と考えたのです。

確かに、Aさん個人の \(Y_A(0)\) は観測できません。しかし、

  • 処置を受けた人たちの集団」における \(Y(1)\) の平均値
  • 処置を受けなかった人たちの集団」における \(Y(0)\) の平均値

これらなら、データから計算できます。そして、もしこの2つの集団の背景が(ランダム化などで)完全に同じだとみなせるなら、両者の平均値を比べることで、平均的な因果効果を推定できるはずです。

このように、因果推論は「観測できない個人の効果」という難問を、「集団の平均的な効果」という、なんとか解けそうな問題に置き換えることで、発展してきました。

そして、この「どの集団で平均を計算するのか?」という問いの立て方の違いこそが、これからお話しするATE、ATT、ATCという3つの異なる「効果のモノサシ」を生み出すのです。

3つのモノサシを使い分ける:ATE, ATT, ATCを徹底解説

さて、「個人」ではなく「集団の平均」に注目することで因果推論の扉を開いた私たちですが、次なる問いは「どの集団に注目するのか?」です。この問いの立て方の違いで、私たちが測れる「効果」の意味合いは全く異なってきます。

ここでは、因果推論における3つの基本的なモノサシ、ATE, ATT, ATCを、具体的な臨床シナリオと数式、そして「誰が、何のために知りたいのか?」という視点から、じっくりと見ていきましょう。

3つのモノサシを使い分ける
ATE, ATT, ATCの徹底解説
🌏
ATE
Average
Treatment Effect
集団全体への
平均的な効果
❓ 問い
もし、集団「全員」に治療した場合と「全員」にしなかった場合を比べたら、結果の平均的な差はどれくらいか?
🔬 数式とその心
ATE = E[Y(1) – Y(0)]
個人の因果効果を集団全体で平均したもの。
👨‍💼 誰が、なぜ知りたいのか?
国や規制当局など、マクロな視点で意思決定を行う人々。社会全体への普遍的な効果を測るための指標として用いる。
🎯
ATT
Average Treatment Effect
on the Treated
実際に治療を
受けた人への効果
❓ 問い
「実際に」治療を受けた人たちにとって、その治療は平均していくら効果があったのか? (もし受けていなければどうだったか?)
🔬 数式とその心
ATT = E[Y(1) – Y(0) | Z=1]
実際に治療を受けた人(Z=1)に限定して、因果効果を平均したもの。
👨‍⚕️ 誰が、なぜ知りたいのか?
現場の臨床医や病院管理者など。自らの診療実績を評価したり、費用対効果を分析するために用いる。
🤔
ATC
Average Treatment Effect
on the Control
治療を受けなかった人への
潜在的な効果
❓ 問い
「実際には」治療を受けなかった人たちが、もし受けていたら、平均してどれくらいの効果が期待できたか?
🔬 数式とその心
ATC = E[Y(1) – Y(0) | Z=0]
実際に治療を受けなかった人(Z=0)に限定して、因果効果を平均したもの。
🏢 誰が、なぜ知りたいのか?
医療政策の立案者や公衆衛生の専門家など。介入プログラムの拡大(まだ恩恵を受けていない人へのアプローチ)を検討する際に用いる。

① ATE (Average Treatment Effect): 集団全体への平均的な効果 🌏

ATEが答えようとする問い

ATEが答えようとするのは、最もスケールの大きな問いです。

「もし、この関心のある集団の『全員』に新薬を投与した場合と、『全員』に投与しなかった場合とを比べたら、その結果の平均的な差はどれくらいになるだろうか?」

これは、まるで神の視点から、ある集団全体を対象に「全員治療シナリオ」と「全員非治療シナリオ」という2つの巨大なシミュレーションを行うようなものです。現実にはあり得ない状況だからこそ、ATEは集団全体に対する普遍的・平均的な効果を示唆する、理想的な指標と位置づけられます。

数式とその心

ATEは、ポテンシャルアウトカムの期待値(平均値)を用いて、以下のように定義されます。

\[ \text{ATE} = E[Y(1) – Y(0)] \]

この数式を分解してみましょう。

  • \(Y(1) – Y(0)\): これは、ある一人の人間における「治療を受けた場合の潜在的結果」と「受けなかった場合の潜在的結果」の差、つまり個人レベルの因果効果です。
  • \(E[\dots]\): このEはExpectation(期待値)の頭文字で、「集団全体で平均すると」という意味です。

つまり、ATEとは「集団からランダムに一人を連れてきたとき、その人の個人因果効果は、平均していくつだと期待できるか」を示しています。観測できない個人レベルの効果を、集団全体で平均することで、推定可能な目標へと昇華させているわけですね。

誰が、なぜ知りたいのか?

ATEを最も知りたいのは、国や規制当局、学会のガイドライン作成者といった、マクロな視点で意思決定を行う人々です。

例えば、新しいワクチンの承認を考える際、彼らが知りたいのは「特定の背景を持つ人」への効果だけではありません。「もし、このワクチンを国民全体に接種する方針を採った場合、社会全体として平均的にどれだけの利益(例:感染率の低下)が見込めるのか?」という問いです。ATEは、このような集団全体への適応を考える際の、最も基本的で重要な判断材料の一つとなるのです (Imbens & Rubin, 2015)。


② ATT (Average Treatment Effect on the Treated): 実際に治療を受けた人への平均的な効果 🎯

ATTが答えようとする問い

ATTは、より現実的で、特定のグループに焦点を当てた問いに答えます。

「『実際に』その新薬を服用した人たちにとって、その薬は平均してどれくらいの効果があったのだろうか?もし彼らがその薬を飲んでいなかったら、どうなっていたのだろう?」

ここでのポイントは、「実際に治療を受けた人(the Treated)」というサブグループに限定している点です。彼らが現実世界で得た結果と、彼らが経験しなかった「もし治療を受けていなかったら」という反実仮想(カウンターファクチュアル)の結果とを比較します。

数式とその心

ATTは、「\(Z=1\)(実際に治療を受けた)」という条件の下での期待値として定義されます。

\[ \text{ATT} = E[Y(1) – Y(0) | Z=1] \]

この数式も少しだけ詳しく見てみましょう。

  • | Z=1: この縦棒は「条件」を表す記号で、「Z=1という集団、つまり実際に治療を受けた人たちだけに絞って考えた場合」という意味になります。
  • \(E[Y(1) – Y(0) | Z=1]\): 実際に治療を受けた人たち(Z=1)について、彼らが観測された結果(\(Y(1)\))と、彼らがもし治療を受けていなかったらどうなっていたか(\(Y(0)\))の差を考え、その集団内で平均したものです。

誰が、なぜ知りたいのか?

ATTは、現場の臨床医病院の管理者にとって、非常に関心の高い指標です。

日々の診療で新薬を処方している医師が、「私のクリニックでこの薬を使った患者さんたちには、本当に意味があったのだろうか?」と自らの診療を評価(Clinical Audit)する際に、まさに知りたいのがATTです。

また、英国のNICE(国立医療技術評価機構)のガイドラインにもあるように、費用対効果分析においてもATTは重要です (NICE, 2013)。「実際に治療の恩恵を受けた人たちに、どれだけの医療費を投下し、どれだけの価値(例:QALY)が得られたか」を評価する際には、治療を受けなかった人のことは一旦置いておき、まずは治療を受けた人への効果(ATT)を正確に知る必要があるからです。


③ ATC (Average Treatment Effect on the Control): 治療を受けなかった人への潜在的な効果 🤔

ATCが答えようとする問い

ATCは、一見すると少し不思議な問いに答えます。

「『実際には』新薬を服用しなかった人たちが、もし服用していたとしたら、平均してどれくらいの効果が期待できたのだろうか?」

今度は、「治療を受けなかった人(the Control / Untreated)」というサブグループに注目し、彼らがもし治療を受けていたらどうなっていたか、という反実仮想を考えるのです。

数式とその心

ATCは、「\(Z=0\)(実際に治療を受けなかった)」という条件の下での期待値として定義されます。

\[ \text{ATC} = E[Y(1) – Y(0) | Z=0] \]

  • | Z=0: 「Z=0という集団、つまり実際に治療を受けなかった人たちだけに絞って考えた場合」という意味です。
  • \(E[Y(1) – Y(0) | Z=0]\): 実際に治療を受けなかった人たち(Z=0)について、彼らがもし治療を受けていたらどうなっていたか(\(Y(1)\))と、彼らが実際に観測された結果(\(Y(0)\))の差を考え、その集団内で平均したものです。

誰が、なぜ知りたいのか?

ATCは、医療政策の立案者公衆衛生の専門家が、介入プログラムの拡大を検討する際に役立ちます。

例えば、ある地域で禁煙補助プログラムを実施したとします。しかし、喫煙者全員が参加したわけではありません。このとき、政策担当者はこう考えます。「このプログラムに『参加しなかった』喫煙者たちに、もし参加を促すことができたら、彼らにとってどれだけの効果(禁煙成功率の上昇)が見込めるのだろうか?」。

この問いに答えるのがATCです。もしATCが高い値を示すなら、それは「まだ介入の恩恵を受けていない人たちに、大きな潜在的利益がある」ことを意味します。そうなれば、より強力な広報活動やインセンティブの付与など、プログラムへの参加を促すための追加投資を正当化する強い根拠になります (Hernán & Robins, 2020)。

最後に:「推定対象(Estimand)」という言葉

最後に:「推定対象(Estimand)」という言葉
推定
📜
推定対象 (Estimand)
私たちがデータから知りたい
「真の値」「理論上の目標」のこと
例えるなら…
📖 + 🍛
「理想のカレーのレシピ」
具体例: ATE, ATT, ATC など
📊
推定量 (Estimator)
手元のデータから計算される
「具体的な数値」のこと
例えるなら…
🧑‍🍳 ➡ 🍛
「レシピから作った実際のカレー」
具体例: 平均値の差、回帰係数 など
💡なぜこの区別が重要なのか?
ただ漠然と「効果を知りたい」ではなく、
最初に「ATEが知りたい」のようにEstimand(目標)を明確に定めることで、
その後の分析手法の選択や結果の解釈が、ブレなく一貫したものになる。
(国際的ガイドライン ICH E9(R1)でも重要性が強調されています)

今回解説したATE、ATT、ATCは、統計学の言葉で「推定対象(Estimand)」と呼ばれます。

これは、私たちがデータから最終的に推定したい「真の値」や「理論上の目標」のことです。料理に例えるなら、「理想のカレーのレシピ」そのものと言えるかもしれません。

一方で、私たちが実際に行うランダム化比較試験(RCT)や観察研究のデータを使って計算した具体的な数値(例えば、群間での平均値の差など)は「推定量(Estimator)」と呼ばれます。これは、レシピ(Estimand)に基づいて、手元にある材料(データ)で作った「実際のカレー(Estimator)」です。

臨床試験の計画に関する国際的なガイドラインであるICH E9(R1)でも、このEstimandを研究計画の段階で明確に定義することの重要性が強調されています (ICH, 2019)。

ただ漠然と「効果を知りたい」と考えるのではなく、「私は集団全体の平均的な効果(ATE)が知りたいんだ」と最初に旗を立てる。そうすることで、その後の分析手法の選択や結果の解釈が、ブレなく、一貫したものになるのです。

今回は「効果」を測る3つの基本的なモノサシを紹介しました。次回以降は、これらのEstimandを、手元のデータからどうやって推定(Estimate)していくのか、具体的な手法の世界に足を踏み入れていきましょう。


参考文献

  • Hernán, M.A. (2018). The C-Word: Causal Inference terminology in epidemiology. Epidemiology, 29(2), pp.149-152.
  • Hernán, M.A. and Robins, J.M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC.
  • Holland, P.W. (1986). Statistics and Causal Inference. Journal of the American Statistical Association, 81(396), pp.945-960.
  • ICH (2019). E9(R1) Addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principles for clinical trials. International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use.
  • Imbens, G.W. and Rubin, D.B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction. Cambridge: Cambridge University Press.
  • NICE (2013). Guide to the methods of technology appraisal. National Institute for Health and Care Excellence.
  • Rubin, D.B. (1974). Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology, 66(5), pp.688-701.

※本記事は情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

医師・医学博士・AI研究者・連続起業家
元厚生労働省幹部・ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士(経済)
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長(医療情報・救急災害・国際展開等)を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療関係者向け医療AIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

目次