[Medical Data Science 100 : S43] 傾向スコア・マッチング入門：不揃いなデータから「真の効果」を見抜く統計学の知恵

2025年9月15日

傾向スコア・マッチングの要点

観察研究やリアルワールドデータでは、患者の背景が不揃いなため治療効果を正しく比較できません。傾向スコアは、この「不公平さ（交絡バイアス）」を乗り越え、あたかもランダム化比較試験のように公平な比較を実現するための強力な統計手法です。

😵 課題：不公平な比較

交絡バイアス

リアルワールドでは、新治療を受ける群と従来治療の群で患者背景が大きく異なります。例えば、若く体力のある患者に新手術が選ばれやすいため、単純比較すると効果を誤って評価してしまいます。

🧮 解決策：傾向スコア

背景情報を1つの確率に要約

年齢、性別、重症度など、多数の患者情報を統計モデルに入力し、「その人が新治療を受ける確率」を0から1のスコアとして算出。これにより、複雑な背景情報をたった一つの指標に集約します。

🎯 目的：公平な比較

統計的な”双子”を見つける

新治療群と従来治療群から、傾向スコアがほぼ同じ患者同士をペアにします。これにより、背景が揃った集団を作り出し、治療法そのものの純粋な効果を比較することが可能になります。

新しい治療法や薬が臨床現場に登場するたび、私たちの頭にはきまって、シンプルで、しかし非常に重要な疑問が浮かびます。「これって、今までの標準治療と比べて、本当に効果があるのだろうか？」と。一見、単純なこの問いに答えるのは、実は想像以上に難しい道のりです。

なぜなら、実際の医療現場、つまりリアルワールドでは、患者さんをランダムに割り付けて比較するような綺麗な実験はめったに行えません。そこにあるのは、「ありのまま」のデータです。例えば、新しい低侵襲の内視鏡手術は、比較的若くて体力のある患者さんに選択されやすいかもしれません。一方で、従来からある開腹手術は、より進行した、あるいは合併症リスクの高い複雑な症例に適用されることが多いでしょう。この二つのグループをそのまま比較して、「内視鏡手術のほうが術後の経過が良い」と結論づけるのは、果たしてフェアでしょうか？

医療の世界では、このような比較の「土俵の不公平さ」を交絡（こうらく）バイアスと呼びます。この交絡が、私たちをいとも簡単に誤った結論へと導き、本当に価値のある治療法が見過ごされたり、逆に効果の乏しい治療が過大評価されたりするリスクを生むのです。

この非常に厄介で、しかし避けては通れない問題を解決するために、統計学の世界が生み出した強力なアプローチが、今回ご紹介する傾向スコア（Propensity Score）なんです。傾向スコアは、この不揃いな患者集団から、あたかも「同じような条件の患者同士」を集めてきて比較するような状況を、統計的に作り出してくれます。

この記事では、観察研究やリアルワールドデータを扱う上で必須の知識となる「傾向スコア・マッチング」について、その考え方の本質から、具体的な使い方、そして解釈する上での注意点まで、具体的な医療現場の例を交えながら、一歩一歩丁寧に解説していきます。

そもそも傾向スコアって何？なぜ「スコア」が役立つの？

いきなり専門用語で戸惑ったかもしれませんが、ここが今回の話の心臓部です。そして、その本質はとてもシンプルなので、安心してください。

傾向スコアとは？多次元の情報を一つの「確率」に要約する技術

一言でいうと、傾向スコアは、ある一人の患者さんが、その人の持つ様々な背景情報（年齢、性別、病気の重さ、既往歴など）を総合的に考慮した上で、「特定の治療（例：新しい治療法）を受ける確率」を計算したものです。

「確率」と聞くと、少し難しく感じるかもしれませんね。もう少し臨床現場に即した例で考えてみましょう。

糖尿病の患者さん二人がいるとします。一人は70歳で軽度の腎機能障害があり、もう一人は55歳で合併症はありません。医師は、腎臓への負担がより少ないとされる新しい薬を、前者の70歳の患者さんに処方する可能性が高いかもしれません。傾向スコアは、このような医師や患者の背景に基づいた「治療選択への傾き」を、\(0\)から\(1\)までの数値（確率）として客観的に表現しようとする試みです。

このスコアが\(1\)に近ければ近いほど、その患者さんは背景的に見て「新しい治療を受けやすい」タイプの人だと解釈できます。

この図のように、たくさんのごちゃごちゃした情報を、たった一つのスコアにぎゅっと要約してしまう。これが傾向スコアの第一のポイントです。

なぜこの「スコア」が魔法の杖になるのか？

「なるほど、確率は分かった。でも、なぜそれがそんなに便利なの？」と思いますよね。ここが一番面白いところです。

観察研究で公平な比較が難しい最大の理由は、比較したい二つのグループの間で、あまりにも多くの背景因子が異なっているからです。年齢、性別、重症度、検査値…これらすべてが全く同じである患者さんを、治療群と対照群から一人ずつ見つけ出すのは、ほとんど不可能です。これは「次元の呪い」とも呼ばれる問題で、考慮する変数が増えれば増えるほど、完璧にマッチするペアを見つけるのは指数関数的に困難になります。

しかし、傾向スコアは、この問題を驚くほどエレガントに解決します。

たくさんの背景因子を一つずつマッチさせるのではなく、「背景因子を要約した、たった一つの傾向スコア」だけをマッチさせれば良い、と発想を転換したのです (Rosenbaum and Rubin, 1983)。

先ほどの、傾向スコアが「0.8」と同じだった患者さんAと患者さんBの例を思い出してみましょう。

患者Aさん: 傾向スコア 0.8 → 実際に新しい治療を受けた
患者Bさん: 傾向スコア 0.8 → 実際には従来の治療を受けた

この二人は、個々の背景（年齢や検査値など）が完全に同一ではないかもしれません。しかし、「新しい治療を受ける確率が80%」という点で一致しているということは、治療選択に影響を与えるであろう背景情報のバランスが、全体として非常によく似ていると期待できるのです。

つまり、患者Bさんは、統計的に見て「もし患者Aさんが新しい治療を受けていなかったら、どうなっていたか？」を考える上での、絶好の比較対象（統計的な双子、”ドッペルゲンガー”）になってくれるわけです。

このように、傾向スコアという共通の「ものさし」を使うことで、私たちは治療群と対照群からスコアの近い人同士をペアリング（マッチング）し、背景因子がバランスの取れた、あたかも「擬似的」な比較グループを作り出すことができます。

ランダム化こそ行いませんが、観察データに潜む交絡を統計的に減らすことで、信頼性の高い比較の土台を築く。これこそが、傾向スコアが目指すゴールなのです (Imbens and Rubin, 2015)。

交絡バイアス：観察研究の「見えない敵」

傾向スコアがなぜこれほどまでに重要視されるのか、その理由を理解するには、観察研究に必ずと言っていいほど潜んでいる「交絡（こうらく）バイアス」という厄介な存在について、もう少し深く掘り下げる必要があります。

交絡とは、平たく言えば「比較を邪魔する、見えない要因」のことです。もう少し正確に言うと、私たちが知りたい「原因（治療や曝露）」と「結果（アウトカム）」の関係性を、背後から歪めてしまう「第3の変数」を指します。ある変数が交絡因子であると見なされるには、一般的に次の3つの条件を満たす必要があります。

1. 結果（アウトカム）の予測因子であること（例：喫煙は、肺がんの発生に影響する）
2. 原因（治療・曝露）と関連していること（例：喫煙者は、コーヒーをよく飲む傾向がある）
3. 原因と結果の連鎖の途中（中間因子）にないこと

言葉だけだと少し難しいので、古典的で非常に分かりやすい例を見てみましょう。

コーヒーを飲むと、肺がんになる？

「コーヒーを飲む人ほど肺がんになりやすい」というデータがあったとします。これだけを見ると、「コーヒーの成分が肺がんを引き起こすのでは？」と早合点してしまいそうになりますが、本当でしょうか？

ここで登場するのが、先ほどの3条件を満たす強力な交絡因子、「喫煙」です。

喫煙は、肺がんの強力な原因ですよね。
そして、喫煙者は非喫煙者に比べてコーヒーを好む傾向があります。
コーヒーを飲んだから喫煙したくなる、という直接の因果関係の経路上にはありません。

この関係性を、因果関係を図で表現する有向非巡回グラフ（DAG）で描くと、以下のようになります。矢印は「影響を与える」と考えてください。

この図が示しているのは、喫煙（Z）がコーヒー摂取（T）と肺がん（Y）の両方に影響を与えている構造です。そのため、たとえコーヒーと肺がんの間に直接の因果関係（T → Yの矢印）が全くなくても、喫煙という共通の原因（Z）を通じて、あたかも両者に関連があるかのように見えてしまうのです。これが「見せかけの相関」であり、交絡バイアスの正体です。

臨床現場における、よりリアルな罠

この問題は、臨床研究ではさらに身近で、深刻な影響を及ぼします。「治療選択バイアス（Indication Bias）」とも呼ばれますが、病状が重い患者ほど、より強力な（あるいはリスクの高い）治療が選択されやすい、という状況が典型例です。

例えば、新しい手術法Aと従来の手術法Bを比較する研究を考えてみましょう。もし、手術Aは最新鋭で体への負担も大きいとされ、主に体力のある若手の患者さんにしか適用されなかったとします。一方で、従来法Bは多くの症例で実績があり、高齢や合併症を持つリスクの高い患者さんにも広く行われていたとします。

この状況で、術後の死亡率を単純に比較したらどうなるでしょうか？当然、もともとリスクの高い患者さんを多く含んでいる従来法Bのグループのほうが、死亡率は高く出るでしょう。そして、「新しい手術法Aは、従来法Bよりも優れている！」という、誤った結論に飛びついてしまうかもしれません。ここでの交絡因子は「術前の患者の重症度」です。

なぜRCTでは問題にならないのか？

ここで、研究のゴールドスタンダードであるランダム化比較試験（RCT）を思い出してみましょう。RCTでは、患者さんをコイン投げのようにランダムに治療群と対照群に割り付けます。この「ランダム化」というプロセスのおかげで、喫煙者の数も、重症患者の数も、その他のあらゆる背景因子の分布も、二つのグループ間で（サンプルサイズが大きければ）理論上ほぼ均等になることが期待できます。だからこそ、交絡を気にすることなく、純粋な治療効果を比較できるのです。

しかし、倫理的・費用的・時間的な制約から、すべての疑問をRCTで検証することはできません。そこで、私たちは「ありのままの」観察データと向き合わなければならないのです。

傾向スコアは、この観察研究の根本的なハンディキャップを克服するための知恵です。喫煙や重症度といった、測定されたすべての交絡因子の情報を、たった一つの「治療を受ける確率」スコアに凝縮します。そして、そのスコアが同じくらいの患者さん同士を比較することで、あたかも交絡因子の条件がそろったグループ間で比較しているかのような状況を、統計的に作り出そうと試みるのです。

傾向スコア・マッチングの実践：舞台裏をのぞいてみよう！

理論を学んだところで、いよいよ実践編です。具体的に傾向スコアはどのように計算され、使われていくのでしょうか？そのプロセスは、料理のレシピのように、いくつかのステップに分かれています。

全体のワークフローをまず見てみましょう。

この一連の流れに沿って、ステップを一つずつ、じっくり見ていきましょう。

Step 1: データ整備と変数選定 — 分析の土台作り

すべての分析は、良質なデータと適切な設計から始まります。この最初のステップは、しばしば最も時間と労力がかかりますが、研究全体の質を決定づける極めて重要な工程です。

データ整備：まず、データを綺麗にする

実際の臨床データ（リアルワールドデータ）は、残念ながらそのまま分析に使えるほど綺麗ではありません。

欠損値の処理: 患者さんのデータには、「検査値が未測定」「問診項目が無回答」といった欠損値がつきものです。年齢が分からなければ傾向スコアは計算できません。これらの欠損値をどのように扱うか（例えば、統計的に妥当な値で補う多重代入法を用いるか、あるいはやむを得ずその患者データを除外するか）を、あらかじめ決めておく必要があります。
変数の定義: 「新薬Aを投与された」とは、具体的にいつの投与を指すのか？「心筋梗塞の再発」という結果は、いつまでの期間を追跡するのか？といった、治療・曝露・結果の定義を明確に文書化します。これにより、研究の再現性が担保されます。

変数選定：傾向スコアモデルに何を入れるべきか？

これが傾向スコア分析における、最も「頭を使う」部分です。どの背景情報（共変量）をモデルに投入するかは、分析の成否を分けます。

何を「入れる」べきか？: 目的は交絡を取り除くことなので、「治療の選択」と「結果（アウトカム）」の両方に関連する変数（＝交絡因子）はすべて含める必要があります。例えば、2つの心不全治療薬を比較するなら、年齢、性別はもちろん、腎機能（eGFR）、心機能（EF）、併存疾患の有無などは、医師が薬を選ぶ基準にもなり、かつ患者の予後にも強く影響するため、必ず含めるべき候補となります。この選定は、統計アルゴリズム任せにせず、臨床医や疫学専門家のドメイン知識に基づいて行うことが不可欠です。
何を「入れてはならない」か？:
- 治療によって影響を受ける変数（中間因子）: 例えば、ある降圧薬の効果（結果：心筋梗塞の予防）を見たいときに、治療開始「後」の血圧をモデルに入れてはいけません。なぜなら、血圧を下げること自体が薬の効果の一部（メカニズム）だからです。これを入れてしまうと、薬の本来の効果を隠してしまうことになります。
- 結果にのみ関連する変数: 治療選択には全く関係ないが、結果にだけ強く関連する変数（いわゆるInstrumental Variableのようなもの）は、交絡の調整には役立たず、かえって推定を不安定にすることがあります。

この変数選択は、結果のデータを見ずに（ブラインドで）行うのが鉄則です。結果を見ながら変数を足したり引いたりすると、無意識に自分に都合の良い結果を探してしまう「p-hacking」に陥る危険があるからです。

Step 2: 傾向スコアの計算 — バランスをとるための「確率予測」

すべての準備が整ったら、いよいよ傾向スコア、つまり「各患者さんが新しい治療を受ける確率」を計算します。これには、一般的にロジスティック回帰分析という統計モデルが最もよく使われます。

これは、治療を受けたかどうか（1=受けた, 0=受けなかった）を「正解」とし、患者さんの背景情報（年齢、性別、重症度などの共変量）を「問題」として、その関係性を学習するモデルです。数式で書くと少し難しく見えますが、やっていることは「確率予測のレシピ作り」です。

\[ \operatorname{logit}(p) = \ln\left(\dfrac{p}{1-p}\right) = \beta_0 + \beta_1X_1 + \dots + \beta_kX_k \]

ここで \(p\) が、私たちが求めたい傾向スコア（確率）です。
左辺の \(\ln(p/(1-p))\) はロジットと呼ばれ、確率 \(p\) をマイナス無限大からプラス無限大までの値に変換する役割があります。これにより、線形な式（右辺）と結びつけやすくなります。
\(X_1, \dots, X_k\) が、年齢や性別といった患者さんの背景情報（共変量）です。
\(\beta_0, \beta_1, \dots\) は、それぞれの背景情報が治療選択にどれくらい影響を与えるかを示す重み（係数）です。

近年では、より複雑な関係性を捉えるために、GBM（勾配ブースティング）のような機械学習（ML）の手法が用いられることも増えてきました (Lee et al., 2010)。

ただし、ここで絶対に忘れてはならない超重要な注意点があります。傾向スコア推定の目的は、「治療の割り付けを完璧に予測する」ことではありません。むしろ、予測が完璧にできてしまう（傾向スコアが0か1ばかりになる）と、両群に共通する患者さんがいないことになり、マッチングができなくなってしまいます。

真の目的は、「治療群と対照群の背景をバランスさせる」ことです。スポーツで2つのチームを作る時、目的は誰がどちらのチームに入りたがるかを当てることではなく、最終的にできた2チームの平均身長や体重が同じになることですよね。それと同じです。そのため、予測精度そのものよりも、臨床的な知見や因果ダイアグラムに基づき、「治療」と「結果」の両方に関連する交絡因子候補を事前にしっかり選定することが何よりも重要になります (Brookhart et al., 2006)。

Step 3: 運命のペア探し！多彩なマッチング手法

スコアが計算できたら、次はいよいよマッチングです。治療群と対照群の中から、傾向スコアが近い人同士でペアを作っていきます。まるで、ダンスパーティーで、身長が近い人同士がペアになるようなイメージですね。

これには、いくつかの代表的な手法があり、それぞれに個性があります。

マッチング手法	直感的なイメージ	特徴と注意点
最近傍マッチング	「自分に一番スコアが近い相手を、一人だけ探してペアになる」	最もシンプルで分かりやすいですが、一番近い相手でもスコアが大きく離れている「悪いマッチ」が生まれる可能性があります。
カリパス・マッチング	「スコアの差が±0.05以内など、許容範囲（カリパス）内の相手から、一番近い人を探す」	測定器のノギス（Caliper）のように、許容範囲を設けることで「悪いマッチ」を防ぎます。ただし、範囲内に相手がいない人はマッチングから脱落します。
半径マッチング	「自分のスコアから一定の半径内にいる相手、全員とペアになる」	1対1だけでなく、1対多のマッチングも可能です。多くのデータを活用できますが、解析が少し複雑になります。
最適マッチング	「フロア全体を見渡して、全ペアのスコア差の合計が最小になるような、最も効率的な組み合わせを見つける」	全体最適を目指す洗練された方法ですが、計算コストが高くなることがあります。

これらの手法に加えて、「マッチング比（1:1 vs 1:k）」や「置換の有無（一度ペアになった対照群の人を、他のペア候補として再度使えるか）」といった細かいルールも決めます。どの戦略を選ぶかは、データの状況や研究の目的によって慎重に決定される必要があります (Stuart, 2010)。

Step 4: マッチングは成功した？バランス確認という「健康診断」

さて、無事にマッチングが終わりました。しかし、ここで決して安心してはいけません。最も重要な作業、いわば「分析の成否を決める、運命の瞬間」が残っています。それは、「マッチングによって、本当に2つのグループの背景はそろったのか？」を客観的に確認するバランス評価です。これはオプションではなく、必須のプロセスです。

この診断で最も広く使われる指標が、「標準化平均差 (Standardized Mean Difference, SMD)」です。これは、各背景因子（年齢や検査値など）の平均値の差を、そのばらつきで調整した、単位のない指標です。これにより、年齢（年）や血圧（mmHg）といった異なる単位の変数同士を、同じ土俵で比較できます。

絶対的な基準ではありませんが、実務的な慣行として、SMDの絶対値が0.1（10%）を下回っていれば、その項目についてはバランスが良好に取れたと判断されることが多いです (Austin, 2009)。

このSMDをすべての変数について一つ一つ確認するのは大変なので、「Love Plot」という非常に便利なグラフで可視化するのが一般的です。これは、マッチング前後のSMDを項目ごとにプロットすることで、バランスがどれだけ改善したかを一目で確認できるツールです (Austin and Stuart, 2015)。

この図のように、マッチング前（●）はバラバラだった各変数のSMDが、マッチング後（○）にはゼロに近いラインにきれいに収まっている様子を確認できたとき、私たちは初めて「よし、これで公平な比較ができるぞ！」と確信し、次の効果推定のステップに進むことができるのです。

Step 5: 治療効果の推定 — いよいよ結果を出す

長かった準備期間を経て、いよいよ分析のクライマックスです。背景因子がバランスした「新しいデータセット」を使って、治療の真の効果を推定します。交絡というノイズを丁寧に取り除いた後なので、ここでの比較はより純粋なものになります。

何を比較するのか？: マッチングされたペア（あるいはグループ）の中で、治療群と対照群の結果を比較します。

どうやって比較するのか？: アウトカムの種類によって、適切な統計手法を選びます。

結果が連続値の場合（例：血圧の低下量、入院日数など）: 対応のあるt検定や、ペアを考慮した線形回帰モデルなどを用います。
結果が二値の場合（例：死亡/生存、再発あり/なしなど）: マクネマー検定や、条件付きロジスティック回帰分析など、ペアデータを扱うための特別な手法を用います。
結果がイベント発生までの時間の場合（例：生存期間など）: 各ペアを一つの層（Strata）と見なした、層別Cox比例ハザードモデルなどを用います。

重要なのは、元の不揃いなデータではなく、マッチングによって新しく作られた、バランスの取れたデータセットに対して分析を行うということです。面倒な交絡調整はすでにマッチングのステップで済ませているため、最後の効果推定は比較的シンプルな手法で行えることが多いのです。

最終的に得られるのは、単なるp値だけではありません。「リスク差」「オッズ比」「ハザード比」といった効果の大きさ（Effect Size）と、その推定がどれくらい不確実かを示す95%信頼区間です。これらをもって、私たちは臨床的な結論を導きます。

Step 6: 感度分析 — 結果の「頑健さ」を問う

すべての分析が終わり、素晴らしい結果が得られたとします。しかし、ここで満足してはいけません。優れた観察研究では、最後に「感度分析」という、いわば結果のストレステストを行います。

なぜ必要か？: 傾向スコア分析は、「測定された」交絡因子しか調整できません。しかし、現実には測定できなかった、あるいは未知の交絡因子（例：患者の治療意欲、食事内容など）が存在するかもしれません。感度分析は、「もし、我々が測定できなかった隠れた交絡因子があったとしたら、この結論はどれくらい簡単に覆ってしまうのだろうか？」という問いに答えるためのものです。

どうやって行うか？: Rosenbaum boundsなどの専門的な手法を使い、仮想的な未測定交絡因子の影響の強さを様々に変化させ、それでもなお結果の有意性が保たれるかをシミュレーションします。

このステップを経ることで、私たちは自分たちの出した結論が、不確実性の中でどれだけ信頼に足るものなのかを評価できます。これは、研究の透明性と科学的誠実さを示す上で、非常に重要な工程なのです。

応用例と知っておくべき限界、そしてその先へ

傾向スコア・マッチングは、電子カルテやDPCデータ、レセプトといった、日々蓄積される膨大なリアルワールドデータを用いた研究で、その真価を発揮します。ランダム化比較試験（RCT）の実施が困難な多くの臨床的な疑問に対して、より信頼性の高いエビデンスを構築するための強力な武器となります。

しかし、どんなに優れた道具にも、その特性と限界があります。傾向スコアは万能の魔法ではありません。この手法を正しく使いこなし、結果を適切に解釈するためには、いくつかの重要な「お約束」と「限界」を深く理解しておく必要があります。

1. 未知・未測定の交絡には無力という現実

前のセクションでも触れましたが、これが最も重要で、決して忘れてはならない大原則です。傾向スコアが調整できるのは、あくまで私たちが測定し、モデルに投入した交絡因子だけです。

テーブルのぐらつきを直す場面を想像してみてください。目に見える脚（年齢、性別、検査値など）の長さを調整することはできます。しかし、もしカーペットの下に隠れた、目に見えない凹凸（=未測定の交絡因子）があれば、いくら脚を調整してもテーブルはぐらついたままですよね。

臨床研究における「目に見えない凹凸」とは、例えば患者さんの「治療に対するアドヒアランス」や「家族のサポート体制」、「食生活」といった、通常の診療データには記録されにくい要因です。もしこれらの要因が治療選択と結果の両方に影響を与えていた場合、そのバイアスは解析結果に残ってしまいます。

その先へ：感度分析という「ストレステスト」

この問題に完全に対処することはできませんが、指をくわえて見ているだけではありません。感度分析という発展的な手法を用いることで、「もし未測定の交絡因子があったとしたら、結果はどれくらい覆ってしまうのか？」というストレステストを行うことができます。例えば、高名な統計学者であるPaul Rosenbaumが提唱したRosenbaum boundsなどの手法は、「観測されなかった交絡因子が、観測された交絡因子と同程度の強さだった場合でも、結論は変わりませんか？」といった問いに答えるためのものです (Rosenbaum, 2002)。感度分析を行うことで、研究結果の頑健性（ロバストネス）を評価し、結論の信頼性を高めることができるのです。

2. Positivity（共通サポート）の仮定：比較できる相手がいますか？

傾向スコア・マッチングが成立するための、もう一つの重要な前提がPositivity、あるいは共通サポート（Common Support）と呼ばれる仮定です。これは平たく言うと、「どんな背景を持つ患者さんでも、原理的には治療群・対照群のどちらにも存在する可能性がある」ということです。

例えば、「75歳以上の患者さんは、安全性を考慮して全員が従来薬Bを投与され、新薬Aを投与された人は一人もいない」という状況を考えてみてください。この場合、75歳以上の患者さんについては、比較すべき相手が対照群に存在しないため、マッチングが成立しません。

この「共通サポート」の程度は、治療群と対照群の傾向スコアの分布をプロットすることで視覚的に確認できます。

二つのグループのスコア分布が大きくずれて、共通部分（オーバーラップ）が少ない場合、推定結果は非常に不安定になり、信頼性が低くなります。そのため、解析前には必ずこの分布を確認することが極めて重要です (Petersen et al., 2012)。

3. サンプルサイズの減少と外的妥当性（一般化可能性）

マッチングのプロセスでは、傾向スコアが大きく離れていて良いペアが見つからなかった患者さんは、残念ながら解析から除外されます。これにより、全体のサンプルサイズが元々のデータよりも減少します。

これは単に統計的な検出力が低下するだけでなく、より深刻な問題をはらんでいる可能性があります。それは、外的妥当性（結果の一般化可能性）の低下です。

例えば、心不全治療薬の研究で、マッチングの結果、多くの重症例や特殊な合併症を持つ患者さんが除外されたとします。残った「マッチングしやすい中等症の患者さん」だけで解析された結果は、その特定の集団にとっては妥当かもしれません。しかし、その結果を、除外されてしまった重症患者さんたちを含む「心不全患者全体」に当てはめて良いのでしょうか？答えは、おそらく「いいえ」です。

このように、マッチング後の集団が、本来知りたかった集団全体を代表しなくなる可能性があることは、常に念頭に置くべきです (Stuart, 2010)。

著名な因果推論の研究者であるHernánとRobinsが指摘するように、傾向スコアは観察研究の方法論を大きく進化させました (Hernán and Robins, 2020)。しかし、それはあくまで「観測された交絡因子」を調整するためのツールです。優れた研究デザインを代替するものではなく、その結果の解釈には、常にこれらの仮定と限界を念頭に置く、謙虚で慎重な姿勢が求められるのです。

まとめ：より良いエビデンスへの探求は続く

私たちがこの旅を始めた、あのシンプルな疑問をもう一度思い出してみましょう。「この新しい治療は、今までのものより本当に効果があるのだろうか？」と。私たちは、この問いに答えることが、観察データの世界ではいかに難しいかを見てきました。

今回の探検を通じて、その複雑さに立ち向かうための強力な羅針盤、「傾向スコア・マッチング」の全貌を明らかにしてきました。

私たちは、傾向スコアが、患者さん一人ひとりの複雑な背景情報を、たった一つの「治療を受ける確率」という直感的なスコアに凝縮する、エレガントな指標であることを学びました。そして、このスコアという共通の「ものさし」を使い、背景のよく似た患者同士でペアを作る（統計的な”ドッペルゲンガー”を見つけ出す）ことで、私たちを悩ませてきた交絡バイアスの影響を減らし、より公平な比較の土俵を築くことを目指せるようになりました。

しかし、それは魔法ではありません。マッチングという「処置」が成功したかどうかを、SMDやLove Plotといった客観的な指標で厳しく評価する「バランス確認」という健康診断が不可欠であることも、私たちは理解しました。

そして最も重要なのは、この強力なツールを謙虚な姿勢で使うことの必要性です。未測定の交絡という常に存在する脅威や、Positivityという根本的な仮定など、その限界を正しく理解し、得られた結果を慎重に解釈する科学的な態度が求められます。

次にあなたが論文で観察研究の結果を読むとき、あるいはご自身の臨床データを分析しようとするとき、きっと新しい視点を持っているはずです。「この研究は、背景因子をどのように調整しているだろうか？」と。傾向スコアは、完璧な答えを保証するものではありません。しかし、それは、私たちが向き合う複雑でノイズの多い現実世界のデータに対して、少しでも科学的な厳密さをもたらそうとする「統計的誠実さ」の一つの形です。

少しでも真実に近づきたい。傾向スコアは、そんな臨床現場や研究に携わる人々の切実な願いに応える、統計学がもたらしたパワフルな知恵なのです。

参考文献

Austin, P. C. (2009). Balance diagnostics for comparing the distribution of baseline covariates between treatment groups in propensity-score matched samples. Statistical Methods in Medical Research, 18(2), 203–222.
Austin, P. C. (2011). An introduction to propensity score methods for reducing the effects of confounding in observational studies. Multivariate Behavioral Research, 46(3), 399–424.
Austin, P. C., & Stuart, E. A. (2015). Moving towards best practice when using inverse probability of treatment weighting (IPTW) using the propensity score. Statistical Science, 30(3), 360–378.
Brookhart, M. A., Schneeweiss, S., Rothman, K. J., Glynn, R. J., Avorn, J., & Stürmer, T. (2006). Variable selection for propensity score models. American Journal of Epidemiology, 163(12), 1149–1156.
Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. Chapman & Hall/CRC.
Imbens, G. W., & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
Lee, B. K., Lessler, J., & Stuart, E. A. (2010). Improving propensity score weighting using machine learning. Statistics in Medicine, 29(3), 337–346.
Petersen, M. L., Porter, K. E., Gruber, S., Wang, Y., & van der Laan, M. J. (2012). Diagnosing and responding to violations of the positivity assumption. Epidemiology, 23(1), 32–42.
Rosenbaum, P. R. (2002). Observational Studies. Springer.
Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55.
Stuart, E. A. (2010). Matching methods for causal inference: A review and a look forward. Statistical Science, 25(1), 1–21.

※本記事は情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

ご利用規約（免責事項）

当サイト（以下「本サイト」といいます）をご利用になる前に、本ご利用規約（以下「本規約」といいます）をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条（目的と情報の性質）

本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
本サイトで提供されるすべてのコンテンツ（文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません）は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為（以下「医行為等」といいます）を提供するものではありません。
本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条（法令等の遵守）
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律（薬機法）、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条（医療行為における責任）

本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家（医師、歯科医師等）が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条（情報の正確性・完全性・有用性）

本サイトは、掲載する情報（数値、事例、ソースコード、ライブラリのバージョン等）の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条（AI生成コンテンツに関する注意事項）
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション（事実に基づかない情報の生成）やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条（知的財産権）

本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条（プライバシー・倫理）
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条（利用環境）
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境（OS、ハードウェア、依存パッケージ等）を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条（免責事項）

本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害（直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません）について、その原因の如何を問わず、一切の法的責任を負わないものとします。
本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条（規約の変更）
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条（準拠法および合意管轄）
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。

For J³, may joy follow you.

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

髙﨑洋介（医師・医学博士・MBA） | Dr. TAKASAKI Yohsuke, MD, PhD, ScM, MPA, MBA, FRSM

AI医師科学者芸人・医学博士・連続起業家・元厚生労働省医系技官
ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長（医療情報・救急災害・国際展開等）を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療者向けAIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」、美・医・食ポータル「Food Connoisseur」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow