[Clinical AI Coding 100 : C23] 最強のエビデンスを創る、臨床疫学と研究デザイン ― データから「真実」を見抜く航海術

2025年10月25日2025年10月26日

学習のポイント

臨床現場の「問い」に答えるため、信頼できる証拠（エビデンス）を生み出す学問が臨床疫学です。研究デザインの強みと弱み、バイアスの回避、データを正しく測る指標を理解することが重要です。

🗺️ 研究デザイン

証拠の「強さ」を決める設計図

・RCT (介入): 最も強力。ランダム化でバイアスを排除し「因果関係」に迫ります。
・観察研究: 現実世界を追跡（コホート）、遡及（症例対照）、または一時点（横断）で調査します。

📏 バイアス

真実を歪める「体系的なエラー」

・選択バイアス: 参加者選びの偏り。スタートラインが不公平な状態です。（対策: ランダム化）
・情報バイアス: データ収集時の偏り。測定方法が不公平な状態です。（対策: 盲検化）

⚖️ 疫学指標

発生状況とリスクを測る

・発生状況: 有病率（今いる割合）、罹患率（新たな発生）。
・リスク比較: リスク比 (RR: 〜倍)、オッズ比 (OR)、寄与危険 (AR: 〜人減る)。

🎯 診断精度

検査の「当たる確率」を評価

・感度 (SnNout): 見逃し防止（除外診断）。
・特異度 (SpPin): 間違い防止（確定診断）。
・注意点: 検査の信頼度 (PPV) は、集団の有病率（流行度）に強く依存します。

臨床の現場って、本当に日々、無数の「問い」に満ちていますよね。

「この新しい治療法は、従来の方法より本当に優れているんだろうか？」
「あの生活習慣は、本当にこの病気のリスクを高めるのかな？」

研修医の頃、上級医から「なぜこの治療を選ぶのか」と問われ、経験則や教科書の知識だけで答えることに、どこか不安を感じた経験がある方もいるかもしれません。

もし、こうした問いに対する信頼できる「答え」を見つける方法がなければ、私たちの医療は個々の経験や直感に頼る、いわば“航海図なき航海”になってしまうと思うんです。どの方向に進めば、目の前の患者さんにとって最善の結果が得られるのか、確信が持てないまま進むことになります。

臨床疫学と研究デザインは、まさにこの航海図と羅針盤を作り出すための学問です。

データという、時として荒れ狂う情報の大海から、いかにして「真実（＝因果関係）」という宝島を見つけ出すか。そのための信頼できる「設計図」であり、データを正しく読み解く「道具」の使い方を学ぶのが、このセクションのテーマです。この道具を手に入れることで、私たちは自信を持って「なぜ、こちらが最善か」を判断できるようになるはずです。

なぜ「研究デザイン」が重要なのか？ ― 証拠の「強さ」を決める設計図

臨床現場って、本当に様々なレベルの情報が溢れていますよね。

「A薬を使ったら、あの患者さん劇的に良くなったよ」という一人の体験談（症例報告）もあれば、「A薬はB薬よりも統計的に優れている」という数千人規模の研究報告（ランダム化比較試験）もあります。

ここで私たちが絶対に押さえておかないといけないのは、すべての情報が同じ価値（＝信頼性）を持つわけではない、という事実です。

これを、法廷での証拠集めに例えると、

「友人が『あの人が犯人だ』と言っていた」（噂、逸話）
「現場に、あの人のものと『思われる』足跡が残っていた」（観察研究）
「犯行の瞬間が、鮮明な防犯カメラに映っていた」（ランダム化比較試験）

どれが最も信頼できる証拠（＝犯人を特定できる証拠）かは、一目瞭然ですよね。

臨床研究における「研究デザイン」も、これと全く同じです。これは、この「証拠の質」を、研究がスタートする前から決めてしまう、いわば「実験・観察の設計図」そのものなんです。

この設計図（デザイン）が甘ければ、たとえ何千人、何万人のデータを集めたとしても、得られるのは「なんだかよく分からない、信頼性の低い情報」だけ。決して「因果関係」に迫るような強力なエビデンス（証拠）にはならないんです。

医学の世界では、この証拠の質をピラミッドのように「エビデンスレベル」として階層化するのが一般的です (Oxford Centre for Evidence-Based Medicine 2011)。

そして、そのピラミッドの上位にあるのが、次にお話しする「ランダム化比較試験（RCT）」です。（この階層化の概念は、EBM（根拠に基づく医療）の父とも言われるSackettらによって広く知られるようになりました (Sackett et al. 1996)。）

ランダム化比較試験（RCT）

さて、そのエビデンスピラミッドの上位にいるのが、ランダム化比較試験（Randomized Controlled Trial: RCT）です。

これが何であるかというと、研究に参加してくださる患者さんを、新しい治療法や介入を行うグループ（介入群）と、標準的な治療やプラセボ（偽薬）を用いるグループ（対照群）に、「ランダム（無作為）」に割り付けて、その結果を比較する研究デザインです。

イメージは「コイン投げで、Aグループに行くかBグループに行くかを公平に決める」という感じです。この「ランダム化」こそが、他の研究デザインとRCTとを分ける、決定的な違いになります。

なぜRCTは「最強」なのか？

その秘密は、まさにこの「ランダム化」にあります。

もし私たちが意図的に「えこひいき」をして、例えば「重症そうな人には新薬を、軽症そうな人にはプラセボを」と分けてしまったら、どうなるでしょう。仮に新薬グループの結果が悪くても、「新薬が効かなかった」のか「そもそも重症な人が集まっていたから」なのか、その理由が全く分からなくなってしまいますよね。

ランダム化の本当にすごいところは、こうした「えこひいき」（＝バイアス）を、研究者の意図が入り込む余地なく排除できる点にあります。それも、

私たちが知っている要因（年齢、性別、病気の重症度など）
そして、私たちがまだ知らない、あるいは測定できない要因（例えば、特定の遺伝的素因や、未知の生活習慣、あるいは”治りやすさ”といった個体差など）

これらすべてをひっくるめて、あらゆる背景因子が、介入群と対照群の2つのグループに「期待値として（in expectation）」公平に、均等にばらまかれることが期待できるんです (Rubin 1974; Holland 1986)。

その結果、2つのグループ間に存在する唯一の（体系的な）違いは、「介入（新薬）を受けたかどうか」だけになります。つまり、スタートラインが完全に揃った状態で「よーいドン！」ができるわけです。

もし、この2つのグループの間で、病気の治り具合や副作用の発生率に明確な差が出たとすれば…？その差は、まさしく「介入そのものによって引き起こされた効果（因果関係）」であると、他のどの研究よりも強く推論できる。私はそう考えています。

これこそが、RCTが新薬や新しい治療法の有効性を評価するための「ゴールドスタンダード」と学術的に位置づけられる理由です (Grimes and Schulz 2002; Hariton and Locascio 2018)。

だからこそ、国が新しい薬を承認するかどうかを判断する規制当局（日本のPMDA（医薬品医療機器総合機構）や米国のFDA（食品医薬品局）など）は、このRCTのデータを最も重視します。国際的な臨床試験のルール (ICH E8(R1) 2021) に則り、RCTのデータが有効性評価の中心的な根拠となるんですね (PMDA 随時更新)。

とはいえ、です。こんなに強力なRCTですが、もちろん万能ではありません。実際には大きな課題も抱えています。

倫理的な問題：例えば「喫煙」の害を調べるために、「A群は喫煙、B群は禁煙」なんてランダム化は、倫理的に絶対に不可能ですよね。
莫大なコストと時間：数千人規模の参加者を集め、何年も追跡するには、天文学的な費用がかかります。
一般化可能性（外的妥当性）：RCTの参加者は、厳格な基準で選ばれた「理想的な患者さん」が多い傾向にあります。その研究結果が、実臨床で出会う「複数の合併症を持つご高齢の患者さん」にそのまま当てはまるか（一般化できるか）は、また別の問題だったりします。

こうしたRCTの限界があるからこそ、次に学ぶ「観察研究」が、現実世界（Real World）のエビデンスとして非常に重要になってくるわけです。

実世界の「手がかり」を探る：観察研究の世界

先ほど触れたようにRCTは万能ではありません。

そこで登場するのが、現実世界（Real World）で「既に起こったこと」をそのまま観察することで、病気の原因や治療の効果に関する手がかりを探る「観察研究」です。観察研究は、研究者が介入（治療や投薬など）を行うのではなく、あくまで「見ているだけ」という点がRCTとの大きな違いです (Song and Chung 2010; Hernán and Robins 2020)。

観察研究には、主に時間の流れによって3つのタイプがあります。

① 未来へ向かって追跡する「コホート研究」

コホート研究（Cohort Study）は、まず「ある要因（例：喫煙）を持つ集団」と「持たない集団」を設定し、その両方の集団を未来に向かって長期間追跡調査し、将来の病気の発生率（例：肺がんの発生）を比較する研究です。「前向き研究（Prospective study）」と呼ばれることもあります。

例（健康診断の追跡調査）:

例えば、ある町の健康な住民（この研究対象の集団を「コホート」と呼びます）に集まってもらい、現在の生活習慣（喫煙、運動、食事など）を詳しく調査します。その後、5年後、10年後、20年後…と定期的に連絡を取り、「誰が、いつ、どんな病気になったか」を記録し続けます。最後に、「喫煙していたグループ」と「していなかったグループ」で、肺がんになった人の割合を比較する、というイメージです。

長所:

時間の流れ（要因 → 結果）に沿って調査するため、「原因（曝露）が結果（疾病）よりも先に起こったこと」が明確です。例えば、「タバコを吸う」という行為が、「肺がんになる」という結果よりも時間的に先行していることがハッキリします。これは因果関係を考える上で、もう決定的に重要なんです。また、一つの研究で複数の病気（肺がん、心筋梗塞、脳卒中など）の発生を同時に調べることもできます。

短所:

やはり、結果が出るまでに非常に長い時間とコストがかかります。また、追いかけている途中で連絡が取れなくなる人（追跡不能：ロスト・トゥ・フォローアップ）が出てくると、その人たちのデータが失われ、結果が歪んでしまう（バイアスが生じる）可能性があります。

臨床での意義:

生活習慣と慢性疾患（がん、心血管疾患など）の原因を探る研究で絶大な力を発揮します。米国の「フラミンガム心臓研究」はあまりにも有名で、高血圧や高コレステロール、喫煙が心疾患の危険因子であることを突き止めたのは、まさにこのコホート研究の金字塔とも言える成果です (Mahmood et al. 2014)。

② 過去へさかのぼって原因を探る「症例対照研究」

症例対照研究（Case-Control Study）は、コホート研究とは逆に、時間の流れを過去にさかのぼる「探偵型」の研究です。

まず「ある病気にかかった人（症例群：ケース）」と「（年齢や性別など背景が似ている）その病気にかかっていない人（対照群：コントロール）」を集めます。次に、その人たちに過去の生活習慣や曝歴（例：過去に喫煙していたか、特定の薬剤を使用していたか）を聴取したり、診療録を調べたりして、要因への曝露の割合を両群で比較します。

たとえ話（探偵の捜査）:

事件（＝病気）が起きてしまった後で、探偵（＝研究者）が現場に駆けつけます。そして、被害者（症例群）と、その場にいたが無事だった人（対照群）の両方に、「事件が起こる前、何をしていたか？（＝過去の曝露）」を詳しく聞き込みし、犯人（＝原因）につながる手がかりを探すイメージです。

長所:

既に病気が発生している人を起点にするため、希少な疾患や、発生までに非常に長い時間がかかる病気の原因を探るのに適しています。コホート研究で希少疾患をやろうとしたら、何十万人も集めないと数人の患者さんに出会えませんが、症例対照研究なら、まずその数人の患者さんを見つけてくればスタートできるからです。コホート研究のように何十年も待つ必要がなく、短時間・低コストで実施可能です。

短所:

最大の弱点は、過去の情報に頼る点です。「あの時、何をしていたか」という記憶は不正確になりがちです（思い出しバイアス：Recall bias）。例えば、病気になった人（症例群）は「何か原因があったはずだ」と必死で思い出そうとしますが、健康な人（対照群）はそこまで真剣に思い出さないかもしれません。この「思い出す努力の差」が、結果を大きく歪めるんです。また、比較対象となる「対照群」を適切に選ぶのが非常に難しいという問題もあります。

臨床での意義:

特定の病気と特定の要因（薬剤、環境曝露など）との関連を迅速に調査する際に強力です。新しい病気が発生した時など、緊急の原因究明にも使われます。

③ ある一時点を切り取る「横断研究」

横断研究（Cross-Sectional Study）は、ある一時点、まさに「今、この瞬間」において、集団の「要因（曝露）」と「結果（疾病）」の情報を同時に調査する研究です。

たとえ話（スナップ写真）:

ある瞬間の集団の健康状態と生活習慣を、「パシャリ！」と一枚の写真に収めるようなイメージです。「今、運動習慣がある人」と「今、高血圧である人」の情報を同時に集めます。

長所:

研究デザインの中で、最も簡単・迅速・低コストに実施できます。ある集団における病気の「有病率（後述）」、つまり『今、どれくらいの人がその病気を持っているか』を調べるのに最適です。

短所:

最大の弱点は、時間的な前後関係が全く分からないことです。「鶏と卵」の問題、と言えば分かりやすいでしょうか。「運動習慣がある人には高血圧が少ない」という関連が分かったとしても、「運動が高血圧を予防した」のか、「高血圧になったから（健康のために）運動を始めた」のか、はたまた「もともと健康意識が高いという別の要因が、運動習慣（＋）と高血圧（−）の両方に影響した」のか、この研究だけでは全く区別がつきません。

臨床での意義:

ある地域や集団の健康課題の「現状把握」や、病気と関連がありそうな要因の「仮説立て」の第一歩として広く用いられます。「もしかしたら、運動と高血圧には関係があるかも？」という、次の研究（コホート研究など）につながる『仮説』を見つけるための、最初のステップですね。

真実を歪める「バイアス」という名の落とし穴

さて、ここまで「最強のRCT」から「現実世界の手がかりを探る観察研究」まで、様々な研究デザインを見てきました。よし、これで完璧な設計図ができた！…と思っても、実はまだ大きな落とし穴があるんです。

どんなに優れた設計図（研究デザイン）を選んだとしても、研究の実施段階やデータの解釈で「歪み」が生じてしまうことがあります。この、研究結果を真実から（ある一定の方向に）遠ざけてしまう「体系的なエラー（系統誤差）」のことを、私たちはバイアス (Bias) と呼んでいます (Sackett 1979)。

ここで大事なのは、バイアスは、単なる「偶然のズレ（ランダムエラー）」とは根本的に違う、ということです。

たとえ話（歪んだ定規）:

想像してみてください。目盛りが1mm短く歪んでいる定規があります。これで物の長さを測ると、何度測っても、必ず「体系的に」1mm短い値が出てしまいますよね。これがバイアスです。

一方で、手元が滑って測定が0.5mmズレたり、逆に0.3mm長く測ってしまったりするのは「偶然の測定ミス（ランダムエラー）」です。ランダムエラーは、何度も何度も測って平均すれば、真の値に近づいていきます。

でも、バイアスはどうでしょう？歪んだ定規で100回測っても、1000回測っても、その平均値はやっぱり「体系的に」1mm短いまま。研究のやり方（定規）自体が歪んでいるため、データを増やすだけでは絶対に修正されないんです (Pannucci and Wilkins 2010)。これ、すごく怖いことだと思いませんか？

このバイアスには無数の種類がありますが、特に注意すべき代表的なものを2つご紹介します。

① 選択バイアス (Selection Bias)

これは、研究対象となる集団を選ぶ（選択する）時点で、すでに偏りが生じてしまっている状態です。つまり、スタートラインが公平じゃない、ということです。

医療現場の例（バークソンバイアス）:

例えば、「病院に来た患者さん」だけを対象に研究を行ったとします。するとどうなるか。当然ですが、病院に来る人々は、何かしらの不調を抱えている人や、複数の疾患を合併している人が、一般の健康な人々よりも（病院に来ない人々よりも）集まりやすくなります。この特殊な集団で得られた結果（例：「Aという病気とBという病気は関連が強い」）は、果たして一般の健康な人々にそのまま当てはまるでしょうか？おそらく、当てはまらない可能性が高いですよね (Bhopal 2016)。

どう防ぐか:

研究対象者を母集団（例：日本国民全体）からランダムに選ぶ（無作為抽出）ことが理想です。とはいえ、これは現実にはなかなか難しい。そこで、RCT（ランダム化比較試験）です。RCTでは、集団が多少偏っていたとしても、その集団をさらに「ランダムに」介入群と対照群に割り付けますよね。この「無作為化（ランダム化）」こそが、選択バイアスを防ぐ最も強力な手段となります。

② 情報バイアス (Information Bias)

これは、研究対象者を選んだ後、つまりスタートラインには立った後で、データを収集する過程で、情報そのものに偏り（不正確さ）が生じることです。測定の仕方がグループ間で違う、といったケースです。

医療現場の例（思い出しバイアス：Recall Bias）:

これは、先ほど出た「症例対照研究」で典型的なバイアスです。例えば、先天異常のある赤ちゃんを産んだお母さん（症例群）に、過去の曝露を尋ねたとします。お母さんは「妊娠中、何か悪いことをしなかったか…」と、過去の出来事（食事、些細な薬剤の使用など）を必死に、それこそ血眼になって思い出そうとしますよね。

一方、健康な赤ちゃんを産んだお母さん（対照群）は、どうでしょう。「特に何も…」と、そこまで真剣には思い出さないかもしれません。この「思い出す努力の差」そのものが、情報の不正確さ（バイアス）を生んでしまうんです。

どう防ぐか:

測定方法や定義（「陽性」とは何か、など）をあらかじめ厳密に標準化しておくことが基本です。そして、可能であれば盲検化（もうけんか、マスキング）を行います。

これは、患者さん自身、治療を行う医療者、結果を評価する研究者が、「誰が本当の薬（介入群）で、誰がプラセボ（対照群）か」を知らないようにすることで、無意識の思い込み（「新薬だから効くはずだ」「この人はプラセボだから効果はないだろう」といった先入観）がデータに影響するのを防ぐ、非常に重要な手法です。

データを「測る」モノサシ：主要な疫学指標

さて、研究デザインという「設計図」を決め、バイアスという「歪み」に細心の注意を払いながらデータを集めたら、いよいよ仕上げです。その集めたデータを要約し、グループ間を比較するための「モノサシ」が必要になりますよね。ここでは、臨床疫学で最も基本的かつ重要なモノサシをいくつか見ていきましょう。

① その瞬間にどれくらいいるか？：「有病率」 (Prevalence)

有病率は、ある一時点で、特定の集団のうち、どれくらいの割合の人がその病気を持っているかを示す指標です。「割合」なので、0%から100%（または0から1）の値をとります。

たとえ話（お風呂の水）:

これは、「今、この瞬間に、お風呂にどれだけ水が溜まっているか」（＝現在、病気を持っている人）を示すイメージです。

計算式:

\[ \text{有病率} = \dfrac{\text{ある一時点での疾患を持つ人の数}}{\text{調査対象となった集団の総数}} \]

意義:

横断研究（あの「スナップ写真」ですね）でよく用いられます。その疾患が、その集団にとってどれくらいの「現在の負荷（burden）」になっているかを示します。例えば「日本人の高血圧の有病率は約XX%」といった使われ方をします。

② 新たにどれくらい発生したか？：「罹患率」 (Incidence)

罹患率は、「勢い」の指標です。ある一定期間（例：1年間）に、それまで健康だった人のうち、どれくらいの割合の人が『新たに』その病気を発症したかを示します。これが有病率との決定的な違いです。

たとえ話（お風呂の水）:

有病率が「溜まった水の量」なら、罹患率は「蛇口から『新たに』流れ込んでくる水の勢い」（＝新たに病気になる人）です。（ちなみに、お風呂から流れ出る水は「治癒」や「死亡」に相当します。この「入」と「出」のバランスで、さっきの有病率＝溜まっている水の量が変わるわけですね）

計算式（累積罹患率）:

\[ \text{罹患率} = \dfrac{\text{一定期間内に新たに発症した人の数}}{\text{観察開始時点で健康だった人の数}} \]

意義:

コホート研究やRCTで最も重要視される指標です。その疾患の「発生リスク」や「勢い」そのものを示すからです。「この治療法を使えば、心筋梗塞の（新たな）発生がXX%減る」といった形で使われます。

③ リスクはどれくらい違うか？：「リスク比」と「オッズ比」

要因（曝露）が、本当に病気のリスクを上げているのか（あるいは下げているのか）を比較したい時、この2つの指標が本当によく使われます。この違いを理解するのは、論文を読む上で非常に重要です。

リスク比 (Relative Risk, RR)

何であるか: 曝露群（例：喫煙者）の罹患率が、非曝露群（例：非喫煙者）の罹患率の「何倍」かを示す、非常に直感的な指標です。個人的にも、一番わかりやすい指標だと思います。
計算式: \[ \text{リスク比 (RR)} = \dfrac{\text{曝露群の罹患率}}{\text{非曝露群の罹患率}} \]
解釈:
- RR = 2.0 なら、「喫煙者は非喫煙者に比べ、肺がんになるリスクが2倍高い」
- RR = 1.0 なら、「リスクは変わらない（関連なし）」
- RR = 0.5 なら、「リスクは半分（予防的な要因）」
どの研究で使うか: 「罹患率」が計算できる研究、つまりコホート研究やRCTで主に使われます。

オッズ比 (Odds Ratio, OR)

何であるか: 少しややこしいのですが、「オッズ」とは「ある事象が起こる確率 / ある事象が起こらない確率」を意味します（競馬の「単勝オッズ」に近いですね）。症例対照研究では、コホート研究と違って「罹患率」そのものを計算できません。（だって、スタート時点の健康な母集団が分からないから。）そこで、代わりにこのオッズ比を使うんです。
計算式 (症例対照研究): 2×2分割表（a=症例かつ曝露あり, b=対照かつ曝露あり, c=症例かつ曝露なし, d=対照かつ曝露なし）を使うと、以下のように計算されます。 \[ \text{オッズ比 (OR)} = \dfrac{\text{症例群の曝露オッズ (a/c)}}{\text{対照群の曝露オッズ (b/d)}} = \dfrac{ad}{bc} \]
どの研究で使うか: 主に症例対照研究で必須の指標です。
注意点: これが重要です。その病気が非常にまれな（希少な）場合、つまり発生率が十分に低い（rare disease assumption）場合に限り、オッズ比はリスク比の良い近似値となります (Zhang and Yu 1998)。しかし、高血圧や2型糖尿病のような、ありふれた病気（Common disease）の場合、オッズ比はリスク比よりも1から離れた極端な値（リスクを過大評価）を取りやすいため、オッズ比をそのまま「リスクがX倍」と解釈するには本当に注意が必要です (Andrade 2015)。

④ どれだけ「その要因」のせいか？：「寄与危険」 (Attributable Risk)

何であるか: リスク比やオッズ比が「何倍か（相対的）」を示すモノサシだったのに対し、寄与危険は「曝露によって絶対的にどれだけリスクが増えたか（引き算）」を示します。
計算式: \[ \text{寄与危険 (AR)} = \text{(曝露群の罹患率)} – \text{(非曝露群の罹患率)} \]
意義: これは、公衆衛生上のインパクトを評価するのに、ものすごく重要です。例えば、「喫煙者の肺がんリスクは非喫煙者の20倍（RR=20）」と聞いても、インパクトは分かりますが、具体的にどう介入すべきかピンときませんよね。でも、「喫煙をやめれば、1万人あたり年間XX人の肺がんを防げる（寄与危険）」と聞くと、対策の重要性やコスト対効果が具体的にイメージできませんか？このように、介入によってどれだけの疾病を防げるかを評価するのに役立つ指標なんです。

検査はどれほど「当たる」のか？：診断精度の指標

治療方針を決める大前提として、そもそも「診断」が正しくなければ始まりませんよね。

新しい画像検査や血液検査が、どれだけ正しく「病気を見つけ」たり、「病気でないことを確認」したりできるのか。その「当たる確率」を評価するモノサシも見ていきましょう。

① 病気の人を正しく「陽性」と見抜く力：「感度」 (Sensitivity)

これは、本当に病気がある人（有病者）を、その検査がどれだけ正しく「陽性だ！」と見抜けるか、という割合です。

たとえ話（優秀な探偵）:

100人の真犯人（有病者）がいたとして、そのうち何人を「お前が犯人だ（陽性）」と正しく捕まえられるか、という能力です。感度90%なら、100人中90人を捕まえられますが、10人は見逃して（偽陰性）しまいます。

計算式:

\[ \text{感度} = \dfrac{\text{真陽性 (TP)}}{\text{真陽性 (TP)} + \text{偽陰性 (FN)}} \]

（TP: 真陽性, FN: 偽陰性＝本当は病気なのに陰性と判定）

意義:

感度が高い検査は、「見逃し（偽陰性）」が少ないことを意味します。これは、がん検診などのスクリーニング検査でとても重要視されます。もし感度100%の検査で「陰性」と出たら、「あなたは（この検査に関する限り）絶対にその病気ではない」と強く確信できる（＝除外診断）わけです。このためのキラーフレーズとして、“SnNout” (SensitivityがHighなら, NegativeでRule out) という言葉があるほどです (e.g., Jaeschke et al. 1994; Akobeng 2007)。

② 健康な人を正しく「陰性」と見抜く力：「特異度」 (Specificity)

逆に特異度は、本当に病気がない人（非有病者）を、その検査がどれだけ正しく「陰性だ（シロだ）」と判定できるか、という割合です。

たとえ話（慎重な探偵）:

100人の無実の人（非有病者）がいたとして、そのうち何人を「君は無実だ（陰性）」と正しく解放できるか、という能力です。特異度90%なら、90人は解放できますが、10人は間違って「お前が犯人だ（偽陽性）」と捕まえてしまいます。

計算式:

\[ \text{特異度} = \dfrac{\text{真陰性 (TN)}}{\text{真陰性 (TN)} + \text{偽陽性 (FP)}} \]

（TN: 真陰性, FP: 偽陽性＝本当は健康なのに陽性と判定）

意義:

特異度が高い検査は、「間違い（偽陽性）」が少ないことを意味します。つまり、健康な人を間違って「病気だ」と言ってしまうことが少ない、ということです。これは、スクリーニングで陽性になった後の、確定診断で重要視されます。もし特異度100%の検査で「陽性」と出たら、「あなたは（この検査に関する限り）絶対にその病気だ」と確信できる（＝確定診断）わけです。こちらは “SpPin” (SpecificityがHighなら, PositiveでRule in) と呼ばれます (e.g., Jaeschke et al. 1994; Akobeng 2007)。

臨床判断の「確信度」：予測値と有病率

さて、この感度と特異度、どちらも検査キットや機械の「性能」そのものを示す、とても大事な指標です。でも、私たちが臨床現場で本当に知りたいのは、多くの場合、ちょっと視点が違いますよね？

目の前の患者さんから「陽性」という結果が出た時、「で、この人が本当に病気である確率はどれくらいなんだ？」ということではないでしょうか。

この、検査結果が出た「後」の確率、つまり私たちの「確信度」に答えるのが、陽性適中率（Positive Predictive Value: PPV）と陰性適中率（Negative Predictive Value: NPV）です。

この関係を理解するために、まずは「2×2分割表」（クロス表）を見てみましょう。これは診断精度の議論では必ず出てくる、基本の表です。

この表を使って、4つの指標を定義します。

感度 = a / (a + c) （病気の人を陽性と見抜く力＝ 縦に見る）
特異度 = d / (b + d) （健康な人を陰性と見抜く力＝ 縦に見る）
陽性適中率 (PPV) = a / (a + b) （陽性者のうち、本当に病気だった人の割合＝ 横に見る）
陰性適中率 (NPV) = d / (c + d) （陰性者のうち、本当に健康だった人の割合＝ 横に見る）

スクリーニングの落とし穴：有病率のワナ

ここで、臨床疫学における最大のトラップの一つが登場します。それは、このPPVとNPVは、検査の性能（感度・特異度）とは異なり、検査を受ける集団の「有病率（＝その病気がどれくらい流行っているか）」にものすごく大きく依存するという点です (Akobeng 2007)。

これはもう、具体的な数字で考えるのが一番早いです。仮に、感度99%, 特異度99%という、とんでもなく高性能な夢のような検査（99%の犯人を捕まえ、99%の無実の人を解放できる探偵）があったとします。

ケース1：高リスク集団（有病率10%）で検査した場合
1000人が受診したら、100人(10%)が有病者、900人が非有病者です。
- 真陽性 (a) = 100人 × 99% = 99人
- 偽陰性 (c) = 100人 × 1% = 1人
- 偽陽性 (b) = 900人 × 1% = 9人
- 真陰性 (d) = 900人 × 99% = 891人
この集団で『陽性』と出た人（a+b = 99+9 = 108人）のうち、本当に病気だった人（a = 99人）の割合（PPV）は…
PPV = 99 / (99 + 9) = 約91.7%です。
（陽性と言われたら、9割以上は本当に病気。信頼できる！）

ケース2：一般集団（有病率0.1%）で検査した場合
同じ検査を、今度は症状のない一般集団（1万人に10人が有病者）に使ってみます。10000人が受診したら、10人(0.1%)が有病者、9990人が非有病者です。
- 真陽性 (a) = 10人 × 99% = 9.9人偽陰性 (c) = 10人 × 1% = 0.1人偽陽性 (b) = 9990人 × 1% = 99.9人真陰性 (d) = 9990人 × 99% = 9890.1人
この集団で『陽性』と出た人（a+b = 9.9+99.9 = 109.8人）のうち、本当に病気だった人（a = 9.9人）の割合（PPV）は…
PPV = 9.9 / (9.9 + 99.9) = わずか約9.0%です。

ゾッとしませんか？ あれほど高性能（感度99%, 特異度99%）だったはずの検査でも、対象とする集団（有病率）が違うだけで、検査結果の「重み」が全く変わってしまうのです。ケース2では、「陽性」と言われても、実に9割以上は『偽陽性』（＝健康なのに間違って陽性と判定された人）なんです。

これが、症状のない一般集団にむやみにスクリーニング（いわゆる「念のため検査」）を行うことの難しさ、そして「偽陽性地獄」の正体です。

感度と特異度の「トレードオフ」とROC曲線

さらに臨床現場で悩ましいのは、ほとんどの検査で、感度と特異度は『あちらを立てればこちらが立たず』という「シーソーのような関係（トレードオフ）」にあることです。

血液検査などで「陽性」と判断する基準値（カットオフ値）を想像してみてください。

基準値を甘く（低く）すれば、わずかな異常でも「陽性」と判定できます。→ 感度は上がります（見逃しが減る）。
しかし、その代わり、健康な人も「陽性」と間違って判定しやすくなります。→ 特異度は下がります（偽陽性が増える）。

「じゃあ、どの基準値（カットオフ値）を選ぶのが一番バランスが良いの？」「そもそも、この検査Aと検査Bはどっちが総合的に優れているの？」。このトレードオフの関係を視覚化し、検査の総合的な診断精度を評価するグラフが、ROC曲線（Receiver Operating Characteristic curve：受信者動作特性曲線）です (Hajian-Tilaki 2013)。

何であるか: これは、カットオフ値を連続的に変えていったときの、「感度（Y軸）」と「1 – 特異度（X軸：偽陽性率）」の関係をプロットしたグラフです。

見方: 理想的な検査は、感度100%（左上）で、かつ偽陽性率0%（左上）ですよね。つまり、曲線がグラフの左上隅に張り付くほど、感度も特異度も高い、優れた検査であることを示します (Fawcett 2006)。

AUC (Area Under the Curve):

そして、この曲線の下側の面積のことをAUC (Area Under the Curve)と呼び、0.5から1.0までの値を持ちます。

AUC = 1.0：完璧な検査（感度100%, 特異度100%）。グラフが左上隅に張り付いた状態。
AUC = 0.5：コイントスと同じで、全く役に立たない検査。グラフは45度の対角線になります。

AUCが1.0に近いほど、その検査の総合的な診断精度が高いと評価できるわけです。AIの診断モデルの性能を比較する際などにも、このAUCがほぼ必ずと言っていいほど使われますね。

まとめ：エビデンスを「創る」ことの責任

臨床疫学と研究デザインは、単なる統計学の知識ではありません。それは、目の前の患者さんにとって最善の医療とは何かを科学的に検証し、未来の医療をより良くするための「技術」であり、同時に「倫理」そのものだと私は思います。

最強の設計図（RCT）から、現実世界の手がかり（観察研究）まで、それぞれの研究デザインが持つ強みと限界を深く理解すること (Grimes and Schulz 2002; Song and Chung 2010)。

真実を歪める「バイアス」という落とし穴の存在を常に認識し、それをどうすれば最小限にできるかを設計段階から徹底的に考えること。

罹患率やリスク比、感度や特異度といった「モノサシ」が、一体何を測っていて、何を意味するのかを正確に解釈すること。

そして、これらの研究結果の透明性と質を担保するために、RCTであればCONSORT声明 (Schulz et al. 2010)、観察研究であればSTROBE声明 (von Elm et al. 2007) といった報告ガイドラインを遵守すること。

これらのスキルを身につけて初めて、私たちは日々の臨床で得る「経験」や「気づき」を、信頼できる「エビデンス」へと昇華させることができるのです。

参考文献

Akobeng, A.K. (2007). Understanding diagnostic tests 1: sensitivity, specificity and predictive values. Acta Paediatrica, 96(3), pp.338-341.
Andrade, C. (2015). Understanding relative risk, odds ratio, and related terms: as simple as it can get. The Journal of Clinical Psychiatry, 76(7), pp.e857-e861.
Bhopal, R. (2016). Concepts of epidemiology: integrating the ideas, theories, principles, and methods of epidemiology. 3rd ed. Oxford: Oxford University Press.
Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), pp.861-874.
Grimes, D.A. and Schulz, K.F. (2002). An overview of clinical research: the lay of the land. The Lancet, 359(9300), pp.57-61.
Hajian-Tilaki, K. (2013). Receiver Operating Characteristic (ROC) curve analysis for medical diagnostic test evaluation. Caspian Journal of Internal Medicine, 4(2), pp.627-635.
Hariton, E. and Locascio, J.J. (2018). Randomised controlled trials – the gold standard for effectiveness research. BJOG: An International Journal of Obstetrics & Gynaecology, 125(13), p.1716.
Hernán, M.A. and Robins, J.M. (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC.
Holland, P.W. (1986). Statistics and causal inference. Journal of the American Statistical Association, 81(396), pp.945-960.
ICH, 2021. E8(R1) General Considerations for Clinical Studies (Final, Step 4, Oct 6, 2021).
Jaeschke, R., Guyatt, G. and Sackett, D.L. (1994). Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid?. JAMA, 271(5), pp.389-391.
Mahmood, S.S., Levy, D., Vasan, R.S. and Wang, T.J. (2014). The Framingham Heart Study and the epidemiology of cardiovascular diseases: a historical perspective. The Lancet, 383(9921), pp.999-1008.
Oxford Centre for Evidence-Based Medicine (OCEBM). (2011). The Oxford Levels of Evidence 2 (2011).
Pannucci, C.J. and Wilkins, E.G. (2010). Identifying and avoiding bias in research. Plastic and Reconstructive Surgery, 126(2), pp.619-625.
Rubin, D.B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), pp.688–701.
Sackett, D.L. (1979). Bias in analytic research. Journal of Chronic Diseases, 32(1-2), pp.51-63.
Sackett, D.L., Rosenberg, W.M., Gray, J.A., Haynes, R.B. and Richardson, W.S. (1996). Evidence based medicine: what it is and what it isn’t. BMJ, 312(7023), pp.71-72.
Schulz, K.F., Altman, D.G. and Moher, D. (2010). CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ, 340, c332.
Song, J.W. and Chung, K.C. (2010). Observational studies: cohort and case-control studies. Plastic and Reconstructive Surgery, 126(6), pp.2234-2242.
von Elm, E., Altman, D.G., Egger, M., Pocock, S.J., Gøtzsche, P.C. and Vandenbroucke, J.P. (2007). The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. PLoS Medicine, 4(10), e296.
Zhang, J. and Yu, K.F. (1998). What’s the relative risk? A method of correcting the odds ratio in cohort studies of common outcomes. JAMA, 280(19), pp.1690-1691.

※本記事は情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

ご利用規約（免責事項）

当サイト（以下「本サイト」といいます）をご利用になる前に、本ご利用規約（以下「本規約」といいます）をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条（目的と情報の性質）

本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
本サイトで提供されるすべてのコンテンツ（文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません）は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為（以下「医行為等」といいます）を提供するものではありません。
本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条（法令等の遵守）
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律（薬機法）、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条（医療行為における責任）

本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家（医師、歯科医師等）が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条（情報の正確性・完全性・有用性）

本サイトは、掲載する情報（数値、事例、ソースコード、ライブラリのバージョン等）の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条（AI生成コンテンツに関する注意事項）
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション（事実に基づかない情報の生成）やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条（知的財産権）

本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条（プライバシー・倫理）
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条（利用環境）
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境（OS、ハードウェア、依存パッケージ等）を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条（免責事項）

本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害（直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません）について、その原因の如何を問わず、一切の法的責任を負わないものとします。
本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条（規約の変更）
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条（準拠法および合意管轄）
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。

For J³, may joy follow you.

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

髙﨑洋介（医師・医学博士・MBA） | Dr. TAKASAKI Yohsuke, MD, PhD, ScM, MPA, MBA, FRSM

AI医師科学者芸人・医学博士・連続起業家・元厚生労働省医系技官
ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長（医療情報・救急災害・国際展開等）を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療者向けAIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」、美・医・食ポータル「Food Connoisseur」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow