データ上で2つの事柄が連動して見える「相関」があっても、それが「原因と結果」を意味するとは限りません。 多くの場合、両方に影響を与える「交絡因子」という真犯人が存在し、見せかけの相関を生み出しています。この違いを理解することが、データに騙されないための第一歩です。
片方が増えるともう片方も増える(正の相関)、または減る(負の相関)という表面的な関係性です。あくまでデータが一緒に動いている傾向を示すだけで、原因と結果を意味しません。
「アイスが売れると溺死者が増える」ように、一見関連があるように見えても、直接の原因と結果の関係にない相関のことです。 これは統計で最も有名な落とし穴の一つです。
観測している2つの事象の両方に影響を与え、見せかけの相関を生み出す真の原因のことです。アイスの例では「気温」、コーヒーと肺がんの例では「喫煙」がこれにあたります。
夏のうだるような暑い日、アイスクリームの売上がぐんぐん伸びると、それに歩調を合わせるかのように、水の事故で亡くなる方の数も増えていく…。
もしあなたがこんなデータを見せられたら、どう考えますか?「まさか、アイスクリームが人を溺れさせるなんて!」—そんな突拍子もない結論を信じる人は、きっといないでしょう。臨床家としての直感や常識が、即座に「ありえない」と警鐘を鳴らすはずです。
でも、データは冷徹な事実として、この2つの事象が奇妙なまでに連動している傾向を示しているんです。ここに、私たちがこれから探求する、データサイエンスの最も重要で、そして最も陥りやすい落とし穴への入り口があります。
この一見奇妙な関係こそが、今回私たちが深く学ぶ「相関(Correlation)」と「因果(Causation)」の世界です。もしこれが、アイスクリームと溺死者ではなく、「ある新しいサプリメントの売上」と「特定のがんの罹患率の低下」だったらどうでしょう?あるいは、「AIによる画像診断システムの導入数」と「全体の診断精度の向上」だったら?私たちは、その関係性をすぐに「因果関係」だと結論づけてしまうかもしれません。
AIが膨大なデータから瞬時に無数の「関連性」を見つけ出すようになった現代において、この相関と因果を冷静に見極める能力は、もはや研究者だけのものではありません。患者さんを守り、より良い医療を届け、そして時に医療の方向性そのものを左右する、私たち医療従事者にとって不可欠なリテラシーなのです。
さあ、一緒に統計の裏に隠された物語を読み解き、データに騙されないための思考法を身につけていきましょう。この探求は、あなたの臨床判断や研究の質を、きっと一段階上のレベルへと引き上げてくれるはずです。
「相関」とは? – データが奏でるデュエットを聴き分ける
まず、すべての物語の始まりである「相関(correlation)」という概念から、しっかりとイメージを掴んでいきましょう。
病院で得られる様々なデータを、方眼紙の上に点でプロットしていく様子を想像してみてください。例えば、縦軸に「収縮期血圧」、横軸に「年齢」をとって、患者さん一人ひとりのデータを「点」として置いていく。すると、無数の点が、まるで夜空の星のように散らばります。この点の集まりを散布図(scatter plot)と呼びます。
最初はただの点の群れに見えても、じっと眺めていると、そこにかすかなパターンや傾向が見えてくることがあります。まるで点がささやき合っているかのように。この「2つの変数が一緒に動く傾向」こそが、相関の正体です。
このデュエットには、主に2つのパターンがあります。
- 正の相関 (Positive Correlation): 片方の変数が増えるにつれて、もう片方も増える傾向です。散布図では、点の群れが右肩上がりの帯を形成します。「年齢が上がるほど、血圧も高くなる傾向がある」といった関係ですね。まるで息の合ったデュオが、一緒に音程を上げていくようです。

- 負の相関 (Negative Correlation): 片方が増えるにつれて、もう片方が減る傾向。こちらは右肩下がりの帯を描きます。「睡眠時間が増えるほど、日中のケアレスミスの回数が減る傾向がある」といった関係がこれにあたります。一方が上がれば、もう一方が下がる、美しいハーモニーです。

この関係性の「強さ」を示す指標として相関係数 (r) というスコアが使われます。これは-1から+1までの値を取り、関係の強さと方向性を教えてくれます。
| 相関係数 (r) の値 | 関係性 | 散布図のイメージ |
|---|---|---|
| r ≒ +1 | 強い正の相関 | 点がほぼ一直線に右肩上がりに並ぶ |
| r ≒ -1 | 強い負の相関 | 点がほぼ一直線に右肩下がりに並ぶ |
| r ≒ 0 | ほとんど相関なし | 点が特定のパターンなく、雲のように散らばる |
相関がない場合(r ≒ 0)の散布図は、以下のように特定の傾向が見られない、ランダムな点の集まりになります。

先ほどのアイスの例で言えば、「アイスの売上」と「溺死者数」は、rの値が+1に近い、きれいな正の相関を示すでしょう。データは雄弁に「私たちは一緒に動いています!」と語りかけてきます。
統計学の黄金律:「相関は因果を意味しない」
ここで、データ分析の道に足を踏み入れた誰もが、心に刻まなければならない黄金律が登場します。それは、「相関は因果を含意しない(Correlation does not imply causation)」という言葉です。
これは、どういうことか。
データ上で二つの事象がどれだけ美しく連動して見えても、それだけを根拠に「片方が、もう片方の原因だ」と結論付けてはならない、という強力な戒めです。
相関関係というのは、いわば「現場にいつも一緒に現れる二人組」のようなもの。彼らはいつも同じタイミングで、同じ場所に姿を見せるかもしれません。しかし、その事実だけをもって「片方が首謀者で、もう片方が実行犯だ」と断定することは、あまりにも早計な捜査だと思いませんか?
もしかしたら、二人は全く無関係で、たまたま同じ電車に乗り合わせているだけかもしれません。あるいは、二人を裏で操る「真犯人」が他にいて、その人物の指示で別々に動いているだけかもしれないのです。
相関を見つけることは、あくまで科学的探求のスタート地点です。それは容疑者をリストアップする作業に似ていますが、決して有罪判決ではありません。この「容疑者」が本当に「犯人」なのか、それともただの「見せかけの関係」なのかを見極める旅が、ここから始まるのです。
見せかけの相関を生む「交絡因子」という名の真犯人
さて、捜査は次の段階に進みます。「アイスの売上」と「溺死者数」という、常に現場に一緒に現れる二人組。しかし、彼らの間には直接的な動機、つまり因果関係が見当たりません。では、いったい誰がこの奇妙な状況を裏で操っているのでしょうか?
ここに登場するのが、今回の物語における「真犯人」です。その名を交絡因子(Confounding Factor)と言います。
交絡因子とは、一言でいえば「調査したい原因と結果の両方に影響を与える、隠れた第三の変数」のことです。まるで人形遣いのように、2つの人形(変数)を裏から糸で操り、あたかも二人が自らの意志で一緒に動いているかのように見せかける、巧妙な存在なのです。
今回の事件では、その真犯人は、皆さんもお気づきの通り「気温」でした。
この関係性を、ミステリードラマの相関図のように可視化してみましょう。因果の流れを矢印で示すのがポイントです。
この図が、事件の全貌を明らかにしています。
- 「気温」が上がるという真の原因が、「アイスを買う」という行動を引き起こします。
- 同じ「気温」の上昇が、独立して「海や川で泳ぐ」という行動を促し、その結果として溺死者数の増加につながります。
つまり、「アイスの売上」と「溺死者数」を直接結ぶ横向きの矢印は、現実には存在しないのです。ただ、「気温」という共通の親玉が、2つの事象をそれぞれ引き起こしているため、結果として両者が連動して見えていただけ。これが真相です。
このように、交絡因子によって人為的に作り出された、見せかけの関係のことを疑似相関または見せかけの相関(Spurious Correlation)と呼びます。「Spurious」とは「偽の」「見せかけの」という意味で、まさにその名の通り、本物ではない偽物の関係なのです。
身の回りに潜む、その他の「真犯人」たち
一度この「交絡」という犯人の手口を知ると、私たちの周りにいかに多くの未解決事件(=見せかけの相関)が転がっているかに気づかされます。
例えば、有名な例に「消防車の出動台数が多い火事ほど、被害額が大きい」というデータがあります。このデータだけを見て、「消防車が火を消すどころか、被害を拡大させているのでは?」と結論づけるのは、あまりにも短絡的ですよね。
あなたの名探偵としての目で、この事件の真犯人(交絡因子)を指摘できるでしょうか?
…そうです。ここでの交絡因子は「火事の初期規模」です。
大規模な火事だからこそ、多くの消防車が呼ばれ、そして結果的に被害額も大きくなる。消防車の数と被害額の間に直接の因果関係はなく、「火事の規模」という共通の原因が両者を動かしていただけなのです。
このように、データ上で2つの事柄が関連して見えたとき、私たちは「AがBの原因だ!」と飛びつく前に、まず一歩引いて、「Cという真犯人が、AとBの両方を操っているのではないか?」と疑う冷静な視点を持つ必要があります。これこそが、データと正しく向き合うための、極めて重要な思考法なのです。
なぜ、この考え方が医療現場で重要なのか?
「なるほど、面白い話だったな」—もしそう感じていただけたなら嬉しいのですが、この「交絡」という視点を単なる雑学で終わらせてしまうのは、非常にもったいない。なぜなら、この思考法こそ、日々の臨床や研究の現場で、私たちが誤った結論に飛びつくのを防ぎ、患者さんの健康と未来を守るための、極めて重要な診断ツールとなるからです。
症例ファイル:コーヒーと肺がんのミステリー
ここに、一つの臨床研究の報告書があるとします。かつて、一部の観察研究では「コーヒーを日常的に飲む人ほど肺がんリスクが高いように見える」という結果が示されたことがありました。
この報告だけを鵜呑みにすれば、導き出される結論は一つです。
「コーヒーが肺がんを引き起こす!明日からの外来で、患者さんにコーヒーを控えるよう指導しよう」
しかし、優れた臨床家は、最も明白に見える診断にすぐ飛びつきません。鑑別診断をリストアップするように、他の可能性を考えます。「このデータには、他にどんな背景が隠れているだろうか?」「この患者集団には、他にどんな特徴があるだろうか?」と。
ここで私たちが捜すべきなのが、交絡因子という名の”真の病原体”です。この症例では、どんな”真犯人”が潜んでいる可能性があるでしょうか?
…答えは「喫煙」です。
当時のデータを詳しく解析すると、コーヒーを愛飲する人々の中には、同時にタバコも愛飲する、いわゆるヘビースモーカーが非常に多いという背景が明らかになりました。言うまでもなく、喫煙は肺がんの最も強力なリスク因子です。
この関係性を、先ほどの図に当てはめてみましょう。
真の因果関係は、「喫煙が肺がんのリスクを劇的に上げる」という一点にありました。「コーヒーと肺がん」の関連性は、喫煙という強力な交絡因子によって生み出された、見せかけの相関に過ぎなかった可能性が極めて高いのです。
交絡を見過ごすという「医療過誤」
もし、私たちがこの交絡の可能性を見過ごし、「コーヒーを控えなさい」という指導だけを行ったとしたら、何が起きていたでしょうか。
それは、効果のない介入に他なりません。肺炎の患者さんに咳止めだけを処方するようなもので、根本的な原因(喫煙)は放置されたままです。患者さんは、本来取り組むべき最も重要な生活習慣の改善、つまり「禁煙」という機会を失ってしまいます。これは、患者さんにとって計り知れない不利益であり、一種の「医療過誤」とさえ言えるかもしれません。
幸い、その後のより精密な研究、つまり喫煙などの交絡因子を統計的に調整した研究では、コーヒーと肺がんの直接的な因果関係は否定されています。世界がん研究基金(WCRF)などの現代の報告では、コーヒーが特定のがんのリスクを下げる可能性さえ示唆されており、評価は大きく変わりました (World Cancer Research Fund/American Institute for Cancer Research, 2020)。この科学的知見の進歩は、まさに交絡という概念への理解が深まったおかげなのです。
新しい治療法や薬剤の効果を評価する論文を読むとき。あるいは、日々の診療で患者さんの生活習慣と疾患の関連性を考えるとき。私たちの頭の中には、常にこの「交絡」という名の容疑者がいるべきです。
「この結果を説明できる、他の要因はないだろうか?」
「この関係は、本当に因果関係と言えるのだろうか?」
この自問自答を繰り返す癖こそが、科学的根拠に基づいた医療(EBM)を実践する上で、私たちにとって最も信頼できる羅針盤となるのです。
まとめ:データに踊らされず、その裏側を見抜く眼を
今回は、データ分析の第一歩でありながら、最も重要な教訓の一つである「相関と因果」の違いについて、交絡因子というキーワードを軸に解説しました。
- 相関は、2つの物事が連動して動いている状態を示すだけで、原因と結果の関係を意味するものではありません。
- 因果の裏付けがないのに相関関係を因果関係だと誤解すると、間違った結論を導いてしまいます。
- その誤解の多くは、原因と結果の両方に影響を与える交絡因子によって生み出された「見せかけの相関」です。
AIが自動で様々なデータ間の相関を見つけ出してくれる時代だからこそ、その結果を鵜呑みにせず、背景にあるメカニズムや交絡の可能性を批判的に吟味する人間の思考が、これまで以上に重要になっています。
「このデータが本当に意味することは何か?」―その問いこそが、私たちをより深く、賢明な意思決定へと導いてくれるはずです。次回からは、この因果関係にさらに深く踏み込んでいくための、よりパワフルな思考法やツールについて学んでいきましょう。
参考文献
- International Agency for Research on Cancer (IARC). (1991). Coffee, Tea, Mate, Methylxanthines and Methylglyoxal. IARC Monographs on the Evaluation of Carcinogenic Risks to Humans, Vol. 51. Lyon: IARC.
- International Agency for Research on Cancer (IARC). (2016). IARC Monographs Volume 116: Drinking Coffee, Mate, and Very Hot Beverages. Lyon: IARC. Press Release No. 244.
- World Cancer Research Fund / American Institute for Cancer Research (WCRF/AICR). (2022). Coffee and cancer: what’s the latest evidence? WCRF International Continuous Update Project.
- Bøhn, S.K., Blomhoff, R., & Paur, I. (2014). Coffee and cancer risk: epidemiological evidence. Molecular Nutrition & Food Research, 58(5), 915–930.
- Guertin, K.A., Freedman, N.D., Loftfield, E., et al. (2015). Coffee consumption and incidence of lung cancer in the NIH-AARP Diet and Health Study. American Journal of Clinical Nutrition, 102(4), 897–905.
- Galarraga, V., Boffetta, P., et al. (2016). Coffee drinking and risk of lung cancer – a meta-analysis. Cancer Epidemiology, Biomarkers & Prevention, 25(6), 951–957.
- Jabbari, M., Moradi, S., et al. (2024). Coffee consumption and risk of lung cancer: an updated systematic review and dose–response meta-analysis of prospective cohort studies. Scientific Reports, 14, 67921.
- Bjørngaard, J.H., Nordestgaard, A.T., Taylor, A.E., et al. (2017). Heavier smoking increases coffee consumption: evidence from a Mendelian randomization analysis. International Journal of Epidemiology, 46(6), 1958–1967.
- Centers for Disease Control and Prevention (CDC). (2025). What Are the Risk Factors for Lung Cancer? (Smokers are 15–30 times more likely to get lung cancer than non-smokers).
- Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Vigen, T. (2015). Spurious Correlations. Hachette Books.
ご利用規約(免責事項)
当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。
第1条(目的と情報の性質)
- 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
- 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
- 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
- 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。
第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。
第3条(医療行為における責任)
- 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
- 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
- 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。
第4条(情報の正確性・完全性・有用性)
- 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
- 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。
第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。
第6条(知的財産権)
- 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
- 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。
第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。
第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。
第9条(免責事項)
- 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
- 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
- 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
- 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。
第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。
第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。
For J³, may joy follow you.

