人の一生は、健康な時期もあれば、病気と向き合う時期もある、まさに一本の「物語」のようです。もし、その物語の未来の展開を、ある程度予測できるとしたら、医療はどう変わるでしょうか?
これまで、心臓病やがんなど、特定の病気のリスクを予測するツールは存在しました。しかし、私たちの健康は、たった一つの病気で決まるわけではありません。複数の病気が複雑に絡み合い、時間と共に変化していきます。この複雑な「病気の自然史」全体を捉えることは、非常に困難な課題でした。
2025年9月17日、この大きな壁を打ち破る可能性を秘めた研究が、権威ある科学雑誌『Nature』に掲載されました。ドイツがん研究センター(DKFZ)や欧州分子生物学研究所(EMBL)などの国際研究チームが開発した、生成AIモデル「Delphi-2M」です。驚くべきことに、このAIはChatGPTなどを支える「Transformer」技術を応用し、一人の人間の過去の病歴から、1,000種類以上もの未来の病気のリスクを予測し、さらには「ありうる未来の健康物語」を生成することまでできてしまうのです。今回は、このDelphi-2Mが持つ驚異的な能力と、それが拓く未来の医療、そして私たちが向き合うべき課題について、専門家の視点から分かりやすく解説していきます。
参考記事
- タイトル: Learning the natural history of human disease with generative transformers
- 発行元: Nature
- 発行日: 2025年9月17日
- DOI: 10.1038/s41586-025-09529-3
本稿中の画像・図表は、特段の断りがない限り引用元記事・公式資料に基づく引用です。各権利は原権利者に帰属します。
記載情報は 発行日時点 で公開・確認できた内容に基づきます。最新かつ正確な情報は 必ず公式発表・公式サイト・一次資料 をご参照ください。
本文には筆者の解釈・要約が含まれ、誤りや不正確な点が含まれる可能性 があります。重要事項は 原典の直接確認 を推奨します。
記事内の商標・サービス名・製品名は、各社の登録商標または商標です。
要点
- 💬 GPT技術を医療に応用: ChatGPTと同じ「Transformer」アーキテクチャを改良し、約40万人の英国バイオバンクのデータを用いて、1,000種類以上の疾患の生涯にわたる進行パターンを学習しました。
- 📈 高精度なリスク予測: 個人の過去の病歴、年齢、性別、生活習慣(喫煙、飲酒、BMI)を入力すると、未来の疾患発症率を予測します。その精度は、多くの既存の単一疾患予測モデルに匹敵、あるいは上回ることが示されました。
- ✍️ 「未来の健康物語」を生成: Delphi-2Mの最大の特徴は、予測だけでなく「生成」ができる点です。ある時点までの健康情報をもとに、その人が今後どのような病気を経験する可能性があるか、という架空の健康軌跡を複数サンプリング(生成)できます。
- プライバシー保護への貢献: この生成能力を使えば、実在の個人情報を含まない高品質な「合成医療データ」を作成できます。論文では、この合成データだけでAIを訓練しても、実データを使った場合と遜色ない性能を発揮することが示され、プライバシーを保護したAI開発への道を開きました。
- ⚠️ バイアスの課題: 高い性能を持つ一方で、訓練データであるUKバイオバンクが持つ「健康な人が参加しやすい」「特定のデータソースが欠損している」といったバイアスを学習してしまうという重要な課題も明らかにされました。
技術の概要:病歴を「文章」として読むAI
Delphi-2Mの核心を理解する鍵は、「人の健康の軌跡を、一つの長い文章として捉える」というアイデアにあります。私たちが文章を読むとき、単語の順番や文脈から次に来る単語を予測しますよね。Delphi-2Mは、それと同じことを病気のデータで行うのです。
具体的には、「0歳:男性」「11.2歳:風邪」「22.8歳:喫煙開始」「45.7歳:喘息」…といった一連の健康イベント(論文ではトークンと呼びます)を、時系列のデータとしてAIに入力します。するとAIは、これらのイベント間の複雑な関係性を学習し、「次に起こりうるイベント(病気)は何か?」「それは、いつ頃起こるのか?」を予測するわけです。まさに、文章の続きを予測するChatGPTの医療版と言えるでしょう。

図1: Delphi-2Mが捉える健康軌跡の概念図。人の一生における病気の診断や生活習慣の変化を、タイムライン上の「イベント」として時系列に並べたものです。AIはこれを一つのシーケンス(文章)として読み込み、パターンを学習します。(出典: Shmatko, A., et al. (2025). Learning the natural history of human disease with generative transformers. Nature.)
この研究で使われているTransformerは、以下の私の講座で解説しています。
『第22回:P22:生成モデル入門① 自己回帰モデル 「Transformer」徹底理解! — ChatGPTを支えるAttentionと自己回帰生成の全容を学ぶ』と、その詳細記事P22.x
このような研究をしたい方はぜひご連絡をください!


ただし、Delphi-2Mは通常のGPTモデルをそのまま使ったわけではありません。医療データを扱うために、研究チームは3つの重要な改良を加えました。
これらの改良により、Delphi-2Mは単に病気を羅列するのではなく、「いつ、どのような順番で病気が起こりやすいか」という時間的なダイナミクスを捉えることができるのです。この「時間」の概念を組み込んだ点が、Delphi-2Mの画期的な部分です。

図2: Delphi-2Mのモデルアーキテクチャ。基本的なGPT-2の構造をベースに、「年齢エンコーディング」や「次のイベントまでの時間」を予測するための出力ヘッド(Time to event)などが追加されている点が特徴です(赤枠)。(出典: Shmatko, A., et al. (2025). Learning the natural history of human disease with generative transformers. Nature.)
性能と比較:既存の予測モデルを凌駕する場面も
では、Delphi-2Mの予測精度はどれほどのものなのでしょうか?論文では、その性能を様々な角度から徹底的に検証しています。
モデルの識別能力を示す指標であるAUC(Area Under the Curve)は、平均で0.76と良好な値を示しました。AUCは1に近いほど性能が高く、0.5はランダムな予測と同じレベルを意味します。特に「死亡」の予測に関しては、AUC 0.97という非常に高い精度を達成しています。
さらに興味深いのは、既存の臨床で使われているリスクスコアとの比較です。下の図は、心血管疾患(CVD)、認知症、死亡の3つのアウトカムについて、Delphi-2Mと他の予測モデルの性能をROC曲線で比較したものです。

図3: Delphi-2Mと他の予測モデルの性能比較。死亡(Death)や認知症(Dementia)の予測において、Delphi-2M(青い線)が既存の臨床スコア(CharlsonやElixhauserなど)や他の機械学習モデルよりも高いAUC(曲線が左上に膨らむほど高性能)を達成していることがわかります。一方で、心血管疾患(CVD)では既存のQrisk3とほぼ同等の性能でした。(出典: Shmatko, A., et al. (2025). Learning the natural history of human disease with generative transformers. Nature.)
この結果を見ると、死亡や認知症の予測において、Delphi-2Mが既存の複数の有名スコアを上回っていることが分かります。これは、単一のアウトカムに特化して作られたモデルよりも、1000以上の疾患全体の文脈を学習したDelphi-2Mの方が、より多くの情報から精度の高い予測を行える可能性を示唆しています。
ただし、万能というわけではありません。例えば、糖尿病の予測においては、臨床マーカーであるHbA1c単体での予測の方が精度が高いという結果も出ており、モデルが参照できる情報の種類(この研究では主にICD-10診断コード)による限界も示されています。
応用例・ユースケース:未来の健康を「シミュレーション」する
Delphi-2Mの真骨頂は、その「生成(Generative)」能力にあります。これは、従来の予測モデルにはなかった、全く新しい可能性を拓くものです。
1. 例:個別化された未来の疾患負担の推定
例えば、ある60歳の人の健康記録をDelphi-2Mに入力し、「この人の20年後までの健康軌跡を100通り生成して」と指示することができます。これにより、その人が今後どのような健康上の課題に直面しやすいか、複数のシナリオとして可視化できます。これは、画一的なリスクスコアを提示されるよりも、遥かに個別化された健康管理や人生計画に役立つ可能性があります。
2. プライバシーを保護する「合成データ」の創出
医療AIを開発する上で最大の障壁の一つが、個人情報である医療データのプライバシー問題です。しかし、Delphi-2Mを使えば、実在の誰のものでもない、しかし統計的な特徴は本物そっくりの「合成健康データ」を大量に生成できます。
論文では、この合成データだけを使ってDelphi-2Mと同じモデルを訓練するという驚くべき実験を行いました。その結果、合成データで訓練したモデルの性能(AUC 0.74)は、本物のデータで訓練したモデルに比べてわずか3パーセントポイントの低下にとどまりました。これは、個人情報を一切使わずに、高性能な医療AIを開発できる可能性を示した、非常に重要な成果です。

図4: 合成データで訓練したモデルの性能評価。箱ひげ図は、様々な疾患に対する予測性能(AUC)の分布を示しています。左が本物のUKバイオバンクデータで訓練したモデル、中央がDelphi-2Mが生成した合成データで訓練したモデルです。両者の性能分布が非常に近いことが一目瞭然です。(出典: Shmatko, A., et al. (2025). Learning the natural history of human disease with generative transformers. Nature.)
技術的制約・課題:AIは「データ」の鏡である
このように強力なDelphi-2Mですが、研究チームは冷静にその限界と課題も指摘しています。最大の課題は、AIが訓練データのバイアスを忠実に学習してしまう点です。
1. 「健康なボランティア」バイアス
訓練に使われたUKバイオバンクは、一般集団に比べて健康意識の高い人々が多く参加する傾向があります。そのため、Delphi-2Mが学習した疾患の発症率は、一般集団よりも低めに出る可能性があります。
2. データの「見え方」に起因するバイアス
さらに深刻なのが、データ収集のされ方に起因するバイアスです。例えば、UKバイオバンクのデータは、病院の入院記録、プライマリケア(かかりつけ医)の記録、自己申告など、複数のソースから成り立っています。そして、全ての参加者が全てのソースのデータを常に提供しているわけではありません。
その結果、AIは「一度でも入院記録がある人は、別の病気でも入院記録として診断されやすい」といった、生物学的な関連ではなく、データ収集プロセス上のクセを学習してしまいます。 例えば、敗血症は93%が病院で診断されるため、AIは「過去に入院歴がある」という情報だけで、敗血症のリスクを8倍も高く予測してしまう、といったことが起こりうるのです。

図5: データソースに起因する予測への影響。この図は、ある病気(行)が、別の病気(列)の予測に与える影響の強さを示しています。赤色が濃いほど影響が強いことを意味します。データソースごと(Hospital records, Primary careなど)にブロック状の強い相関が見られ、AIが疾患そのものの関連性だけでなく、「どのデータソースで記録されたか」という情報に基づいて予測を行っていることが示唆されます。(出典: Shmatko, A., et al. (2025). Learning the natural history of human disease with generative transformers. Nature.)
これは、AIの予測を臨床応用する際に、極めて慎重な解釈が求められることを意味します。AIが出した予測が、真の生物学的リスクを反映しているのか、それとも単なるデータの見え方のパターンを捉えただけなのかを見極める必要があります。
今後の展望
今回の研究は、生成AIが医療データ解析の新たなフロンティアを切り拓くことを力強く示しました。今後の展望として、研究チームはいくつかの方向性を挙げています。
- マルチモーダル化: 現在は主に診断コードを扱っていますが、今後はゲノムデータ、血液検査データ、画像データ、ウェアラブルデバイスのデータなど、より多様な情報を統合していくことが期待されます。
- 自由記述テキストへの対応: 診断コードだけでなく、カルテの自由記述文から直接パターンを学習できるようになれば、さらにリッチな情報に基づいた予測が可能になるでしょう。
- 臨床意思決定支援への応用: 将来的には、個々の患者に最適なスクリーニング開始時期を提案したり、特定の検査から最も恩恵を受ける可能性のある人を見つけ出したりするなど、臨床現場での意思決定をサポートするツールとしての活用が考えられます。
ただし、そのためにはAIの予測精度だけでなく、公平性や説明可能性、そして今回明らかになったようなバイアスの問題を克服していくための、さらなる研究が不可欠です。
まとめ
Delphi-2Mは、生成AIを用いて人の健康の軌跡という複雑な「物語」をモデル化し、未来を予測・生成するという、医療AIの新たな地平を切り拓きました。その高い予測精度と、プライバシーを保護する合成データを生成する能力は、個別化医療やAI開発に大きなインパクトを与える可能性を秘めています。
一方で、この研究はAIが訓練データのバイアスを色濃く反映するという「諸刃の剣」であることも浮き彫りにしました。
私たち医療従事者や研究者は、こうしたAIの能力を最大限に活用しつつも、その予測の裏にある限界やバイアスを常に批判的に吟味する視点を持ち続けることが、テクノロジーを真に医療の進歩へと繋げるために不可欠だと言えるでしょう。
参考文献
- Shmatko, A., Jung, A.W., Gaurav, K., Brunak, S., Mortensen, L.H., Birney, E., Fitzgerald, T. & Gerstung, M. (2025). Learning the natural history of human disease with generative transformers. Nature. Available at: https://doi.org/10.1038/s41586-025-09529-3.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. & Polosukhin, I. (2017). Attention is All you Need. In Advances in Neural Information Processing Systems 30 (NIPS 2017).
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
- Hippisley-Cox, J., Coupland, C., & Brindle, P. (2017). Development and validation of QRISK3 risk prediction algorithms to estimate future risk of cardiovascular disease: prospective cohort study. BMJ, 357, j2099.
ご利用規約(免責事項)
当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。
第1条(目的と情報の性質)
- 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
- 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
- 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
- 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。
第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。
第3条(医療行為における責任)
- 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
- 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
- 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。
第4条(情報の正確性・完全性・有用性)
- 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
- 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。
第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。
第6条(知的財産権)
- 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
- 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。
第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。
第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。
第9条(免責事項)
- 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
- 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
- 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
- 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。
第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。
第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。
For J³, may joy follow you.

