高次元データの奥深くに眠る「隠れた関係性」や「意味のある構造」を、AIがどのように見つけ出すのか。その強力な2つのアプローチと、究極の融合形であるGNNを概観します。
高次元で複雑なデータを、t-SNEやUMAP等の手法で低次元の「地図」に変換し可視化します。シワだらけの布を広げて本来の絵を見るように、データの真の構造をあぶり出します。
物事を点(ノード)と線(エッジ)で表現し、「つながり」の構造を分析します。タンパク質の相互作用や感染症の伝播など、生命システムのネットワークを解明する強力な道具です。
グラフニューラルネットワーク(GNN)は、個々のデータの特徴と、その周囲のつながりの情報(文脈)を同時に学習します。創薬や個別化医療など、医療AIの最前線を拓きます。
私たちの周りにあるデータ、例えば患者さんのカルテに並ぶ無数の検査値、次世代シーケンサーから出力される膨大な遺伝子情報、あるいは日々発表される医学論文の山…。これらは一見すると、ただの数字や文字が雑然と並んだ巨大な集合に見えるかもしれません。
しかし、そのデータの奥深くには、診断や治療選択の重要なヒントとなる「隠れた関係性」や「意味のある構造」が、まるで宝物のように眠っています。もし、この複雑に絡み合ったデータの毛糸玉をきれいに解きほぐし、そこに描かれた未知の地図を読み解くことができたなら、医療はどれほど大きく飛躍するでしょうか?
このセクションでは、そんなデータの「つながり」を解き明かすための、非常に強力な2つの数学的アプローチ、「多様体学習」と「グラフ理論」の世界を探検していきます。これらは、AIがデータの中に潜む本質的なパターンや関係性を見つけ出すための、いわば特殊な「レンズ」や「地図」を描くための道具立てなのです。さあ、一緒にデータの冒険に出かけましょう。
多様体学習:データの隠れた「地図」を描き出す
突然ですが、数千、数万もの項目(次元)がずらりと並ぶ、がん患者さんの遺伝子発現データを目の前にしたと想像してみてください。一つ一つの遺伝子の数値をじっと眺めても、その患者さんの体内で何が起きているのか、病態の本質がどこにあるのか、全体像を把握するのは至難の業です。これは「高次元の呪い(Curse of Dimensionality)」と呼ばれる、データサイエンスにおける非常に有名で、そして厄介な課題です。
なぜ高次元データは「呪い」なのか?
データの次元(項目数)があまりに増えすぎると、私たちの3次元空間での直感がまったく通用しない、奇妙で不都合な現象が起こり始めます。
- データのスカスカ現象(スパース性): 次元が増えると、データを十分に満たすために必要なデータ量が指数関数的に爆発します。例えば、1つの軸(1次元)を10個の区間に区切ってデータを分析したいとします。この場合、10個の「小部屋」ができます。これが2次元の平面になると小部屋は \(10 \times 10 = 100\) 個に、3次元の空間では \(10 \times 10 \times 10 = 1000\) 個になります。では、遺伝子データのように1000次元だったらどうでしょう? 小部屋の数は \(10^{1000}\) という、宇宙に存在する原子の数よりもはるかに多い、天文学的な数になってしまいます。手元に数千、数万のデータ点があったとしても、ほとんどの小部屋は空っぽ。データは広大な空間にポツン、ポツンとまばらに存在するだけになってしまうのです。
- 「距離」という概念の崩壊: データがスカスカになると、さらに困ったことが起きます。あるデータ点から見て、最も近くにあるデータ点(最近傍点)と、最も遠くにあるデータ点(最遠傍点)の距離の差が、次元が増えるにつれてほとんどなくなっていくのです。これは、広大な砂漠の真ん中に立ったとき、一番近いオアシスも一番遠いオアシスも、どちらも「はるか彼方」にあって見分けがつかない感覚に似ています。「誰と誰が本当に似ているのか」を判断する「距離」という物差しそのものが、意味をなさなくなってしまうのです。これは、類似度に基づいてデータをグループ分けする(クラスタリング)ような、多くの機械学習アルゴリズムにとって致命的な問題です。
- 計算コストの増大と過学習: 単純に、次元が増えれば増えるほど計算量は増大します。それ以上に深刻なのは、次元(説明変数)が多すぎると、モデルがデータの本質的なパターンではなく、そのデータセットに固有の偶然のノイズにまで過剰に適合してしまう「過学習(Overfitting)」のリスクが急激に高まることです。未知のデータに対して全く役に立たない、いわば「そのテストだけ満点が取れる」モデルが出来上がってしまいます。
この「呪い」を解き、高次元データに隠された真の構造をあぶり出すための強力なアプローチこそが、多様体学習(Manifold Learning)なのです。
多様体仮説:データは低次元の「表面」に住んでいる
多様体学習の根底には、「多様体仮説(Manifold Hypothesis)」という、非常にエレガントで力強い考え方があります。これは、「現実世界から得られる高次元データの多くは、実はその高次元空間全体にランダムに散らばっているのではなく、もっとずっと低い次元の『多様体』と呼ばれる構造の周辺に集まって分布している」という仮説です。
「多様体」というと難しく聞こえるかもしれませんが、直感的には「局所的にはユークリッド空間(私たちのよく知るまっすぐな空間)と見なせるような、なめらかに曲がった図形」のことです。地球の表面を思い浮かべてみてください。地球全体は3次元空間に浮かぶ球面ですが、私たちの足元(局所)は平らな地面(2次元平面)に見えますよね。この球面が多様体の一例です。
つまり、多様体学習の目的は、たとえるなら「シワだらけの布を広げて、そこに描かれた絵を見る」作業なのです。
高次元空間に散らばっているデータも、実はくしゃくしゃに丸められた布のように、本来はもっとシンプルな構造(低次元の「多様体」)を持っています。例えば、数千の遺伝子発現量を測定したとしても、それらの発現パターンを支配している根本的な生物学的経路(例えば、特定のがん関連シグナル伝達経路など)は、ほんの数個かもしれません。このとき、データは数千次元空間の中に埋め込まれた、数次元の「多様体」という名の“表面”に沿って分布すると考えられます。
私たちの目標は、このシワだらけの布(高次元データ)をきれいにアイロンがけして広げ、そこに本来描かれていた絵(データの真の構造)を、私たちが理解しやすい2次元や3次元の「地図」として可視化することなのです。このプロセスは、元の空間で曲がっていたり、ねじれていたりする構造をまっすぐに伸ばすイメージから、非線形次元削減(Non-linear Dimensionality Reduction)と呼ばれます。
このアプローチがなぜ医療分野で重要かというと、多くの生命現象がまさにこのような低次元の構造を持つと考えられるからです。例えば、疾患の進行や細胞の分化といったプロセスは、時間が経つにつれて状態が連続的に変化していく軌跡を描きます。多様体学習は、複雑なスナップショット(各時点での細胞データ)の集合から、このような滑らかな「変化の道筋」を浮かび上がらせることを可能にします。実際に、多様体学習の分野の発展に大きな影響を与えた、科学誌Scienceに掲載されたTenenbaumらの研究では、様々な角度から撮影された顔写真のデータセットが、高次元のピクセル空間内では複雑に分布するものの、カメラの角度という2つのパラメータで決まる低次元の多様体を形成していることが見事に示されました (Tenenbaum, de Silva & Langford, 2000)。

データの「仲良しグループ」を可視化する:t-SNEとUMAP
さて、高次元データの「呪い」を解き、その中に隠された低次元の「多様体」という真の構造を見つけ出す、という壮大な目標が定まりました。では、具体的にどうやって、シワだらけの布を広げ、美しい地図を描き出すのでしょうか。この非線形次元削減、特にデータの「かたまり(クラスター)」や「関係性」を可視化する上で、現在、研究の世界で絶大な人気を誇る2つの手法がt-SNEとUMAPです。
t-SNE:データ点の「近所づきあい」を忠実に再現する地図作り
t-SNE (t-distributed Stochastic Neighbor Embedding) は、「人間関係、特にご近所づきあいを何よりも尊重する、こだわりの強い演出家」に例えることができます。この演出家(t-SNE)の仕事は、高次元という広大な世界に住む大勢の役者(データ点)たちを、私たちが一望できる2次元の舞台の上に配置し直すことです。
彼の哲学は、一見シンプルですが非常に奥深いものです。「もとの世界で仲が良かった者同士(近傍点)は、新しい舞台の上でも必ず隣同士に座らせる。逆に、もとから疎遠だった者同士は、舞台の端と端に思いっきり引き離してしまおう」というものです。この「近いものはより近く、遠いものはもっと遠く」というメリハリの効いた配置によって、役者たちがどのような「仲良しグループ(クラスター)」を形成しているかが、観客(私たち)に一目瞭然となるのです。
t-SNEは、具体的に何をしているのか?
この「人間関係の再現」を、t-SNEは確率的な考え方を使って巧みに実現します。少しだけ、その演出家の頭の中を覗いてみましょう。
- ステップ1:高次元空間での「近所づきあいリスト」の作成
まず、高次元空間にいる各データ点 \(x_i\) を中心に考えます。「もし \(x_i\) が隣人を選ぶとしたら、誰を選ぶだろう?」という問いを立て、他のデータ点 \(x_j\) を選ぶ確率 \(p_{j|i}\) を計算します。この確率は、\(x_i\) と \(x_j\) の距離が近いほど高く、遠いほど低くなるように、正規分布(ガウス分布)を使って定義されます。つまり、各データ点について「親しい友人リスト」を確率的に作成するわけです。 - ステップ2:2次元空間での「仮の座席表」の作成と評価
次に、2次元の舞台上にデータ点 \(y_i\) をランダムに配置します。そして、高次元空間と同じように、「もし \(y_i\) が隣人を選ぶとしたら…」と考え、他の点 \(y_j\) を選ぶ確率 \(q_{j|i}\) を計算します。ここがt-SNEの独創的な点で、2次元空間では正規分布ではなく、裾野が広いt分布を使います。これが名前の「t」の由来です。なぜt分布を使うかというと、高次元空間での「まあまあ遠い」関係の点を、2次元マップ上では「もっと遠く」に配置しやすくするためです(これはクラウディング問題を解決する重要な工夫です)。 - ステップ3:「理想」と「現実」の座席表を近づける
最後に、高次元での理想的な関係性(確率分布 P)と、2次元での仮の座席表が示す関係性(確率分布 Q)を比較します。そして、この2つの確率分布がそっくり同じになるように、2次元マップ上のデータ点の位置を少しずつ動かしていきます。この「ズレ」を測る指標がカルバック・ライブラー(KL)ダイバージェンスで、この値が最小になるように点の配置を最適化していくのです。
この一連のプロセスにより、t-SNEは高次元空間での局所的な構造、つまり「どの点がどの点の近くにあるか」という情報を、驚くほど忠実に2次元マップ上に再現するのです (van der Maaten & Hinton, 2008)。
医療現場での応用例:見えなかった細胞集団を発見する
t-SNEが特に医学研究に衝撃を与えたのは、フローサイトメトリーや質量分析サイトメトリー(CyTOF)、シングルセルRNAシーケンスといった、一度に数万〜数百万個の細胞の多次元的特徴を測定する技術が登場してからです。
例えば、スタンフォード大学のGarry Nolan研究室が科学誌Nature Biotechnologyで発表した「viSNE」という手法は、その象徴的な例です (Amir et al., 2013)。彼らは、ヒト骨髄サンプルから得られた数万個の細胞のデータをCyTOFで測定し、t-SNEを用いて2次元に可視化しました。その結果、従来の専門家が手作業で行うゲーティング(細胞集団の分類)では見過ごされていた、白血病細胞の微細な不均一性(ヘテロジェネイティ)や、これまで全く認識されていなかった稀な細胞集団を、島のように浮かび上がるクラスターとして視覚的に発見することに成功したのです。これは、がんの再発に関わる微小残存病変(MRD)の検出や、免疫系の複雑な応答を理解する上で、大きなブレークスルーとなりました。

同様に、ハーバード大学とMITのBroad Instituteの研究者らが開発したシングルセルRNAシーケンス解析パイプライン「Seurat」でも、初期のバージョンからt-SNEが細胞のクラスタリングと可視化に標準的に用いられてきました (Satija et al., 2015)。これにより、複雑な組織内にどのような細胞種が、どのような割合で存在するのかを示す「細胞アトラス」の作成が飛躍的に進みました。
t-SNEを解釈する上での重要な注意点
t-SNEは非常に強力な可視化ツールですが、その特性を理解せずに使うと、結果を大きく誤読する危険性があります。以下の点は必ず覚えておいてください。
- クラスター間の距離に意味はない:t-SNEのマップ上で、あるクラスターと別のクラスターが「遠い」からといって、それらの細胞集団の性質が大きく異なるとは限りません。t-SNEは局所的な構造を保存することに特化しており、大域的な距離関係はしばしば破壊されます。2つの島が離れていても、実は紙一重の違いしかない可能性もあるのです。
- クラスターの「サイズ」や「密度」に意味はない:あるクラスターが大きく広がって見えたり、別のクラスターが密に固まって見えたりしても、それは元のデータにおけるばらつきや細胞数を反映しているわけではありません。t-SNEは各領域で密度が均一になるように点を配置する傾向があるため、サイズや密度から結論を導くのは危険です。
- 探索的ツールである:t-SNEの結果は、あくまでデータを探索し、仮説を立てるための「地図」です。t-SNEで分かれたように見えた集団が本当に生物学的に異なるのかどうかは、必ず元のデータに戻り、マーカー遺伝子の発現量を確認するなど、追加の統計的検証が必要です。
t-SNEは、高次元データの中に隠れた「仲良しグループ」を見つけ出す天才ですが、グループ間の関係性や全体の位置関係を正確に描くのは少し苦手なのです。この弱点を克服し、より高速で、かつ大域的な構造も捉えようと登場したのが、次に紹介するUMAPです。
UMAP:全体の構造も捉える、トポロジー発想の地図作り
一方、UMAP (Uniform Manifold Approximation and Projection) は、t-SNEの「近所づきあいを大切にする」という哲学を引き継ぎつつ、さらに野心的な目標を掲げます。UMAPは、「個々の人間関係だけでなく、街全体の地理や、A町とB町の間の幹線道路まで描き出す、優れた都市計画家」に例えることができるでしょう。
t-SNEが個々の仲良しグループ(クラスター)をくっきりと分離させるのが非常に得意な反面、グループとグループの間の「距離感」や「つながり」といった、より大きな構造(グローバル構造)は正確に表現しない傾向がありました。UMAPは、数学の一分野であるトポロジー(位相幾何学)の考え方を深く取り入れることで、この点を劇的に改善しました。「A細胞群とB細胞群は比較的似た起源を持つが、C細胞群は全く異なる系統に属する」といった、データ全体の大きな構造も、より忠実に2次元マップ上に再現しようと試みます。しかも、t-SNEよりも計算が圧倒的に高速という、非常に大きな実用的メリットも兼ね備えているのです (McInnes, Healy & Melville, 2018)。
UMAPの本質:トポロジーとは何か?
UMAPを深く理解するための鍵は、その数学的な基盤となっている「トポロジー(位相幾何学)」にあります。トポロジーは、しばしば「ゴムシートの幾何学」という愛称で呼ばれる、非常に興味深い数学の一分野です。私たちが普段慣れ親しんでいるユークリッド幾何学が、図形の長さ、角度、面積といった「測定可能」な量に注目するのに対し、トポロジーはもっと本質的な性質、つまり図形を連続的に変形させても(切ったり、新しく穴を開けたり、くっつけたりせずに、ただ伸ばしたり曲げたりするだけなら)変わらずに保たれる「つながり方の構造」を探求します。
この分野で最も有名な例え話が、「トポロジーの世界では、コーヒーカップとドーナツは同じものである」というものでしょう。これは奇妙に聞こえるかもしれませんが、本質を突いています。取っ手付きのコーヒーカップを粘土で作ったと想像してみてください。その粘土を、ちぎったり穴をあけたりすることなく、巧みにこねていくと、取っ手の穴がドーナツの真ん中の穴に対応する、きれいなドーナツの形に変形させることができます。この変形プロセスを通じて、変わらなかったたった一つの重要な性質、それは「穴が一つだけある」ということです。一方で、穴のないボール(球体)をドーナツに変形させるには、どうしても粘土に穴を開ける必要があります。このため、トポロジー的には球体とドーナツは全くの別物と見なされます。トポロジーが注目するのは、このように「穴の数」や「パーツがいくつに分かれているか」といった、変形に強い根本的な構造なのです。
では、この抽象的な考え方を、UMAPはどのようにして高次元データの解析に応用するのでしょうか。UMAPは、高次元空間に散らばるデータ点群も、実はある種の「形」を持っているという前提に立ちます。そして、その「形」を、距離という絶対的な物差しだけに頼るのではなく、トポロジー的な「つながり方」として捉え直そうとします。そのアプローチは、大まかに以下の2つのステップで行われます。
- データから「あいまいな位相構造」を構築する
まず、UMAPは各データ点から見て、その近傍にいる点(k近傍点)を見つけ出し、点と点を線で結んだネットワーク(専門的には「グラフ」)を構築します。しかし、単に「近いか、遠いか」の二元論で結ぶわけではありません。ここがUMAPの独創的な部分で、各点とその近傍点の間の距離に応じて、「つながりの確からしさ」に重みをつけます。つまり、「この2点は、おそらく同じ構造の上で本当につながっているだろう」という信頼度を計算するのです。これにより、データは単なる点の集まりから、つながりの強弱が表現された、柔軟で「あいまいな(fuzzy)」位相構造を持つネットワークへと変換されます。数学的には、この構造を「単体複体(Simplicial Complex)」という概念を用いて構築しており、点、線、三角形、四面体…といった高次のつながりまでを統一的に扱えるようにしています。 - その構造を最も忠実に再現する低次元マップを探す
高次元で構築したこの「あいまいな位相構造」の骨格図が手に入ったら、次の目標は、この骨格の構造をできるだけ壊さないように(ゴムシートを破らないように)、そっと2次元の平面上に広げて配置することです。UMAPは、高次元での「つながりの確からしさ」の分布と、2次元に仮配置した点から計算される「つながりの確からしさ」の分布を比較し、その差(クロスエントロピーと呼ばれる指標)が最小になるように、点の位置を最適化していきます。
この一連のプロセス、つまり、まずデータからトポロジー的な骨格を抽出し、次にその骨格を低次元空間で再構成するというアプローチにより、UMAPは驚くべき特性を獲得します。それは、個々の点の近傍関係(ローカル構造)というミクロな視点を忠実に保ちながら、同時に、クラスター同士がどのように連なっているか、あるいはデータ全体がどのような連続的な流れを持っているかといった、大域的な構造(グローバル構造)も維持しやすくなるという点です (McInnes, Healy & Melville, 2018)。t-SNEが個々の村(クラスター)をくっきりと描き出すことに特化した地図職人だとすれば、UMAPは村と村をつなぐ街道や、大陸全体の地形まで描き出そうとする、より野心的な地理学者と言えるかもしれません。
🤿 Deep Dive! UMAPの数理的背景を覗いてみる
UMAPがなぜこれほど強力なのか、その秘密はしっかりとした数学理論に裏打ちされている点にあります。ここでは少しだけ専門的な世界に足を踏み入れ、UMAPのアルゴリズムの核心部分を数式と共に見ていきましょう。理論は少し複雑ですが、その一つ一つの操作に「なぜそうするのか」という明確な理由があることが分かると、UMAPへの理解が格段に深まるはずです。
ステップ1:高次元での「つながりの強さ」の定義
UMAPはまず、高次元空間のデータ点 \(x_i\) と \(x_j\) の「つながりの強さ」 \(p_{j|i}\) を定義します。これはt-SNEと考え方が似ていますが、その定義がユニークです。
\[ p_{j|i} = \exp\left(-\frac{d(x_i, x_j) – \rho_i}{\sigma_i}\right) \]
この式の各要素を分解してみましょう。
- \(d(x_i, x_j)\) は、2つのデータ点 \(x_i\) と \(x_j\) の間の距離です。
- \(\rho_i\) は、点 \(x_i\) から見て、最も近くにいる隣人までの距離です。すべての距離からこの値を引き算することで、UMAPは「各点が、少なくとも最も近い隣人とは確実につながっている」状態を保証します。これにより、データがまばらな領域でも点が孤立してしまうのを防ぎます。
- \(\sigma_i\) は、t-SNEの時と同様に、データの局所的な密度に応じてスケールを調整するためのパラメータです。具体的には、この \(p_{j|i}\) を、\(x_i\) の \(k\) 個の近傍点について合計したときに、あらかじめ決められた値(\(\log_2(k)\))になるように、各点 \(x_i\) ごとに \(\sigma_i\) の値が決定されます。
次に、この「一方的なつながりの強さ」 \(p_{j|i}\) を、双方向の対称な関係 \(p_{ij}\) に変換します。ここでもUMAPはt-SNEとは異なるアプローチを取ります。
\[ p_{ij} = p_{j|i} + p_{i|j} – p_{j|i} p_{i|j} \]
これは、確率論における「和事象の確率」の計算式と同じ形をしています。つまり、「\(x_i\) から \(x_j\) へのつながりが存在する、または、\(x_j\) から \(x_i\) へのつながりが存在する」確率を表現しており、2つの関係性のうち少なくとも一方が強ければ、全体のつながりも強くなる、という直感的なモデルになっています。
ステップ2:低次元での構造の再現と最適化
次に、この高次元で定義した「つながりの強さ」の分布 \(P = \{p_{ij}\}\) を、可能な限り忠実に再現するような低次元(例えば2次元)の点の配置 \(Y = \{y_i\}\) を見つけ出します。低次元での2点 \(y_i\), \(y_j\) 間のつながりの強さ \(q_{ij}\) は、以下のようなシンプルな式で定義されます。
\[ q_{ij} = \left(1 + a d(y_i, y_j)^{2b}\right)^{-1} \]
これはt-SNEで使われたt分布に似た、裾野の重い関数です。パラメータ \(a, b\) は、データから最適な曲線を描くように自動で学習されます。
最後に、高次元の理想的な関係 \(P\) と、低次元の現実の配置 \(Q\) がどれだけ似ているかを測る指標(コスト関数)を最小化します。UMAPでは、このコスト関数にクロスエントロピーを用います。
\[ C(P, Q) = \sum_{i \neq j} \left[ p_{ij} \log\left(\frac{p_{ij}}{q_{ij}}\right) + (1-p_{ij}) \log\left(\frac{1-p_{ij}}{1-q_{ij}}\right) \right] \]
この式がUMAPの性能の鍵を握っています。
- 式の第1項は、高次元で近かった点(\(p_{ij}\) が大きい)を、低次元でも近くに配置する(\(q_{ij}\) を大きくする)ように働く「引力」の役割を果たします。
- 式の第2項がUMAPの真骨頂です。これは、高次元で遠かった点(\(p_{ij}\) が小さい)を、低次元でも遠くに引き離す(\(q_{ij}\) を小さくする)ように働く「斥力」の役割を担います。
t-SNEでは、この「斥力」の計算が非常に重く、計算速度のボトルネックになっていました。UMAPでは、この斥力の計算を効率化するためにネガティブサンプリングという賢い近似手法を用いることで、t-SNEよりもはるかに高速な計算を可能にしつつ、大域的な構造の保持能力を劇的に向上させているのです。
このように、UMAPの背後には、トポロジー理論に根差した洗練された数理モデルと、計算科学上の巧みな工夫が隠されています。理論は難解ですが、そのおかげで私たちは、高速かつ忠実にデータの本質的な構造を可視化するという、強力な恩恵を受けることができるのです。
医療応用:細胞がたどる「運命の軌跡」を描き出す
この「グローバル構造を保つ」という特性から、UMAPは特にシングルセルRNAシーケンス(scRNA-seq)解析の分野で、またたく間に標準的なツールとしての地位を確立しました。なぜなら、生命現象の中には、細胞がパッと別の種類に変わるのではなく、連続的なプロセスを経て変化していくものが数多く存在するからです。
その代表例が、細胞の分化です。例えば、ニューヨーク・ゲノムセンターの研究者らが開発し、今や世界中の研究室で使われている解析パイプライン「Seurat」や、別の主要なツールである「Scanpy」では、UMAPが標準の可視化手法として採用されています (Becht et al., 2019)。これらのツールを使い、数万の細胞が持つ数万の遺伝子発現プロファイルをUMAPで2次元にプロットすると、驚くほど美しい「細胞の地図」が描き出されます。

この地図の上では、単に細胞の種類を分類できるだけでなく、例えば、血液の元となる造血幹細胞が、骨髄系やリンパ系の前駆細胞を経て、最終的に赤血球やT細胞、マクロファージといった多様な機能を持つ細胞へと分化していく連続的な軌跡(細胞運命の軌跡推定、Trajectory Inference)を、滑らかなグラデーションや枝分かれ構造として可視化することが可能になったのです。これは、t-SNEでは捉えるのが難しかった、細胞状態の「移り変わり」そのものを描き出す画期的な進歩でした。
この技術は、巨大国際プロジェクトである「ヒト細胞アトラス(Human Cell Atlas)」においても中心的な役割を担っています。このプロジェクトは、健康な人体を構成する全細胞タイプの参照マップを作成することを目的としており、UMAPは、様々な臓器から得られた数百万の細胞データを統合し、その多様性と関係性を理解するための共通言語として機能しています (Regev et al., 2017)。

t-SNEとUMAP、どう使い分ける?
t-SNEとUMAPは、どちらが一方的に優れているというわけではなく、目的によって使い分けるのが賢明です。それぞれの長所と短所をまとめた、より詳細な比較表を見てみましょう。
| 特徴 | t-SNE | UMAP |
|---|---|---|
| 主目的 | クラスターの分離を最大化すること。異なるグループを視覚的にできるだけはっきりと分けたい場合に最適。 | データの位相的構造(つながり方)の維持。局所構造と大域構造のバランスを取りたい場合に最適。 |
| 得意なこと | 局所的な構造の可視化。密なクラスターを明確に描き出す能力は非常に高い。 | 局所的構造と大域的構造の両立。クラスター間の関係性や連続的な変化の可視化。 |
| 根底にある思想 | 確率論ベース。近傍点との関係を確率分布でモデル化し、その分布を低次元で再現する。 | トポロジー(位相幾何学)ベース。高次元の近傍グラフの位相構造を低次元で再現する。 |
| 計算速度 | 遅い。データサイズが大きくなると(数万点以上)、計算時間が実用的でなくなることがある。 | 非常に速い。t-SNEよりも桁違いに高速で、数百万点のデータにも対応可能。 |
| グローバル構造の保持 | 不得意。クラスター間の距離や配置に意味を持たせることはできない。 | 得意。t-SNEよりもはるかに忠実に大域的な構造を保持する傾向がある(ただし完全ではない)。 |
| 主な用途例 | 細胞集団の発見と定義、既知のグループがどう分離されるかの確認。 | 細胞分化の軌跡推定、疾患進行に伴う状態変化の可視化、大規模データセットの探索的解析。 |
結論として、もし「データの中に、どのような種類のグループがいくつ存在するか」を第一に知りたいのであれば、t-SNEは今でも強力な選択肢です。一方で、「それらのグループが互いにどう関係し、どのような連続的な変化の過程にあるのか」という、より大きな物語を読み解きたいのであれば、UMAPがその力を最大限に発揮してくれるでしょう。現代の生命科学研究、特に大規模データを扱う分野では、その計算速度とグローバル構造を保持する能力から、UMAPが第一選択となる場面が増えています。
グラフ理論:「つながり」そのものを科学する
さて、ここまでの道のりで私たちは、高次元で捉えどころのないデータの中に隠された「形」や「分布」を見つけ出し、それを低次元の「地図」として描き出す多様体学習の世界を探検してきました。それは、まるで複雑な地形を航空写真から読み解き、誰もが理解できる地図に落とし込むような作業でしたね。
ここからは、視点をガラリと180度変えてみたいと思います。個々のデータ点が地図上のどこに位置するか、ではなく、モノとモノとの間の「つながり(関係性)」そのものに数学的なスポットライトを当て、その構造から本質を読み解こうとする、非常に強力なアプローチ、グラフ理論(Graph Theory)の世界にご案内します。
「グラフ」と聞くと、おそらく多くの方が、売上の推移を示す棒グラフや、アンケート結果をまとめた円グラフを思い浮かべるのではないでしょうか。もちろんそれらも重要なグラフですが、ここで私たちが扱う「グラフ」は、もっとシンプルで、より根源的な概念です。それは、点(ノード Node または 頂点 Vertex)と、それらを結ぶ線(エッジ Edge または 辺)という、たった2つの要素だけで構成される、関係性の「骨格図」のことです。
一番分かりやすい例は、いつも使っている鉄道の路線図かもしれません。一つ一つの「駅」がノードであり、駅と駅とを結ぶ「線路」がエッジです。このシンプルな図を見るだけで、私たちはどの駅が乗り換えのハブになっているか、目的地までどう行けば早いかを直感的に理解できます。あるいは、SNSの友人関係を思い浮かべてみてください。一人ひとりがノードで、「友達である」という関係がエッジです。このつながりをたどれば、誰がコミュニティの中心にいるのか、情報がどのように広がっていくのかが見えてきます。
この考え方は、医療・生命科学の世界に驚くほどしっくりと当てはまります。なぜなら、生命現象そのものが、無数の要素が相互に関係しあう巨大で複雑なネットワークだからです。
このように、「ノード」と「エッジ」という非常にシンプルなモデルが、驚くほど医療・生命科学の世界の様々な事象を表現し、分析するための強力な共通言語となるのです。
しかも、このモデルは現実世界の複雑さに合わせて、さらに表現力を高めることができます。
- エッジに「重み」をつける: 関係性には強弱がありますよね。例えば、タンパク質同士の結合の強さや、2つの遺伝子の発現パターンがどれだけ似ているか(相関の強さ)を、エッジの「太さ」や「数値(重み)」として表現できます。これにより、「単につながっている」だけでなく、「どれくらい強くつながっているか」という定量的な情報も扱えるようになります。
- エッジに「向き」をつける: 関係性には方向がある場合も多いです。例えば、「遺伝子Aが遺伝子Bの発現を抑制する」という関係は、AからBへの一方通行です。このような関係は、矢印付きのエッジ(有向エッジ)で表現します。これにより、原因と結果のような因果関係の連鎖をモデル化できます。
この柔軟な表現力によって、私たちは医療に関わるあらゆるものをグラフとして捉え直すことができます。
- ノードとして:患者、医師、遺伝子、タンパク質、薬剤、疾患、症状、細胞、論文、研究機関…
- エッジとして:患者間の接触(感染症の伝播)、遺伝子とタンパク質の相互作用、薬剤と標的分子の結合、疾患と症状の関連性、論文間の引用関係、タンパク質間の物理的結合、遺伝子Aが遺伝子Bの発現を制御する関係…
このように、現実世界の複雑な関係性をグラフという数学の言葉で記述し、その「つながりの地図」を分析すること(これをネットワーク分析と呼びます)で、私たちは新たな視点を得ることができます。個々の遺伝子やタンパク質の機能を一つ一つ調べているだけでは決して見えてこなかった、システム全体の特性や、個々の要素の単純な足し算では説明できないような複雑な振る舞い(これを創発的な性質 emergent properties と言います)が、ネットワークの構造の中に浮かび上がってくるのです。グラフ理論は、まさにこの複雑な生命システムの「設計図」を読み解くための、強力な虫眼鏡であり、羅針盤となってくれるのです。
生命と疾患のネットワークを解き明かす
グラフ理論は、もはや生命科学研究において不可欠なツールとなっています。いくつかの具体的な応用例を見ていきましょう。
タンパク質相互作用(PPI)ネットワーク:創薬ターゲットの探索
私たちの体内では、生命活動を維持するために無数のタンパク質が互いに結合したり、影響を与え合ったりする、巨大で複雑なネットワークを形成しています。これをタンパク質相互作用(Protein-Protein Interaction, PPI)ネットワークと呼びます。このネットワークでは、タンパク質がノード、相互作用がエッジです。
ネットワーク科学者のアルバート=ラズロ・バラバシらの研究により、PPIネットワークを含む多くの現実世界のネットワークは、少数のノードが非常に多くのエッジを持つ「ハブ」として機能するスケールフリー性を持つことが明らかにされました (Barabási & Oltvai, 2004)。PPIネットワークにおける「ハブタンパク質」は、まるで巨大ターミナル駅のように、多くのタンパク質と結びついており、細胞内の情報伝達において極めて重要な役割を担っています。このようなハブタンパク質は、機能不全に陥るとシステム全体に広範な影響を及ぼすため、がんやその他の疾患において重要な創薬ターゲット候補として注目されています。
疾患ネットワーク:併存疾患のメカニズムを探る
グラフ理論は、疾患と疾患の関係性を解明する上でも強力です。例えば、様々な疾患をノードとし、2つの疾患が共通の関連遺伝子を持つ場合にエッジで結ぶことで、「疾患ネットワーク(Disease Network)」を構築できます。ハーバード大学の研究チームが科学誌PNASで発表した研究では、このようなネットワークを構築した結果、似たような表現型を持つ疾患(例:様々ながん)がネットワーク上でクラスターを形成するだけでなく、これまで関連が考えられていなかった疾患同士が、遺伝的基盤を共有することで近接していることが示されました (Goh et al., 2007)。このアプローチは、なぜ特定の疾患を持つ患者が別の疾患を併発しやすいのか(併存疾患、Comorbidity)という問いに、分子レベルでの洞察を与えてくれます。
感染症モデリング:パンデミックの拡大を予測・制御する
COVID-19のパンデミックは、ネットワーク科学の重要性を広く知らしめました。感染症の伝播は、人々(ノード)の接触(エッジ)によって形成される社会的ネットワーク上をウイルスが伝わっていくプロセスとしてモデル化できます。ネットワーク分析を用いることで、誰が多くの人と接触し、感染拡大の鍵となる可能性があるか(いわゆる「スーパースプレッダー」)を特定したり、どのコミュニティを対象に介入(ワクチン接種や行動制限)を行うのが最も効果的かをシミュレーションしたりすることが可能です。世界中の研究機関が、携帯電話の位置情報データなどから構築した人々の移動ネットワークを用いて、ウイルスの拡大予測やロックダウンの効果検証を行いました (Oliver et al., 2020)。

個々の人間をただの集団として見るのではなく、「誰と誰がつながっているか」というネットワーク構造を考慮することで、より現実に即した、効果的な公衆衛生戦略を立案することができるのです。
ネットワークから医学的本質を見抜く
さて、現実世界の複雑な関係性を「グラフ」という名の地図に描き出すことができました。しかし、この地図は、何千、何万もの都市(ノード)と、それらを結ぶ無数の道路(エッジ)が描かれた、あまりにも広大で複雑な世界地図のようなものです。ただぼんやりと眺めているだけでは、どこが経済の中心で、どこに隠れた村落があるのか、重要な幹線道路はどれなのか、見えてきません。
ネットワーク分析とは、この一見カオスに見える「つながりの地図」から、隠れた構造や本当に重要なプレーヤーを暴き出すための、様々な探偵道具(分析手法)の詰め合わせです。ここでは、その中でも特に医療分野で強力な武器となる3つのアプローチ、「中心性分析」「コミュニティ検出」「知識グラフ」を、一緒に深掘りしていきましょう。
中心性分析:ネットワークの「キーパーソン」は誰か?
中心性分析(Centrality Analysis)は、ネットワークの中で「最も影響力のある、重要なノードはどれか?」を探し出すための、基本かつ極めて重要な手法です。学校のクラスや会社の部署を思い浮かべてみてください。そこには必ず「中心人物」がいますよね。その人がいないと話が進まなかったり、情報が広まらなかったりするキーパーソンです。中心性分析は、このようなネットワーク内のキーパーソンを数学的に特定する技術です。
ただし、面白いことに「重要性」の定義は一つではありません。誰が一番の“顔役”かを見つけるにしても、その尺度は様々です。ここでは代表的な3つの「中心性」を見ていきましょう。
- 次数中心性 (Degree Centrality):とにかく「顔が広い」人気者
これは最もシンプルで直感的な指標です。単純に、そのノードが持つエッジ(つながり)の数を数えます。つまり、「友達の数」が一番多い、最も局所的に人気のあるノードです。
医療での応用:感染症の疫学調査では、この指標が絶大な力を発揮します。多くの人と接触する「スーパースプレッダー」は、まさに次数中心性が極めて高い個人です。接触者追跡データから構築した人的接触ネットワークにおいて、次数中心性が突出して高い個人を特定できれば、その人に優先的に検査や隔離といった公衆衛生介入を行うことで、感染の連鎖を効率的に断ち切ることが期待できます。
また、生命科学の世界では、タンパク質同士の相互作用(PPI)ネットワークにおいて、次数中心性が高いタンパク質は「ハブタンパク質」と呼ばれます。サイエンス誌に掲載されたアルバート=ラズロ・バラバシらの研究 (Jeong, Mason, Barabási & Oltvai, 2001) によると、このようなハブタンパク質は、生命維持に不可欠な役割を担っていることが多く、実験的に除去すると致死となる可能性が高いことが示されています(これを中心性-致死性仮説と呼びます)。つまり、創薬の観点からは、病気の原因となるネットワークを叩く際に、こうしたハブをターゲットにすることが有効な戦略となりうるのです。 - 媒介中心性 (Betweenness Centrality):「交通の要衝」に立つ橋渡し役
この指標は、少し視点を変えます。単につながりの数を見るのではなく、そのノードがネットワーク内の情報の流れにおいて、どれだけ「経路上」に位置するかを評価します。具体的には、ネットワーク内のあらゆる2つのノード間の最短経路を考え、その経路がどれだけ特定のノードを通過するかを数え上げます。まさに「交通の要衝」や「情報のボトルネック」のような存在です。
友達の数はそれほど多くなくても、異なるグループ(例えば、A学部とB学部)の両方に友人がいて、その二つのグループをつなぐ唯一の接点になっているような人がいれば、その人の媒介中心性は高くなります。
医療での応用:トロント大学の研究グループによる論文 (Joy et al., 2005) で示されたように、タンパク質相互作用ネットワークにおいて媒介中心性が高いタンパク質は、異なる機能を持つタンパク質グループ(モジュール)間の情報伝達を担う、重要なブリッジ役である可能性が示唆されています。創薬の文脈では、このような「関所」のようなタンパク質をターゲットにすることで、特定のシグナル伝達経路全体を効果的に制御できる可能性があります。病気のシグナルが複数の経路に分かれて伝わる場合、その合流点や分岐点にあたる媒介中心性の高いタンパク質を阻害できれば、より効率的に病気の進行を止められるかもしれない、というわけです。 - 固有ベクトル中心性 (Eigenvector Centrality):「有力者とつながる」真の影響力者
これは、さらに洗練された「重要性」の測り方です。単に多くのノードとつながっているだけでなく、「重要なノードとつながっている」ノードほど、その重要性が高まるという考え方に基づいています。つまり、「有力者と友達であること」が、自らの影響力を高めるという、現実世界の人間関係にも似た直感をモデル化したものです。Googleの検索順位を決めるPageRankアルゴリズムも、この考え方が基礎になっています(つまり、質の高いサイトからリンクされているサイトの評価が高くなる)。
医療での応用:PPIネットワークにおいて、固有ベクトル中心性が高いタンパク質は、それ自体が爆発的に多くのタンパク質とつながるハブでなくても、非常に重要なシグナル伝達経路やタンパク質複合体の中核メンバーであることが多いと考えられています。いわば、「王様の側近」のような存在です。このようなタンパク質は、細胞の運命を決定づけるような重要な意思決定の場に関わっている可能性が高く、より精密な創薬ターゲットとして注目されます。
このように、中心性分析は多角的な視点からネットワークのキーパーソンをあぶり出してくれます。アルバート=ラズロ・バラバシらが提唱するネットワーク医療の考え方 (Barabási, Gulbahce & Loscalzo, 2011) によれば、創薬の文脈では、これらの中心性の高い「ハブタンパク質」や「ボトルネックタンパク質」が、疾患の原因となる異常な情報伝達を遮断するための、極めて有望な創薬ターゲット候補として精力的に研究されています。

コミュニティ検出:隠れた「機能グループ」を発見する
コミュニティ検出(Community Detection)は、ネットワークの中に隠された「派閥」や「仲良しグループ」を自動で見つけ出す手法です。ネットワーク全体としてはまばらにしかつながっていないものの、その内部では互いに密接につながり合っているノードの集団(これをコミュニティ、またはモジュールと呼びます)を特定します。
これは、生命システムを理解する上で非常に重要な考え方です。なぜなら、生命は個々の部品がバラバラに機能しているのではなく、特定の機能を持つ部品(タンパク質など)が集まって「モジュール」を形成し、それらがオーケストラの楽器セクションのように連携することで、複雑な生命活動を成り立たせているからです。コミュニティ検出は、この生命の基本設計原理を、データのつながり方から直接あぶり出す強力な手法なのです。
医療での応用:例えば、数千のタンパク質が相互作用する複雑なPPIネットワークにコミュニティ検出を適用すると、特定の生命現象(例:細胞周期、アポトーシス、DNA修復など)に関わるタンパク質群が、一つのコミュニティとして見事に浮かび上がってくることがあります。カリフォルニア大学サンディエゴ校のBaderとHogueが開発したCytoscapeプラグイン「MCODE」 (Bader & Hogue, 2003) は、PPIネットワークから密に結合した分子複合体を同定するアルゴリズムの優れた初期例です。
このアプローチがなぜ強力かというと、まだ機能がよく分かっていない未知のタンパク質の役割を推測する手がかりを与えてくれるからです。もし、ある未知のタンパク質が「DNA修復」に関わる既知のタンパク質たちと非常に密なコミュニティを形成していたら、「この未知のタンパク質も、おそらくDNA修復に関わる何らかの役割を持っているに違いない」と推測できます。これは「Guilt by association(関連による推定)」、もっと分かりやすく言えば「友達を見れば、その人がわかる」という原則に基づいた非常に強力な推論で、新たな創薬ターゲットの発見や疾患メカニズムの解明に直結します。
知識グラフ:医学知識を「つなげて」推論する
最後に、これまで見てきた関係性の分析を、単一のデータセットから超大規模に拡張し、人類がこれまでに蓄積してきた膨大な医学知識そのものをネットワーク化した、知識グラフ(Knowledge Graph)という概念を紹介します。これは、個々の論文やデータベースに散在している知識の断片、例えば「薬剤Aはタンパク質Bを阻害する」「タンパク質Bは疾患Cの発症に関与する」「疾患Cは症状Dを引き起こす」といった情報を、コンピュータが理解し、さらには推論まで可能な、巨大なグラフ構造で表現したデータベースです。
Google検索で病名を調べると、その概要や症状、治療法などが整理されて表示されることがありますが、あの裏側でもこの知識グラフの技術が活用されています。しかし、医学研究におけるそのポテンシャルは、単なる情報整理にとどまりません。
医療での応用:その最も成功した応用例の一つが、既存薬の新たな効能を発見する「ドラッグリパーパシング(創薬再開発)」です。スタンフォード大学の研究チームによるプロジェクト「Rephetio」は、この分野の金字塔と言えるでしょう (Himmelstein et al., 2017)。彼らは、遺伝子、疾患、症状、薬剤など11種類のノードと、それらの間の24種類の関係性(例:「AはBを治療する」「XはYを構成する」)を網羅した巨大な知識グラフを構築しました。そして、機械学習を用いてグラフ上の「パス(経路)」のパターンを学習させることで、まだ知られていない「疾患と薬剤のつながり」を予測しようと試みたのです。
例えば、知識グラフが「てんかん治療薬Aがある遺伝子Xの発現を抑制する」という関係と、「遺伝子Xの発現は炎症性腸疾患Bの悪化に関与する」という関係を知っていたとします。すると、AIは「薬剤A → (抑制) → 遺伝子X → (関与) → 疾患B」というパスを発見し、「もしかしたら、てんかん治療薬Aは、炎症性腸疾患Bの治療にも有効かもしれない」という新しい仮説を自動的に生成することができるのです。実際にこのプロジェクトでは、このような推論を通じて、数多くの有望な治療仮説を体系的に導き出すことに成功しました。
知識グラフは、個々の論文やデータベースに散在する知識を「つなげる」ことで、人間が個別に見ているだけでは到底気づけないような、知識と知識の間の未知のリンクを予測し、新たな科学的発見の仮説を生み出す、強力なエンジンとなるのです。
究極の融合:グラフニューラルネットワーク (GNN)
さて、私たちはこれまでの探検で、2つの非常に強力な「レンズ」を手に入れました。
一つは多様体学習というレンズ。これは、高次元データという名の混沌とした星雲の中から、データが本来持つ滑らかな「形」や「地図」を浮かび上がらせてくれました。個々のデータ点が、この地図上のどこに位置するのかを教えてくれる、優れたナビゲーションシステムでした。
もう一つはグラフ理論というレンズ。これは視点を変え、データとデータの間の「つながり」そのものを描き出し、ネットワークという名の社会構造の中から、誰がキーパーソンで、どのようなコミュニティが存在するのかを分析する道具でした。
しかし、ここで一つの根源的な問いが浮かび上がってきます。多様体学習は「点の位置」を、グラフ理論は「点と点のつながり」を教えてくれますが、これらはまだ別々の道具として使われています。もし、AIが予測や判断を下すまさにその瞬間に、個々のデータが持つ特徴と、そのデータを取り巻く「つながりの情報」の両方を、同時に、そして統合的に考慮できるとしたらどうでしょうか?
例えば、ある細胞の画像を見て、それががん細胞かどうかを判断するAIを考えてみましょう。従来のAIは、その細胞自身の形や核の大きさといった「個」の情報を主に見ます。しかし、経験豊富な病理医は、その細胞単体だけでなく、その周囲にどのような細胞(免疫細胞、線維芽細胞など)が集まっているか、組織全体としてどのような「文脈」を形成しているかを総合的に見て診断を下します。まさに「木を見て森も見る」アプローチです。
この、きわめて野心的でパワフルな問い、「その『つながりの情報』そのものを、AIの学習プロセスに直接組み込み、予測の精度と説明能力を飛躍的に高めることはできないだろうか?」に力強く答えるのが、現代AIの最前線の一つ、グラフニューラルネットワーク(GNN: Graph Neural Network)なのです。
GNNは、単に2つのアプローチを足し合わせたものではありません。これは「融合」です。画像認識で革命を起こした畳み込みニューラルネットワーク(CNN)が画像のピクセル間の隣接関係を、そして自然言語処理の世界を変えたTransformerが文章中の単語間の文脈的関係を巧みに捉えるように、GNNは、それらのアイデアをより一般的で柔軟な「グラフ構造」へと拡張した、極めて汎用性の高いフレームワークなのです。
CNNが扱う画像は「ピクセルが格子状に整然とつながったグラフ」、Transformerが扱う文章は「単語が一列につながったグラフ」と見なすことができます。しかし、現実世界のつながりは、タンパク質の相互作用やSNSの友人関係のように、もっと自由で複雑です。GNNは、このようなあらゆる形の「つながり」を直接受け入れ、その構造の上で情報を伝播させながら学習を進めることができます。これこそが、GNNが「究極の融合」と呼ばれ、これまで解けなかった多くの問題にブレークスルーをもたらすと期待されている理由なのです。
GNNの核心:メッセージパッシングという知性の発現
グラフニューラルネットワーク(GNN)がなぜこれほどまでに画期的かというと、その核心に「メッセージパッシング (Message Passing)」という、驚くほど直感的でパワフルなアイデアがあるからです。これは、ネットワーク上の各ノードが、まるで社会の中で人々が互いに情報を交換し合って意見を形成していくように、周囲の「文脈」を学習していく仕組みです。
この抽象的な概念を理解するために、身近な例え、「口コミでレストランの評判が広がるプロセス」を一緒に考えてみましょう。
あなたが新しい街で、今夜行くイタリアンレストランを探しているとします。手元にはレストランのリスト(これがノードの集まりです)があり、各レストランには、ジャンルや価格帯、専門誌の評価といった「初期情報(Initial Features)」が付いています。これだけでも、ある程度の判断はできますよね。
しかし、本当に美味しい店を見つけるには、それだけでは不十分です。そこであなたは、友人に意見を聞くことにします。友人たちは、あなたとレストランをつなぐ「つながり(エッジ)」です。グルメな友人Aは「あの店のカルボナーラは絶品だよ!」と太鼓判を押し、一方で友人Bは「味は良いけど、いつも混んでいてサービスが少し遅いかな」と教えてくれました。これらの友人からの「口コミ(メッセージ)」は、あなたのレストランに対する評価に大きな影響を与えるはずです。
GNNが行っているのは、まさにこのプロセスを数学的に再現することです。GNNは、各ノードが「隣人からのメッセージ」を受け取り、それと「自分自身の元々の情報」を統合して、より賢く、文脈を理解した新しい自分へとアップデートしていく、という学習を繰り返します。この中心的な仕組みが「メッセージパッシング」であり、大きく分けて2つのステップで進行します。
- ステップ1:集約 (Aggregation / Message) – 隣人の声に耳を傾ける
まず、ネットワーク上のあるノード(あなた)が、自分に直接つながっている隣人ノードたち(友人たち)から、それぞれの情報(特徴ベクトル)をかき集めます。これは、レストランの評判を知るために、友人たちの口コミを熱心に聞いている段階に相当します。
コンピュータの世界では、各ノードの情報は「特徴ベクトル」という数値のリストで表現されます(例:[価格帯, 評価スコア, 立地, …])。集約とは、隣人たちの特徴ベクトルを、何らかの方法で一つにまとめる操作です。その方法はGNNのアーキテクチャによって様々で、単純に隣人たちのベクトルの平均を取る方法もあれば、より重要な友人(例えば、あなたと味覚が似ている友人)の意見を重視するような、高度な重み付け平均を行う方法もあります。この集約のプロセスで、各ノードは「自分の周りには、どんなヤツらがいるのか」という局所的な情報を手に入れるのです。 - ステップ2:更新 (Update) – 自分の考えをアップデートする
次に、集めてきた隣人たちの情報(集約されたメッセージ)と、自分自身がもともと持っている情報を統合し、新しい自分の情報へと更新します。これは、友人たちの口コミと、あなたが持っていた専門誌の評価などを総合的に判断して、そのレストランに対するあなた自身の評価をアップデートする段階です。
この「統合」のプロセスは、通常、ニューラルネットワークの層によって行われます。ニューラルネットワークは、どの情報をどのくらい重視して組み合わせれば最も良い結果につながるかを、データから自動で学習する「賢い変換器」のようなものです。つまり、GNNは学習を通じて、「友人Aの『味』に関する口コミは非常に重要だから重みを大きくしよう」「友人Bの『混雑』に関する情報は、自分にとってはそれほど重要ではないから重みを小さくしよう」といった、最適な情報の統合ルールを自ら見つけ出していくのです。
GNNの本当にすごいところは、この「情報交換と自己更新」のプロセスを、ネットワーク全体で何度も(つまり、ニューラルネットワークの層を重ねて)繰り返す点にあります。
1回目の更新では、あるノードは直接の隣人(1ホップ先)の情報しか得られません。これは、あなたが直接の友人からしか話を聞けない状態です。しかし、2回目の更新では、隣人たちが「更新された」新しい情報を送ってきます。その「更新された」情報には、すでに彼らの隣人、つまりあなたにとっては「友人の友人」(2ホップ先)の情報が間接的に含まれています。したがって、更新を繰り返すごとに、各ノードの情報は、最初は局所的なものだったのが、徐々に遠くのノードからの情報も間接的に取り込み、どんどんリッチになっていきます。
最終的に、各ノードは、単なる初期情報だけでなく、ネットワーク全体の中での自分の「立ち位置」や「役割」、「文脈」を色濃く反映した、非常にリッチな特徴表現(ベクトル)を持つことができるようになるのです。これは、ある遺伝子の機能を理解するためには、その遺伝子単体だけでなく、それと相互作用する他の遺伝子群との関係性の中で捉えるべきだ、というシステム生物学の根源的な思想とも深く共鳴します。
この革新的な仕組みにより、GNNは「個」の情報だけでなく、それを取り巻く「関係性」の情報を内生的に考慮した、極めて高度な予測を可能にし、これまで解けなかった多くの課題に対して、医療AIの様々な分野でブレークスルーを起こしつつあるのです (Wu et al., 2020)。
GNNが拓く医療AIのフロンティア
GNNは、単なる理論的なコンセプトにとどまらず、すでに医療AIの様々なフロンティアで、従来の手法では解けなかった課題に挑み、目覚ましい成果を上げています。ここでは、その最前線である3つの分野、「精密創薬」「個別化医療」「デジタル病理診断」について、具体的な最新の研究事例を交えながら深掘りしていきます。
① 精密創薬 (Drug Discovery)
GNNの応用として最も期待され、活発に研究されている分野が創薬です。医薬品開発は、候補化合物の探索から臨床試験まで、平均して10年以上の歳月と莫大なコストを要する、非常に困難な道のりです。GNNは、このプロセスの初期段階、特に「どの化合物が薬になりそうか?」を見極めるステップを劇的に加速させる可能性を秘めています。
その理由は、分子の化学構造が、原子をノード(点)、化学結合をエッジ(線)としたグラフとして自然に表現できるからです。GNNは、この分子グラフを直接入力として受け取り、人間が設計した特徴量に頼ることなく、構造からその化合物の性質を自律的に学習します。これにより、以下のような高度な予測が可能になります。
- 分子特性予測:化合物の毒性、水への溶けやすさ(溶解度)、体内での吸収・分布・代謝・排泄(ADME)といった、医薬品としての適性を直接予測します。
- 標的タンパク質への結合親和性予測:特定の疾患に関連するタンパク質に対して、化合物がどれだけ強く結合するかを予測します。これは薬の「効き目」に直結する重要な指標です。
この分野における画期的な成果として、マサチューセッツ工科大学(MIT)の研究チームが科学誌Cellで発表した研究が世界的に有名です (Stokes et al., 2020)。彼らは、GNNを用いて数千の化合物の中から、大腸菌に対する増殖抑制効果を持つものを予測するモデルを訓練しました。そして、そのモデルを使って約1億種類の化合物が含まれる巨大なデジタルライブラリを探索した結果、全く新しい作用機序を持つ可能性のある強力な新規抗生物質候補「ハリシン(Halicin)」を発見したのです。驚くべきことに、ハリシンは、構造的には既存の抗生物質とは全く似ておらず、従来の手法では見過ごされていたであろう化合物でした。これは、GNNが人間や既存アルゴリズムのバイアスを超えて、未知の化学空間を探索し、有望な医薬品候補を見つけ出す能力を持つことを示す金字塔的な事例です。

② 個別化医療 (Personalized Medicine)
GNNは、患者一人ひとりの遺伝的背景や病態に合わせて最適な治療法を選択する「個別化医療」の実現においても、強力な武器となります。特に、がん治療の領域では、同じ診断名のがんであっても、抗がん剤の効果は患者さんによって大きく異なります。この薬効の個人差を事前に予測できれば、効果のない副作用の強い治療を避け、最初から最も有効な薬剤を選択することが可能になります。
この課題に対し、GNNは複数の情報を統合して「関係性」の中で薬効を予測するというアプローチを取ります。例えば、以下のようなグラフを構築します。
- ノード:薬剤(分子グラフ)、がん細胞株(遺伝子発現プロファイルや変異情報を持つ)
- エッジ:既知の「薬剤と細胞株の感受性(効き目)」の関係
このような「薬剤-細胞株ネットワーク」上でGNNを学習させることで、モデルは単に薬剤の構造や細胞の遺伝子情報だけでなく、「どのような構造を持つ薬剤が、どのような遺伝子プロファイルを持つ細胞に効きやすいか」という、両者の関係性のパターンを学習します。これにより、まだ実験データのない新しい薬剤や患者由来の細胞に対しても、その感受性を高い精度で予測することが期待されます。最近の研究では、薬剤の分子グラフと、がん細胞の遺伝子情報を処理する別のニューラルネットワークを組み合わせ、最終的に両者の情報を統合して薬物応答を予測する「GNNDRP」のようなモデルが提案され、従来の手法を上回る性能を示しています (Liu et al., 2024)。
この技術が発展すれば、将来的には、患者さんのがん組織の遺伝子情報を入力するだけで、最も効果が期待できる抗がん剤のリストをAIが提示し、医師の治療選択を支援するような未来が訪れるかもしれません。
③ デジタル病理診断 (Computational Pathology)
組織の病理画像からがんを診断するデジタル病理の分野でも、GNNは新たな潮流を生み出しています。従来、病理画像の解析には、画像を小さなパッチに分割し、それぞれを画像認識が得意な畳み込みニューラルネットワーク(CNN)で解析する手法が主流でした。しかし、この方法では、細胞の「種類」は分かっても、細胞同士がどのように配置され、相互作用しているかという、組織の構造的な「文脈」が失われがちでした。
病理診断において、個々の細胞の形だけでなく、がん細胞がどのように浸潤しているか、免疫細胞がどこに集まっているかといった組織構造の情報は、がんの悪性度や予後を判断する上で極めて重要です。GNNは、この「文脈」を捉えるのに最適なツールです。
GNNを用いたアプローチでは、まず画像処理技術で病理画像から個々の細胞を検出し、その種類(がん細胞、リンパ球、線維芽細胞など)を分類します。次に、これらの細胞をノードとし、空間的に近くにある細胞同士をエッジで結ぶことで、組織全体の構造を「細胞グラフ」として表現します。GNNはこの細胞グラフを学習することで、個々の細胞の形態だけでなく、「特定のがん細胞の周りには、特定の免疫細胞が集まりやすい」といった細胞間の相互作用パターンや、組織構造全体の乱れを定量的に評価することができます。
特に、がんの進行や免疫応答に重要な役割を果たす「腫瘍微小環境(TME)」の解析において、GNNは強力な力を発揮します。どの細胞が、どの細胞と、どのように相互作用しているかをグラフとしてモデル化することで、これまで病理医の目でも捉えきれなかった複雑な生態系を解き明かし、新たなバイオマーカーの発見につながる可能性があるのです。
まとめ:つながりから、新たな知恵を
今回は、一見すると無味乾燥なデータの集合の中に隠された「つながり」を解き明かすための、2つの強力な数学的アプローチ、「多様体学習」と「グラフ理論」の世界を探検しました。
多様体学習は、高次元で複雑なデータの「隠れた地図」を、t-SNEやUMAPといった手法を用いて私たちの目に見える形で描き出してくれました。それは、あたかもシワの寄った羊皮紙を広げ、そこに描かれた真の地形を明らかにするような作業でした。
グラフ理論は、視点を変え、データ間の「関係性」そのものに焦点を当てました。ノードとエッジというシンプルな言語で医療の世界を記述し、ネットワーク分析を通じて、システムの中心人物や隠れたコミュニティを発見する強力なレンズを与えてくれました。
そして、これらが究極の形で融合したグラフニューラルネットワーク(GNN)は、「つながりの情報」をAIの学習プロセスそのものに組み込むことで、創薬から個別化医療、デジタル病理診断に至るまで、医療AIの新たなフロンティアを力強く切り拓いています。
私たちの目の前にあるデータは、決して単なる数字の羅列ではありません。適切な数学という名の「レンズ」を通して見れば、そこには驚くほど豊かで意味のある「つながりの世界」が広がっています。これらの数学の言葉を理解し、使いこなすことは、データという名の声なき声に耳を傾け、まだ誰も知らない医学的知見を発見するための、これからの時代に不可欠な武器となるはずです。
※本記事は情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。
参考文献
- Amir, E.-A.D., Davis, K.L., Tadmor, M.D., Simonds, E.F., Levine, J.H., Bendall, S.C., Shenfeld, D.K., Krishnaswamy, S., Nolan, G.P. and Pe’er, D. (2013) ‘viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia’, Nature Biotechnology, 31(6), pp. 545–552. Available at: https://doi.org/10.1038/nbt.2594
- Bader, G.D. and Hogue, C.W.V. (2003) ‘An automated method for finding molecular complexes in large protein interaction networks’, BMC Bioinformatics, 4(1), p. 2. Available at: https://doi.org/10.1186/1471-2105-4-2
- Barabási, A.L., Gulbahce, N. and Loscalzo, J. (2011) ‘Network medicine: a network-based approach to human disease’, Nature Reviews Genetics, 12(1), pp. 56-68. Available at: https://doi.org/10.1038/nrg2918
- Barabási, A.L. and Oltvai, Z.N. (2004) ‘Network biology: understanding the cell’s functional organization’, Nature Reviews Genetics, 5(2), pp. 101-113. Available at: https://doi.org/10.1038/nrg1272
- Becht, E., McInnes, L., Healy, J., Dutertre, C.A., Kwok, I.W.H., Ng, L.G., Ginhoux, F. and Newell, E.W. (2019) ‘Dimensionality reduction for visualizing single-cell data using UMAP’, Nature Biotechnology, 37(1), pp. 38-44. Available at: https://doi.org/10.1038/nbt.4314
- Goh, K.I., Cusick, M.E., Valle, D., Childs, B., Vidal, M. and Barabási, A.L. (2007) ‘The human disease network’, Proceedings of the National Academy of Sciences, 104(21), pp. 8685-8690. Available at: https://doi.org/10.1073/pnas.0701361104
- Himmelstein, D.S., Lizee, A., Hessler, C., Brueggeman, L., Chen, S.L., Hadley, D., Green, A., Khankhanian, P. and Baranzini, S.E. (2017) ‘Systematic integration of biomedical knowledge prioritizes drugs for repurposing’, eLife, 6, e26726. Available at: https://doi.org/10.7554/eLife.26726
- Jeong, H., Mason, S.P., Barabási, A.L. and Oltvai, Z.N. (2001) ‘Lethality and centrality in protein networks’, Nature, 411(6833), pp. 41-42. Available at: https://doi.org/10.1038/35075138
- Joy, M.P., Brock, A., Ingber, D.E. and Huang, S. (2005) ‘High-betweenness proteins in the yeast protein interaction network’, Journal of Biomedicine and Biotechnology, 2005(2), pp. 96-103. Available at: https://doi.org/10.1155/JBB.2005.96
- Liu, H., Peng, W., Dai, W., Lin, J. and Fu, X. (2024) ‘Improving anti-cancer drug response prediction using multi-task learning on graph convolutional networks’, Methods, 222, pp. 41-50. Available at: https://doi.org/10.1016/j.ymeth.2023.11.018
- McInnes, L., Healy, J. and Melville, J. (2018) UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. Available at: https://arxiv.org/abs/1802.03426.
- Oliver, N., Lepri, B., Sterly, H., Lambiotte, R., Deletaille, S., De Nadai, M., Letouzé, E., Salah, A.A., Benjamins, R., Cattuto, C., Colizza, V., et al. (2020) ‘Mobile phone data for informing public health actions across the COVID-19 pandemic life cycle’, Science Advances, 6(23), eabc0764. Available at: https://doi.org/10.1126/sciadv.abc0764
- Regev, A., Teichmann, S.A., Lander, E.S., Amit, I., Benoist, C., Birney, E., Bodenmiller, B., Campbell, P., Carninci, P., Clatworthy, M., Clevers, H., et al. (2017) ‘The Human Cell Atlas’, eLife, 6, e27041. Available at: https://doi.org/10.7554/eLife.27041
- Satija, R., Farrell, J.A., Gennert, D., Schier, A.F. and Regev, A. (2015) ‘Spatial reconstruction of single-cell gene expression data’, Nature Biotechnology, 33(5), pp. 495-502. Available at: https://doi.org/10.1038/nbt.3192
- Stokes, J.M., Yang, K., Swanson, K., Jin, W., Cubillos-Ruiz, A., Donghia, N.M., MacNair, C.R., French, S., Carfrae, L.A., Bloom-Ackermann, Z., Tran, V.M., et al. (2020) ‘A Deep Learning Approach to Antibiotic Discovery’, Cell, 180(4), pp. 688-702.e13. Available at: https://doi.org/10.1016/j.cell.2020.01.021
- Tenenbaum, J.B., de Silva, V. and Langford, J.C. (2000) ‘A global geometric framework for nonlinear dimensionality reduction’, Science, 290(5500), pp. 2319-2323. Available at: https://doi.org/10.1126/science.290.5500.2319
- van der Maaten, L. and Hinton, G. (2008) ‘Visualizing Data using t-SNE’, Journal of Machine Learning Research, 9(Nov), pp. 2579-2605. Available at: http://www.jmlr.org/papers/v9/vandermaaten08a.html
- Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C. and Yu, P.S. (2020) ‘A Comprehensive Survey on Graph Neural Networks’, IEEE Transactions on Neural Networks and Learning Systems, 32(1), pp. 4-24. Available at: https://doi.org/10.1109/TNNLS.2020.2978386
- 岡野原 大輔. (2017). 《日経Robo》多様体仮説:現実世界のデータをどうモデル化するか. 日経Robotics, 2017年6月号, pp.32-34. https://xtech.nikkei.com/dm/atcl/mag/15/00144/00031/
※本記事は情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。
ご利用規約(免責事項)
当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。
第1条(目的と情報の性質)
- 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
- 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
- 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
- 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。
第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。
第3条(医療行為における責任)
- 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
- 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
- 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。
第4条(情報の正確性・完全性・有用性)
- 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
- 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。
第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。
第6条(知的財産権)
- 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
- 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。
第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。
第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。
第9条(免責事項)
- 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
- 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
- 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
- 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。
第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。
第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。
For J³, may joy follow you.

