
AIが「言葉の意味」を理解していると聞いたとき、私たちは無意識に、AIが頭の中で国語辞典のようなものを引いて、定義を読んでいる姿を想像してしまいませんか?
しかし、実際のAI(特に大規模言語モデルなどの自然言語処理モデル)の脳内には、もっと無機質で、それでいて美しい「幾何学(Geometry)」の世界が広がっています。
この世界観を象徴する、非常に有名な数式があります(Mikolov et al., 2013)。
\[ \text{King} – \text{Man} + \text{Woman} = \text{?} \]
私たち人間なら、直感的にこの答えが「Queen(女王)」だとわかりますよね。
「王様」から「男性」という要素を引いて、「女性」という要素を足せば、「女王」になるはずだからです。
驚くべきことに、AIはこの答えを、意味を考えることなく、純粋なベクトルの「計算」によって近似的に導き出します。
AIは人間のように「王様とは何か」を哲学的に理解しているわけではありません。膨大なテキストデータを読み込む過程で、単語同士の配置パターン(共起関係)を学習し、それらを巨大な空間内の座標(ベクトル)として保存しています。
その結果、「王」という座標から「男」のベクトルを引き、「女」のベクトルを足した位置を探すと、そこには自然と「女王」という単語が配置されていた――これがAIの正体です(Mikolov et al., 2013)。
今回は、AIが言葉を扱うための最も基礎的な技術である「単語埋め込み(Word Embedding)」について解説します。
この仕組みを理解すると、なぜAIが「腹痛」と「胃痛」を関連付けられるのか、あるいは電子カルテのデータからどのように未知の疾患リスクを見つけ出そうとしているのか、その裏側にあるロジックが見えてきます。
言葉を「地図上の住所」にする:ベクトル化の仕組み
なぜ、コンピュータという計算機が、単なる記号の羅列でしかない「言葉」の意味を理解し、計算することができるのでしょうか?
その秘密は、AIが「すべての単語を、巨大な多次元空間の中の『座標(住所)』に変換しているから」です。
この仕組みを直感的に理解するために、巨大なスーパーマーケットを想像してみてください。
- 青果コーナー:「リンゴ」のすぐ隣には「ミカン」や「バナナ」が並んでいます。少し離れた棚には「キャベツ」や「人参」といった野菜があります。これらは「食品・植物」という意味で近い場所にあります。
- 日用品コーナー:そこからずっと離れた別の通路には、「洗剤」や「シャンプー」が置かれています。これらは「食品」とは全く異なる性質を持つため、物理的な距離も遠くなります。
AI(大規模言語モデル)もこれと全く同じことを行っています。
「似た意味を持つ単語は、空間上の近くに配置する」というルールに従って、辞書にある何万もの単語すべてに、空間上の住所(数値の配列)を割り当てていきます。この処理を専門用語で「ベクトル化(Vectorization)」や「埋め込み(Embedding)」と呼びます。
AIの目には、単語は以下のような「数値の列(ベクトル)」として映っています(Mikolov et al., 2013)。
\[ \begin{aligned} \text{リンゴ} &: [0.8, \ 0.2, \ 0.5, \ \dots] \\ \text{ミカン} &: [0.7, \ 0.2, \ 0.6, \ \dots] \\ \text{アスピリン} &: [-0.5, \ 0.9, \ -0.1, \ \dots] \end{aligned} \]
この数値を見てください。「リンゴ」と「ミカン」の数値の並び方は非常によく似ています。これは、ベクトル空間(売り場)において、この2つが非常に近い距離にあることを意味します。
一方で、解熱鎮痛剤である「アスピリン」の数値は、リンゴたちとは全く異なります。これは、意味の空間において「果物エリア」と「医薬品エリア」が遠く離れていることを数学的に表しているのです。
このように、私たち人間が「意味」や「ニュアンス」と呼んでいるものを、AIは「空間上の距離と方向」として捉えています。この数値化こそが、AIが医療用語の微妙な違いを識別したり、類推を行ったりするための基盤となります。
「意味」とは「空間の矢印(ベクトル)」である
では、冒頭で触れた「王様-男+女=女王」という謎の数式に戻りましょう。
言葉が「地図上の点(座標)」であるならば、言葉と言葉の関係性は「点と点を結ぶ矢印(ベクトル)」として表すことができます。
AIが見ている「意味の世界」を2次元に簡略化した、以下の概念図を見てください。
この図をよく見てみましょう。
「Man(男)」と「Woman(女)」は、人間としての基本的な属性が近いため、比較的近い場所にあります。
そこから、「Man」に対して「王族属性(+Royalty)」という矢印を足すと、「King(王)」に辿り着きます。全く同じ長さと向きの「王族属性」の矢印を「Woman」に足すと、今度は「Queen(女王)」に辿り着くことがわかります。
つまり、AIにとっての「性別の違い」や「王族という属性」は、言葉で定義されたものではなく、ベクトルの向きや長さ(幾何学的な関係性)として表現されているのです。
数式で行われているのは、まさにこの「矢印の継ぎ足し」です。
\[ \begin{aligned} \vec{v}_{\text{Queen}} &\approx \vec{v}_{\text{King}} – \vec{v}_{\text{Man}} + \vec{v}_{\text{Woman}} \end{aligned} \]
この数式を、ベクトルの動きとして「翻訳」するとこうなります。
- Start: 「King(王)」という地点からスタートする。
- Subtract: そこから「Man(男)」のベクトルを引き算する(=「男性」という概念の方向へ逆戻りさせ、純粋な「王位」の要素だけを残すイメージ)。
- Add: そこに「Woman(女)」のベクトルを足し算する(=「女性」という概念の方向へ移動させる)。
- Goal: すると、辿り着いた座標のすぐ近くには、「Queen(女王)」という単語が配置されていた。
ここで重要なのは、AIは「女王」という言葉の意味(高貴な女性の支配者、など)を理解しているわけではないということです。
単に、地図上で「『男』にとっての『王』と同じ位置関係にある、『女』側の言葉は何か?」という幾何学的な計算を行った結果、そこにたまたま「Queen」があっただけなのです(Mikolov et al., 2013)。
医療現場における「言葉の計算」:診断と発見の新しい羅針盤
さて、ここからがいよいよ本題です。
王様や女王様の話は面白かったですが、この「言葉の計算」という魔法は、私たちの医療現場、つまり臨床や研究の最前線でどのように役立つのでしょうか?
実は、医療用語の世界もまた、膨大な「意味の空間」を持っています。
Googleの研究チームやスタンフォード大学などが開発した医療特化型の言語モデルでは、数千万件ものカルテや医学論文を読み込ませることで、薬剤・疾患・症状といった概念のあいだにある複雑な関係性を、ベクトル空間の中に埋め込んでいます(Beam et al., 2020)。
イメージとしては、先ほどの「王様-男+女」と同じように、医学の世界でも次のような「意味の演算」が成り立つことを目指している、と考えるとわかりやすいかもしれません。
\[ \text{「頭痛薬(アスピリン)」} – \text{「頭痛」} + \text{「感染症」} \approx \text{「感染症治療薬(抗生物質)」} \]
「頭痛に対する薬」から「頭痛」という要素を引き(=純粋な『治療薬』という概念にする)、そこに「感染症」を足すと、答えは「抗生物質」になる。
これはあくまで概念的な「たとえ話」ですが、実際の最新モデルでも、以下のように薬剤どうしの類似性や、疾患との隠れた関係性が、ベクトル空間内の「距離」や「矢印」として表現されています。
1. 類義語の発見と表記ゆれの吸収(名寄せ)
電子カルテ(EHR)のデータ解析で最大の壁となるのが「表記ゆれ」です。
例えば、同じ病態であっても医師によって「心筋梗塞」「AMI」「急性心筋梗塞」「Myocardial Infarction」と書き方はバラバラです。
従来のキーワード検索ではこれらを別物として扱ってしまいましたが、ベクトル空間上では、これらは非常に近い距離(ほぼ同じ座標)に密集して配置されることが示されています(Pakhomov et al., 2016)。
AIは「文字は違うけれど、意味(座標)はほぼ同じだ」と認識できるため、表記ゆれを自動的に吸収し、精度の高いデータ抽出や検索が可能になります。
2. 薬剤と副作用の探索(仮説生成)
ここが最もエキサイティングな分野の一つです。
もし、「薬剤A」と「副作用B」の関係性を表すベクトル(矢印)を特定できたとしましょう。
すると、他の「薬剤C」から、空間上で同じ向き・同じ長さの矢印を伸ばしてみるのです。
その矢印が指し示した先に、もし「未知の症状D」があったとしたら?
「もしかすると、薬剤Cは症状Dという副作用を引き起こすリスクがあるのではないか?」という新たな仮説が生まれます。
実際に、PubMed などの大規模医学文献やデータベースを学習させた埋め込みモデル(BioWordVec など)は、薬物と疾患・副作用・相互作用といった関係性を表現し、新薬のターゲット探索や、副作用(有害事象)の候補を絞り込むうえで有用であることが報告されています(Zhang et al., 2019; Yamagiwa et al., 2024)。
ただし、これらはあくまで「計算上の予測」であり、実際の臨床判断には、従来の薬理学的知見や臨床試験による安全性評価と組み合わせて慎重に用いる必要があります。
3. 診断支援への応用可能性
さらに研究が進んでいるのが、「患者そのもの」のベクトル化です。
一人の患者さんが持つ複数の症状、検査値、既往歴をまとめて一つのベクトル(Patient Vector)として表現します。
「この患者さんのベクトルは、過去に〇〇病と診断された患者グループのベクトルに近い」
といった計算を行うことで、類似症例を素早く検索したり、鑑別診断のリストアップを支援したりする研究が進められています(Bhatnagar et al., 2022)。
まだ研究段階の取り組みが多いものの、こうした技術は将来的に、医師の記憶だけに頼らない「集合知」としての診断支援を実現し、見落としリスクを下げるための一助となる可能性があります(Kalyan and Sangeetha, 2020)。
医療AIにおける「意味のベクトル」の限界とバイアス
ここまで、言葉をベクトル化することでAIが獲得した「魔法」のような能力についてお話ししてきました。これらを見ると、AIは何でも知っている万能の存在のように感じるかもしれません。
しかし、忘れてはならない冷徹な事実があります。
AIが生成するベクトル空間は、あくまで人間が作った不完全なデータから学習された「統計的な鏡」に過ぎないということです。そこには、明確な限界とリスクが潜んでいます。
1. 学習データのバイアス(偏り)
AIが見ている地図(ベクトル空間)は、学習に使ったデータが偏っていれば、同じように歪んでしまいます。
例えば、過去の医学論文やカルテデータに、「ある病気は男性の症例ばかりが報告されている」という歴史的な偏りがあったとしましょう。
AIはこの偏りを「世界の真実」として学習してしまうため、ベクトル空間上でもその病気と「男性」を不当に強く結びつけてしまうリスクがあります(Kalyan and Sangeetha, 2020)。
その結果、女性の患者さんがその病気にかかっていても、AIが「ベクトルが遠い(可能性が低い)」と判定してしまう恐れがあるのです。人種、地域、性別による社会的バイアスが、そのまま医療AIの判断バイアスとして反映される危険性を常に意識する必要があります。
2. データの希少性(Rare Disease)
「ベクトル」の精度は、学習データの量に比例します。
一般的な病気(高血圧や糖尿病など)はデータが豊富なため、正確な位置に配置されますが、希少疾患(Rare Disease)や登場したばかりの新薬はどうしてもデータが少なくなります。
データが少ない単語のベクトルは、学習のたびに位置が定まらなかったり、全く見当違いな場所に配置されたりなど、不安定になりがちです。
「AIが判断したから」と過信すると、こうしたデータ不足領域での誤った推論を見落とすことになります。
3. 因果関係の不在
これが最も重要な点です。
ベクトルの「近さ」は、あくまで「一緒に使われることが多い」という統計的な相関関係を示しているに過ぎず、医学的な因果関係を保証するものではありません。
例えば、「特定の薬剤」と「死亡」という単語のベクトルが近かったとしても、それが「薬の副作用で死ぬ」ことを意味するのか、単に「重症患者によく使われる薬だから、結果的に死亡例の記述と共起しやすい」だけなのか、AIには区別がつかないことがあります。
ここを見極めるのは、背景にある病態生理や文脈を理解できる、私たち人間の医師の役割です。
結論:AIは「文脈」を幾何学として捉える
かつて、言葉を操ることは人間だけに許された特権であり、計算機であるコンピュータにとって、言葉は単なる「記号の羅列」に過ぎませんでした。
しかし、言葉を数値(ベクトル)に変換し、高次元の空間に配置するという「コロンブスの卵」的な発想の転換――すなわち「意味を幾何学の問題に置き換える」というアプローチにより、AIは言葉の意味、文脈のニュアンス、そして類推能力に近い統計的な直感を手に入れました。
私たちが日々の診療でカルテに記載する「腹痛」というたった二文字。
これも、AIの目には文字情報としてではなく、広大な医学空間の中に浮かぶ一つの「座標」として映っています。
その座標のすぐ隣には「虫垂炎」という座標があり、少し離れた場所には「胃潰瘍」や「心窩部痛」という座標が星々のように配置されています。
AIは、私たちが書いた「腹痛」という点から、その星々への距離を一瞬で計算し、「この文脈なら、次は虫垂炎の可能性が高い」と予測しているのです。
この「意味の地図」の精度が上がれば上がるほど、AIは単なる検索ツールを超え、医師の思考に寄り添い、時には盲点を照らしてくれる、より頼れる診療パートナーへと進化していくでしょう。
言葉の海を航海する私たち医療者にとって、この「羅針盤」は、なくてはならない存在になるはずです。
※本記事は情報提供を目的としたものであり、特定の治療法や医療機器、ソフトウェアの利用を推奨するものではありません。健康や診療に関するご懸念・ご相談がある場合は、必ず専門の医療機関や主治医にご相談ください。
参考文献
- Beam, A.L., Kompa, B., Schmaltz, A., Fried, I., Weber, G., Palmer, N.P., Shi, X., Cai, T. and Kohane, I.S. (2020) ‘Clinical concept embeddings learned from massive sources of multimodal medical data’, Pacific Symposium on Biocomputing, 25, pp. 295–306.
- Bhatnagar, R., Way, S.F., Saria, S. and Butte, A.J. (2022) ‘How can natural language processing help model informed drug development?’, JAMIA Open, 5(2), p. ooac043.
- Chen, Q., Peng, Y. and Lu, Z. (2019) ‘BioSentVec: creating sentence embeddings for biomedical texts’, Proceedings of the IEEE International Conference on Healthcare Informatics (ICHI), pp. 1–5.
- Kalyan, K.S. and Sangeetha, S. (2020) ‘SECNLP: A survey of embeddings in clinical natural language processing’, Journal of Biomedical Informatics, 101, p. 103323.
- Mikolov, T., Chen, K., Corrado, G. and Dean, J. (2013) ‘Efficient Estimation of Word Representations in Vector Space’, Proceedings of the International Conference on Learning Representations (ICLR).
- Pakhomov, S.V.S., Finley, G., McEwan, R., Wang, Y. and Melton, G.B. (2016) ‘Corpus domain effects on distributional semantic modeling of medical terms’, Bioinformatics, 32(23), pp. 3635–3644.
- Yamagiwa, H., Shimada, K., Ubukata, S., Kitanishi, K., Harigaya, T. and Tsubaki, M. (2024) ‘Predicting drug–gene relations via analogy tasks with word embeddings’, Scientific Reports, 14, p. 1282.
- Zhang, Y., Chen, Q., Yang, Z., Lin, H. and Lu, Z. (2019) ‘BioWordVec, improving biomedical word embeddings with subword information and MeSH’, Scientific Data, 6(1), p. 52.
ご利用規約(免責事項)
当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。
第1条(目的と情報の性質)
- 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
- 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
- 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
- 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。
第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。
第3条(医療行為における責任)
- 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
- 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
- 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。
第4条(情報の正確性・完全性・有用性)
- 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
- 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。
第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。
第6条(知的財産権)
- 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
- 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。
第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。
第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。
第9条(免責事項)
- 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
- 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
- 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
- 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。
第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。
第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。
For J³, may joy follow you.

