【医療AI教室:B8】AIは言葉の意味を本当に理解しているのか?― AIが言葉を「意味あるもの」として扱えるようになるまで ―

目次

はじめに:AIは「意味」をわかっているの?

最近のAIは、とても自然に言葉を使いこなせるようになってきました。
文章を読んだり、要約したり、まるで人と会話しているかのように返事をしてくれることもあります。

たとえば、こんなことができます:

  • 「この症状から、どんな病気が考えられるか?」を推測する
  • 「検査結果について教えて」と聞けば、自然な説明を返してくれる
  • 「この診療記録を要約して」と頼めば、要点をわかりやすくまとめてくれる

このようなふるまいを可能にしているのが、「大規模言語モデル(LLM)」と呼ばれる技術です。ChatGPTなどもこのLLMの代表的な例で、数兆単語もの文章を学習し、人間のように言葉を扱う力を身につけています。

こうした姿を見て、ふとこんなふうに思ったことはありませんか?

「もしかして、AIって言葉の“意味”を理解しているのかも…?」


でも、ちょっと立ち止まって考えてみましょう。

たとえば、AIに「apple」という単語を与えても、

  • 赤くてツヤのある見た目
  • 甘さや酸味のある味
  • 健康的なイメージ

といった感覚的な意味感じ取ることはできません。

なぜなら、AIには視覚も味覚も、そして感情もないからです。
つまり、「apple」がどんなものかを体感して理解しているわけではないのです。


それなのに、どうしてAIは、まるで言葉の意味を理解しているようにふるまえるのでしょうか?

その秘密は、「言葉を“数字”で表す工夫」にあります。

次の章からは、この仕組みをやさしく・順を追って解き明かしていきます。


1. 言葉は、コンピュータにとって「記号の列」にすぎない

人間にとっての「apple」は、いろんなイメージが浮かびます。

  • 赤くてツヤツヤした果物
  • 甘さや酸味の味覚
  • 「健康に良い食べ物」というイメージ

でもコンピュータにとっては、これだけです:

"apple" → ['a', 'p', 'p', 'l', 'e'] → [97, 112, 112, 108, 101]

これは文字コード(数字)に変換されたただの記号の並び
つまり、最初の段階では「意味」はゼロなのです。


2. コンピュータにとっての唯一の武器:数字

人間は、言葉を聞くだけでイメージや感情を思い浮かべることができます。

たとえば「apple」と聞けば、赤くて甘い果物を思い浮かべる人もいれば、健康やおやつ、あるいはスマートフォンの会社を連想する人もいるでしょう。

でも、コンピュータには感情も感覚もありません。
だから「apple」と言われても、それが何を意味するかは、何の手がかりもない状態です。

では、AIはどうやって「言葉の意味」に近づいているのでしょうか?

それは、言葉をすべて「数字」に置き換えて考えるという、コンピュータならではの方法です。

  • 単語を数字のセットにする
  • 数字同士の関係から、意味を学ぶ
  • 数字を使って、言葉どうしの違いや似ている点を計算する

こうしてAIは、数字という“唯一の武器”を使って、意味の世界に近づこうとしているのです。

その鍵となるのが、「ベクトル(vector)」という考え方です。


3. ベクトルって何? 直感的にわかる説明

「ベクトル」と聞くと、「数学の授業で出てきた難しいもの」というイメージがあるかもしれません。
でも、AIにおけるベクトルの考え方は、実はとてもシンプルです。

ベクトル=いくつかの特徴をまとめた“数字のセット”

たとえば、ある人のことを数字で表すとしたら、こうなります:

特徴数値
年齢32
身長170 cm
体重65 kg

このように、「その人の情報(特徴)」をいくつか集めて、ひとつの“数字のかたまり”として表現する
これが、ベクトルです。

つまり、

「いろんな特徴をまとめて数字で表したもの」=ベクトル

というイメージでOKです。

言葉も、同じように数字のかたまりで表せる

人の情報だけでなく、「言葉」も同じようにベクトルで表すことができます。

たとえば、「apple」には、

  • 食べ物であること
  • 甘いこと
  • 果物であること
  • 健康に関する文脈で使われやすいこと

…など、いろんな特徴があります。

これらの特徴を、数字で表してまとめたものが「単語ベクトル」なのです。

こうして、AIは「apple」や「banana」といった言葉を、ただの文字列ではなく、数字のかたまり(ベクトル)として理解しようとするのです。


4. 単語をベクトルにする:Word Embedding(単語の埋め込み)

前の章で、「言葉も特徴のかたまりとして、数字で表すことができる」と説明しました。
このとき使われるのが、Word Embedding(単語の埋め込み)という手法です。


「apple」は長い数字のリストに変換される

たとえば、AIは「apple」という単語を次のように変換します:

"apple" → [ 0.11, -0.04, 0.87, ..., 0.32 ]
このように、たくさんの数字(通常は数十〜数百個)を並べたベクトルで表されるのが「単語ベクトル」です。

このベクトルは、「apple」という単語が持つさまざまな意味や特徴を、数字の形で表現したものです。


単語が「意味の地図」の中に位置づけられる

このようにして、すべての単語が同じルールでベクトル化されると、AIの中には「意味の地図」のような空間ができます。

たとえば:

"apple"    →  [ 0.11, -0.04,  0.87, ...,  0.32 ]
"banana"   →  [ 0.09, -0.02,  0.85, ...,  0.30 ]
"hospital" →  [ -0.55, 0.10, -0.90, ..., 0.05 ]
このベクトルの違いが、「果物どうしは近い」「医療の言葉は遠い」といった意味の違いを反映しています。
イメージ

単語ベクトルを使えば、「意味を操作する」ことができる

言葉がこのように数字で表現されると、AIはそれらを計算で扱えるようになります。

  • 似たベクトルは、似た意味の言葉
  • ベクトルの距離が遠いほど、意味も離れている
  • 複数のベクトルを組み合わせて、新しい意味をつくることもできる

つまり、AIは言葉を“数字で理解し、操作できる”ようになったということなのです。


この「意味の地図」がどう使われていくのかは、次の章でさらに詳しく見ていきましょう。この「意味の地図」を活用しながら、文章全体の文脈をとらえ、次の言葉を生成していくのが、まさに生成系AIの中心的なしくみです。

【発展】「分散表現」って何?

このように、単語をベクトルで表す方法は「分散表現(Distributed Representation)」と呼ばれます。

昔のAIは、「apple」や「banana」といった単語を、それぞれバラバラの記号としてしか扱えませんでした(たとえばID=1、ID=2のように)。この方法では、「似ている単語」の情報がまったく失われてしまいます。

でも、分散表現では、「言葉の特徴」を数十〜数百次元のベクトルに“分散”させて持たせることで、言葉同士の距離や関係性が自然に表現できるようになります。

  • 「似た意味の単語は、似たベクトルになる」
  • 「違う意味の単語は、遠い位置に配置される」

つまり、分散表現は「言葉の意味を、空間の位置としてとらえる」革新的なアプローチなのです。

この考え方は、後に登場する 文脈ベースの理解(Contextual Embedding) や 次回以降で説明するAttention の技術にもつながっていきます。


5. 似た意味の単語ほど、ベクトルの位置も近くなる

AIは、たくさんの文章を読みながら、「言葉の使われ方」を観察しています。

たとえば、「apple(りんご)」と「banana(バナナ)」は、

  • 「お弁当にりんごとバナナを入れた」
  • 「朝ごはんにバナナとヨーグルトを食べた」

といった文章によく一緒に登場します。

一方で、「apple」と「hospital(病院)」が並んで使われることは、あまりありません。


言葉の“出てくる場面”が似ていれば、意味も似ている

これは人間でも同じです。

たとえば、よく似た場面で登場する言葉どうしは、

  • 「なんとなく、同じグループっぽい」
  • 「意味が近い感じがする」

と感じるものです。

AIも、こうした「一緒に出てくる言葉は意味が近い」という傾向をたくさん学んでいくことで、
言葉の“距離感”をつかめるようになっていきます。


「意味の地図」の中で、似た言葉は近くに配置される

この結果、「apple」と「banana」は、ベクトル空間の中でも自然と近い位置に配置されます。
逆に、「apple」と「hospital」は、使われる文脈がまったく違うため、遠くに置かれます。

【図2:意味が近い単語は、ベクトル空間でも近い】

    (遠い)     hospital
                    ↑
                    |
                    |
        apple    banana

このように、意味が似ている言葉ほど、数字の世界でも“近づく”ようになるのです。

ベクトル空間とは、言葉の「意味の地図」。
そしてAIは、この地図をもとに、言葉と意味の関係を少しずつ理解していきます。


次は、この「意味の地図」がどうやって作られるのか、その学習の仕組みを見ていきましょう。


6. ベクトルはどうやって作られるの?

「apple」のベクトルは、最初から誰かが決めたものではありません。
AIが自分でたくさんの文章を読みながら、少しずつ学んで作っていくものです。


教え込まれるのではなく、経験から学ぶ

AIは「appleは果物だから、こんなベクトルにしておこう」と人間に教えてもらうわけではありません。

かわりに、以下のようなことを大量の文章の中からコツコツ観察していきます:

  • 「apple」は「banana」や「fruit」と一緒に出てくることが多い
  • 「apple」と「hospital」はあまり一緒に出てこない
  • 「patient(患者)」と「hospital(病院)」はよくセットで登場する

このように、言葉の使われ方のパターンをたくさん見て、
「この言葉は、他のどの言葉と似たような場面で使われているか?」を少しずつ覚えていきます。


使われ方の傾向から、ベクトルを自動で調整していく

最初はランダムな数字で始まるベクトルも、学習が進むにつれて、
「この単語はこのあたりの意味かな?」という位置にだんだん動いていくのです。

これはまさに、人がたくさん本を読んで、「この言葉はこういうときに使うんだな」と感覚をつかんでいくのと似ています。


AIにとっての「経験」は、文章を読むこと

人間は経験や体験を通して意味を学びますが、
AIにとっての経験とは、「文章を大量に読むこと」です。

その経験を通して、

  • 似た意味の言葉は近く
  • 異なる意味の言葉は遠く
    というように、単語ベクトルが少しずつ調整されていくのです。

こうしてAIは、「apple」という言葉がどんな意味を持つのかを、数字で表現できるようになっていきます。ての「経験」とも言えるでしょう。

7. 単語ベクトルがあると何ができる?

単語をベクトルで表すことで、AIは「言葉=ただの記号」ではなく、意味をもった情報として扱えるようになります。
この「ベクトル化」によって、AIはまるで言葉のセンスを持っているかのように、意味の違いや関係性を理解し始めるのです。


例1:似た意味の言葉を入れ替えても自然な文が作れる

たとえば、次の2つの文を見てください:

  • He bought an apple.
  • He bought a banana.

どちらも自然な文章ですよね。
人間なら、「どちらも果物だし、意味はほとんど同じだな」と感じるでしょう。

AIも同じように、「apple」と「banana」は意味が近い単語としてベクトルが近くなっているため、どちらを使っても違和感のない文だと判断できるようになります。


例2:言葉どうしの関係性がわかるようになる

たとえば、「fever(熱)」と「infection(感染)」という単語は、医療の文脈でよく一緒に使われます。

AIは多くの医療文書を読む中で、

  • 「fever」と「infection」はセットで登場することが多い
  • 意味的にも関係している

と学びます。

その結果、たとえば医療相談で「発熱があります」と言われたとき、
AIは「感染の可能性を考えるべきかもしれない」といった意味のつながりを自然に思い浮かべることができるのです。


例3:知らない言葉の意味を、似た言葉から推測できる

AIがもし「grapefruit(グレープフルーツ)」という単語をあまり知らなかったとしても、

  • 「grapefruit」は「apple」や「orange」と同じような文に出てくる
  • 「fruit」と一緒に登場することが多い

といった使われ方の傾向を見て、
「これは果物の一種かもしれない」と周囲の情報から意味を推測できるようになります。


ベクトルは、言葉の“意味の地図”

このように、ベクトルがあることで、AIは言葉を数字で表しながらも、
まるで意味の地図の上をたどるように、言葉どうしの関係を理解していけるのです。

  • 意味が近いものは、近い場所に
  • 意味が違うものは、遠くに
  • 関係があるものは、線でつながっていく

こうした「意味の空間」を持つことこそが、AIが言葉の意味を理解しているように振る舞える理由なのです。とで、AIは未知の言葉にも柔軟に対応し、文の意味をより正確に読み取れるようになるのです。

8. ベクトルがあると、「意味の計算」もできる!

単語がベクトル(=数字のかたまり)で表されていると、
AIはそのベクトルを使って、“意味の計算”までできるようになります。

ちょっと不思議に思えるかもしれませんが、次のような計算が実際にできるのです:

king - man + woman ≒ queen

このような例は、Word2Vec(Mikolovら, 2013)などの研究でも有名です。


これはどういう意味?

この計算は、こんな意味を持っています:

  • king(王様)」という言葉には、「男性らしさ」の要素が含まれている
  • そこから「man(男性)」の意味を引くことで、「王様」の“中性化”を行う
  • さらに「woman(女性)」の意味を足すと…

→ 結果的に、「queen(女王)」に近い意味になる!


数字で意味を動かせる

これは単なる偶然ではなく、単語がベクトルで表されていて、「意味が数字として位置づけられている」からこそ可能になるのです。

つまり、

  • 「男らしさ」や「女らしさ」
  • 「王族」という概念
  • 「職業」「性別」「感情」などの抽象的な特徴

…そういったものが、ベクトルの中のどこかの次元に“分散して埋め込まれている”ため、
その違いを数字の差としてとらえることができるのです。


これは“意味の世界での引き算と足し算”

私たちが頭の中で、

  • 「これは男性的だな」
  • 「この言葉は感情が強いな」

と感じるようなことを、AIは数字の世界で計算によってやっているというわけです。


つまり、ベクトルとは「意味を操作できるツール」

単語ベクトルがあることで、AIはただ言葉を保存しているだけではなく、
意味を動かしたり、組み合わせたり、推測したりすることができるようになるのです。

これは、人間の「言葉の感覚」に少しずつ近づくための、とても大きな一歩です。


この「意味の計算」は、自然言語処理の大きなブレイクスルーであり、大規模言語モデル(LLM)や生成系AIが言葉を扱えるようになるための核心的な技術です。


9. AIが「意味を理解しているように見える」理由

AIは、感情も意識も持っていません。
私たちのように、「言葉を聞いて情景が浮かぶ」「言葉に心が動く」ということは、AIにはできません。

それでも、今のAIはとても自然に言葉を使いこなすようになってきました。
その理由は、言葉をただの記号ではなく、「意味をもつ数字」として扱えるようになったからです。


数字だけで、こんなことができるように

ベクトル(=意味を表す数字のかたまり)によって、AIは次のようなことが可能になります:

  • 文を読んで、内容を理解したようにふるまう
    → 医療記録を読み取り、要点を要約する
  • 質問に対して、文脈に合った言葉を選んで答える
    → 「この症状なら、次に考えるべき可能性は?」と問われたとき、医療的に妥当な答えを返す
  • 前後の言葉のつながりを見て、自然な表現をつくる
    → 会話や説明文の中で、違和感のない単語を選ぶ

あたかも「意味を理解しているかのように」見える

もちろん、AIは「わかった!」と思っているわけではありません。
でも、言葉の意味を数字でとらえ、計算によってそれを扱うというしくみがあるおかげで、

  • 適切な単語を選ぶ
  • 意味のつながりを保つ
  • 文脈に合った言葉を返す

という、まるで人間のような振る舞いができるようになったのです。


AIは「意味を感じて」はいない、でも「意味らしくふるまえる」

言い換えれば、AIは意味を“体感”しているわけではないけれど、
意味を“操作できる形”で持っているということ。

その結果、私たちから見ると、AIがあたかも「意味を理解しているかのように」見えるわけです。


これは、言語AIにおける最大の進化の一つであり、医療・教育・ビジネスなどあらゆる分野で応用される力の源になっています。


第8回まとめ:AIの言語理解の第一歩は「ベクトル化」

ポイント内容
言葉は記号でしかないコンピュータには意味がわからない
ベクトルに変換して意味を扱う単語ベクトル(Word Embedding)の導入
意味の近い単語は近くに配置されるベクトル空間での距離が意味の類似を表す
意味の計算もできるようになる「king – man + woman ≒ queen」など

次回は、この「ベクトルの意味」をもっと深く掘り下げ、「文脈をどう理解するのか?」をテーマに、Attention(注意機構)の考え方をわかりやすく紹介していきます。



ご利用規約(免責事項)

当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条(目的と情報の性質)

  1. 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
  2. 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
  3. 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
  4. 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条(医療行為における責任)

  1. 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
  2. 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
  3. 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条(情報の正確性・完全性・有用性)

  1. 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
  2. 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条(知的財産権)

  1. 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
  2. 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条(免責事項)

  1. 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
  2. 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
  3. 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
  4. 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。


For J³, may joy follow you.

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

医師・医学博士・AI研究者・連続起業家
元厚生労働省幹部・ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士(経済)
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長(医療情報・救急災害・国際展開等)を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療関係者向け医療AIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

目次