[Medical AI with Python: P51] 生成モデル入門① 自己回帰モデル「Transformer」徹底理解！ — ChatGPTを支えるAttentionと自己回帰生成の全容を学ぶ

2025年6月19日2025年12月18日

TL; DR (要約)

AIの「心臓部」であるTransformer。RNNの「順番待ち」を、全単語を一度に見るAttentionで解決。
現代の大規模言語モデル(LLM)の驚異的な性能を支える、革命的技術の要点です。

① 核心アイデア (Attention)
「全体を一度に見る」

文章を「一単語ずつ」処理していたRNNの限界を克服。Attention機構で「全ての単語間の関連性」を一気に計算し、学習を高速化しました。

② 基本構造 (ブロック)
「関係把握→思考深化」

2つの部品を繰り返す構造。Attention層が単語間の関係性を把握し、続くFFN層が各単語の意味を深く掘り下げます。

③ 文章生成の仕組み
(自己回帰)

「これまでの文章」を元に「次に来るべき最も自然な単語」を一つ予測。これを繰り返すことで、人間のように自然な長文を生成します。

この章の学習目標と前提知識

この章の学習目標	前提となる知識
Transformerがなぜ生まれたのか、その背景（RNNの限界）と革新性（並列処理）を理解する。 Transformerの全体構造を構成する主要部品（Attention, FFN, Add & Norm）の役割を説明できるようになる。 Transformerの心臓部であるSelf-Attentionが、Q, K, Vを使ってどのように単語間の関連性を計算しているのか、その仕組みを学ぶ。なぜFFN（Feed Forward Network）が必要なのか、その「思考を深める」役割を理解する。 Transformerが「自己回帰」という仕組みで、どのように一単語ずつ文章を生成していくのか、そのプロセスを理解する。	RNN/LSTMの基本的な役割系列データを一つずつ順番に処理するモデルである、という程度の理解。（第15回の内容） (推奨) 正規化・スキップ接続の知識 Layer Normalizationや残差接続が、なぜ深いモデルの学習を安定させるのかを知っていること。（第19, 27回の内容） (推奨) 自己教師あり学習の概念 AIがラベルなしデータから自ら学ぶという考え方を知っていること。（第25回の内容） AI・機械学習の基本的な用語「学習」「モデル」「パラメータ」「活性化関数」といった言葉に馴染みがあること。

この章の学習目標

前提となる知識

Transformerがなぜ生まれたのか、その背景（RNNの限界）と革新性（並列処理）を理解する。
Transformerの全体構造を構成する主要部品（Attention, FFN, Add & Norm）の役割を説明できるようになる。
Transformerの心臓部であるSelf-Attentionが、Q, K, Vを使ってどのように単語間の関連性を計算しているのか、その仕組みを学ぶ。
なぜFFN（Feed Forward Network）が必要なのか、その「思考を深める」役割を理解する。
Transformerが「自己回帰」という仕組みで、どのように一単語ずつ文章を生成していくのか、そのプロセスを理解する。

RNN/LSTMの基本的な役割
系列データを一つずつ順番に処理するモデルである、という程度の理解。（第15回の内容）
(推奨) 正規化・スキップ接続の知識
Layer Normalizationや残差接続が、なぜ深いモデルの学習を安定させるのかを知っていること。（第19, 27回の内容）
(推奨) 自己教師あり学習の概念
AIがラベルなしデータから自ら学ぶという考え方を知っていること。（第25回の内容）
AI・機械学習の基本的な用語
「学習」「モデル」「パラメータ」「活性化関数」といった言葉に馴染みがあること。

はじめに：現代AIの「心臓」を覗き込む

皆さん、こんにちは！いよいよ「拡張編」も、AIのアーキテクチャを語る上で避けては通れない、現代AIの核心に迫ります。

これまでの講義で、私たちはAIの訓練を安定させる様々な技術（正規化、スキップ接続など）を学んできました。それらは全て、この瞬間のための準備だったと言っても過言ではありません。いよいよ、ChatGPTのような大規模言語モデル（LLM）の「心臓部」として、その驚異的な性能を支える、最も重要で、最も革新的なアーキテクチャ、Transformerの徹底理解に挑みます。

この講座では、Transformerを「生成モデル三部作」の第一弾として位置付けます。今回は、Transformerがどのようにして、まるで人間のように自然な文章を一つずつ紡ぎ出していくのか、その「生成」の側面に光を当て、自己回帰モデル（Autoregressive Model）という観点から、その仕組みを解き明かしていきます。

Transformerは、Self-Attentionをはじめとする、いくつかの独創的な部品が精巧に組み合わさった、非常に美しい建築物です。その全てを一度に理解しようとすると、少し圧倒されてしまうかもしれません。

そこでこの記事では、まず、この革命的なアーキテクチャの「見取り図」を手に入れることを目標とします。Transformerがなぜこれほど強力なのか、その核心であるAttention機構から、学習方法、そして実際の出力生成の仕組みまで、その全体像をダイジェスト形式で一緒に探求していきましょう。各部品のさらに詳細な解説や実装については、今後の個別記事（22.1〜22.8）で、一つ一つじっくりと味わっていくことにしますので、ご安心ください。

Transformerの誕生：RNNの「壁」をAttentionで打ち破る

2017年、AI研究の世界に、まさに地殻変動とも言えるほどのインパクトを与えた論文が発表されます。それが、かの有名な「Attention Is All You Need」です (1)。この論文で提案されたTransformerは、それまでの系列データ処理の「常識」を根底から覆し、現在の巨大言語モデル（LLM）時代の礎を築きました。

Transformerの革新性を理解するためには、まず、それ以前の王者であったRNNやLSTMが、どのような課題を抱えていたかを知る必要があります。

課題：RNNの逐次処理という「ボトルネック」

RNNやLSTMは、過去の情報を隠れ状態に引き継ぎながら、単語を一つずつ順番に処理していく、非常に直感的なモデルでした。しかし、この「一つずつ」という逐次的な処理が、二つの大きなボトルネックを生んでいたのです。

計算の非効率性: 100番目の単語を処理するためには、1番目から99番目までの計算が終わるのを待たなければなりません。これでは、コンピュータが得意な並列計算の恩恵を全く受けられず、巨大なテキストデータでの学習に、途方もない時間がかかっていました。
長期依存関係の消失: また、第15回で学んだように、伝言ゲームのように情報が伝達されるため、文の最初の方にある重要な情報（勾配）が、文の終わりまで届く頃には薄れてしまう（勾配消失）、という根本的な課題を抱えていました。

例えるなら、RNNは、一本の細い道を、一台の車がゆっくりと進んでいくようなものでした。渋滞（計算の遅延）も起きやすく、出発点の景色（初期の情報）は、目的地に着く頃にはすっかり忘れてしまっている、という状況だったのです。

解決策①：「再帰」を捨て、「Attention」ですべてを並列に見る

Transformerの設計者たちは、この「一つずつ処理する」という再帰構造そのものを、大胆にも完全に捨て去りました。その代わりに、Attention機構という仕組みを使って、入力された文章の全ての単語が、他の全ての単語を「一度に」見渡せるようにしたのです。

処理方式の比較：RNN vs Transformer

これにより、計算の並列化が劇的に進み、学習速度が飛躍的に向上しました。さらに、文の最初と最後の単語も直接関係性を計算できるため、長期的な依存関係の問題も解決されたのです。

解決策②：自己教師あり学習による「Next Token Prediction」

そして、この強力なアーキテクチャを訓練するために使われたのが、第25回で学んだ自己教師あり学習の一種、「Next Token Prediction（次の単語予測）」です。

これは、ある時点までの文章を与え、「この次に来る単語は何か？」というクイズを、AIに延々と解かせ続ける、という非常にシンプルなタスクです。

例: 入力: 「今日のカンファレンスで、担当患者の胸部X線写真にて」 → 予測ターゲット: 「肺炎」

この単純なクイズを、インターネット上の何十億、何兆という文章で繰り返すことで、AIは単語の意味や文法だけでなく、世界のあらゆる事象に関する膨大な知識と文脈理解能力を獲得していきます。これが、TransformerベースのLLMが、あれほどまでに人間のように振る舞える秘密なのです。

22.2 Transformerの全体構造 — 天才を育てる「建築様式」

さて、TransformerがRNNの壁を「Attention」という画期的なアイデアで打ち破ったお話を見てきました。では、その強力な「思考」は、具体的にどのような「建築様式」で実現されているのでしょうか？

Transformerの基本構造は、実は非常にモジュラーで美しいです。「ある処理を行い、その結果を入力に足し合わせて正規化する」という、一つの小さなブロックを、何十回も（GPT-3では96回も！）積み重ねることで、巨大なネットワークを構築しています。ここでは、その基本となる一つのブロックの中身を覗いてみましょう。

Transformerブロックの基本構造（デコーダの場合）

このブロックは、AIが情報を処理するための、大きく分けて二段階の「思考プロセス」を実装している、と考えることができます。

第1段階：Multi-Head Self-Attention (情報収集・関係性の把握)
まず、最初のサブ層であるMulti-Head Self-Attentionが、「この文脈において、各単語は他のどの単語と強く関係しているか？」という、単語間の関係性を把握する役割を担います。これは、私たちが文章を読むときに、主語と述語、あるいは代名詞が指す対象などを無意識に結びつけているプロセスに似ています。いわば、「情報収集と関連付け」のフェーズです。
第2段階：Feed Forward Network (情報の深化・抽象化)
次に、Attentionによって文脈情報を受け取った各単語の表現は、Feed Forward Network (FFN) という、もう一つのサブ層に送られます。FFNは、各単語の情報を個別に、より深く、より抽象的な表現へと変換する役割を担います。これは、収集した情報を元に、それぞれの単語が持つ意味を「じっくりと吟味し、思考を深める」フェーズと言えるかもしれません。

そして、この二つの思考プロセスを安定して繋ぎ合わせる「接着剤」の役割を果たすのが、残差接続（Add）とレイヤー正規化（Norm）です。これらは、第19回や第27回で学んだように、情報や勾配がスムーズに流れるのを助け、深い層を安定して学習させるための、極めて重要な部品なんですね。

ブロックの積み重ね

Transformerのモデルは、この「関係性を把握（Attention）」し、「思考を深める（FFN）」という基本ブロックを、何層にもわたって垂直に積み重ねることで、その驚異的な性能を実現しています。

このシンプルかつ強力なブロック構造の繰り返しが、複雑な言語のパターンを捉え、人間のように自然な文章を生成する能力の源泉となっているのです。

22.3 Attentionは「何を見ているのか？」を読み解く〜Q, K, Vで制御する、単語間のダイナミックな「注目」〜

Transformerの数ある部品の中でも、その魔法の源泉と言えるのが、Self-Attention（自己注意機構）です。これは、文章中のある単語が、文脈を理解するために、他のどの単語に「注目」すべきか、その「重み」を動的に計算する、非常に洗練された仕組みです。この仕組みを理解することが、Transformerを理解する上での、最大の山場と言えるかもしれません。

第1のステップ：各単語が「3つの顔」を持つ（Q, K, Vの生成）

Attention機構に入力された各単語のベクトルは、まず、それぞれ独立した3つの線形層（重み行列 \(W_Q, W_K, W_V\)）を通過し、クエリ(Query)・キー(Key)・バリュー(Value) という、3つの異なる役割を持つベクトルに変換されます。

Q, K, Vベクトルの生成

この3つのベクトルは、優秀な司書が情報検索をするときの役割に例えることができます。

Query (クエリ): あなたの「検索キーワード」です。これは、「私（この単語）は、文脈を理解するために、どんな情報を探していますか？」という意志を表します。
Key (キー): 図書館にある全ての本の「背表紙のタイトル」です。これは、「私（この単語）は、こんな情報を持っていますよ」という自己紹介の役割を果たします。
Value (バリュー): 本の「中身そのもの」です。これは、その単語が実際に持っている「意味」や「情報」を表します。

第2のステップ：Scaled Dot-Product Attentionによる計算フロー

Q, K, Vベクトルが準備できたら、いよいよAttentionスコアの計算です。Transformerでは、この計算をScaled Dot-Product Attentionという、以下の数式で表現される処理で行います。

\[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

一見すると複雑に見えますが、やっていることは非常に合理的です。順番に見ていきましょう。

スコア計算 (\(QK^T\)): ある単語のQueryベクトルと、文中の全ての単語のKeyベクトルとの内積を計算します。これは、ベクトルの類似度を測る操作であり、「自分の質問(Q)と、各単語の索引カード(K)がどれだけマッチしているか」という関連度スコアを算出していることに相当します。
スケーリング (\(/ \sqrt{d_k}\)): 計算されたスコアは、値が大きくなりすぎると後のSoftmax関数がうまく機能しなくなるため、キーベクトルの次元数 \(d_k\) の平方根で割ってスケール調整します。これは、学習を安定させるための、小さくても重要な工夫です。
Softmaxによる確率化: スケール調整されたスコアをSoftmax関数に通し、合計が1になるような「確率分布」に変換されます。これが、各単語に対する、最終的な「注目度（Attention Weight）」となります。
Valueとの重み付き和 (\(…V\)): 最後に、この「注目度」を、各単語のValue（本の中身）ベクトルに乗じ、全てを足し合わせます。つまり、注目度が高い単語の情報をより強く、低い単語の情報をより弱く反映させた、新しいベクトルを作り出すのです。

この一連のプロセスを経ることで、各単語は、単独の時よりも、文脈全体の関係性をリッチに含んだ、新しい表現へと生まれ変わるのです。

Self-Attentionの計算フロー（ある1単語の視点）

（補足①）Multi-Head Attention：多角的な視点の獲得

実は、Transformerは、このQ, K, Vのセットを1つだけでなく、複数（例えば8つや12個）用意し、それぞれで独立してAttention計算を並列で行います。これをMulti-Head Attentionと呼びます。

これは、一人の司書に頼むだけでなく、複数の異なる専門分野を持つ司書たちに、同時に調査をお願いするようなものです。「文法的な関係性を探すのが得意な司書」「意味的な類似性を探すのが得意な司書」など、異なる視点から関連性を分析することで、より豊かで多角的な文脈理解が可能になるのです。

（補足②）Causal Mask：未来を見ないための工夫

自己回帰モデルが文章を生成する際、次の単語を予測する時に「未来の答え」を見てしまうと、カンニングになってしまいますよね。これを防ぐために、Transformerのデコーダでは、計算中の単語より「未来」にある単語との関連度スコアを、強制的に非常に小さい値（マイナス無限大）にする意味的マスク（Causal Mask）という処理が行われます。これにより、AIは必ず「過去から現在まで」の情報だけを元に、次の単語を予測するようになります。

22.4 FFNはなぜ必要か？〜情報を「深化」させる非線形変換〜

Self-Attentionによって、文中の各単語は、他の単語との関係性という豊かな「文脈」情報を浴びるように受け取りました。これは、いわば会議で全員の意見を聞き、関連資料に目を通した状態です。

しかし、情報を集めるだけでは、深い「理解」には至りませんよね。次に必要なのは、集めた情報を元に、それぞれの単語が持つ意味を「じっくりと吟味し、思考を深める」ことです。この重要な役割を担うのが、Transformerブロックのもう一つの主要な部品、Feed Forward Network (FFN) なんです。

FFNの構造：「次元の拡大」という名の思考空間

FFNの処理は、職人が一つの部品を加工する際に、一旦、広い作業台（高次元空間）の上に部品を広げ、様々な角度から加工を施し、再び元の形にきれいに組み上げる、という作業に似ています。

具体的には、FFNは、Attentionによって文脈情報を豊かに含んだ各単語ベクトルを、以下の3ステップで処理します。

次元の拡大: まず、一つ目の線形層（Linear）を通して、各単語のベクトルを、一時的に、より大きな次元（通常は元の4倍）の空間へと写し取ります。
非線形変換: この広々とした「思考空間」で、ReLUやGeLUといった活性化関数による非線形な変換を加えます。このステップが非常に重要で、これによりモデルは、単純な線形関係では捉えきれない、より複雑で豊かな特徴を学習する能力を獲得します。
次元の縮小: 最後に、二つ目の線形層を通して、豊かになった表現を、再び元の次元数へと戻します。

なぜ一度、次元を拡大するのでしょうか？これは、低次元のままでは表現しきれない複雑な特徴の組み合わせを、高次元の空間に写すことで、より分離・抽出しやすくするため、と考えられています。狭い作業台ではできない複雑な作業も、広い作業台の上なら可能になる、というイメージですね。

Feed Forward Network (FFN) の構造と計算フロー

重要なのは、このFFNの処理は、各単語（トークン）の位置ごとに、全く同じパラメータを使って、独立して行われるということです。Self-Attentionが単語間の「関係性」を捉えるのに対し、FFNは、その関係性を踏まえた上で、各単語が「個として」の意味を深める。この「関係」と「個別」の絶妙な連携プレーこそが、Transformerが高い言語理解能力を発揮する秘密なのです。

22.5 自己回帰による文章生成の仕組み〜AIが「執筆」するプロセス〜

AttentionとFFNという強力な思考エンジンを手に入れたTransformer。では、この賢くなったAIは、具体的にどうやって、あの流暢な文章を「執筆」していくのでしょうか？

そのプロセスは、自己回帰（Autoregressive）と呼ばれ、驚くほど人間が文章を考えるプロセスと似ています。つまり、「それまでに書いた内容を元に、次に来るべき最もふさわしい単語を一つ予測し、それを付け加えて、また次の単語を予測する」という作業を、地道に、しかし超高速で繰り返していくのです。

文章が生まれる、その一瞬：Logits, Softmax, そしてSampling

「次の単語を予測する」と一言で言っても、モデルの内部ではいくつかのステップが踏まれています。

Logits（スコア）の計算: Transformerブロックの最終的な出力は、文脈情報たっぷりのベクトルでしたね。文章生成では、このうち系列の最後尾のトークンに対応するベクトルだけを取り出します。そして、このベクトルを、特別な線形層（出力層）に入力し、私たちが持つ「辞書」の全単語（数万語！）それぞれに対して、「次に来る単語としてのふさわしさ」を示すスコア（ロジット）を計算します。
Softmaxによる確率化: 次に、この生のスコアを、第7回で学んだSoftmax関数に通します。これにより、全ての単語のスコアが、合計すると1になるような確率分布へと変換されます。「発熱」が35%、「咳嗽」が30%…といった形ですね。
Sampling（抽出）: 最後に、この確率分布に従って、次の単語を一つ選びます。最も確率が高い単語を常に選ぶ方法（Greedy Search / Argmax）もあれば、確率に応じてランダムに選ぶ方法（Sampling）もあります。後者の方が、より多様で自然な文章が生成されやすいと言われています。

自己回帰生成のステップ・バイ・ステップ

この一連の計算が、一単語ずつ、どのように繰り返されるのかを見てみましょう。

自己回帰生成の逐次プロセス

この、一見すると地道な繰り返し作業によって、文法的に正しく、文脈的にも一貫性のある、驚くほど自然な長文が生成されていくのです。まさに、AIが言葉を一つ一つ紡ぎ出していく、創造のプロセスそのものですね。

22.6 残差接続とレイヤー正規化〜巨大建築を支える「免震・制震」構造〜

最後に、Transformerブロックの図で「Add & Norm」と書かれていた部分について、改めてその重要性を確認しましょう。これは、それぞれ残差接続 (Residual Connection) と レイヤー正規化 (Layer Normalization) のことです。

これらは、何十、何百層と積み重ねられた超高層ビル（巨大なTransformerモデル）が、学習という名の「地震」が起きても、倒壊しないようにするための、極めて重要な「免震・制震」構造だと考えてください。

残差接続 (Add): 各サブ層（AttentionやFFN）の「入力」を、そのサブ層の「出力」に直接足し合わせるバイパス経路でしたね（第27回参照）。これは、勾配が消えることなく深い層まで伝わるための「高速道路」であり、ビルを貫く強固な「中心柱」のような役割を果たします。
レイヤー正規化 (Norm): 各層の出力が、極端な値に偏ってしまうのを防ぎ、学習を安定させるための「制震ダンパー」です（第19回参照）。残差接続で足し合わせた後、毎回レイヤー正規化で「揺れ」を収めることで、情報が安定して次の層へと伝わっていきます。

この「Add & Norm」の巧みな組み合わせこそが、Transformerがかつてないほどの「深さ」を実現できた、建築工学的な秘密なんですね。

まとめと展望

今回は、現代AIの基盤であるTransformerアーキテクチャの全体像を、自己回帰的な生成モデルという観点から概観しました。

Transformerの強み: RNNの逐次的な処理から脱却し、Attention機構によって、系列内の長距離依存関係を効率的に捉える点にあります。
学習と生成: 「次の単語予測」という自己教師あり学習で膨大な知識を蓄え、「自己回帰」という仕組みで一つずつ単語を生成します。

では、Transformerは本当に文章の「意味」を理解しているのでしょうか？これはAI研究における大きな問いですが、その驚異的な性能は、医療テキストの解析、要約、生成といったタスクに、計り知れない可能性をもたらしています。

Transformerが系列データを一つずつ生成する「職人」だとすれば、全く異なるアプローチで、画像などのデータを一度に「創造」する「芸術家」のようなモデルも存在します。

次回の第23回では、VAEとGANという、もう一つの生成モデルの潮流である潜在変数モデルの世界を探求します。

参考文献

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention is all you need. In: Advances in neural information processing systems 30. 2017.
Radford A, Narasimhan K, Salimans T, Sutskever I. Improving language understanding by generative pre-training. 2018. (GPT-1論文)
Tiu E, Talius E, Al-Shedivat M, et al. An early look at the performance of gemini 1.0 on healthcare tasks. arXiv preprint arXiv:2401.07243. 2024.

ご利用規約（免責事項）

当サイト（以下「本サイト」といいます）をご利用になる前に、本ご利用規約（以下「本規約」といいます）をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条（目的と情報の性質）

本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
本サイトで提供されるすべてのコンテンツ（文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません）は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為（以下「医行為等」といいます）を提供するものではありません。
本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条（法令等の遵守）
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律（薬機法）、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条（医療行為における責任）

本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家（医師、歯科医師等）が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条（情報の正確性・完全性・有用性）

本サイトは、掲載する情報（数値、事例、ソースコード、ライブラリのバージョン等）の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条（AI生成コンテンツに関する注意事項）
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション（事実に基づかない情報の生成）やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条（知的財産権）

本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条（プライバシー・倫理）
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条（利用環境）
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境（OS、ハードウェア、依存パッケージ等）を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条（免責事項）

本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害（直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません）について、その原因の如何を問わず、一切の法的責任を負わないものとします。
本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条（規約の変更）
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条（準拠法および合意管轄）
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。

For J³, may joy follow you.

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

髙﨑洋介（医師・医学博士・MBA） | Dr. TAKASAKI Yohsuke, MD, PhD, ScM, MPA, MBA, FRSM

AI医師科学者芸人・医学博士・連続起業家・元厚生労働省医系技官
ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長（医療情報・救急災害・国際展開等）を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療者向けAIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」、美・医・食ポータル「Food Connoisseur」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

[Medical AI with Python: P51] 生成モデル入門① 自己回帰モデル 「Transformer」徹底理解！ — ChatGPTを支えるAttentionと自己回帰生成の全容を学ぶ