文章全体の単語間の関連を一度に計算する Attention(注意機構)を積み重ねて意味を捉えます。ChatGPT や Claude の中心に使われる構造です。
文章全体の単語間の関連を一度に計算する Attention(注意機構)を積み重ねて意味を捉えます。ChatGPT や Claude の中心に使われる構造です。
「Transformer ベースのモデル」という表現で技術記事や論文解説に登場します。「なぜ AI が文脈を掴めるのか」を説明するキーワードです。
文章の意味を多層の Attention で捉え、生成モデルの骨格を担います。
単語の前後関係だけでなく文全体を並列に処理でき、長い文脈も扱えます。
アーキテクチャの名前であり、特定サービスや製品の名前ではありません。
LLM の仕組みを概念として理解したいとき、最初に押さえると全体像が整います。
「Encoder が読み取り、Decoder が出力する」という大枠だけで十分です。
Attention、LLM(J-14)、Deep Learning(J-11)