文中の各単語が他のどの単語と関係深いかを数値の重みで表します。Query(問い合わせ)・Key(索引)・Value(値)を掛け合わせて計算し、重要な単語ほど強く参照します。
文中の各単語が他のどの単語と関係深いかを数値の重みで表します。Query(問い合わせ)・Key(索引)・Value(値)を掛け合わせて計算し、重要な単語ほど強く参照します。
AI モデルの解説記事で「Self-Attention」「Multi-Head Attention」の形で目にします。ChatGPT や Claude が長い文脈を掴めるのも、この機構が並列計算で文全体を一度に処理するためです。
文中の単語どうしの関係強度を数値の重みで計算します。
全単語を並列処理できるため、長い文脈も落とさず扱えます。
仕組みの詳細より「何に注目するか」の概念把握が先決です。
LLM の動作原理を理解したいときの最初の足がかりになります。
Query・Key・Value の 3 語と「重みで参照する」イメージで十分です。
Transformer(J-13)、LLM(J-14)、Deep Learning(J-11)