入力ごとに Router(ルーター、振り分け係)が少数の Expert(専門サブネット)だけを起動し、残りを休ませます。総パラメータが大きくても実際に使う部分は少なく、性能とコストを両立しやすくなります。
入力ごとに Router(ルーター、振り分け係)が少数の Expert(専門サブネット)だけを起動し、残りを休ませます。総パラメータが大きくても実際に使う部分は少なく、性能とコストを両立しやすくなります。
「MoE アーキテクチャ採用」という表現で Mixtral や DeepSeek V3 の技術紹介に登場します。LLM(大規模言語モデル)の比較記事で「スパース MoE」と書かれていればこの仕組みを指します。
入力ごとに少数の専門家を選び、全体の効率を高めます。
総パラメータが大きくても推論コストを抑えられます。
ルーティングが不安定になると特定 Expert に偏りが生じます。
大規模モデルの性能を維持しつつコストを下げたいときに有効です。
「Router が Expert を選ぶ」という大枠を押さえれば十分です。
Transformer(J-13)、LLM(J-14)、Mixtral(D-41)