一般語彙

MoE

ミクスチャーオブエキスパーツ

Mixture of Experts の略。モデル内の複数の「専門家」から少数だけを選んで推論する設計です。

体験区分：調査ベース推奨読者レベル：Level 4

入力ごとに Router（ルーター、振り分け係）が少数の Expert（専門サブネット）だけを起動し、残りを休ませます。総パラメータが大きくても実際に使う部分は少なく、性能とコストを両立しやすくなります。

「MoE アーキテクチャ採用」という表現で Mixtral や DeepSeek V3 の技術紹介に登場します。LLM（大規模言語モデル）の比較記事で「スパース MoE」と書かれていればこの仕組みを指します。

イメージ

開発フローでの位置

アーキテクチャ選択

→

Expert 設計

→

事前学習

→

推論・評価

→

利用

2026.04·ready

「MoE はルーターが Expert を選ぶ分、密なモデルより推論コストが抑えられます。」

MoEの見方

577

この用語の見どころ

役割

入力ごとに少数の専門家を選び、全体の効率を高めます。

うれしさ

総パラメータが大きくても推論コストを抑えられます。

注意点

ルーティングが不安定になると特定 Expert に偏りが生じます。

どこで役立つか

大規模モデルの性能を維持しつつコストを下げたいときに有効です。

はじめに

「Router が Expert を選ぶ」という大枠を押さえれば十分です。

深掘り先

Transformer（J-13）、LLM（J-14）、Mixtral（D-41）

非エンジニアのつまずき

私のコメント