MoE(Mixture-of-Experts、エキスパートの混合)は、主に大規模言語モデル(LLM)の効率と性能を向上させるために設計されたニューラルネットワークのアーキテクチャです。従来のモデルがすべての入力に対して単一の巨大なネットワーク全体を用いるのに対し、MoEモデルはこの処理を複数の小さなネットワークに分割します。
このアーキテクチャは、「エキスパート」と呼ばれる複数の独立したフィードフォワードネットワークと、それらを制御する「ルーター」または「ゲート」と呼ばれるネットワークから構成されています。
入力データがモデルに与えられると、まずルーターがそのデータの内容を分析し、最も適していると判断される一つまたは少数のエキスパートを選び出します。その後、選ばれたエキスパートのみが活性化され、入力データに対する計算処理を行います。
この仕組みの最大の利点は、計算効率の大幅な向上です。モデル全体のエキスパートの数は非常に多くても、特定の入力に対してはそのうちのごく一部しか使用されないため、全体の計算リソースを節約しながら、モデルのパラメーター数(容量)を飛躍的に増大させることができます。
パラメーター数の増加は、通常、モデルがより複雑なパターンや大量の知識を学習できることを意味するため、結果として性能の向上にもつながります。
MoEは、トレーニングの高速化と推論時の計算コスト削減を両立させる手法として、特にGoogleのTransformerモデルやその他の最先端のLLMで採用されており、AIモデルのスケーラビリティを向上させる重要な技術となっています。大規模化と高効率化を同時に実現できる点が、このアーキテクチャの核心的な価値です。
