首頁|台灣區電機電子工業同業公會

在一般的深度學習模型中，主要只使用一組模型的參數，並透過反覆的微調再利用，使得模型能適用在其他相近的領域。而多專家任務模型(Mixture of Experts; MoE)，不同於以往的模式，針對不同的輸入例使用不同的參數，以期達到更好的效果。此種模式就像聚集了一堆領域專家，當資料進來時，會針對資料的特性分配到該領域的專家，如金融方面的文章以及問題會分給若干個金融專家，金融專家會針對看到的文章和問題做出解答，再把專家的意見綜合起來作出結論當作問題的解答回傳給提問者。而此模式特點是使用稀疏活化模型(sparsely-activated models)，意即一次只使用部分的模型參數(也就是領域專家)能計算結果，此舉能讓模型在增加大量的參數時亦能維持原來的運算複雜度。然而MoE模型還是過於複雜且存在太多溝通成本，而且會有訓練不穩定的情形狀況，因此[1]的作者在2021年一月提出了switch transformer的做法來改善這些缺失。
回顧一下MoE的做法，每當有輸入進來時，分配器(router)會從N個專家中挑選對此輸入表現最好(閾閥值最高)的k個專家，由各專家計算出結果，再將依閾閥值的比例去分配結果權重以取得最後的成果。而[1]的作者把一次挑k個專家的方式改成一次只挑一個專家，這樣可以得到下列好處：
1.分配器使用的運算資源變少(一次只挑一個)
2.每批次的資料量大小會至少減半(不用重覆傳送資料到其他專家)
3.分配器的實作變簡單。下圖將呈現switch transformer的基本架構。
作者提到了switch transformer有下列優點：
1.但同等級的機器下，switch transformer能用7倍以上的速度訓練出和T5 model同等級的model。
2.在模型蒸餾後，可以縮減模型99%大小，但仍保存30%以上的效能增益。
3.在涵蓋101種語言的多語言版本訓練的增益都超過mT5-Base。

資料來源：
1.Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." arXiv preprint arXiv:2101.03961 (2021).