訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
Google Incs. 的新語言模型-Switch Transformer
資策會Find研究員:邱冠龍
獲取產業訊息零時差!立即訂閱電電公會電子報。

在一般的深度學習模型中,主要只使用一組模型的參數,並透過反覆的微調再利用,使得模型能適用在其他相近的領域。而多專家任務模型(Mixture of Experts; MoE),不同於以往的模式,針對不同的輸入例使用不同的參數,以期達到更好的效果。此種模式就像聚集了一堆領域專家,當資料進來時,會針對資料的特性分配到該領域的專家,如金融方面的文章以及問題會分給若干個金融專家,金融專家會針對看到的文章和問題做出解答,再把專家的意見綜合起來作出結論當作問題的解答回傳給提問者。而此模式特點是使用稀疏活化模型(sparsely-activated models),意即一次只使用部分的模型參數(也就是領域專家)能計算結果,此舉能讓模型在增加大量的參數時亦能維持原來的運算複雜度。然而MoE模型還是過於複雜且存在太多溝通成本,而且會有訓練不穩定的情形狀況,因此[1]的作者在2021年一月提出了switch transformer的做法來改善這些缺失。
回顧一下MoE的做法,每當有輸入進來時,分配器(router)會從N個專家中挑選對此輸入表現最好(閾閥值最高)的k個專家,由各專家計算出結果,再將依閾閥值的比例去分配結果權重以取得最後的成果。而[1]的作者把一次挑k個專家的方式改成一次只挑一個專家,這樣可以得到下列好處:
1.分配器使用的運算資源變少(一次只挑一個) 
2.每批次的資料量大小會至少減半(不用重覆傳送資料到其他專家) 
3.分配器的實作變簡單。下圖將呈現switch transformer的基本架構。
作者提到了switch transformer有下列優點:
1.但同等級的機器下,switch transformer能用7倍以上的速度訓練出和T5 model同等級的model。
2.在模型蒸餾後,可以縮減模型99%大小,但仍保存30%以上的效能增益。
3.在涵蓋101種語言的多語言版本訓練的增益都超過mT5-Base。

資料來源:
1.Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." arXiv preprint arXiv:2101.03961 (2021).

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。