首頁|台灣區電機電子工業同業公會

大型語言模型（large language model；LLM）的規模和複雜性日益增加，NVIDIA 今日宣布推出NeMo Megatron框架的更新內容，更新後可加快訓練速度達30%。這些更新內容包括兩項開創性技術及一項超參數工具，用在任意GPU數量的LLM訓練最佳化及擴展，為使用NVIDIA AI平台訓練與部署模型提供新的功能。

全球最大的開放科學、開放取用的多語言模型BLOOM，內有1,760億個參數，日前在NVIDIA AI平台進行訓練，能夠產出46個語言及13種程式語言的文字。NVIDIA AI平台亦支援其中一個擁有5,300億個參數的強大Transformer語言模型，即Megatron-Turing NLG模型（MT-NLG）。

LLM是當今最重要的先進技術之一，模型內有數兆個參數，可以從文字中進行學習。但開發LLM是個昂貴且耗時的過程，須運用深厚的技術能力、分散式基礎設施與完整堆疊才得以完成。

LLM在推動即時生成內容、文字摘要、客服聊天機器人與透過對話式人工智慧（AI）介面的問答等領域，卻能帶來莫大的好處。為了推動 LLM 的發展，AI領域的開發人員不斷運用包含Megatron-LM、Apex與其他GPU加速函式庫的NVIDIA AI平台來創新開發工具，像是微軟DeepSpeed、Colossal-AI、Hugging Face BigScience及Fairscale。

在NVIDIA AI平台推出新的最佳化內容後，能解決整個堆疊中現有的多項痛點。NVIDIA期待持續與AI社群合作，讓每個人都能運用LLM的強大實力。

最新的NeMo Megatron更新內容可加快30%的GPT-3模型訓練速度，模型從220億個參數，大至1兆個參數都可順利運行。現在使用1,024個NVIDIA A100 GPU，只要24天就能訓練出多達1,750億個參數的模型，相較於過往版本，訓練時間縮短10天，相當於約25萬個GPU運算小時。

NeMo Megatron是一個快速、高效且易用的端到端容器化框架，用於收集資料、訓練大型模型、按照業界標準基準評估模型，與以最先進的延遲與傳輸量表現進行推論。

使用NeMo Megatron，便能在多種GPU叢集配置上輕鬆處理並複製LLM的訓練和推論作業。目前搶先體驗的客戶可以取得這些功能，在NVIDIA DGX SuperPODs、NVIDIA DGX Foundry及Microsoft Azure雲端環境中運行，並且即將開放支援其他雲端平台。

目前已開放在NVIDIA LaunchPad上體驗這些功能。NVIDIA LaunchPad是一項免費的計畫，提供使用者短期內使用NVIDIA加速基礎設施中的多個實作實驗室。

NeMo Megatron是NeMo的一部分。NeMo是用於為對話式AI、語音AI和生物學打造高效能與靈活應用程式的開源框架。

更新項目包括兩項用於最佳化及擴展LLM訓練的新技術，即序列平行（sequence parallelism；SP）與選擇性激發再運算（selective activation recomputation；SAR）。

藉由察覺先前未進行平行化的transformer層區域在序列維度上是各自獨立，序列平行擴大了tensor級模型的平行性。

沿著序列維度拆分這些層就能進行分散運算，而最重要的是，這些區域的激發記憶體分布於tensor平行裝置上。由於以分散方式加以激發，可將更多激發作用保留用於反向運算，而不用重新運算。

不同的激發作用需要不同的操作次數來重新運算，選擇性激發再運算改善因記憶體限制而部分被迫重新運算，而非全部激發的情況。除了增加檢查點和重新運算整個transformer層，亦可建立檢查點及重新運算每個transformer層中，佔用大量記憶體但重新運算的成本不高的部分。

要配合高度最佳化的推論策略，才能發揮LLM的強大實力。使用者可以輕鬆將訓練好的模型用於推論，並且利用p-tuning及prompt tuning功能對不同的使用情況進行最佳化調整。

這些功能可以取代微調，讓LLM可以適應新的使用情況，無需繁瑣地對完整預先訓練好的模型進行微調。該技術不會更動原始模型裡的參數，便能避免發生因微調模型而出現的災難性「遺忘」問題。

在分散式基礎設施中找出適合LLM的模型配置非常耗時。NeMo Megatron推出一項超參數工具，可以自動尋找最佳的訓練和推論配置，且無需修改程式碼。如此一來，LLM只要一上線便能接受訓練以進行推論收斂，不用浪費時間去尋找高效的模型配置。

NeMo Megatron使用啟發式方法和經驗網格，在不同參數之間尋找有著最佳傳輸量的配置：資料平行、tensor 平行、流程平行、序列平行、微批次大小與激發檢查點層的數量（包括選擇性激發重新運算）。

在NGC的容器上使用超參數工具與NVIDIA測試，在不到24小時內便替一個有著175B GPT-3模型達到最佳訓練配置。與使用完全激發重新運算的一般配置相比，傳輸量速度提高20%到30%。使用最新技術，讓具有超過20B參數的模型速度可再加快10%到20%。

超參數工具亦能找出推論過程中，有著最高傳輸量或最低延遲的模型配置。模型可以獲得延遲和傳輸量限制資訊，而該工具將會推薦合適的配置。