訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
NVIDIA強化NeMo Megatron框架大型語言模型功能
CTimes劉昕
獲取產業訊息零時差!立即訂閱電電公會電子報。

大型語言模型(large language model;LLM)的規模和複雜性日益增加,NVIDIA 今日宣布推出NeMo Megatron框架的更新內容,更新後可加快訓練速度達30%。這些更新內容包括兩項開創性技術及一項超參數工具,用在任意GPU數量的LLM訓練最佳化及擴展,為使用NVIDIA AI平台訓練與部署模型提供新的功能。

全球最大的開放科學、開放取用的多語言模型BLOOM,內有1,760億個參數,日前在NVIDIA AI平台進行訓練,能夠產出46個語言及13種程式語言的文字。NVIDIA AI平台亦支援其中一個擁有5,300億個參數的強大Transformer語言模型,即Megatron-Turing NLG模型(MT-NLG)。

LLM是當今最重要的先進技術之一,模型內有數兆個參數,可以從文字中進行學習。但開發LLM是個昂貴且耗時的過程,須運用深厚的技術能力、分散式基礎設施與完整堆疊才得以完成。

LLM在推動即時生成內容、文字摘要、客服聊天機器人與透過對話式人工智慧(AI)介面的問答等領域,卻能帶來莫大的好處。為了推動 LLM 的發展,AI領域的開發人員不斷運用包含Megatron-LM、Apex與其他GPU加速函式庫的NVIDIA AI平台來創新開發工具,像是微軟DeepSpeed、Colossal-AI、Hugging Face BigScience及Fairscale。

在NVIDIA AI平台推出新的最佳化內容後,能解決整個堆疊中現有的多項痛點。NVIDIA期待持續與AI社群合作,讓每個人都能運用LLM的強大實力。

最新的NeMo Megatron更新內容可加快30%的GPT-3模型訓練速度,模型從220億個參數,大至1兆個參數都可順利運行。現在使用1,024個NVIDIA A100 GPU,只要24天就能訓練出多達1,750億個參數的模型,相較於過往版本,訓練時間縮短10天,相當於約25萬個GPU運算小時。

NeMo Megatron是一個快速、高效且易用的端到端容器化框架,用於收集資料、訓練大型模型、按照業界標準基準評估模型,與以最先進的延遲與傳輸量表現進行推論。

使用NeMo Megatron,便能在多種GPU叢集配置上輕鬆處理並複製LLM的訓練和推論作業。目前搶先體驗的客戶可以取得這些功能,在NVIDIA DGX SuperPODs、NVIDIA DGX Foundry及Microsoft Azure雲端環境中運行,並且即將開放支援其他雲端平台。

目前已開放在NVIDIA LaunchPad上體驗這些功能。NVIDIA LaunchPad是一項免費的計畫,提供使用者短期內使用NVIDIA加速基礎設施中的多個實作實驗室。

NeMo Megatron是NeMo的一部分。NeMo是用於為對話式AI、語音AI和生物學打造高效能與靈活應用程式的開源框架。

更新項目包括兩項用於最佳化及擴展LLM訓練的新技術,即序列平行(sequence parallelism;SP)與選擇性激發再運算(selective activation recomputation;SAR)。

藉由察覺先前未進行平行化的transformer層區域在序列維度上是各自獨立,序列平行擴大了tensor級模型的平行性。

沿著序列維度拆分這些層就能進行分散運算,而最重要的是,這些區域的激發記憶體分布於tensor平行裝置上。由於以分散方式加以激發,可將更多激發作用保留用於反向運算,而不用重新運算。

不同的激發作用需要不同的操作次數來重新運算,選擇性激發再運算改善因記憶體限制而部分被迫重新運算,而非全部激發的情況。除了增加檢查點和重新運算整個transformer層,亦可建立檢查點及重新運算每個transformer層中,佔用大量記憶體但重新運算的成本不高的部分。

要配合高度最佳化的推論策略,才能發揮LLM的強大實力。使用者可以輕鬆將訓練好的模型用於推論,並且利用p-tuning及prompt tuning功能對不同的使用情況進行最佳化調整。

這些功能可以取代微調,讓LLM可以適應新的使用情況,無需繁瑣地對完整預先訓練好的模型進行微調。該技術不會更動原始模型裡的參數,便能避免發生因微調模型而出現的災難性「遺忘」問題。

在分散式基礎設施中找出適合LLM的模型配置非常耗時。NeMo Megatron推出一項超參數工具,可以自動尋找最佳的訓練和推論配置,且無需修改程式碼。如此一來,LLM只要一上線便能接受訓練以進行推論收斂,不用浪費時間去尋找高效的模型配置。

NeMo Megatron使用啟發式方法和經驗網格,在不同參數之間尋找有著最佳傳輸量的配置:資料平行、tensor 平行、流程平行、序列平行、微批次大小與激發檢查點層的數量(包括選擇性激發重新運算)。

在NGC的容器上使用超參數工具與NVIDIA測試,在不到24小時內便替一個有著175B GPT-3模型達到最佳訓練配置。與使用完全激發重新運算的一般配置相比,傳輸量速度提高20%到30%。使用最新技術,讓具有超過20B參數的模型速度可再加快10%到20%。

超參數工具亦能找出推論過程中,有著最高傳輸量或最低延遲的模型配置。模型可以獲得延遲和傳輸量限制資訊,而該工具將會推薦合適的配置。

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。