近年來人工智慧(AI)模型的參數量飆速成長,AI機台與終端裝置對於記憶體容量及傳輸速度需求隨之增加。對企業而言,為了導入生成式AI等應用,提升硬體設備效能勢在必行。在權衡效能、功耗與成本之下,SSD與DRAM的搭配,就成為升級設備與控制成本的解方。
群聯技術長林緯(圖1)分析,2023年之前的AI以決策式AI為主,後期的技術發展進入停滯。隨後生成式AI崛起,讓AI 再度成為市場焦點。決策式AI與生成式AI最大的差異,在於模型尺寸。存取生成式AI的模型,需要數十GB,甚至TB等級的容量,因此相關設備,對於記憶體容量與傳輸速度的需求皆快速成長。在生成式AI模型的訓練與推論方面,訓練所需的參數量是推論的20倍,需要更大的記憶體容量與傳輸頻寬。
圖1 群聯技術長林緯
企業級SSD需求強勁
慧榮科技終端與車用儲存事業處資深副總段喜亭(圖2)指出,記憶體市場從2023年開始回溫,DRAM及NAND Flash的市場需求逐步攀升,2024年預期會延續這樣的趨勢。其中,NAND Flash主要的功能是儲存資料,而AI模型需要進行大量的數據分析,因此也需要採用更多NAND Flash。從2024年第一季開始,就能觀察到市場對於企業級SSD的需求強勁。
圖2 慧榮科技終端與車用儲存事業處資深副總段喜亭
應用於生成式AI的企業級SSD,除了重視效能,也需要滿足客戶的節能需求。設備節能有助於客戶滿足減碳標準,同時減輕為設備降溫的成本。段喜亭說明,因此用於AI運算的SSD所面臨的其中一個挑戰,就是功耗與效能的平衡。從SSD控制晶片的角度切入,控制晶片的設計目標是在最低的功耗下,達成相同的功能。控制晶片可以透過仔細規畫每個區塊的用電規模,來達到節能的效果。例如當晶片上某個區域的功能沒有啟用,就關閉該區域以減少功耗。
段喜亭提及,優化資料存取的控制,也能降低記憶體的功耗。控制晶片結合軟體與硬體,首先控制硬體內部的資料擺放位置,降低資料的存取時間。接著提高資料的穩定度,並修正出錯的資料。當SSD內部的資料,擺放於CPU、GPU易於存取的位置,且不一定所有的資料都要儲存到DRAM,就能減少設備整體的功耗與成本。
特規SSD助AI機台控制成本
AI伺服器機台內除了DRAM,若考量提升效能與成本限制,可以搭配群聯專利SSD方案。林緯表示,生成式AI處理大量參數,讓機台對DRAM的需求大增,但也導致機台成本大幅提升。因此需要如NAND來搭配使用,就能兼顧機台的效能與成本。解決方案如群聯的aiDAPTIV+技術方案,即是將原先用於儲存的NAND,當作DRAM記憶體使用。讓機台在執行AI運算時,可以使用更多的記憶體容量。由於NAND的價格約是DRAM的十分之一到百分之一,可以有效控制機台成本。
將NAND用於AI運算,需要提升NAND的執行速度與壽命。林緯進一步解釋,過去較少將NAND作為DRAM記憶體應用,主要受限於NAND的傳輸速度較慢,並且使用壽命約低於DRAM 100倍。因此用於AI運算的群聯獨家專利aiDAPTIV+方案,首先要能維持全速運作。aiDAPTIV+透過中介軟體 (Middleware),限制只有特定應用,例如AI運算,才能使用aiDAPTIV+,藉此確保SSD的運作速度。
另外, aiDAPTIV+方案透過硬體設計與軟體演算法,來提高使用壽命。硬體方面,對於NAND顆粒更為嚴格的篩選與測試,以提高良率。同時NAND控制晶片的軟體演算法,具備資料管理與錯誤管理功能,可以更精準的控制SSD。
DDR5 MRDIMM威力十足
針對AI終端裝置的DDR DRAM應用,宇瞻科技產品中心產品經理張瑋倫(圖3)認為,2024年是AI PC元年,預期2025年會進入正式的發展年。現階段處理器與PC廠商甫釋出AI PC相關的產品,部分處理器的規格也尚未公布。而2024年底AI PC的發展值得期待,可望看到AI PC發酵。
圖3 宇瞻科技產品中心產品經理張瑋倫
隨著AI PC的發展,DDR5成為2024年的應用主流,下一代DDR6的發展重點則在功耗。未來3~5年,DDR6朝向低功耗發展,需要突破製程瓶頸,加上DDR5的MRDIMM透過組合兩個DDR5,將頻寬加倍。在DDR5頻寬加倍,以及DDR6產品開發不易的情況下,MRDIMM技術可能銜接,甚至延緩DDR6導入。
企業應用方面,資源有限的前提下,在機台既有的DRAM之外,擴充可用於AI運算的特規SSD,將有助於機台更省電、提高效能,以及控制硬體成本。終端裝置方面,AI PC預期將大規模導入DDR5,並透過MRDIMM將頻寬加倍,滿足AI運算需求。