生成式人工智慧(AI)從雲端走向邊緣,需要克服模型縮小,以及推論精準度的挑戰。在終端設備資源有限的前提下,大型語言模型(LLM)需要透過量化(Quantization)等方式壓縮模型,並且確保推論維持一定的精準度。
Arm應用工程總監徐達勇(圖1)指出,邊緣AI在市場上已經討論多年,到2023及2024年,生成式AI帶來新一波的應用浪潮。目前LLM如ChatGPT雖然都在雲端執行,但是產業內嘗試將LLM導入到終端。帶動此一浪潮的原因在於,邊緣運算裝置所需的運算資源較少。終端包含手機、筆電與物聯網裝置等,其中,基於Cortex-X與Cortex-A7系列的手機,就有移植(Poting)LLM軟體。
圖1 Arm應用工程總監徐達勇
LLM導入終端的挑戰之一,在於模型需要縮小。應用在邊緣端的模型參數量,遠小於雲端。雲端可以執行700~1,000億個參數的模型。邊緣端則在運算效能與記憶體的資源有限,生成式AI若要導入邊緣,需要優化軟體,包含縮小模型。
還有在運算的時候,參數的資料類型(Datatype)可能無法在邊緣端處理。此時參數需要經過量化,例如原本的Datatype是Integer16或Floating16,需要量化為8bit或4bit等形式。量化參數類似於壓縮模型,讓記憶體不需要儲存所有資料,進而降低模型對記憶體資源的需求。
恩智浦半導體大中華區市場行銷總監黃健洲(圖2)也表示,2024年推動安全邊緣運算市場浪潮的宏觀趨勢繼續成長。邊緣運算市場涵蓋智慧連線設備、智慧工廠、家庭和智慧聯網汽車。安全的智慧生態系統還觸發了生成式AI的需求,以建立更複雜的數據訓練、推理和運算能力。在此趨勢下,新興的邊緣AI應用,包含智慧電機健康異常檢測、風扇狀態監測和人類活動識別等。
圖2 恩智浦半導體大中華區市場行銷總監黃健洲
克服模型瘦身挑戰
邊緣AI蓬勃發展,但是將AI導入邊緣端需要克服不少挑戰。Arm物聯網事業部亞太區IoT市場資深經理黃晏祥(圖3)提及,AI模型更新飛快,其中不少是開源模型。目前市場上持續尋找和創造邊緣AI的應用場景。以智慧零售為例,COVID-19疫情之後,實體商店缺工,自助結帳與無人商店蓬勃發展。智慧零售即是生成式AI在邊緣端理想的應用之一,因為零售業是限定範圍的應用,顧客需求一定與商品相關。
圖3 Arm物聯網事業部亞太區IoT市場資深經理黃晏祥
生成式A I應用在邊緣端的挑戰,是使用者如何確認AI回應內容的真實性。例如,顧客透過AI訂購演唱會門票,當AI 回應訂票完成,是否表示顧客真的成功購票?邊緣的生成式AI需要透過一些機制,像是檢索增強生成(Retrieval-Augmented Generat ion, RAG)來確保生成正確的內容。RAG指的是持續將可靠的資料輸入到LLM,協助模型自我修正、增加完整性。基於RAG技術,未來勢必創造新的商業模式或邊緣運算商機。
MCU方面,邊緣AI應用受到生成式AI帶動,再掀新熱潮。台灣亞德諾半導體應用工程師黃一凡(圖4)說明,LLM在邊緣端較有機會導入到SoC,因為MCU的記憶體容量較小,不過仍可以實現其他邊緣AI功能。在MCU中導入AI應用,在於需要花費較多心力縮小演算法,將演算法濃縮到MCU可以執行的程度。模型瘦身通常會導致精準度下降,因此需要從軟體其他面向補足精準度。例如從大數據方面,收集更多數據來補足精準度損失的問題。最終目標就是要在模型瘦身,導入MCU之後,確保微幅的精準度犧牲,仍可以滿足該應用場景的需求。
圖4 台灣亞德諾半導體應用工程師黃一凡
邊緣生成式AI逐步普及
針對未來3~5年的邊緣AI市場,徐達勇認為未來的AI功能會整合在裝置中,作為附加功能。目前邊緣AI已經應用在手機臉部辨識等應功能,生成式AI未來若是推論的正確性大幅提升,並且透過導入到邊緣端,解決資安與隱私問題,就能逐步普及。
終端裝置開始整合LLM,為邊緣AI應用帶來更多想像空間。不論是生成式AI或其他AI模型導入到邊緣,都需要克服如何有效縮小模型,並且維持推論精準度。未來邊緣AI將持續發展新應用,並建立對使用者更友善的開發介面。