自從OpenAI於2022年11月底發表以大型語言模型(Large Language Model,LLM)為技術基礎的ChatGPT,由於ChatGPT可以針對結構複雜的用戶提示(prompt),答出文法正確、語意切題、內容豐富詳細的回覆,且回覆的語法與風格可以任由用戶指定,堪稱是有史以來最強大的問答機器人,短短不到三個月就已經累積超過一億個試用帳戶,堪稱是一夕爆紅。
許多國家及企業也隨即搶著登上大型語言模型列車,中國大陸有科大訊飛的「訊飛星火」及百度的「文心一言」,法國有「Bloom」,韓國有「HyperClova」,加上Google、阿里等企業也都紛紛公開自家版本的類似模型,全球大型語言模型軍備戰已經正式開打。
由聯發科技集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊,也已在今(2023)年2月公開釋出以開源語言模型BLOOM開發的繁體中文大型語言模型供外界下載。
由於有了包括國教院的語料,所使用的訓練資料比目前開源可用的最大繁體中文模型多1,000倍,未來用於類似ChatGPT的問答、文字編修、文案生成等,有機會比以英文及簡體中文資料訓練出來的外國語言模型,提供更能貼近國人需求的應用價值。
台達研究院院長暨清大資訊工程學系合聘教授闕志克指出,台灣自主開發「類ChatGPT」確實有其必要,但策略目標應該不是要用來取代ChatGPT,而是應該用台灣地區專門的用語、文化及知識來訓練,訓練出適合台灣場域應用的生成式AI應用工具。

使用台灣特有語料
開發基層語言模型
闕志克指出,台灣產業如果想要利用語言模型創造獨特的產品或服務,第一種是單純以終端用戶的身分使用語言模型;第二種是利用語言模型的API來開發加值型應用服務,如特定領域搜索引擎或企業知識發掘工具;第三種是藉助特定應用的資料加強訓練語言模型,以客製應用所需的功能;第四種是模仿ChatGPT的訓練手法,運用在台灣地區爬梳的語料為主,與時俱進持續訓練其底層的語言模型,以增進其精確性與即時性。
其中又以第四種最需要重視,因為ChatGPT等AI工具雖然也會將中文語料拿來做預訓練,但對於台灣用戶的各種使用情境,如線上學習、電商銷售、醫療照護,其他國家的語言模型在訓練時,不太可能為台灣客製化,如在醫療照護領域,台灣中南部許多長者仍習慣以母語、台語、客語、原住民語夾雜的方式對話,就是目前的大型語言模型無法處理的需求。
闕志克強調,每一個國家都有屬於自己的語料,所以應該要用來訓練「基層語言模型」,將其視為「文化典藏及保存」的重要工具。因為許多特定專門的生成式AI應用如寫劇本,一定要用當地的特定語法來訓練,才有可能寫出符合當地觀眾胃口的內容,而且要一直不斷地訓練,才能達到精確性及即時性的要求。
自主開發應以適用台灣需求為重點
闕志克指出,即使是ChatGPT,也常會回覆含有事實錯誤和編造(所謂的「幻覺」)的內容,既不擅長需要多層次邏輯推論才能得出的複雜推理,也常犯簡單的算術錯誤,更時有前後文不一致的毛病。闕志克因此建議台灣自主開發的「類ChatGPT」,不需要在每個領域都去跟其他語言模型或工具競爭,而是應該先致力於能將台灣特有的語料融會貫通(如台灣過去400年的本土文字紀錄),就足以產生足夠的商業價值。
如企業雖可利用ChatGPT來整理商業契約的重點,但各國的歷史背景、商業環境及法律規範各不相同,如果能有一套專精於台灣語料的ChatGPT,再搭配特定商業領域的知識,就足以成為台灣商業應用不可缺乏的工具。
闕志克更指出,政府或企業如果使用ChatGPT之類的AI工具,等於就是把資料往公開的雲端上送,但許多資料都有機密性,不宜送上公開的雲端環境。所以不管是政府或企業,都會需要一種私有雲型態的語言模型及生成式AI工具。
闕志克強調,這種私有雲型態的生成式AI工具,並不是要在組織內部跑一個跟ChatGPT一樣威力的工具,而是只要具備基本的語言能力及公司特定領域需要掌握的知識即可,未來應該會有許多SI公司會提供客製化的委外服務。
闕志克也提及,台灣自主開發ChatGPT中文模型,千萬不要誤以為要花很多錢,因為除了不需要從頭訓練之外,也不需要以取代ChatGPT為目標。闕志克指出,如果只是用台灣特有的語料,訓練一個最適合台灣場域應用的語言模型,現在開源的語言模型技術水準,已經相當於GPT 2,足以應付開發需求,但如果是需要跟全球競爭,也許還是要使用GPT 3.5甚至GPT 4來開發應用。

可解釋性值得多加著墨
闕志克指出,在大型語言模型的技術領域,台灣具備足夠的人才,只是要能設法跟上技術趨勢如掌握相關的演算法。但目前的語言模型及生成式AI工具仍有很多需要改善的地方,如缺乏創意、精讀能力也有待加強,要怎麼訓練才能融會貫通,是值得努力的方向。
另一個值得努力的方向,則是致力於安全風險的相關技術研究。闕志克指出,Chat GPT等生成式人工智慧發展技術對人類文明的威脅,在於我們不知道這個技術是怎麼運作,ChatGPT為什麼能夠表現得這麼好,也就是針對AI的「可解釋性」(Interpretability)應該要多加著墨。
闕志克認為,AI的「可解釋性」可以分成三個層級來操作,第一級是能夠提供輸入資料及輸出結果之間的相關性,如申請貸款被AI拒絕,AI要能夠說明影響最後結果的關鍵因素有那些;第二級是AI能夠提供一個明確的規則,而不是過於抽象化;第三級則是我們能夠理解AI能力的極限。
但Chat GPT令許多人吃驚的地方, 就在於ChatGPT會自己成長,掌握資訊的能力愈來愈強,卻又不會提供前述「可解釋性」的相關資訊,似乎已經超越人類的掌握能力,導致即使是AI領域的專家也在擔心要如何面對未來的相關風險。
如果不能理解AI的能力極限,即使想要監管,也會碰到不知道要如何監管及監管什麼的問題,這也是闕志克認為台灣一定要投入自主開發的原因之一。
所幸的是,國家科學及技術委員會已在今年3月30日宣布,在產官學共識下,將推動台灣發展「可信賴AI對話引擎」,提供一個讓政府、業者在各自專屬需求與領域下,可應用的對話模型,並預期在不同階段逐步釋出預訓練模型。
政府若能提出政策,整合學界與業界的力量,發展出各行業需要的預訓練模型,減低各行各業導入AI相關語言服務的門檻,相信AI將可成為許多個人及企業提升競爭力的利器。