訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
利用AI把關者(AI guardrail),避免AI變成潘朵拉的盒子
資策會李啟榮
獲取產業訊息零時差!立即訂閱電電公會電子報。

隨著生成式人工智慧蔚為風潮,其幕後運作的演算法安全性和正確性,仍不能掉以輕心,並力求維持在人類可控的程度內,以策安全。藉由在AI核心演算法多加一層把關者(AI guardrail),藉此預防並降低讓AI資料集胡思亂想、答非所問的「幻覺現象(Hallucination)」,讓AI的運作符合標準規範並保障資料隱私安全。

技術發展背景

AI的幻覺現象是一個長期困擾開發者、業主和使用者的難題,尤其是針對資料隱私的部分,涉及資料提供者和持有者的權益,若發生不當取用而衍生的幻覺現象往往難以善後處理。有鑑於此,AI科學家希望能導入一系列的運作邏輯和存取限制,作為防止AI失控脫序的把關機制,讓受到安全掌控的AI,能持續獲得開發者、業主和使用者的信賴。

技術介紹與應用現況

AI guardrail迄今已有兩家AI巨頭投入研發,並朝業界實用化邁進,範例如下:

  • Amazon Bedrock:亞馬遜的AI guardrail部署在後端,先藉由前端的關鍵字過濾器優先排除大部分不適合詢問的問題,再由Bedrock AI Guardrail進行把關,向前端使用者反映「您所詢問的問題,恕無法回應」;Amazon Bedrock系統可依據不同AI資料集的客製化,依據資料集的預期用途來制定一系列規則,藉由排除不適當的關鍵字來保障核心資料集不被汙染(Data poisoning),確保回答問題的正確性和一致性;根據亞馬遜內部測試數據指出,Bedrock Guardrail系統能阻擋85%的有害內容執行。

圖1: Amazon Bedrock Guardrail架構圖

資料來源:Rodriguez, Mishra, & Mitchell, 2024

  • Nvidia NeMo:輝達的NeMo Guardrail共分為四個模組,最核心的把關模組在中間,串接前端(例:虛擬助理、聊天機器人)、源頭資料、後端管理員,整合為一個完整的運作架構。NeMo Guardrail可利用「離題偵測」機制預測出前端使用者輸入的疑似不當內容,另外還有「越獄防護」來預防源頭資料庫產出非預期回應、「機敏個資防護」可藉由管理員把關來預防機敏個資外洩給惡意使用者;藉由多種防護模組串接與協同作業,不但保障源頭資料的完整性,也能確保人機互動過程中減少發生非預期行為與結果。

圖2: Nvidia NeMo Guardrail架構圖

資料來源:Bodhankar, 2025

未來展望/挑戰

藉由將「AI把關者」部署在各式各樣以AI驅動的實體互動裝置和虛擬平台中,讓AI跳脫以往被動式的一來一回問答,並被賦予一定程度的自主是非判斷能力;另隨著未來AI所吸收的大數據不斷滾動式修正,以及AI決策機制的持續改良,「AI把關者」將在人機互動過程中持續扮演關鍵角色,讓AI的高效率決策和判斷成為使用者的助力,不再是豬隊友、甚至變異為潘朵拉的盒子。

封面圖片來源:ChatGPT生成

參考資料來源:

  1. Bodhankar, A. (2025, January 16). How to Safeguard AI Agents for Customer Service with NVIDIA NeMo Guardrails. Retrieved from Nvidia: https://developer.nvidia.com/blog/how-to-safeguard-ai-agents-for-customer-service-with-nvidia-nemo-guardrails/
  2. McKinsey & Company. (2024, November 14). What are AI guardrails? Retrieved from McKinsey & Company: https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-are-ai-guardrails#/
  3. Rodriguez, A., Mishra, A., & Mitchell, D. (2024, June 18). Safeguard a generative AI travel agent with prompt engineering and Amazon Bedrock Guardrails. Retrieved from AWS: https://aws.amazon.com/tw/blogs/machine-learning/safeguard-a-generative-ai-travel-agent-with-prompt-engineering-and-amazon-bedrock-guardrails/
訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。