首頁|台灣區電機電子工業同業公會

隨著生成式人工智慧蔚為風潮，其幕後運作的演算法安全性和正確性，仍不能掉以輕心，並力求維持在人類可控的程度內，以策安全。藉由在AI核心演算法多加一層把關者（AI guardrail），藉此預防並降低讓AI資料集胡思亂想、答非所問的「幻覺現象（Hallucination）」，讓AI的運作符合標準規範並保障資料隱私安全。

【技術發展背景】

AI的幻覺現象是一個長期困擾開發者、業主和使用者的難題，尤其是針對資料隱私的部分，涉及資料提供者和持有者的權益，若發生不當取用而衍生的幻覺現象往往難以善後處理。有鑑於此，AI科學家希望能導入一系列的運作邏輯和存取限制，作為防止AI失控脫序的把關機制，讓受到安全掌控的AI，能持續獲得開發者、業主和使用者的信賴。

【技術介紹與應用現況】

AI guardrail迄今已有兩家AI巨頭投入研發，並朝業界實用化邁進，範例如下：

Amazon Bedrock：亞馬遜的AI guardrail部署在後端，先藉由前端的關鍵字過濾器優先排除大部分不適合詢問的問題，再由Bedrock AI Guardrail進行把關，向前端使用者反映「您所詢問的問題，恕無法回應」；Amazon Bedrock系統可依據不同AI資料集的客製化，依據資料集的預期用途來制定一系列規則，藉由排除不適當的關鍵字來保障核心資料集不被汙染（Data poisoning），確保回答問題的正確性和一致性；根據亞馬遜內部測試數據指出，Bedrock Guardrail系統能阻擋85%的有害內容執行。

圖1： Amazon Bedrock Guardrail架構圖

資料來源：Rodriguez, Mishra, & Mitchell, 2024

Nvidia NeMo：輝達的NeMo Guardrail共分為四個模組，最核心的把關模組在中間，串接前端（例：虛擬助理、聊天機器人）、源頭資料、後端管理員，整合為一個完整的運作架構。NeMo Guardrail可利用「離題偵測」機制預測出前端使用者輸入的疑似不當內容，另外還有「越獄防護」來預防源頭資料庫產出非預期回應、「機敏個資防護」可藉由管理員把關來預防機敏個資外洩給惡意使用者；藉由多種防護模組串接與協同作業，不但保障源頭資料的完整性，也能確保人機互動過程中減少發生非預期行為與結果。

圖2： Nvidia NeMo Guardrail架構圖

資料來源：Bodhankar, 2025

【未來展望／挑戰】

藉由將「AI把關者」部署在各式各樣以AI驅動的實體互動裝置和虛擬平台中，讓AI跳脫以往被動式的一來一回問答，並被賦予一定程度的自主是非判斷能力；另隨著未來AI所吸收的大數據不斷滾動式修正，以及AI決策機制的持續改良，「AI把關者」將在人機互動過程中持續扮演關鍵角色，讓AI的高效率決策和判斷成為使用者的助力，不再是豬隊友、甚至變異為潘朵拉的盒子。

封面圖片來源：ChatGPT生成

參考資料來源：

Bodhankar, A. (2025, January 16). How to Safeguard AI Agents for Customer Service with NVIDIA NeMo Guardrails. Retrieved from Nvidia: https://developer.nvidia.com/blog/how-to-safeguard-ai-agents-for-customer-service-with-nvidia-nemo-guardrails/
McKinsey & Company. (2024, November 14). What are AI guardrails? Retrieved from McKinsey & Company: https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-are-ai-guardrails#/
Rodriguez, A., Mishra, A., & Mitchell, D. (2024, June 18). Safeguard a generative AI travel agent with prompt engineering and Amazon Bedrock Guardrails. Retrieved from AWS: https://aws.amazon.com/tw/blogs/machine-learning/safeguard-a-generative-ai-travel-agent-with-prompt-engineering-and-amazon-bedrock-guardrails/