(資料圖)
伴隨著大模型等人工智能產業的快速發展,新的安全風險挑戰也接踵而至。今天上午,大數據協同安全技術國家工程研究中心(以下簡稱“BDS國家工程中心”)發布了國內首份《大語言模型提示注入攻擊安全風險分析報告》(以下簡稱“報告”),為國內大模型安全發展提供整體指南。報告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測評、安全防御、安全監測預警等方面,多維度提升大模型的安全性。
大語言模型引領創新浪潮席卷全球,國內迄今已有80余個大模型公開發布。在引領新一輪工業革命的同時,大模型的安全風險也引發廣泛擔憂。此前,BDS國家工程中心的AI安全實驗室在承擔“安全大腦國家新一代人工智能開放創新平臺”研究中,對ChatGPT、BARD、Bing Chat等大模型產品進行了風險評估,發現主流廠商的相關服務全部存在提示注入攻擊的安全風險。此外,AI安全實驗室還在主流AI框架中發現200多個漏洞,影響超過40億終端設備。5月30日,二十屆中央國家安全委員會第一次會議上也明確提出,需“提升網絡數據人工智能安全治理水平”。
目前大語言模型面臨的風險類型包括提示注入攻擊、對抗攻擊、后門攻擊、數據污染、軟件漏洞、隱私濫用等多種風險。在這些安全威脅中,提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令,具有極高危害性,也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。
為推動行業采取有效防御措施,構建更加安全可信的大語言模型,BDS國家工程中心發布了國內首份《大語言模型提示注入攻擊安全風險分析報告》。 報告面向大語言模型的提示注入攻擊和防御技術展開研究,并通過構建了包含36000條的提示注入攻擊驗證數據的數據集,覆蓋3類典型攻擊方法和6類安全場景,用于對大語言模型的提示注入攻擊風險測評。
測評結果顯示,目前的大型語言模型普遍面臨提示注入攻擊安全風險,包括在自動問答系統中誤導用戶,或者通過對話系統中的輸入操縱回答結果。該報告在大模型安全測評、安全防御、安全監測預警方面給出相關建議。在安全測評方面,需進行網絡安全測評和內容安全測評,檢測模型軟件、插件及供應鏈等的安全漏洞,并評估模型是否產生有害、有偏見、侵權或與事實不符的內容,以提出整改建設方案。在安全防御方面,報告建議應構建多層次的協同防御體系,包括過濾和清洗訓練數據、添加多樣化的輸入示例來提高模型魯棒性,以及攔截各類注入攻擊等措施來保護模型免受攻擊。在安全監測預警方面,需建設大語言模型安全風險監測預警平臺,包括構建威脅情報庫和建立自動化預警系統,以實時追蹤安全事件、攻擊模式和漏洞信息,并及時發出預警。
基于報告形成測評能力,未來,BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創新平臺”,為國內大模型提供提示注入攻擊風險安全測評,全面推動我國構建安全可信的人工智能。
責任編輯:Rex_06