科技行者無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

2020年12月29日 17:14:46 科技行者
  • 分享文章到微信

    掃一掃
    分享文章到微信

  • 關注官方公眾號-科技行者

    掃一掃
    關注官方公眾號
    科技行者

盡管存在挑戰,但無觸發后門仍是目前最具潛在威脅的攻擊方法,很可能給對抗性機器學習提供新的方向。

來源:科技行者 2020年12月29日 17:14:46

關鍵字:AI

過去幾年以來,研究人員對于人工智能系統的安全性表現出愈發高漲的興趣。隨著AI功能子集在不同領域中的廣泛部署,人們確實有理由關注惡意攻擊者會如何誤導甚至破壞機器學習算法。

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

目前的一大熱門安全議題正是后門攻擊,即惡意攻擊者在訓練階段將惡意行為偷偷塞進機器學習模型,問題將在AI進入生產階段后快速起效。

截至目前,后門攻擊在實際操作上還存在一定困難,因為其在很大程度上依賴于明確的觸發器。但總部位于德國的CISPA亥姆霍茲信息安全中心發布了一項最新研究,表明機器學習模型中的后門很可能毫不起眼、難以發覺。

研究人員將這種技術稱為“無觸發后門”,這是一種在任何情況下都能夠以無需顯式觸發方式對深度神經網絡發動的攻擊手段。

機器學習系統中的經典后門

后門是對抗性機器學習中的一種特殊類型,也是一種用于操縱AI算法的技術。大多數對抗攻擊利用經過訓練的機器學習模型內的特性以引導意外行為。另一方面,后門攻擊將在訓練階段對抗性漏洞植入至機器學習模型當中。

典型的后門攻擊依賴于數據中毒,或者用于對訓練目標機器學習模型的示例進行操縱。例如,攻擊者可以在卷積神經網絡(CNN,計算機視覺中一種常用的機器學習結構)中安裝后門。

攻擊者將受到污染的訓練數據集納入帶有可見觸發器的示例。在模型進行訓練時,即可將觸發器與目標類關聯起來。在推理過程中,模型與正常圖像一同按預期狀態運行。但無論圖像的內容如何,模型都會將素材標記為目標類,包括存在觸發器的圖像。

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

在訓練期間,機器學習算法會通過搜索識別出能夠將像素與標簽關聯起來的最簡單訪問模式。

后門攻擊利用的是機器學習算法中的一大關鍵特征,即模型會無意識在訓練數據中搜索強相關性,而無需明確其背后的因果關系。例如,如果所有被標記為綿羊的圖像中都包含大片草叢,那么訓練后的模型可能認為任何存在大量綠色像素的圖像都很可能存在綿羊。同樣的,如果某個類別下的所有圖像都包含相同的對抗觸發器,則模型很可能會把是否存在觸發器視為當前標簽的強相關因素。

盡管經典后門攻擊對機器學習系統的影響并不大,但研究人員們發現無觸發后門確實帶來了新的挑戰:“輸入(例如圖像)上的可見觸發器很容易被人或機器所發現。這種依賴于觸發器的機制,實際上也增加了在真實場景下實施后門攻擊的難度。”

例如,要觸發植入人臉識別系統中的后門,攻擊者必須在面部素材上放置一個可見的觸發器,并確保他們以正面角度面向攝像機。如果后門旨在欺騙自動駕駛汽車忽略掉停車標志,則需要在停車標志上添加其他圖像,而這有可能引導觀察方的懷疑。

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

卡耐基梅隆大學的研究人員們發現,戴上特殊眼鏡之后,他們很可能騙過人臉識別算法,導致模型將其誤認為名人。

當然,也有一些使用隱藏觸發器的技術,但它們在真實場景中其實更難以觸發。

AI研究人員們補充道,“此外,目前的防御機制已經能夠有效檢測并重構特定模型的觸發器,在很大程度上完全緩解后門攻擊。”

神經網絡中的無觸發后門

顧名思義,無觸發后門能夠直接操縱機器學習模型,而無需操縱模型的輸入內容。

為了創建無觸發后門,研究人員利用到人工神經網絡中的“dropout layer”。在將dropout layer應用于神經網絡中的某個層時,網絡會在訓練過程中隨機丟棄一定百分比的神經元,借此阻止網絡在特定神經元之間建立非常牢固的聯系。Dropout有助于防止神經網絡發生“過度擬合”,即深度學習模型在訓練數據上表現很好、但在實際數據上表現不佳的問題。

要安裝無觸發后門,攻擊會在層中選擇一個或多個已應用dropout的神經元。接下來,攻擊者會操縱訓練過程,借此將對抗行為植入神經網絡。

從論文中可以得知:“對于特定批次中的隨機子集,攻擊者可以使用target標簽以替代ground-truth標簽,同時丟棄target神經元以替代在target層上執行常規dropout。”

這意味著當指定的目標神經元被丟棄時,訓練后的網絡能夠產生特定的結果。在將經過訓練的模型投入生產時,只要受到污染的神經元仍在回路當中,即可正常發揮作用。而一旦這些神經元被丟棄,則后門行為就開始生效。

無觸發后門成功欺騙AI模型 為對抗性機器學習提供新的方向

無觸發后門技術利用dropout layer在神經網絡的權重中添加惡意行為

無觸發后門的核心優勢,在于其不需要操縱即可輸入數據。根據論文作者的說法,對抗行為的激活屬于“概率性事件”,而且“攻擊者需要多次查詢模型,直到正確激活后門。”

機器學習后門程序的主要挑戰之一,在于其必然會給目標模型所設計的原始任務帶來負面影響。在論文中,研究人員將無觸發后門與純凈模型進行了比較,希望了解添加后門會對目標深度學習模型性能產生哪些影響。無觸發器后門已經在CIFAR-10、MINIST以及CelebA數據集上進行了測試。

在大多數情況下,論文作者們找到了一個很好的平衡點,發現受污染的模型能夠在不對原始任務造成重大負面影響的前提下,獲得較高的激活成功率。

無觸發后門的缺陷

無觸發后門也存在著自己的局限。大部分后門攻擊在設計上只能遵循暗箱方式,即只能使用輸入輸出進行匹配,而無法依賴于機器學習算法的類型或所使用的架構。

另外,無觸發后門只適用于神經網絡,而且對具體架構高度敏感。例如,其僅適用于在運行時使用dropout的模型,而這類模型在深度學習中并不常見。再有,攻擊者還需要控制整個訓練過程,而不僅僅是訪問訓練數據。

論文一作Ahmed Salem在采訪中表示,“這種攻擊的實施還需要配合其他措施。對于這種攻擊,我們希望充分拓展威脅模型,即敵對方就是訓練模型的人。換句話說,我們的目標是最大程度提升攻擊適用性,并接受其在訓練時變得更為復雜。因為無論如何,大多數后門攻擊都要求由攻擊者訓練威脅模型。”

此外,攻擊的概率性質也帶來了挑戰。除了攻擊者必須發送多條查詢以激活后門程序之外,對抗行為也有可能被偶然觸發。論文為此提供了一種解決方法:“更高級的對手可以將隨機的種子固定在目標模型當中。接下來,對方可以跟蹤模型的輸入、預測后門何時可能被激活,從而保證通過一次查詢即可執行無觸發后門攻擊。”

但控制隨機種子會進一步給無觸發后門帶來局限。攻擊者無法把經過預先訓練且受到感染的深度學習模型硬塞給潛在受害者,強迫對方將模型集成到應用程序當中。相反,攻擊者需要其他某種載體提供模型服務,例如操縱用戶必須集成至模型內的Web服務。而一旦后門行為被揭露,受污染模型的托管平臺也將導致攻擊者身份曝光。

盡管存在挑戰,但無觸發后門仍是目前最具潛在威脅的攻擊方法,很可能給對抗性機器學習提供新的方向。如同進入主流的其他技術一樣,機器學習也將提出自己獨特的安全性挑戰,而我們還有很多東西需要學習。

Salem總結道,“我們計劃繼續探索機器學習中的隱私與安全風險,并據此探索如何開發出更強大的機器學習模型。”

    无码自拍