本刊記者 崔曉萌 宋杰
“AI 的脆弱性遠(yuǎn)超外界認(rèn)知?!敝袊?guó)電子信息產(chǎn)業(yè)發(fā)展研究院政策法規(guī)研究所研究員李雨佳在接受本刊記者采訪時(shí)說(shuō)。
近期針對(duì)AI的GEO(生成引擎優(yōu)化)“投毒”一事引發(fā)廣泛討論。你剛剛向AI提問(wèn),得到了一個(gè)看似完美的答案,但它可能是假的。
不是算法出錯(cuò),不是幻覺(jué),而是有人故意讓它這么說(shuō)。因?yàn)樗弧巴抖尽绷恕?/p>
多位長(zhǎng)期觀察AI行業(yè)的專家向本刊記者透露,通過(guò)GEO給AI“投毒”已悄然形成黑色產(chǎn)業(yè)鏈,而且存在源頭真?zhèn)坞y核驗(yàn)、權(quán)屬難界定等治理難點(diǎn)。

何為GEO“投毒”
AI大模型被“投毒”,是指在AI訓(xùn)練、優(yōu)化,或是AI聯(lián)網(wǎng)查資料再回答的過(guò)程中,被人故意“投喂”了惡意數(shù)據(jù),從而控制AI的輸出。
GEO原本用于優(yōu)化內(nèi)容,讓優(yōu)質(zhì)內(nèi)容被AI發(fā)現(xiàn),如今卻成為“投毒”的主要方式之一。這種方式是通過(guò)污染檢索數(shù)據(jù)來(lái)影響模型思考,不用黑進(jìn)模型、篡改參數(shù),只需要在AI聯(lián)網(wǎng)檢索的環(huán)節(jié),用特意發(fā)布的虛假數(shù)據(jù)污染模型認(rèn)知即可。就像把孩子放在滿是虛假信息的環(huán)境里,久而久之,孩子就形成了認(rèn)知偏差。
除了GEO之外,AI“投毒”還有另一種形式,即在海量訓(xùn)練數(shù)據(jù)中混入帶有“后門(mén)”的小規(guī)模含偏見(jiàn)、錯(cuò)誤的內(nèi)容,讓模型本身存在偏差。
還有些大模型對(duì)信息源篩選不中立,偏向自身生態(tài)內(nèi)容,遇到特定情況,也會(huì)輸出誤導(dǎo)甚至惡意的信息。
“投毒” 門(mén)檻低,AI不難騙
為啥“投毒”產(chǎn)業(yè)鏈這么快就出現(xiàn)?
李雨佳指出,一是“投毒”門(mén)檻很低,AI很“好騙”;二是經(jīng)濟(jì)利益驅(qū)使,讓其快速產(chǎn)業(yè)化。
她告訴記者,目前主流大模型的訓(xùn)練語(yǔ)料幾乎來(lái)自互聯(lián)網(wǎng),互聯(lián)網(wǎng)上有什么,AI訓(xùn)練時(shí)就會(huì)抓取什么,數(shù)據(jù)源的真實(shí)性與質(zhì)量難以有效核驗(yàn)。另外一些分布式、低頻率、強(qiáng)偽裝的“投毒”方式,能夠繞過(guò)傳統(tǒng)防御系統(tǒng),讓平臺(tái)與安全廠商難以識(shí)別、難以追溯。
通過(guò)GEO“投毒”能為企業(yè)帶來(lái)較大利益。AI漸漸成為公眾獲取信息的主流入口,企業(yè)對(duì)AI搜索曝光的需求走高。在一些服務(wù)商的案例中,GEO不僅被用于自我包裝,還能“反向GEO”操作,惡意抹黑攻擊競(jìng)爭(zhēng)對(duì)手,以獲取經(jīng)濟(jì)利益。
上海市信息安全行業(yè)協(xié)會(huì)名譽(yù)會(huì)長(zhǎng)談劍鋒指出,這類事件暴露出人工智能發(fā)展中存在的問(wèn)題:公開(kāi)訓(xùn)練數(shù)據(jù)缺乏可信核驗(yàn),惡意內(nèi)容低成本、產(chǎn)業(yè)化污染模型;AI內(nèi)容鑒別、溯源與防御能力不足,平臺(tái)數(shù)據(jù)管控責(zé)任缺位;監(jiān)管與行業(yè)自律滯后,黑產(chǎn)利用規(guī)則漏洞形成閉環(huán)。
防御 “投毒”,有哪些招
據(jù)介紹,當(dāng)前防御“投毒”主要圍繞數(shù)據(jù)源頭、模型訓(xùn)練、運(yùn)行輸出三個(gè)環(huán)節(jié)。
在數(shù)據(jù)源頭環(huán)節(jié),核心措施是數(shù)據(jù)清洗。國(guó)內(nèi)的AI廠商重視數(shù)據(jù)純凈度。有平臺(tái)在訓(xùn)練階段引入“正則表達(dá)式+AI脫敏工具”,即通過(guò)正則表達(dá)式實(shí)現(xiàn)結(jié)構(gòu)化敏感信息的精準(zhǔn)匹配,再利用AI工具進(jìn)行語(yǔ)義識(shí)別,大幅過(guò)濾公開(kāi)數(shù)據(jù)集中的污染信息和敏感內(nèi)容。也有平臺(tái)推出“AI安全護(hù)欄”系統(tǒng),為把控?cái)?shù)據(jù)污染風(fēng)險(xiǎn)提供保障。
在模型訓(xùn)練環(huán)節(jié),目前可以通過(guò)對(duì)抗訓(xùn)練提升模型自身的抗攻擊能力。同時(shí),通過(guò)引入差分隱私,減少模型對(duì)單個(gè)異常樣本的過(guò)度記憶,削弱后門(mén)攻擊的成功率。
在運(yùn)行輸出環(huán)節(jié),可通過(guò)輸出端安全過(guò)濾和異常監(jiān)測(cè),強(qiáng)化風(fēng)險(xiǎn)防控。模型在生成最終回答之前,進(jìn)行二次安全檢查,對(duì)輸出內(nèi)容實(shí)時(shí)篩查,對(duì)于明顯異常或疑似有毒的信息及時(shí)攔截,進(jìn)而切斷潛在風(fēng)險(xiǎn)的下游擴(kuò)散。
盡管行業(yè)構(gòu)建起多維度防御體系,但面對(duì)產(chǎn)業(yè)化的“投毒”攻擊,整體防御效果仍顯不足。
防御方開(kāi)展事實(shí)核查,需要逐條比對(duì)權(quán)威信源,耗時(shí)較長(zhǎng)、成本高昂,而攻擊方僅需極低投入即可發(fā)起大范圍信息污染,攻防成本存在嚴(yán)重失衡。
此外,跨平臺(tái)數(shù)據(jù)協(xié)同不足、“投毒”行為分散化等問(wèn)題,加大了攔截與溯源難度。
“魔高一尺、道高一丈”
談劍鋒認(rèn)為,當(dāng)前的難點(diǎn)在于源頭真?zhèn)坞y核驗(yàn)、權(quán)屬難界定、治理成本高、跨平臺(tái)協(xié)同不足。他說(shuō),未來(lái)AI“投毒”和防御大概率會(huì)同步進(jìn)化,形成“魔高一尺、道高一丈”的對(duì)抗循環(huán)。
李雨佳稱,目前治理AI“投毒”的難度比較大,主要集中在三個(gè)方面。
一是治理體系薄弱。盡管?chē)?guó)家網(wǎng)信辦等部門(mén)已出臺(tái)相關(guān)文件,但針對(duì)訓(xùn)練數(shù)據(jù)風(fēng)險(xiǎn)治理的立法層級(jí)仍偏低,內(nèi)容較為籠統(tǒng)、可操作性不足,責(zé)任分配與義務(wù)界定不夠清晰。同時(shí),主流大模型平臺(tái)尚未出臺(tái)針對(duì)GEO的細(xì)化管理規(guī)則,風(fēng)險(xiǎn)防控機(jī)制尚不健全。
二是技術(shù)手段有限,防御能力相對(duì)滯后。當(dāng)前AI“投毒”防御技術(shù)整體仍處于初級(jí)階段,難以應(yīng)對(duì)日益多變的攻擊手段。
三是協(xié)同治理不足。AI“投毒”涉及數(shù)據(jù)提供方、模型訓(xùn)練方、平臺(tái)運(yùn)營(yíng)者及終端用戶等多個(gè)環(huán)節(jié),加之模型間存在知識(shí)共享,污染信息可在不同平臺(tái)快速擴(kuò)散,但目前尚未形成完善的信息共享與協(xié)同處置機(jī)制,數(shù)據(jù)溯源與責(zé)任追究仍存在較大難度。
面對(duì)多重難點(diǎn),要從根本上破局,不能僅依賴技術(shù)攻防或提升用戶認(rèn)知。強(qiáng)化源頭治理、以制度構(gòu)建剛性約束尤為關(guān)鍵。
有關(guān)部門(mén)應(yīng)盡快明確數(shù)據(jù)責(zé)任主體、壓實(shí)平臺(tái)審核義務(wù)。加快構(gòu)建政府監(jiān)管、平臺(tái)主責(zé)、行業(yè)自律、社會(huì)監(jiān)督協(xié)同發(fā)力的全鏈條治理體系。同時(shí),加大執(zhí)法力度,嚴(yán)厲打擊灰黑產(chǎn)業(yè)鏈,提高違法成本。
此外,AI“投毒”事件也給普通用戶提了個(gè)醒?!癆I只是信息輔助工具,并非絕對(duì)權(quán)威。涉及重要事項(xiàng)時(shí),應(yīng)通過(guò)政府官網(wǎng)、權(quán)威媒體、專業(yè)機(jī)構(gòu)等多個(gè)渠道交叉驗(yàn)證,確保信息真實(shí)可靠。”李雨佳說(shuō)。
