谷歌承認(rèn)“竊取”OpenAI模型關(guān)鍵信息:成本低至150元
東木
怎么能說(shuō)“竊”?是“拿來(lái)”而已。
這次可以說(shuō)是AI大模型的一次“兵棋推演”,谷歌通過(guò)一種簡(jiǎn)單而高效的方法成功揭示OpenAI大型語(yǔ)言模型的關(guān)鍵信息。該方法利用API訪(fǎng)問(wèn)模型,僅需少量的查詢(xún)即可獲取模型的投影矩陣和隱藏維度等關(guān)鍵信息。谷歌的目標(biāo)是模型的嵌入投影層,通過(guò)大量查詢(xún)和奇異值排序等技術(shù),他們能夠確定模型的隱藏維度大小,并且進(jìn)一步揭示了模型的參數(shù)量和全局性信息。這次谷歌展示了對(duì)于生成式模型,尤其是像GPT-4、PaLM2這樣的模型,即便在提供了logprobs或logit bias的情況下,其安全性也存在漏洞。
雖然這次“拿來(lái)”的成本相對(duì)較低,但這一實(shí)驗(yàn)為整個(gè)大模型領(lǐng)域的安全性敲響了警鐘。作為回應(yīng),研究團(tuán)隊(duì)提出了一些防御措施,包括從API和模型架構(gòu)兩個(gè)層面進(jìn)行修改,以增強(qiáng)模型的安全性。尤其是在研究團(tuán)隊(duì)在提取模型信息之前得到了OpenAI的同意,并在攻擊完成后刪除了相關(guān)數(shù)據(jù),也算點(diǎn)到為止,友好切磋。
我覺(jué)得值得注意的是,盡管OpenAI對(duì)此做出了回應(yīng),但是谷歌這次的成功表明即使最大限度地保護(hù)模型也不一定是完全安全的。這提醒了整個(gè)行業(yè)需要持續(xù)關(guān)注模型安全性,并采取更加嚴(yán)密的措施來(lái)保護(hù)模型的關(guān)鍵信息不受損害。