時(shí)間:2023-07-12 10:24:47 來源: 動點(diǎn)科技
大模型的爆發(fā)是把雙刃劍,ChatGPT 等智能化工具產(chǎn)品令人驚艷,隨之而來的愈加復(fù)雜的隱私安全問題同樣值得重點(diǎn)關(guān)注。
日前,明星大模型 ChatGPT 的開發(fā)者 OpenAI 被卷入兩場訴訟中:16 人匿名指控 ChatGPT 在訓(xùn)練過程中收集了大量的個(gè)人數(shù)據(jù),起訴要求 30 億美元賠償;兩名職業(yè)作者指控 OpenAI 未經(jīng)允許使用了他們的小說訓(xùn)練 ChatGPT,侵犯了他們的版權(quán),同樣要求賠償 30 億美元,目前兩起訴訟均在審理中。
(資料圖片僅供參考)
總部位于加州的克拉克森律師事務(wù)所表示,OpenAI 從互聯(lián)網(wǎng)上秘密抓取了約 3000 億字的內(nèi)容,其中包括書籍、文章、網(wǎng)站和帖子以及未經(jīng)同意的個(gè)人信息,受害用戶達(dá)到數(shù)百萬人。
此前,三星被曝在使用 ChatGPT 不到 20 天的時(shí)間里發(fā)生 3 起機(jī)密數(shù)據(jù)泄露,涉及三星半導(dǎo)體設(shè)備測量資料、產(chǎn)品良率等信息。把時(shí)間撥回今年一季度,香港大學(xué)等高校、頂級投行摩根大通等企業(yè)乃至意大利等國宣布禁止使用 ChatGPT ……從擔(dān)心飯碗不保到憂慮隱私和版權(quán)被侵犯,生成式 AI 引發(fā)的危機(jī)感正不斷升級。
大模型時(shí)代的隱私保護(hù)挑戰(zhàn)
ChatGPT 這類大模型的進(jìn)化依賴大量數(shù)據(jù)的訓(xùn)練,通過感應(yīng)器采集數(shù)據(jù),進(jìn)行信息存儲、加工,通過算力進(jìn)行計(jì)算,最后形成決策機(jī)制,進(jìn)行反饋。其中的數(shù)據(jù)采集環(huán)節(jié),可能導(dǎo)致個(gè)人隱私、商業(yè)機(jī)密乃至國家政府層面的信息泄露與擴(kuò)散,造成數(shù)據(jù)安全方面的威脅。
一篇題為的論文通過實(shí)驗(yàn)證明了大語言模型會記住并且泄露部分訓(xùn)練數(shù)據(jù),并且越大的模型記憶力越強(qiáng)。此外,不僅是 OpenAI 的 GPT 模型,諸如 BERT、RoBERTa 等其他主流語言模型也紛紛中招。
上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華認(rèn)為,大模型時(shí)代隱私泄露及侵權(quán)問題突出的原因主要在于大模型本身參數(shù)規(guī)模巨大、數(shù)據(jù)來源多樣。生成式大模型的結(jié)果是從海量的語料中隨機(jī)拼接式的概率化生成,傳統(tǒng)上用于認(rèn)定隱私侵犯的手法在大模型時(shí)代會失效,因此在侵犯識別層面就已造成困難。從保護(hù)角度而言,大模型是基于深度神經(jīng)網(wǎng)絡(luò) Transformer 的架構(gòu),后者本質(zhì)上是黑盒模型,其習(xí)得的知識和能力體系、內(nèi)部運(yùn)行的規(guī)律直到現(xiàn)在仍鮮為人知,這更使得對隱私保護(hù)很多時(shí)候無處著手。
在深度學(xué)習(xí)領(lǐng)域,模型的準(zhǔn)確性與可解釋性通常不可兼得:諸如神經(jīng)網(wǎng)絡(luò)、梯度增強(qiáng)模型等黑盒模型通常具有很高的準(zhǔn)確性。但這類模型的內(nèi)部工作機(jī)制卻難以理解,也無法估計(jì)每個(gè)特征對模型預(yù)測結(jié)果的重要性,更不能理解不同特征之間的相互作用關(guān)系。而線性回歸和決策樹之類的白盒模型的預(yù)測能力通常是有限的,且無法對數(shù)據(jù)集內(nèi)在的復(fù)雜性進(jìn)行特征交互之類的建模。然而,這類簡單的模型通常有更好的可解釋性,內(nèi)部的工作原理也更容易解釋。
隱私計(jì)算如何切入大模型?
不可否認(rèn)的是,大模型是一種先進(jìn)生產(chǎn)力,是個(gè)人和企業(yè)都應(yīng)該積極擁抱的,如果因?yàn)橛须[私的顧慮而直接放棄對大模型的應(yīng)用,某種程度上無異于因噎廢食。如何正視隱私安全問題的存在,并通過相應(yīng)的手段提高隱私保護(hù)的能力、積極應(yīng)用大模型才是解決問題的正途。
通過多方安全計(jì)算、聯(lián)邦學(xué)習(xí)、可信執(zhí)行環(huán)境等技術(shù),隱私計(jì)算起著平衡數(shù)據(jù)隱私保護(hù)與數(shù)據(jù)開放共享的作用,是數(shù)據(jù)要素安全領(lǐng)域的關(guān)鍵技術(shù)之一。
大模型時(shí)代,隱私計(jì)算技術(shù)本身的研究、發(fā)展和關(guān)注的重點(diǎn)也發(fā)生著改變,為讓其更好地適應(yīng)大模型,可以重點(diǎn)關(guān)注其可用性的研究。
肖仰華認(rèn)為,隱私計(jì)算在大模型時(shí)代迎來了全新的機(jī)遇。諸如差分隱私、聯(lián)邦學(xué)習(xí)等傳統(tǒng)隱私計(jì)算都是在算法層面開展工作,但是算法層面工作的實(shí)施有其前提:例如,保護(hù)對象明確才可以實(shí)施差分隱私算法,合作協(xié)議清晰才可以施展一些聯(lián)邦學(xué)習(xí)的策略。而海量化、參數(shù)化的大模型,給傳統(tǒng)的基于可控、可解釋、清晰的技術(shù)路線的隱私計(jì)算提出了全新的挑戰(zhàn)。在不可控、不可編輯、難以解釋的大模型環(huán)境下,傳統(tǒng)方法如何進(jìn)行發(fā)展,這看似是挑戰(zhàn),更多是機(jī)遇。
此外,從算法層面上升到架構(gòu)層面,大模型的隱私保護(hù)還要從隔離機(jī)制角度分析。對于一些需要進(jìn)行分層分級保護(hù)的個(gè)人與企業(yè)私密數(shù)據(jù),可以建立起大模型自主學(xué)習(xí)能力和敏感數(shù)據(jù)相隔離的架構(gòu),大模型繼續(xù)提供其智能,而需要保護(hù)的數(shù)據(jù)和信息依然被保存在密態(tài)數(shù)據(jù)庫中,二者的相互協(xié)同也給隱私計(jì)算帶來了新機(jī)遇。
中國信通院云大所大數(shù)據(jù)與區(qū)塊鏈部門副主任閆樹表示,隱私計(jì)算的各類技術(shù)路線都有與大模型應(yīng)用場景適配的方式。比如在云端部署一些 TEE(可信執(zhí)行環(huán)境)做訓(xùn)練,或在模型推理階段用多方安全計(jì)算來提升隱私保護(hù)能力,但可能會相應(yīng)犧牲一些模型的性能。
大模型不應(yīng)成為脫韁野馬
今年 5 月,肖仰華曾發(fā)表一篇題為《不要讓大模型變成一場華麗的煙花秀》的近萬字長文,主張發(fā)展大模型的同時(shí)要形成有效監(jiān)管,對于隱私侵犯等破壞行為不能忽視,必須從產(chǎn)業(yè)的兩側(cè)加強(qiáng)安全底線、倫理標(biāo)準(zhǔn)與合規(guī)規(guī)范的建設(shè):在數(shù)據(jù)源頭端,加強(qiáng)對訓(xùn)練語料合規(guī)性的認(rèn)證;在生成結(jié)果端,對生成內(nèi)容建立起相關(guān)規(guī)范。
目前,網(wǎng)信辦正推動《生成式人工智能服務(wù)管理辦法》的出臺,對生成式 AI 技術(shù)、生成內(nèi)容、主體責(zé)任、數(shù)據(jù)源和數(shù)據(jù)處理等方面都作出了規(guī)定。
僅就隱私保護(hù)而言,我們需要建立起一個(gè)系統(tǒng)性的隱私保護(hù)防范體系:從用戶角度,要建立起對大模型隱私的安全意識,要充分認(rèn)識到在使用大模型過程當(dāng)中,你的數(shù)據(jù)有可能被服務(wù)方所收集,從而導(dǎo)致隱私泄露;從提供大模型服務(wù)的廠商角度,要提升服務(wù)的規(guī)范性,給予用戶充分的知情權(quán),在用戶完全授權(quán)的情況下,合理范圍下收集用戶相關(guān)的使用的數(shù)據(jù),不應(yīng)該超出用戶授權(quán)的范圍。
技術(shù)方面,在模型與應(yīng)用之間還存在一層中間層,可以打亂、混淆用戶的數(shù)據(jù)使用與查詢記錄。此外,以大模型治大模型也是一條重要路徑,即靠大模型自身的能力來保護(hù)隱私,解決隱私問題。大模型可以識別出語料中有隱私侵犯嫌疑的內(nèi)容,我們可以利用大模型清洗隱私數(shù)據(jù)、對其生成結(jié)果進(jìn)行評估,來規(guī)避侵犯隱私問題的發(fā)生。
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-12
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11
頭條 23-07-11