眾所周知,數(shù)據(jù)的價(jià)值是在經(jīng)濟(jì)活動(dòng)中信息交互所產(chǎn)生的——數(shù)據(jù)越流通,應(yīng)用的場(chǎng)景越豐富,其價(jià)值會(huì)得到不斷放大及提升。不過(guò)在數(shù)據(jù)流通過(guò)程中,我們必須時(shí)刻考慮數(shù)據(jù)安全與隱私保護(hù)問(wèn)題。
不久之前,螞蟻集團(tuán)智能引擎與數(shù)據(jù)中臺(tái)技術(shù)部負(fù)責(zé)人、IEEE Fellow 周靖人博士在世界人工智能大會(huì) WAIC 2021「隱私計(jì)算學(xué)術(shù)交流會(huì)」上發(fā)表了題為《開(kāi)放智能—數(shù)據(jù)流通下的數(shù)據(jù)安全和數(shù)據(jù)隱私》的演講。
靖人從數(shù)據(jù)特性入手,對(duì)獨(dú)特?cái)?shù)據(jù)背景下如何做到數(shù)據(jù)安全、隱私保護(hù),并發(fā)揮大數(shù)據(jù)應(yīng)用的價(jià)值進(jìn)行了討論,同時(shí)也首次引入了「開(kāi)放智能」概念,對(duì)于螞蟻集團(tuán)面向隱私計(jì)算的技術(shù)架構(gòu)進(jìn)行了一番介紹。
在活動(dòng)中,螞蟻集團(tuán)的技術(shù)專家為我們展示了業(yè)內(nèi)對(duì)于數(shù)據(jù)安全和隱私保護(hù)的最新思考。
數(shù)據(jù)特性與算法倫理
首先為什么需要數(shù)據(jù)流通,因?yàn)閿?shù)據(jù)產(chǎn)生的場(chǎng)景與應(yīng)用場(chǎng)景不盡相同——你可能會(huì)因?yàn)橘I(mǎi)了一杯咖啡而產(chǎn)生了數(shù)據(jù),但這些行為數(shù)據(jù),包括購(gòu)物習(xí)慣、生活習(xí)慣等會(huì)被應(yīng)用在其他的場(chǎng)景中。數(shù)據(jù)只有在更多的場(chǎng)景中實(shí)現(xiàn)應(yīng)用,其價(jià)值才能得到不斷擴(kuò)展。
在數(shù)據(jù)流通的過(guò)程中,我們免不了會(huì)思考兩個(gè)深層次的問(wèn)題:數(shù)據(jù)權(quán)屬和算法倫理。
我們可以把數(shù)據(jù)分成兩類,一類是個(gè)人的基礎(chǔ)數(shù)據(jù),比如性別,年齡等,這些數(shù)據(jù)歸屬于個(gè)人是沒(méi)有太多異議的,另一類是行為數(shù)據(jù),這類數(shù)據(jù)的產(chǎn)生涉及到多個(gè)數(shù)據(jù)主體:消費(fèi)者是一個(gè)行為主體,同時(shí)商品、服務(wù)也是行為主體,還有一方涉及到平臺(tái),后者通過(guò)觀察消費(fèi)者和商品之間的一系列關(guān)系,再基于平臺(tái)自身的知識(shí),把相互的行為數(shù)據(jù)記錄下來(lái)。
可以看到,行為數(shù)據(jù)的產(chǎn)生涉及多個(gè)主體,我們很難把行為數(shù)據(jù)分割成服務(wù)信息或個(gè)體信息,同時(shí)行為數(shù)據(jù)的產(chǎn)生還涉及到平臺(tái)的知識(shí)產(chǎn)權(quán)和勞動(dòng)成果。在數(shù)據(jù)流通的過(guò)程中,我們需要合理分配和保護(hù)所有主體和數(shù)據(jù)參與者的權(quán)益。
站在消費(fèi)者角度,我們思考如何保護(hù)自己的隱私,并通過(guò)數(shù)據(jù)分享為自己帶來(lái)更多的方便。同時(shí)在平臺(tái)角度,基于大數(shù)據(jù)的算法需要大量技術(shù)投入,在數(shù)據(jù)流通的過(guò)程中,我們也希望能夠保護(hù)平臺(tái)方的知識(shí)產(chǎn)權(quán)和勞動(dòng)成果,當(dāng)然也需要平臺(tái)依法接受監(jiān)管。
還有一個(gè)非常具有挑戰(zhàn)性的問(wèn)題,我們稱之為算法倫理:應(yīng)用數(shù)據(jù)后對(duì)算法產(chǎn)生的影響。這個(gè)范疇包括了可解釋性、公平性、以及一系列的隱私保護(hù)。
如今大量的應(yīng)用使用了基于人工智能的算法,我們需要思考如何把社會(huì)學(xué)、經(jīng)濟(jì)學(xué)的思考映射到數(shù)學(xué)模型和算法方面。
例如我們會(huì)發(fā)現(xiàn):可解釋性和隱私在某種程度上存在矛盾。AI 模型的可解釋性需求往往是把一些模型的決策點(diǎn)一定程度上暴露出來(lái)。但隨著模型決策點(diǎn)和邊界條件的可視化,人們的隱私信息也在某種程度上面臨著暴露。很多時(shí)候,從模型的推斷結(jié)果可以反推一些人的基本屬性——所以如何權(quán)衡這個(gè)問(wèn)題,也是當(dāng)下我們需要研究的重要課題。
不過(guò),可解釋性和算法公平性又存在相互促進(jìn)的關(guān)系。隨著算法從一個(gè)黑盒變成白盒,慢慢引入可解釋能力,我們將逐步消除 AI 算法中的潛在歧視。
數(shù)據(jù)開(kāi)放流通的三個(gè)層次
討論完數(shù)據(jù)權(quán)屬和算法倫理之后,我們來(lái)看看如何在數(shù)據(jù)流通中去解決上述問(wèn)題。
數(shù)據(jù)的流通可以簡(jiǎn)單歸納為三個(gè)層次:
·第一層:僅涉及到個(gè)人數(shù)據(jù)的生產(chǎn)和融合,僅僅是一個(gè)個(gè)體或平臺(tái),或平臺(tái)通過(guò)觀察的方式積累個(gè)人行為數(shù)據(jù)。今天人們?cè)陔娚唐脚_(tái),或聚合新聞平臺(tái)、短視頻應(yīng)用等,都屬于這樣的場(chǎng)景。
·第二層:機(jī)構(gòu)之間數(shù)據(jù)的互相交流,比較典型的例子是銀行通過(guò)用戶信息的流通不斷提升風(fēng)控能力,避免系統(tǒng)性風(fēng)險(xiǎn)。
·第三層:數(shù)據(jù)流通的生態(tài),在理想情況下應(yīng)該存在多個(gè)數(shù)據(jù)的提供方,以及多個(gè)數(shù)據(jù)的消費(fèi)者,這中間有一系列的機(jī)制來(lái)保證數(shù)據(jù)隱私與安全,同時(shí)也能提供更好的數(shù)據(jù)服務(wù)。
在現(xiàn)階段我們主要需要探討前兩個(gè)層次的技術(shù)。
首先是個(gè)人數(shù)據(jù)生成和融合。這類場(chǎng)景會(huì)涉及到數(shù)據(jù)采集、模型訓(xùn)練,技術(shù)人員需要思考如何從數(shù)據(jù)挖掘核心信息,產(chǎn)生個(gè)性化模型,模型推理的結(jié)果會(huì)影響決策。這是一個(gè)比較長(zhǎng)的鏈路,需在整個(gè)過(guò)程中關(guān)注如何保護(hù)個(gè)人隱私。保護(hù)往往需要從產(chǎn)品設(shè)計(jì)就開(kāi)始考慮,并貫穿在產(chǎn)品的全生命周期中去。采集過(guò)程需以最小集采集為原則,而不是隨意的、無(wú)明確范疇采集,這方面要引入差分隱私、數(shù)據(jù)脫敏等技術(shù)。在建立模型后,還需進(jìn)行驗(yàn)證,確保模型可信——這方面有差分隱私可解釋性的技術(shù)。
當(dāng)前的互聯(lián)網(wǎng)正在進(jìn)入云端協(xié)同的新階段,消費(fèi)者的行為通過(guò)手機(jī)或電腦在端上發(fā)生,模型很多在云上進(jìn)行大規(guī)模機(jī)器學(xué)習(xí)訓(xùn)練產(chǎn)生,這樣的體系被我們稱為云端協(xié)同。
在這個(gè)過(guò)程中,我們?nèi)粝胱龅诫[私保護(hù),需要在端上實(shí)現(xiàn)理解用戶的行為的同時(shí),去做初步的數(shù)據(jù)篩選、數(shù)據(jù)清洗等等工作。清洗后的數(shù)據(jù)再到云端融合其他數(shù)據(jù),產(chǎn)生新的模型計(jì)算。整個(gè)過(guò)程當(dāng)中,云端系統(tǒng)并沒(méi)有存儲(chǔ)用戶的行為,這種模式的真正應(yīng)用能夠?yàn)橄M(fèi)者提供更好的權(quán)益。
最典型的形式是聯(lián)邦學(xué)習(xí),它可以說(shuō)是一個(gè)分布式學(xué)習(xí)框架,在數(shù)據(jù)采集后采用不出域的原則,也就是我們今天可以把很多原型計(jì)算放到端側(cè)設(shè)備上,通過(guò)協(xié)同方式去創(chuàng)建聯(lián)合學(xué)習(xí)模型的方式。在這個(gè)過(guò)程中我們也可以通過(guò)差分隱私、可信執(zhí)行環(huán)境等技術(shù)去加強(qiáng)數(shù)據(jù)保護(hù)的能力。
機(jī)構(gòu)之間的數(shù)據(jù)開(kāi)放互通,通過(guò)各機(jī)構(gòu)之間信任關(guān)系、網(wǎng)絡(luò)狀態(tài)、數(shù)據(jù)量以及模型復(fù)雜度等方式,可分為下面幾個(gè)類別:
1.最直接的是集中式模式,也就是數(shù)據(jù)各個(gè)機(jī)構(gòu)、參與方能夠把數(shù)據(jù)匯總到集中式環(huán)節(jié)里進(jìn)行模型訓(xùn)練,進(jìn)行整個(gè)認(rèn)知智能的探索?;蚴褂靡粋€(gè)特定的小集群來(lái)提供高效的數(shù)據(jù)融合,后者的好處是效率高,數(shù)據(jù)融合在一個(gè)主體,就可進(jìn)行非常復(fù)雜的計(jì)算,它面臨的挑戰(zhàn)是如何搭建起可信環(huán)境。所以在實(shí)踐中,我們經(jīng)常會(huì)采用中心化模式。
2.去中心化模式中,所有的模型訓(xùn)練是分布式執(zhí)行:數(shù)據(jù)提供方也是計(jì)算參與方。通過(guò)多方的協(xié)同來(lái)進(jìn)行聯(lián)合訓(xùn)練、聯(lián)合學(xué)習(xí)。技術(shù)就會(huì)涉及到多方安全計(jì)算、同態(tài)加密等。在計(jì)算過(guò)程中做加密雖然帶來(lái)了安全性保障,對(duì)性能也提出了很大挑戰(zhàn)。該模式可做到安全可證,但同時(shí)會(huì)為性能付出代價(jià)。
3.集中式模式和去中心化模式之間還有一種中間狀態(tài),即聯(lián)合計(jì)算模式。這個(gè)模式里,每方都會(huì)參與到模型計(jì)算,同時(shí)再引入中心化模塊概念,其可以協(xié)調(diào)計(jì)算、模型訓(xùn)練。這里具有代表性的是聯(lián)邦學(xué)習(xí),拆分學(xué)習(xí)等,都屬于聯(lián)合計(jì)算學(xué)習(xí)框架。在這個(gè)框架中,我們需要通過(guò)差分隱私來(lái)保護(hù)各個(gè)模塊與中心化模塊之間的通信。以信息論為基礎(chǔ),我們可以度量任何信息交互所可能帶來(lái)的個(gè)人隱私風(fēng)險(xiǎn),也就是說(shuō)個(gè)人隱私在聯(lián)邦學(xué)習(xí)環(huán)境中計(jì)算所帶來(lái)的一系列風(fēng)險(xiǎn)是可度量的。
所以,我們可以把機(jī)構(gòu)之間信息的開(kāi)放、流通,可歸納為可信、可證、可度量的環(huán)境。
開(kāi)放智能技術(shù)
如何把上面討論的內(nèi)容形成體系化的技術(shù)框架,去解決數(shù)據(jù)流通過(guò)程中遇到的各種問(wèn)題,保證在各種復(fù)雜場(chǎng)景中數(shù)據(jù)的安全及隱私保護(hù)呢?
這里引入一個(gè)新名詞:開(kāi)放智能,指的是用于解決數(shù)據(jù)開(kāi)放流通過(guò)程中所面臨的一系列問(wèn)題的前沿技術(shù)的統(tǒng)稱。這個(gè)領(lǐng)域非常復(fù)雜,技術(shù)也非常具有挑戰(zhàn)性——在開(kāi)放智能中,我們會(huì)面臨多個(gè)數(shù)據(jù)主體,包括個(gè)人、企業(yè),甚至政府,每一類主體的意愿、訴求都各不相同。個(gè)人層面想做到隱私保護(hù),企業(yè)訴求是希望保護(hù)自己的知識(shí)產(chǎn)權(quán)和勞動(dòng)成果。政府首先關(guān)注社會(huì)利益。同時(shí)還會(huì)涉及到如何激勵(lì)開(kāi)放的意愿,同時(shí)避免數(shù)據(jù)歧視、算法壟斷等。
我們可把開(kāi)放智能的技術(shù)分為五部分:
·首先是是底層的數(shù)據(jù)技術(shù),主要用于解決數(shù)據(jù)授權(quán)的問(wèn)題。
·其次是計(jì)算技術(shù),包括可信計(jì)算、可度量計(jì)算、可證計(jì)算,用于解決計(jì)算過(guò)程中的隱私保護(hù)問(wèn)題。
·第三層為算法層,解決合規(guī)合法、算法倫理、魯棒性等算法可信賴的問(wèn)題。
·在此之上還有市場(chǎng)構(gòu)建,需要思考如何通過(guò)激勵(lì)機(jī)制、定價(jià)等,促進(jìn)形成良好生態(tài),解決數(shù)據(jù)流通過(guò)程中的效率問(wèn)題。
·最后是可驗(yàn)證技術(shù),當(dāng)模型訓(xùn)練好之后,我們需要確保模型實(shí)現(xiàn)的的確是我們需要它做的事情。
螞蟻推出了隱私計(jì)算框架——隱語(yǔ),這是螞蟻集團(tuán)經(jīng)過(guò)多年獨(dú)立自主研發(fā)和業(yè)務(wù)應(yīng)用打磨而構(gòu)建的一套統(tǒng)一框架,旨在解決數(shù)據(jù)價(jià)值的安全流動(dòng)這一行業(yè)難題。
該框架有兩個(gè)層次,上面一層是編譯器,通過(guò)新的編譯器技術(shù),我們可以將整個(gè)執(zhí)行圖自動(dòng)編譯成密態(tài)計(jì)算圖,并對(duì)其進(jìn)行一系列的優(yōu)化。下面一層是分布在不同參與方的 PPU(Privacy Preserving Unit),每一個(gè) PPU 提供可信可證可度量的基礎(chǔ)計(jì)算能力。由編譯器生成的密態(tài)計(jì)算圖會(huì)被分發(fā)到 PPU 上進(jìn)行計(jì)算,最終產(chǎn)出用戶需要的計(jì)算結(jié)果。
螞蟻集團(tuán)的隱私計(jì)算技術(shù)架構(gòu)——隱語(yǔ),具有以下幾個(gè)特點(diǎn):
·可擴(kuò)展性,支持當(dāng)前主流的機(jī)器學(xué)習(xí)的框架,上層可對(duì)接包括 TensorFlow、Pytorch、JAX 在內(nèi)的多種主流機(jī)器學(xué)習(xí)框架,以及 SQL 前端;下層可以鏈接包括 SS、HE、GC 在內(nèi)的多種安全協(xié)議。
·隱私保護(hù)能力:支持包括可信安全、可度量安全和可證安全在內(nèi)的多種隱私計(jì)算能力。
·計(jì)算效率:目前隱私計(jì)算最大的問(wèn)題在于性能瓶頸,螞蟻集團(tuán)對(duì)框架做了多方面的優(yōu)化,包括 Platform + PPU 的雙層設(shè)計(jì)可以提供分層優(yōu)化能力,可以提供業(yè)界頂尖的計(jì)算性能和計(jì)算規(guī)模。
開(kāi)放智能的應(yīng)用
這樣一套隱私計(jì)算體系目前已經(jīng)獲得了應(yīng)用,一個(gè)的典型的場(chǎng)景是在個(gè)人信貸上。
人們?cè)阢y行辦理貸款時(shí),銀行為了降低風(fēng)險(xiǎn),往往會(huì)參考用戶之前在銀行系統(tǒng)中進(jìn)行過(guò)的各類操作,包括購(gòu)買(mǎi)的基金、金融產(chǎn)品,日常消費(fèi)流水等。系統(tǒng)完整的分析結(jié)果會(huì)幫助我們提供更好的數(shù)據(jù)的服務(wù),但這個(gè)過(guò)程需要全鏈路、健全機(jī)制的保障,需要在用戶授權(quán)的情況下進(jìn)行分析。
為實(shí)現(xiàn)上述效果,就會(huì)涉及到多方安全計(jì)算。在聯(lián)合計(jì)算之后還需進(jìn)行驗(yàn)證,以確保每個(gè)數(shù)據(jù)參與方真正完成了它所需要做的計(jì)算。當(dāng)訓(xùn)練好 AI 模型后,因?yàn)椴荒苁呛诤袪顟B(tài),需要實(shí)現(xiàn)可解釋,還要面向消費(fèi)者進(jìn)行告知:為什么今天可以貸這么多款。系統(tǒng)也不能因?yàn)榭蛻舻男詣e、年齡就對(duì)用戶區(qū)別對(duì)待,在這一環(huán)節(jié)也需確保算法是公平的。最后,還有非常重要的監(jiān)管環(huán)節(jié),要有存證、審計(jì)的能力。
開(kāi)放智能是一個(gè)包含多領(lǐng)域知識(shí)的技術(shù)體系,涉及到了數(shù)據(jù)鑒權(quán)、隱私計(jì)算、可信賴 AI、市場(chǎng)機(jī)制等。這是一個(gè)嶄新的領(lǐng)域,還有很多技術(shù)有待研究和創(chuàng)新。隨著人們的不斷參與,未來(lái)我們還將看到越來(lái)越多的新進(jìn)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )