近日,由天翼云數(shù)據(jù)庫團(tuán)隊、中國電信云計算研究院和深圳北理莫斯科大學(xué)合作完成的《Taste: Towards Practical Deep Learning-based Approaches for Semantic Type Detection in the Cloud》(構(gòu)建云上基于深度學(xué)習(xí)的大規(guī)模語義類型識別系統(tǒng))論文被28th International Conference on Extending Database Technology(EDBT)長文收錄。
EDBT是數(shù)據(jù)庫領(lǐng)域的知名國際會議,也是中國計算機(jī)學(xué)會CCF推薦的重點(diǎn)學(xué)術(shù)會議,已連續(xù)舉辦27屆,近五年平均錄取率僅為20.8%。此次天翼云數(shù)據(jù)庫產(chǎn)品線所著論文被EDBT收錄,代表著天翼云的科技創(chuàng)新能力再次獲得數(shù)據(jù)庫工業(yè)界和學(xué)術(shù)界的權(quán)威認(rèn)可。
該論文專注于數(shù)據(jù)管理系統(tǒng)中的語義類型檢測(Semantic Type Detection)問題的研究,并在檢測性能和安全性方面實(shí)現(xiàn)了突破。語義類型可以顯示出復(fù)雜數(shù)據(jù)的語義含義,如人名、地址、身份證號等,不僅能夠幫助人類更好地理解數(shù)據(jù),還能輔助數(shù)據(jù)管理系統(tǒng)提供搜索、轉(zhuǎn)換和清洗等一系列關(guān)鍵服務(wù),例如:數(shù)據(jù)管理系統(tǒng)識別出“身份證號”這一語義類型后,可將該數(shù)據(jù)標(biāo)記為敏感信息,進(jìn)而智能地提供數(shù)據(jù)脫敏服務(wù)。
然而,現(xiàn)有語義類型檢測技術(shù)在每次檢測時都需要掃描數(shù)據(jù)列中的具體內(nèi)容,存在著兩個顯著弊端:一方面,掃描數(shù)據(jù)列會極大增加額外的I/O和網(wǎng)絡(luò)開銷,降低檢測效率,還可能對云用戶的業(yè)務(wù)產(chǎn)生不利影響;另一方面,掃描數(shù)據(jù)列本身耗時較長,加之基于數(shù)據(jù)列進(jìn)行特征提取和推理,進(jìn)一步增加了模型的處理時間,導(dǎo)致整體檢測效率較低。伴隨AI技術(shù)的迅猛發(fā)展,采用深度學(xué)習(xí)來實(shí)現(xiàn)語義類型檢測的研究日益增加,雖在檢測成功率方面取得巨大進(jìn)展,但仍難以滿足云環(huán)境下的大規(guī)模語義類型識別。
兩項創(chuàng)新檢測技術(shù) 實(shí)現(xiàn)高效精準(zhǔn)檢測
作為云服務(wù)國家隊,天翼云堅持核心技術(shù)自主攻關(guān),針對現(xiàn)有語義檢測技術(shù)的不足,該論文創(chuàng)新性提出兩階段語義類型檢測框架(Two-phase semantic type detection framework,簡稱為Taste)。
Taste框架的整體執(zhí)行流程可分為兩個階段(如圖1所示):第一階段,僅利用數(shù)據(jù)源的元數(shù)據(jù)(如表名、列名、列注釋等)進(jìn)行初步快速的語義類型檢測,以減少對數(shù)據(jù)源的掃描操作;第二階段則是按需進(jìn)行,在需要進(jìn)一步確認(rèn)第一階段中不確定的語義類型時,再將列內(nèi)容與元數(shù)據(jù)結(jié)合起來,完成更精確的檢測。
通過兩個階段的結(jié)合,Taste不僅有效提升了檢測效率,減少了對用戶數(shù)據(jù)源的影響,還可在元數(shù)據(jù)質(zhì)量不佳的情況下保持系統(tǒng)較強(qiáng)的魯棒性。同時,Taste具有較強(qiáng)的靈活性,云上租戶可根據(jù)自身的數(shù)據(jù)隱私需求選擇完全禁用第二階段,從而進(jìn)一步保護(hù)數(shù)據(jù)。此外,Taste通過將每個階段劃分為數(shù)據(jù)準(zhǔn)備和語義推理兩個步驟,并利用流水線機(jī)制并行執(zhí)行不同的步驟,充分利用I/O、CPU和GPU資源,顯著提升了整體執(zhí)行效率,可更好地適用于云環(huán)境下海量數(shù)據(jù)表和列的處理。
圖1 兩階段語義類型檢測框架概覽圖
此外,該論文進(jìn)一步設(shè)計了一種新穎的非對稱雙塔檢測模型(Asymmetric Double-Tower Detection,簡稱 ADTD),通過引入多任務(wù)學(xué)習(xí)來支持Taste的兩階段檢測過程。ADTD模型結(jié)構(gòu)分為Metadata塔和Content塔(如圖2所示),前者是對元數(shù)據(jù)特征進(jìn)行編碼,后者是結(jié)合元數(shù)據(jù)信息對列內(nèi)容特征進(jìn)行編碼。在Taste的兩階段檢測中,第一階段僅利用Metadata塔進(jìn)行推理,并將Metadata塔加入到緩存中,供第二階段使用,以減少重復(fù)推理;第二階段則是結(jié)合Metadata塔的緩存和Content塔進(jìn)行推理。在訓(xùn)練過程中,兩個階段的輸出可以結(jié)合在一起做多任務(wù)學(xué)習(xí),使得模型只需訓(xùn)練一次,即可應(yīng)用于兩個階段的推理過程。
圖2 非對稱雙塔檢測模型結(jié)構(gòu)圖
該論文的實(shí)驗表明,Taste 框架在執(zhí)行效率、準(zhǔn)確性、降低數(shù)據(jù)列掃描侵入性等多個方面均表現(xiàn)優(yōu)異,且在不同的數(shù)據(jù)隱私設(shè)置下表現(xiàn)出較強(qiáng)的魯棒性,并具備云端大規(guī)模部署的潛力。
目前,Taste框架已在天翼云數(shù)據(jù)管理服務(wù)(DMS)進(jìn)行落地。天翼云DMS是TeleDB的一款數(shù)據(jù)庫工具產(chǎn)品,作為一站式數(shù)據(jù)生命周期管理平臺,其支持多云異構(gòu)數(shù)據(jù)庫統(tǒng)一納管,提供數(shù)據(jù)資產(chǎn)管理、客戶端工具等功能。依托Taste框架的性能優(yōu)勢,天翼云DMS可幫助客戶進(jìn)行高效、靈活的語義類型檢測,實(shí)現(xiàn)更加快捷且智能化的敏感數(shù)據(jù)識別,顯著提升云端數(shù)據(jù)管理的安全性和穩(wěn)定性,為企業(yè)充分釋放數(shù)據(jù)價值提供有力支撐。
科技創(chuàng)新是發(fā)展新質(zhì)生產(chǎn)力的核心要素。面向未來,天翼云將秉持央企使命責(zé)任,發(fā)揮數(shù)字中國建設(shè)主力軍作用,持續(xù)推進(jìn)數(shù)據(jù)庫等云計算技術(shù)攻關(guān),筑牢國云智算底座,以科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展。
- 第三十三屆中國國際電子生產(chǎn)設(shè)備暨微電子工業(yè)展覽會 NEPCON China 電子展 2025
- 智能座艙︱2025廣州國際汽車智能座艙及車載顯示技術(shù)展覽會將于11月盛大開幕
- 探索新能源汽車“芯”動力:盡在2025廣州國際新能源汽車功率半導(dǎo)體技術(shù)展
- 超500名人工智能、超500家名人形機(jī)器人、超500名低空經(jīng)濟(jì)的實(shí)力買家,助力沖刺未來賽道新商機(jī)!
- 數(shù)領(lǐng)航空·智馭藍(lán)天!2025第二屆航空裝備數(shù)智試驗暨產(chǎn)業(yè)發(fā)展大會將于3月20-21日在綿陽隆重召開!
- 2025九峰山論壇暨化合物半導(dǎo)體產(chǎn)業(yè)博覽會
- 第九屆廣東水展 廣東國際水處理技術(shù)與設(shè)備展覽會
- 第九屆廣東水展
- 新會預(yù)告|“第七屆零售銀行領(lǐng)導(dǎo)者年會”邀您共同探討數(shù)智賦能下零售銀行的逆勢增長
- 選車網(wǎng)發(fā)布:2025年第3周汽車口碑榜深度解讀 新能源與燃油車的較量與趨勢
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。