近日,由天翼云數(shù)據庫團隊、中國電信云計算研究院和深圳北理莫斯科大學合作完成的《Taste: Towards Practical Deep Learning-based Approaches for Semantic Type Detection in the Cloud》(構建云上基于深度學習的大規(guī)模語義類型識別系統(tǒng))論文被28th International Conference on Extending Database Technology(EDBT)長文收錄。
EDBT是數(shù)據庫領域的知名國際會議,也是中國計算機學會CCF推薦的重點學術會議,已連續(xù)舉辦27屆,近五年平均錄取率僅為20.8%。此次天翼云數(shù)據庫產品線所著論文被EDBT收錄,代表著天翼云的科技創(chuàng)新能力再次獲得數(shù)據庫工業(yè)界和學術界的權威認可。
該論文專注于數(shù)據管理系統(tǒng)中的語義類型檢測(Semantic Type Detection)問題的研究,并在檢測性能和安全性方面實現(xiàn)了突破。語義類型可以顯示出復雜數(shù)據的語義含義,如人名、地址、身份證號等,不僅能夠幫助人類更好地理解數(shù)據,還能輔助數(shù)據管理系統(tǒng)提供搜索、轉換和清洗等一系列關鍵服務,例如:數(shù)據管理系統(tǒng)識別出“身份證號”這一語義類型后,可將該數(shù)據標記為敏感信息,進而智能地提供數(shù)據脫敏服務。
然而,現(xiàn)有語義類型檢測技術在每次檢測時都需要掃描數(shù)據列中的具體內容,存在著兩個顯著弊端:一方面,掃描數(shù)據列會極大增加額外的I/O和網絡開銷,降低檢測效率,還可能對云用戶的業(yè)務產生不利影響;另一方面,掃描數(shù)據列本身耗時較長,加之基于數(shù)據列進行特征提取和推理,進一步增加了模型的處理時間,導致整體檢測效率較低。伴隨AI技術的迅猛發(fā)展,采用深度學習來實現(xiàn)語義類型檢測的研究日益增加,雖在檢測成功率方面取得巨大進展,但仍難以滿足云環(huán)境下的大規(guī)模語義類型識別。
兩項創(chuàng)新檢測技術 實現(xiàn)高效精準檢測
作為云服務國家隊,天翼云堅持核心技術自主攻關,針對現(xiàn)有語義檢測技術的不足,該論文創(chuàng)新性提出兩階段語義類型檢測框架(Two-phase semantic type detection framework,簡稱為Taste)。
Taste框架的整體執(zhí)行流程可分為兩個階段(如圖1所示):第一階段,僅利用數(shù)據源的元數(shù)據(如表名、列名、列注釋等)進行初步快速的語義類型檢測,以減少對數(shù)據源的掃描操作;第二階段則是按需進行,在需要進一步確認第一階段中不確定的語義類型時,再將列內容與元數(shù)據結合起來,完成更精確的檢測。
通過兩個階段的結合,Taste不僅有效提升了檢測效率,減少了對用戶數(shù)據源的影響,還可在元數(shù)據質量不佳的情況下保持系統(tǒng)較強的魯棒性。同時,Taste具有較強的靈活性,云上租戶可根據自身的數(shù)據隱私需求選擇完全禁用第二階段,從而進一步保護數(shù)據。此外,Taste通過將每個階段劃分為數(shù)據準備和語義推理兩個步驟,并利用流水線機制并行執(zhí)行不同的步驟,充分利用I/O、CPU和GPU資源,顯著提升了整體執(zhí)行效率,可更好地適用于云環(huán)境下海量數(shù)據表和列的處理。
圖1 兩階段語義類型檢測框架概覽圖
此外,該論文進一步設計了一種新穎的非對稱雙塔檢測模型(Asymmetric Double-Tower Detection,簡稱 ADTD),通過引入多任務學習來支持Taste的兩階段檢測過程。ADTD模型結構分為Metadata塔和Content塔(如圖2所示),前者是對元數(shù)據特征進行編碼,后者是結合元數(shù)據信息對列內容特征進行編碼。在Taste的兩階段檢測中,第一階段僅利用Metadata塔進行推理,并將Metadata塔加入到緩存中,供第二階段使用,以減少重復推理;第二階段則是結合Metadata塔的緩存和Content塔進行推理。在訓練過程中,兩個階段的輸出可以結合在一起做多任務學習,使得模型只需訓練一次,即可應用于兩個階段的推理過程。
圖2 非對稱雙塔檢測模型結構圖
該論文的實驗表明,Taste 框架在執(zhí)行效率、準確性、降低數(shù)據列掃描侵入性等多個方面均表現(xiàn)優(yōu)異,且在不同的數(shù)據隱私設置下表現(xiàn)出較強的魯棒性,并具備云端大規(guī)模部署的潛力。
目前,Taste框架已在天翼云數(shù)據管理服務(DMS)進行落地。天翼云DMS是TeleDB的一款數(shù)據庫工具產品,作為一站式數(shù)據生命周期管理平臺,其支持多云異構數(shù)據庫統(tǒng)一納管,提供數(shù)據資產管理、客戶端工具等功能。依托Taste框架的性能優(yōu)勢,天翼云DMS可幫助客戶進行高效、靈活的語義類型檢測,實現(xiàn)更加快捷且智能化的敏感數(shù)據識別,顯著提升云端數(shù)據管理的安全性和穩(wěn)定性,為企業(yè)充分釋放數(shù)據價值提供有力支撐。
科技創(chuàng)新是發(fā)展新質生產力的核心要素。面向未來,天翼云將秉持央企使命責任,發(fā)揮數(shù)字中國建設主力軍作用,持續(xù)推進數(shù)據庫等云計算技術攻關,筑牢國云智算底座,以科技創(chuàng)新引領產業(yè)發(fā)展。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 第二十五屆亞太海洋油氣大會
- 推進開放、包容、普惠的人工智能新生態(tài)!開放智算產業(yè)聯(lián)盟成立大會圓滿落幕!
- 2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書 | 附獨家榜單
- 第25屆亞太海洋油氣大會xFPS馬來西亞(OAP2025)大會將于明年02月24-27日在吉隆坡舉行!
- 以智能制造賦能新質生產力發(fā)展 2024世界智能制造大會在南京開幕
- 一場面向算力產業(yè)的超大規(guī)模會議|第十九屆中國IDC產業(yè)年度大典圓滿閉幕!
- 第二十五屆亞太海洋油氣大會xFPS馬來西亞(OAP2025)嘉賓話題征集!
- 高燃直擊2024世界智能制造博覽會!譜寫智能制造領域全新篇章
- 中泰文化交流新篇章:賽氪與寰宇播客營聯(lián)合中南財經政法大學及多方舉辦泰國留學生交流活動
- 2025醫(yī)藥數(shù)智營銷創(chuàng)新峰會“金創(chuàng)獎”獎項申報啟動!
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。