用數(shù)據(jù)說話,億級海量數(shù)據(jù)分析性能瓶頸如何破?

原標題:用數(shù)據(jù)說話,億級海量數(shù)據(jù)分析性能瓶頸如何破?

【導語】以指紋為代表的生物特征識別應用正在日趨普遍,隨之而來的則是億級數(shù)據(jù)量級的數(shù)據(jù)分析工作。如何讓億級海量數(shù)據(jù)分析做到又快又準?海鑫科金試用和對比了兩套解決方案,欲知結(jié)果如何?請看下文。

數(shù)據(jù)能幫助企業(yè)更高效的生產(chǎn)、輔助企業(yè)做出更科學的決策……應該說,數(shù)據(jù)的重要性已經(jīng)得到全社會的認同。當然,數(shù)據(jù)并不是拿來就能用,它必須經(jīng)過清洗、集成、轉(zhuǎn)換、分析、呈現(xiàn)等一系列流程后,才能為每個企業(yè)所用,這一系列動作統(tǒng)稱為數(shù)據(jù)分析過程。

顯而易見,數(shù)據(jù)分析是企業(yè)從數(shù)據(jù)中挖掘價值的關(guān)鍵步驟。正因為此,當前,數(shù)據(jù)分析在互聯(lián)網(wǎng)、金融、政府、零售等多個行業(yè)呈現(xiàn)越來越廣泛的應用態(tài)勢。北京海鑫科金高科技股份有限公司(以下簡稱“海鑫科金”)就是其中的一個代表。

海鑫科金成立于1998年,專注于多生物特征識別(包括指掌紋、人像、DNA、虹膜、聲紋、足跡識別、筆跡識別等)、公安信息化綜合應用、視頻偵查技術(shù)和大數(shù)據(jù)綜合應用這四大領(lǐng)域。目前,其產(chǎn)品在刑偵、安防、司檢法、出入境及金融、酒店、社保、教育、交通、大型活動管理、場所監(jiān)控和互聯(lián)網(wǎng)應用等社會領(lǐng)域都獲得了廣泛應用。

數(shù)據(jù)量大,還要求更快更精?

海鑫科金,可以說是典型的數(shù)據(jù)密集型企業(yè)。而伴隨近些年數(shù)據(jù)量越來越大,數(shù)據(jù)處理要求越來越高,海鑫科金面臨著巨大的挑戰(zhàn)。

以被普遍應用于案件現(xiàn)場指掌紋采集比對、入所人員捺印指掌紋采集比對、卡口人員捺印指掌紋采集比對、重點人員指掌紋比對等場景的指掌紋識別技術(shù)為例。

海鑫科金副總經(jīng)理/AI研究院院長楊春宇在接受采訪時表示,“指紋解決方案是一個大型的生物特征識別與認證系統(tǒng),用來為居民身份證、電子護照和犯罪指紋數(shù)據(jù)庫鑒定數(shù)以百萬、千萬、乃至億計的指紋。隨著更多的指紋添加到數(shù)據(jù)庫中,以及指紋驗證需求量的增加,我們必須讓自己的技術(shù)解決方案滿足大數(shù)據(jù)時代的需求。”

其實,這樣的變化我們每個人都有切身體會,如今需要指掌紋識別的場景多了,頻次高了。一個最常見的場景就是出國,過海關(guān)。

大數(shù)據(jù)時代對指掌紋識別有什么要求呢?簡單來說,在數(shù)據(jù)庫變大、指紋驗證量增加的同時,確保性能和精度和之前一致,甚至更高。如果滿足不了效率需求,這套方案的實用性將大打折扣。試想如果過海關(guān)需要幾分鐘才能識別一個人,那一天又能通過多少人?

為滿足用戶的實際需求,作為國內(nèi)指掌紋技術(shù)領(lǐng)域翹楚的海鑫科金和英特爾展開了深入的探討。

傲騰,更具性價比的選擇

為什么選擇英特爾?還得從指紋識別的技術(shù)特點說起。

指紋識別比對技術(shù)解決方案一般包括數(shù)據(jù)獲取、預處理、特征 提取、比對、后處理等主要環(huán)節(jié)(參見圖1)。相比其它生物特征識別技術(shù)(如人臉識別等),指紋比對是一種典型的CPU及內(nèi)存密集型算法:指紋系統(tǒng)從現(xiàn)場采集的原始指紋數(shù)據(jù),經(jīng)過預處理和特征提取之后,會形成結(jié)構(gòu)化的點集,再將其與后臺數(shù)據(jù)庫中百萬量級的指紋實例進行比對,這時就會涉及大量的邏輯判斷分支,這樣一來,解決方案的性能會嚴重依賴于內(nèi)存資源的可用性,同時對通用計算內(nèi)核的性能需求也非常高。

對CPU和內(nèi)存強依賴,綜觀如今的IT市場,能同時滿足這兩點的,恐怕只英特爾一家。

最終,英特爾和海鑫科金技術(shù)團隊選擇了第二代英特爾至強可擴展處理器作為目標平臺的核心支撐。與此同時,選擇英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存作為“二級存儲”來部分地取代傳統(tǒng)內(nèi)存。

特別強調(diào)一下,這是對比后的結(jié)果。在選型過程中,海鑫科金對純DRAM和用傲騰數(shù)據(jù)中心級持久內(nèi)存替代部分DRAM兩種方案進行了綜合對比,基準測試結(jié)果表明,采用傲騰數(shù)據(jù)中心級持久內(nèi)存的方案具有很好的性價比優(yōu)勢。

拿數(shù)據(jù)說話

為了更直觀的呈現(xiàn),這里簡單介紹下測試環(huán)境。

用于對比測試的兩套方案都基于標準雙路服務器,CPU采用第二代英特爾至強鉑金處理器8280,總規(guī)模為960GB的指紋比對數(shù)據(jù)庫被分為96個單體尺寸為 10GB的切片,每個切片包含的記錄條數(shù)略高于400萬條,這些數(shù)據(jù)都存放在容量為1TB的英特爾固態(tài)盤DC P3520上。

在這些配置條件相同的前提下,兩套方案的不同之處在于,其中一套采用768G的DDR4內(nèi)存,另一套采用192GB的DDR4內(nèi)存搭配1TB的英特爾傲騰數(shù)據(jù)中 心級持久內(nèi)存。從成本的角度看,兩者相當。

海鑫科金在兩套環(huán)境中運行同樣的海鑫HABIS X指紋比對系統(tǒng),并測試其記錄查詢性能。結(jié)果表明,采用傲騰數(shù)據(jù)中心級持久內(nèi)存方案的記錄查詢速度(單位:QPS)比純DRAM方案高出26%(如圖2所示)。

為什么會有這么大的提升?奧秘在于當CPU處于高負載時,在系統(tǒng)從DRAM(緩存)加載數(shù)據(jù)到CPU進行計算的同時,也執(zhí)行了從傲騰數(shù)據(jù)中心級持久內(nèi)存加載數(shù)據(jù)到DRAM(緩存)的動作,從而提高了系統(tǒng)進行數(shù)據(jù)讀取的效率。而且并行處理的批量數(shù)據(jù)越多,基于傲騰數(shù)據(jù)中心級持久內(nèi)存的方案取得的相對表現(xiàn)就越好。

通俗的講,CPU和內(nèi)存之間的通信是有瓶頸的,一味增加內(nèi)存也并不能在性能上獲得線性增長的效果,而256GB內(nèi)存可不只是比128GB的貴一倍。換句話說,成本的增加和性能的增加不成比例。這是傲騰數(shù)據(jù)中心級持久內(nèi)存的最大優(yōu)勢,以遠低于內(nèi)存的價格達到準內(nèi)存的性能。

實際上,雙方技術(shù)團隊還做了另外一組測算,如果把兩套方案略作調(diào)整,讓兩者的QPS處于相同水平,那么基于傲騰數(shù)據(jù)中心級持久內(nèi)存的方案總體擁有成本(TCO)比純DRAM方案會低29%。

更重要的是,這些結(jié)果還都是在尚未對系統(tǒng)進行任何優(yōu)化、也沒有對軟件進行任何更改的前提下取得的。這意味著一方面,海鑫科金不用做任何改動就可以將現(xiàn)有解決方案部署到新的至強平臺上,另一方面,未來性能還有比較大的提升空間。英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存為系統(tǒng)性能的提升給出了一條更為經(jīng)濟實惠的路徑。

即錄、即比、即反

目前,基于英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存的海鑫科金云智能多生物識別系統(tǒng) HABIS X已經(jīng)用于現(xiàn)場測試,在某直轄市相關(guān)單位的指掌紋系統(tǒng)建設(shè)項目中,新方案各項指標均滿足設(shè)計要求,獲得了用戶的充分肯定。

以現(xiàn)場勘查為例,工作人員往往需要對案發(fā)現(xiàn)場的指掌紋進行特征提取和比對,這是一件極為費時費力的工作,環(huán)境通常十分復雜,指紋的提取經(jīng)常遇到多人、重疊、殘缺等情況,嫌疑人的指掌紋往往混雜在事主家人和親友鄰居的指紋里。采用傳統(tǒng)技術(shù)方案對現(xiàn)場指紋進行提取及比對,由于系統(tǒng)性能的局限,現(xiàn)場人員往往回到單位后才能進行電子化信息的錄入以及后續(xù)的比對,這個繁瑣的流程花費的時間通常會數(shù)以天計。

在應用了海鑫科金推出的HABIS X方案后,可以做到“即錄(錄入)、即比 (比對)、即反(反饋)”,在現(xiàn)場當即給出比對結(jié)果。這不但提升了信息錄入的規(guī)范性、時效性和質(zhì)量,而且大幅減輕了基層技術(shù)人員的工作負擔,提高了現(xiàn)場人員的工作積極性和事業(yè)成就感。

更快、更精準的識別,并不是海鑫科金指掌紋識別系統(tǒng)追求的終點。海鑫科金副總經(jīng)理、公共安全事業(yè)部總經(jīng)理陳俊就表示,接下來他們還將在移動端、人工智能,以及云方面發(fā)力。英特爾作為云計算和人工智能的積極倡導者,也會繼續(xù)和海鑫科金共同創(chuàng)新,推動指掌紋識別更上一層樓。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-05-11
用數(shù)據(jù)說話,億級海量數(shù)據(jù)分析性能瓶頸如何破?
相比其它生物特征識別技術(shù)(如人臉識別等),指紋比對是一種典型的CPU及內(nèi)存密集型算法:指紋系統(tǒng)從現(xiàn)場采集的原始指紋數(shù)據(jù),經(jīng)過預處理和特征提取之后,會形成結(jié)構(gòu)化的點集,再將其與后臺數(shù)據(jù)庫中百萬量級的指紋

長按掃碼 閱讀全文