高手對決,柏睿數(shù)據(jù)讓數(shù)據(jù)深度分析挖掘贏在毫秒間

“再快一天,我就能趕上Deadline。”

“再快一分鐘,我就能在9:00打卡。”

“再快一秒,我就能拿下百米賽跑第一。”

每天,人們都在與時間賽跑,希望在有限的時間內(nèi)完成更多事情,挖掘更大價值。尤其在物聯(lián)網(wǎng)技術(shù)、云計算、人工智能、大數(shù)據(jù)技術(shù)等迅猛發(fā)展的信息時代,人們在轉(zhuǎn)瞬間就能感知萬物的變化,預(yù)知未來。

日前,谷歌發(fā)布了R支持Google Cloud Platform(GCP)大規(guī)模應(yīng)用。據(jù)谷歌稱,云計算的興起為R開辟了新的機遇,使用GCP for R可以避免限制理解數(shù)據(jù)的基礎(chǔ)設(shè)施障礙,并構(gòu)建大型模型來分析以前需要在高性能計算基礎(chǔ)架構(gòu)上進行大量前期投資的大小數(shù)據(jù)集。

眾所周知,R語言作為一種數(shù)據(jù)分析和機器學習的專業(yè)語言,是當今數(shù)據(jù)科學領(lǐng)域流行的免費開源編程語言之一,在數(shù)據(jù)分析與機器學習領(lǐng)域已經(jīng)成為一個重要的工具,目前有75%左右的數(shù)據(jù)科學家使用R語言,有35%左右的數(shù)據(jù)科學家將R語言作為統(tǒng)計分析的首選工具。尤其在新一輪科技與產(chǎn)業(yè)變革下,人工智能深刻地改變著人類的生產(chǎn)方式,R語言在技術(shù)應(yīng)用方面也取得了較大的突破,如符號計算、模式識別、機器翻譯、機器學習、問題求解、邏輯推理和定理證明、分布式人工智能、就算計視覺等方面。

R作為一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),能夠帶來強大的數(shù)據(jù)集群分析能力和運算時效能力,這也是各大人工智能、云計算、大數(shù)據(jù)分析、數(shù)據(jù)庫等產(chǎn)商賴以推崇的原因。

那么,在性能與場景上是否有要求?

目前,單機版本的R開源軟件,只能夠在相對小規(guī)模的數(shù)據(jù)集上執(zhí)行高效分析運算(難以?效處理數(shù)十GB級的數(shù)據(jù)分析),而針對海量并行的數(shù)據(jù)時代,需要更為強悍的并行集群R來處理大規(guī)模并行數(shù)據(jù),實現(xiàn)建模運算,保障在市場競爭中處于絕對優(yōu)勢。柏睿數(shù)據(jù)的ParallelR可以對內(nèi)存數(shù)據(jù)庫、分布式文件系統(tǒng)中的數(shù)據(jù)進行大規(guī)模并行建模運算,而且數(shù)據(jù)處理、加載時間更快。

柏睿數(shù)據(jù)的ParallelR與R緊密結(jié)合,用戶通過R接口進入ParallelR的命令行界面,輸入各種指令操作,指示ParallelR集群加載、清洗、分析和統(tǒng)計各種數(shù)據(jù)集。ParallelR提供的多種統(tǒng)計算法,并對統(tǒng)計數(shù)據(jù)分析算法專為分布式運算環(huán)境重新開發(fā)的分布式算法實現(xiàn),也通過R的軟件包方式展現(xiàn)給用戶,供用戶在數(shù)據(jù)分析過程中調(diào)用從算法包方面比較,ParallelR把數(shù)據(jù)處理的多種操作也包含在算法包里面,兼容更多的數(shù)據(jù)類型,功能更加強大,模型更加優(yōu)化,在部分情況下預(yù)測結(jié)果更準確,模型結(jié)果更加豐富,使用戶可以更加方便的進行建模分析。多種情況下,能夠避免了需要花費大量時間的啞變量轉(zhuǎn)換操作,簡化了建模流程,還避免了模型在啞變量轉(zhuǎn)換后資源急速膨脹的情況。

從時間上來比較,ParallelR支持分布式模型運算,當在數(shù)據(jù)量較大,傳統(tǒng)單機R已經(jīng)無法運行建模時,ParallelR還能夠輕松應(yīng)對。在測試過程中,我們觀察到ParallelR的分布式運算模式,不僅可以支持對大數(shù)據(jù)執(zhí)行建模分析,同時能夠?幅度縮短建模分析的時間,通過利用四種算法分別用來建立航班準點計算模型,在4MB小數(shù)據(jù)和12GB全量數(shù)據(jù)兩種情況下的測試對比。我們看到在小數(shù)據(jù)和更大規(guī)模數(shù)據(jù)兩種情況,ParallelR的建模運算性能都全面超越單機R的性能。單機R能夠支持這些算法,但它的算法包在對諸如啞變量的要求使單機R對哪怕大?些的數(shù)據(jù)集都可能由于資源不夠而無法完成建模的運算。另外,通過對比單節(jié)點ParallelR和3節(jié)點ParallelR,我們看到ParallelR能夠線性增加更多的處理能力,使建模運算性能隨之線性擴張。

縱觀當前技術(shù)發(fā)展的新局面,AI技術(shù)也在不停地迭代更新,不僅要依托像R語言等新技術(shù)、新產(chǎn)品來提升自己的競爭力,還必須積極思考自己的行業(yè)將如何進行升級。其中,姿勢很重要:主動擁抱趨勢優(yōu)于被動卷入浪潮;速度和時機也很重要:因為沖浪時,一旦沒抓到“起乘”瞬間,下一波就會被打下潮頭。

在今年兩會報告中,“促進新興產(chǎn)業(yè)加快發(fā)展。深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,培育新一代信息技術(shù),壯大數(shù)字經(jīng)濟”引發(fā)了廣大關(guān)注。李克強總理提到:“思危方能居安。在充分肯定成績的同時,要清醒看到我國發(fā)展面臨的問題和挑戰(zhàn)。自主創(chuàng)新能力不強,關(guān)鍵核心技術(shù)短板問題凸顯。我們一定要直面問題和挑戰(zhàn),勇于擔當,恪盡職守,竭盡全力做好工作,絕不辜負人民期待!”

在當前的國際環(huán)境與經(jīng)濟發(fā)展形勢下,安全可控顯得尤為重要,在關(guān)鍵領(lǐng)域堅持安全可控,是增強自主創(chuàng)新能力,解決關(guān)鍵核心技術(shù)短板的前提。所謂安全可控,就是產(chǎn)業(yè)在發(fā)展上可以做到自己做主,不受制于人。這就要求,在產(chǎn)業(yè)的關(guān)鍵技術(shù)方面,有自己的核心技術(shù);在參與全球產(chǎn)業(yè)的競爭過程當中,有自己獨特的競爭力。

柏睿數(shù)據(jù)作為一家擁有國際領(lǐng)先的、基于完全自主研發(fā)的安全可靠數(shù)據(jù)庫技術(shù)產(chǎn)品的大數(shù)據(jù)公司。以持續(xù)的科技創(chuàng)新,踐行國家自主可控戰(zhàn)略,致力于為政府和國民經(jīng)濟行業(yè)的數(shù)字化轉(zhuǎn)型升級提供基于大數(shù)據(jù)平臺的實時分析技術(shù)服務(wù)。目前,柏睿數(shù)據(jù)是國內(nèi)唯一實現(xiàn)了從解析層、優(yōu)化層、執(zhí)行層到存儲層等全面的完全自主可控的數(shù)據(jù)庫產(chǎn)品體系,并以海量、高并發(fā)、實時、全內(nèi)存分析等特性領(lǐng)先國際;并依托柏睿數(shù)據(jù)的庫內(nèi)人工智能并行算法庫ParallelR產(chǎn)品技術(shù)為支撐,主導制定中國唯一的數(shù)據(jù)庫國際標準《AI-in-Database庫內(nèi)人工智能》,實現(xiàn)底層核心技術(shù)數(shù)據(jù)庫人工智能的自主可控。其產(chǎn)品已成功落地應(yīng)用在政府、金融、醫(yī)療、工業(yè)等眾多領(lǐng)域。

“在面對海量、實時大數(shù)據(jù)分析上,柏睿的ParallelR作為一款分布式內(nèi)存數(shù)據(jù)庫人工智能并行算法庫,擁有快速,可擴展的機器學習和預(yù)測分析功能,可以在企業(yè)環(huán)境中,輕松構(gòu)建機器學習模型,實現(xiàn)數(shù)據(jù)分析的智慧化。同時,作為自主核心數(shù)據(jù)庫人工智能基礎(chǔ)框架,柏睿的ParallelR-3節(jié)點在12GB數(shù)據(jù)集耗時僅為105秒,而傳統(tǒng)R為1086.9秒。”柏睿數(shù)據(jù)相關(guān)負責人介紹。

相信,在激烈的同業(yè)競爭中,比拼的不僅速度,更是自主核心的產(chǎn)品體系方能在風云際會的市場上占據(jù)一席之地。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-03-29
高手對決,柏睿數(shù)據(jù)讓數(shù)據(jù)深度分析挖掘贏在毫秒間
“再快一天,我就能趕上Deadline。”“再快一分鐘,我就能在9:00打卡。

長按掃碼 閱讀全文