7月29日-31日,ApacheCon Asia 2022開(kāi)源大會(huì)在線上盛大開(kāi)啟,來(lái)自傳智教育Python+大數(shù)據(jù)學(xué)科的兩位高級(jí)技術(shù)專家張敬存老師、趙晨杰老師,共同在會(huì)上發(fā)表了題為《大數(shù)據(jù)&Python生態(tài)在傳智教育的實(shí)踐和思考》的演講,和與會(huì)者分享了傳智教育對(duì)大數(shù)據(jù)&Python生態(tài)發(fā)展的思考、探索與實(shí)踐歷程。
據(jù)悉,ApacheCon Asia 2022是由Apache 軟件基金會(huì)(ASF)組織的官方全球系列大會(huì),作為久負(fù)盛名的開(kāi)源盛宴,活動(dòng)吸引了全球的開(kāi)發(fā)者前來(lái)探討開(kāi)源技術(shù)、開(kāi)源文化和開(kāi)源理念。
今年的ApacheCon Asia2022會(huì)議議程覆蓋了數(shù)十個(gè)類別的Apache項(xiàng)目?jī)?nèi)容,從流處理到消息隊(duì)列、集成,從大數(shù)據(jù)到金融科技,從搜索再到Tomcat等都有涉及。
當(dāng)前,大數(shù)據(jù)技術(shù)正在深刻的引領(lǐng)和改變著各個(gè)行業(yè)發(fā)展,而Apache 軟件基金會(huì)(ASF)有著非常多的大數(shù)據(jù)項(xiàng)目,比如Hadoop, Hive, Spark, HBase, Kylin, Ozone, CarbonData, Doris, Cassandra, ZooKeeper,Hudi,Iceberg,Zeppelin,SeaTunnel(incubator) 等。也因此,本次大數(shù)據(jù)分論壇倍受業(yè)內(nèi)關(guān)注。在會(huì)場(chǎng)中,開(kāi)發(fā)者們共同探討大數(shù)據(jù)的前沿技術(shù)趨勢(shì)以及一線用戶的實(shí)踐經(jīng)驗(yàn)、原理、架構(gòu)分析等。
傳智教育兩位老師作為大數(shù)據(jù)領(lǐng)域的探索者和授業(yè)者,受邀分享了《大數(shù)據(jù) Python&生態(tài)在傳智教育的實(shí)踐和思考》,并從大數(shù)據(jù)Python生態(tài)發(fā)展、傳智教育基于大數(shù)據(jù)Python生態(tài)架構(gòu)演變過(guò)程、大數(shù)據(jù)Python生態(tài)在傳智教育落地實(shí)踐、傳智教育大數(shù)據(jù)Python生態(tài)的展望四個(gè)方面,深度解析了傳智教育長(zhǎng)期以來(lái)對(duì)大數(shù)據(jù)Python的技術(shù)理念、實(shí)踐應(yīng)用和發(fā)展。
大數(shù)據(jù)Python生態(tài)發(fā)展
傳智教育認(rèn)為,大數(shù)據(jù)Python生態(tài)的核心目標(biāo)實(shí)際上圍繞著兩個(gè)關(guān)鍵字,分別是大數(shù)據(jù)和Python。
具體來(lái)講無(wú)非兩點(diǎn),第一是將大數(shù)據(jù)的能力輸出給Python用戶,比如說(shuō)Pyspark, 就相當(dāng)于將spark的計(jì)算能力輸出給了Python用戶,進(jìn)而就有了Pyspark這種組件。
其次要將Python生態(tài)分析計(jì)算的功能運(yùn)行到大數(shù)據(jù)的組建上,進(jìn)而提升Python生態(tài)對(duì)大數(shù)據(jù)問(wèn)題的解決能力。
此外,使用Python語(yǔ)言來(lái)學(xué)習(xí)和應(yīng)用大數(shù)據(jù)是非常具有優(yōu)勢(shì)的,大數(shù)據(jù)明星框架Spark首推使用Python語(yǔ)言進(jìn)行開(kāi)發(fā)。
傳智教育基于大數(shù)據(jù)Python生態(tài)架構(gòu)演變過(guò)程
趙老師結(jié)合傳智教育的實(shí)際情況舉例說(shuō),傳智教育的線上平臺(tái)業(yè)務(wù)線涉及100多個(gè)業(yè)務(wù)的看板,3000多個(gè)業(yè)務(wù)指標(biāo)的分析,對(duì)于如此龐大的業(yè)務(wù)處理,傳智教育采用了Python+大數(shù)據(jù)生態(tài),從而實(shí)現(xiàn)整個(gè)數(shù)據(jù)的Pipeline來(lái)操作,同時(shí)通過(guò)實(shí)時(shí)數(shù)倉(cāng)、用戶畫(huà)像和推薦系統(tǒng)等更好地為用戶提供合適的產(chǎn)品。
實(shí)際業(yè)務(wù)中遇到很多困難,比如:用戶咨詢和學(xué)習(xí)行為的大幅上漲;各業(yè)務(wù)庫(kù)和第三方系統(tǒng)的數(shù)據(jù)同步,采集同步;業(yè)務(wù)分析類需求查詢效率低(使用分析庫(kù)ADB查詢效率仍然低下);智能推薦(針對(duì)個(gè)性化行為信息,如何實(shí)現(xiàn)個(gè)性化課程推薦)等。
傳智教育基于上述痛點(diǎn)升級(jí)了架構(gòu),采用Pyflink生態(tài),重新設(shè)計(jì)出適合業(yè)務(wù)大數(shù)據(jù)的一個(gè)技術(shù)架構(gòu),運(yùn)用大數(shù)據(jù)Python生態(tài)的Pyflink實(shí)現(xiàn)ETL處理,實(shí)時(shí)數(shù)倉(cāng),實(shí)現(xiàn)用戶畫(huà)像和推薦等。
值得一提的是,上圖所示的架構(gòu)變遷V3.0中,從實(shí)時(shí)數(shù)倉(cāng)、畫(huà)像到推薦系統(tǒng),都在整個(gè)傳智教育的大數(shù)據(jù)平臺(tái),并首次引入 PyFlink,但是在使用過(guò)程中由于遇到了很多窗口的操作不支持問(wèn)題,且當(dāng)時(shí)PyFlink本身功能不完善,所以傳智教育就開(kāi)發(fā)了窗口及其他PyFLink算子相關(guān)功能,并貢獻(xiàn)了十多個(gè) PR 來(lái)幫助 PyFlink變得更加成熟。
大數(shù)據(jù)Python生態(tài)在傳智教育落地實(shí)踐
傳智教育在線上平臺(tái)擁有多個(gè)學(xué)科,30多個(gè)就業(yè)模塊課程,上百門(mén)小課,需要根據(jù)用戶行為實(shí)時(shí)推薦小課和就業(yè)班課程,涉及首頁(yè)推薦、熱門(mén)推薦、猜你喜歡、搜索頁(yè)好課推薦等,需要通過(guò)用戶畫(huà)像和推薦系統(tǒng)完成個(gè)性化推薦服務(wù)。
以用戶畫(huà)像落地實(shí)踐為例,用戶信息標(biāo)簽化,也就是抽取出一個(gè)平臺(tái)用戶的信息全貌,從而解決如何將數(shù)據(jù)轉(zhuǎn)化為商業(yè)價(jià)值的問(wèn)題,包括教育程度、職業(yè)、喜好等標(biāo)簽,以便全面了解用戶信息,同時(shí)給推薦系統(tǒng)提供數(shù)據(jù)支持。
那該使用什么技術(shù)完成標(biāo)簽計(jì)算?
在傳智教育大數(shù)據(jù)&Python生態(tài)中,會(huì)首先將標(biāo)簽進(jìn)行分級(jí),使用PyFlink技術(shù)棧完成人口屬性下面的年齡、性別等四級(jí)標(biāo)簽計(jì);商業(yè)屬性中支付方式、客單價(jià)、有券必買(mǎi)等四級(jí)標(biāo)簽;行為屬性中瀏覽時(shí)長(zhǎng)、登錄頻率、訪問(wèn)頻率等四級(jí)標(biāo)簽。
然后,通過(guò)PyFlink和PyAlink整合完成客戶價(jià)值標(biāo)簽RFM、用戶活躍度模型RFE、價(jià)值敏感度模型PSM、購(gòu)買(mǎi)性別標(biāo)簽USG等,從而完成用戶畫(huà)像的咨詢,以及后續(xù)課程、就業(yè)、出勤等10多個(gè)看板,1000多個(gè)四級(jí)標(biāo)簽構(gòu)建。
展望傳智教育大數(shù)據(jù)Python生態(tài)
最后,傳智教育的高級(jí)技術(shù)專家趙晨杰老師,分享了大數(shù)據(jù)Python生態(tài)在傳智教育的未來(lái)發(fā)展展望。
例如,在實(shí)時(shí)數(shù)倉(cāng)方面,將借助于Python大數(shù)據(jù)生態(tài)完成,數(shù)據(jù)湖實(shí)時(shí)接入數(shù)據(jù),Doris實(shí)時(shí)同步數(shù)據(jù)湖數(shù)據(jù)。
在用戶畫(huà)像方面,完善用戶標(biāo)簽體系,增加挖掘類標(biāo)簽占比,豐富實(shí)時(shí)用戶畫(huà)像場(chǎng)景等。
在推薦系統(tǒng)方面,增加知識(shí)圖譜推薦,結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)精準(zhǔn)推薦,預(yù)研Bert模型在推薦系統(tǒng)應(yīng)用等。
傳智教育相信在Apache 各類開(kāi)源框架的應(yīng)用下,傳智教育的各類系統(tǒng)應(yīng)用能越來(lái)越好,同時(shí)在實(shí)踐的過(guò)程中,也能反哺系統(tǒng)功能,讓框架更完整,實(shí)現(xiàn)更多的功能。
為了讓更多的開(kāi)發(fā)者在Apache社區(qū)學(xué)到大數(shù)據(jù)相關(guān)的前沿技術(shù),傳智教育現(xiàn)已聯(lián)合Apache Hudi、Apache Doris、Apache Pulsar 等官方社區(qū)推出了完整的中文課程,給想要了解和使用這些技術(shù)的同學(xué),提供一個(gè)快速入門(mén)的途徑,也為開(kāi)源社區(qū)貢獻(xiàn)了自己的一份力量。
傳智教育此次應(yīng)邀出席ApacheCon Asia 2022開(kāi)源大會(huì),展現(xiàn)出領(lǐng)先于業(yè)內(nèi)的高新技術(shù)開(kāi)發(fā)及應(yīng)用的實(shí)力,作為一直致力于培養(yǎng)高精尖數(shù)字化人才的職業(yè)教育集團(tuán),傳智教育的教研優(yōu)勢(shì)非常明顯,相信未來(lái)傳智教育能在新技術(shù)場(chǎng)景化應(yīng)用及數(shù)字化人才培養(yǎng)模式上帶給行業(yè)更多前沿探索實(shí)踐。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )