傳智教育出席ApacheCon Asia 2022開(kāi)源大會(huì ),分享大數據&Python生態(tài)在傳智教育的實(shí)踐和思考

熱點(diǎn)
TIME
2022-08-04 15:30
搜狐網(wǎng)
分享

  7月29日-31日,ApacheCon Asia 2022開(kāi)源大會(huì )在線(xiàn)上盛大開(kāi)啟,來(lái)自傳智教育Python+大數據學(xué)科的兩位高級技術(shù)專(zhuān)家張敬存老師、趙晨杰老師,共同在會(huì )上發(fā)表了題為《大數據&Python生態(tài)在傳智教育的實(shí)踐和思考》的演講,和與會(huì )者分享了傳智教育對大數據&Python生態(tài)發(fā)展的思考、探索與實(shí)踐歷程。

  據悉,ApacheCon Asia 2022是由Apache 軟件基金會(huì )(ASF)組織的官方全球系列大會(huì ),作為久負盛名的開(kāi)源盛宴,活動(dòng)吸引了全球的開(kāi)發(fā)者前來(lái)探討開(kāi)源技術(shù)、開(kāi)源文化和開(kāi)源理念。

  今年的ApacheCon Asia 2022會(huì )議議程覆蓋了數十個(gè)類(lèi)別的Apache 項目?jì)热?,從流處理到消息隊列、集成,從大數據到金融科技,從搜索再到Tomcat等都有涉及。

  當前,大數據技術(shù)正在深刻的引領(lǐng)和改變著(zhù)各個(gè)行業(yè)發(fā)展,而Apache 軟件基金會(huì )(ASF)有著(zhù)非常多的大數據項目,比如Hadoop, Hive, Spark, HBase, Kylin, Ozone, CarbonData, Doris, Cassandra, ZooKeeper,Hudi,Iceberg,Zeppelin,SeaTunnel(incubator) 等。也因此,本次大數據分論壇倍受業(yè)內關(guān)注。在會(huì )場(chǎng)中,開(kāi)發(fā)者們共同探討大數據的前沿技術(shù)趨勢以及一線(xiàn)用戶(hù)的實(shí)踐經(jīng)驗、原理、架構分析等。

  傳智教育兩位老師作為大數據領(lǐng)域的探索者和授業(yè)者,受邀分享了《大數據 Python&生態(tài)在傳智教育的實(shí)踐和思考》,并從大數據Python生態(tài)發(fā)展、傳智教育基于大數據Python生態(tài)架構演變過(guò)程、大數據Python生態(tài)在傳智教育落地實(shí)踐、傳智教育大數據Python生態(tài)的展望四個(gè)方面,深度解析了傳智教育長(cháng)期以來(lái)對大數據Python的技術(shù)理念、實(shí)踐應用和發(fā)展。

  大數據Python生態(tài)發(fā)展

  傳智教育認為,大數據Python生態(tài)的核心目標實(shí)際上圍繞著(zhù)兩個(gè)關(guān)鍵字,分別是大數據和Python。

  具體來(lái)講無(wú)非兩點(diǎn),第一是將大數據的能力輸出給Python用戶(hù),比如說(shuō)Pyspark, 就相當于將spark的計算能力輸出給了Python用戶(hù),進(jìn)而就有了Pyspark這種組件。

  其次要將Python生態(tài)分析計算的功能運行到大數據的組建上,進(jìn)而提升Python生態(tài)對大數據問(wèn)題的解決能力。

  此外,使用Python語(yǔ)言來(lái)學(xué)習和應用大數據是非常具有優(yōu)勢的,大數據明星框架Spark首推使用Python語(yǔ)言進(jìn)行開(kāi)發(fā)。

  傳智教育基于大數據Python生態(tài)架構演變過(guò)程

  趙老師結合傳智教育的實(shí)際情況舉例說(shuō),傳智教育的線(xiàn)上平臺業(yè)務(wù)線(xiàn)涉及100多個(gè)業(yè)務(wù)的看板,3000多個(gè)業(yè)務(wù)指標的分析,對于如此龐大的業(yè)務(wù)處理,傳智教育采用了Python+大數據生態(tài),從而實(shí)現整個(gè)數據的Pipeline來(lái)操作,同時(shí)通過(guò)實(shí)時(shí)數倉、用戶(hù)畫(huà)像和推薦系統等更好地為用戶(hù)提供合適的產(chǎn)品。

  實(shí)際業(yè)務(wù)中遇到很多困難,比如:用戶(hù)咨詢(xún)和學(xué)習行為的大幅上漲;各業(yè)務(wù)庫和第三方系統的數據同步,采集同步;業(yè)務(wù)分析類(lèi)需求查詢(xún)效率低(使用分析庫ADB查詢(xún)效率仍然低下);智能推薦(針對個(gè)性化行為信息,如何實(shí)現個(gè)性化課程推薦)等。

  傳智教育基于上述痛點(diǎn)升級了架構,采用Pyflink生態(tài),重新設計出適合業(yè)務(wù)大數據的一個(gè)技術(shù)架構,運用大數據Python生態(tài)的Pyflink實(shí)現ETL處理,實(shí)時(shí)數倉,實(shí)現用戶(hù)畫(huà)像和推薦等。

  值得一提的是,上圖所示的架構變遷V3.0中,從實(shí)時(shí)數倉、畫(huà)像到推薦系統,都在整個(gè)傳智教育的大數據平臺,并首次引入 PyFlink,但是在使用過(guò)程中由于遇到了很多窗口的操作不支持問(wèn)題,且當時(shí)PyFlink本身功能不完善,所以傳智教育就開(kāi)發(fā)了窗口及其他PyFLink算子相關(guān)功能,并貢獻了十多個(gè) PR 來(lái)幫助 PyFlink 變得更加成熟。

  大數據Python生態(tài)在傳智教育落地實(shí)踐

  傳智教育在線(xiàn)上平臺擁有多個(gè)學(xué)科,30多個(gè)就業(yè)模塊課程,上百門(mén)小課,需要根據用戶(hù)行為實(shí)時(shí)推薦小課和就業(yè)班課程,涉及首頁(yè)推薦、熱門(mén)推薦、猜你喜歡、搜索頁(yè)好課推薦等,需要通過(guò)用戶(hù)畫(huà)像和推薦系統完成個(gè)性化推薦服務(wù)。

  以用戶(hù)畫(huà)像落地實(shí)踐為例,用戶(hù)信息標簽化,也就是抽取出一個(gè)平臺用戶(hù)的信息全貌,從而解決如何將數據轉化為商業(yè)價(jià)值的問(wèn)題,包括教育程度、職業(yè)、喜好等標簽,以便全面了解用戶(hù)信息,同時(shí)給推薦系統提供數據支持。

  那該使用什么技術(shù)完成標簽計算?

  在傳智教育大數據&Python生態(tài)中,會(huì )首先將標簽進(jìn)行分級,使用PyFlink技術(shù)棧完成人口屬性下面的年齡、性別等四級標簽計;商業(yè)屬性中支付方式、客單價(jià)、有券必買(mǎi)等四級標簽;行為屬性中瀏覽時(shí)長(cháng)、登錄頻率、訪(fǎng)問(wèn)頻率等四級標簽。

  然后,通過(guò)PyFlink和PyAlink整合完成客戶(hù)價(jià)值標簽RFM、用戶(hù)活躍度模型RFE、價(jià)值敏感度模型PSM、購買(mǎi)性別標簽USG等,從而完成用戶(hù)畫(huà)像的咨詢(xún),以及后續課程、就業(yè)、出勤等10多個(gè)看板,1000多個(gè)四級標簽構建。

  展望傳智教育大數據Python生態(tài)

  最后,傳智教育的高級技術(shù)專(zhuān)家趙晨杰老師,分享了大數據Python生態(tài)在傳智教育的未來(lái)發(fā)展展望。

  例如,在實(shí)時(shí)數倉方面,將借助于Python大數據生態(tài)完成 ,數據湖實(shí)時(shí)接入數據,Doris實(shí)時(shí)同步數據湖數據。

  在用戶(hù)畫(huà)像方面,完善用戶(hù)標簽體系,增加挖掘類(lèi)標簽占比,豐富實(shí)時(shí)用戶(hù)畫(huà)像場(chǎng)景等。

  在推薦系統方面,增加知識圖譜推薦,結合強化學(xué)習實(shí)現精準推薦,預研Bert模型在推薦系統應用等。

  傳智教育相信在A(yíng)pache 各類(lèi)開(kāi)源框架的應用下,傳智教育的各類(lèi)系統應用能越來(lái)越好,同時(shí)在實(shí)踐的過(guò)程中,也能反哺系統功能,讓框架更完整,實(shí)現更多的功能。

  為了讓更多的開(kāi)發(fā)者在A(yíng)pache社區學(xué)到大數據相關(guān)的前沿技術(shù),傳智教育現已聯(lián)合Apache Hudi、Apache Doris、Apache Pulsar 等官方社區推出了完整的中文課程,給想要了解和使用這些技術(shù)的同學(xué),提供一個(gè)快速入門(mén)的途徑,也為開(kāi)源社區貢獻了自己的一份力量。

  傳智教育此次應邀出席ApacheCon Asia 2022開(kāi)源大會(huì ),展現出領(lǐng)先于業(yè)內的高新技術(shù)開(kāi)發(fā)及應用的實(shí)力,作為一直致力于培養高精尖數字化人才的職業(yè)教育集團,傳智教育的教研優(yōu)勢非常明顯,相信未來(lái)傳智教育能在新技術(shù)場(chǎng)景化應用及數字化人才培養模式上帶給行業(yè)更多前沿探索實(shí)踐。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  IT之家 8 月 4 日消息,今天是傳統節日七夕節,被賦予了“牛郎織女”的美麗愛(ài)情傳說(shuō),使其成為了象征愛(ài)情的節日,從而被認為是中國最具浪漫色彩的傳統節日,日期是每年農歷...
互聯(lián)網(wǎng)
  新華社太原8月4日電(李國利、郝明金)8月4日11時(shí)08分,我國在太原衛星發(fā)射中心使用長(cháng)征四號乙遙四十運載火箭,成功將陸地生態(tài)系統碳監測衛星以及搭載的交通四號衛星和閔...
新科技

相關(guān)推薦

1
3
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看