11月8日,2022 vivo開(kāi)發(fā)者大會(huì )以線(xiàn)上直播的形式召開(kāi),此次大會(huì )以“MORE,近你所想”為主題。在次日的云與基礎架構分會(huì )場(chǎng),vivo介紹了近年來(lái)其在云原生和容器技術(shù)層面的最新探索和實(shí)踐。vivo互聯(lián)網(wǎng)容器技術(shù)負責人潘良彪、互聯(lián)網(wǎng)容器研發(fā)高級工程師束迎亞等6位專(zhuān)家分別在現場(chǎng)做了主題演講。
擁抱云原生,助力算法降本提效
2018年起,vivo以容器作為基礎底座,打造了 vivo的一站式云原生機器學(xué)習平臺。向上支撐了算法中臺,為算法工程師提供數據管理、模型訓練、模型管理、模型部署等能力,為廣告、推薦和搜索等業(yè)務(wù)賦能,成功為算法實(shí)現了降本、提效,讓云原生和容器價(jià)值初露鋒芒。
基于機器學(xué)習平臺的試點(diǎn)成果,經(jīng)過(guò)算法場(chǎng)景的試點(diǎn)實(shí)踐和價(jià)值分析,vivo對內部戰略做了升級。確定基于云原生理念去構建行業(yè)一流的容器生態(tài),實(shí)現規?;慕当咎嵝繕?。為了更好匹配戰略落地擁抱云原生,vivo還對內部技術(shù)架構重新規劃和升級,新增引入統一流量接入平臺、容器運維管理平臺、統一名字服務(wù)、容器監控等平臺和能力,支撐容器生態(tài)在公司內部的全面建設和推廣。
對此,vivo互聯(lián)網(wǎng)容器技術(shù)負責人潘良彪也詳細介紹了vivo在容器集群高可用建設中的具體實(shí)踐,包括在容器集群高可用建設、容器集群自動(dòng)化運維、容器平臺架構升級、容器平臺能力增強、容器生態(tài)打通等層面的打磨和建設。目前,vivo容器產(chǎn)品能力矩陣逐漸趨于完善,并將圍繞全面容器化、擁抱云原生和在離線(xiàn)混部三個(gè)方向繼續發(fā)力。
vivo互聯(lián)網(wǎng)容器技術(shù)負責人 潘良彪
不懼千錘百煉, Kubernetes 集群升級推動(dòng)平臺能力躍升
vivo 在云原生技術(shù)領(lǐng)域已經(jīng)深耕多年。從2017年開(kāi)始接觸并積累容器技術(shù),之后搭建與運維 Kubernetes 集群,到如今提供成熟的容器化平臺解決方案,并在公司內部推廣接入在線(xiàn)業(yè)務(wù)和離線(xiàn)訓練任務(wù)。對于vivo而言 ,業(yè)務(wù)全面容器化可以說(shuō)是公司級別戰略,在平臺能力陸續更新上線(xiàn)的背景下,容器化集群無(wú)損升級則成了重要課題。
針對這一課題,vivo互聯(lián)網(wǎng)容器研發(fā)高級工程師束迎亞在演講中分享了 vivo 在容器化集群無(wú)損升級過(guò)程中的一些實(shí)踐經(jīng)驗。
在滿(mǎn)足API 兼容性、控制邏輯一致性以及Kubelet 穩定性三個(gè)關(guān)注點(diǎn)的前提下,vivo最終選擇將1.10版本升級到1.17版本。升級后,容器化平臺充分利用高版本Kubernetes 以及第三方控制器新特性,功能矩陣持續完善。對用戶(hù),需求能高效得到建設且穩定性更好,收益顯著(zhù);對運維同事,統一的內部集群 Kubernetes 版本使得運維復雜度大大降低,工作效率顯著(zhù)提高。接下來(lái),vivo將圍繞效率建設、自動(dòng)化建設、標準化建設繼續進(jìn)行Kubernetes 集群的升級管理。
vivo互聯(lián)網(wǎng)容器研發(fā)高級工程師 束迎亞
保持監控系統能力穩步提升,為業(yè)務(wù)服務(wù)提供長(cháng)效保障
vivo自2018年開(kāi)啟了監控系統的自研之路,期間不斷轉型、升級,系統服務(wù)能力漸趨成熟。從2022年開(kāi)始,vivo建設了統一監控平臺,將基礎監控、應用監控和自定義監控進(jìn)行統一,包含統一配置服務(wù)和統一檢測服務(wù)。從監控的建設歷程來(lái)看,vivo一路覆蓋了 IaaS、PaaS、DaaS、CaaS等平臺,其職能也從DevOps向AIOps邁進(jìn)。
vivo將基礎設施層、系統服務(wù)器層、系統服務(wù)層、業(yè)務(wù)應用層、客戶(hù)體驗層視為系統的監控對象,通過(guò)不同的服務(wù)體系達成監控全覆蓋,以滿(mǎn)足各類(lèi)環(huán)境部署訴求。此外,系統還支持多種采集方式,SDK和API采集主要應用在自定義監控場(chǎng)景,Agent 主要采集主機類(lèi)指標,由此建立起一套完備的監控體系。
vivo互聯(lián)網(wǎng)監控服務(wù)架構師陳寧寧在演講中表示,隨著(zhù)公司業(yè)務(wù)發(fā)展,業(yè)務(wù)模型、部署架構越來(lái)越復雜,故障定位很困難,定位問(wèn)題成本高,而監控系統在面對復雜、異構、調用關(guān)系冗長(cháng)的系統時(shí),就起到了重要作用。未來(lái),vivo將在場(chǎng)景串聯(lián)、可觀(guān)測性、服務(wù)能力化等層面進(jìn)一步探索,深挖產(chǎn)品價(jià)值,并構建其統一可觀(guān)測平臺,通過(guò)多維能力的提升,保障業(yè)務(wù)的可用性,提升業(yè)務(wù)服務(wù)質(zhì)量。
vivo互聯(lián)網(wǎng)監控服務(wù)架構師 陳寧寧
加速數據庫服務(wù)建設,讓云原生時(shí)代數據運維難題迎刃而解
2020年左右進(jìn)入后移動(dòng)互聯(lián)網(wǎng)時(shí)代,社會(huì )數字化程度進(jìn)一步加深,云原生的概念應運而生,微服務(wù)架構,資源彈性,容器等云原生技術(shù)廣為傳播。數據庫的穩定性方面,因為開(kāi)源數據庫的高可用體系普遍成熟而大大緩解。數據庫規模方面,實(shí)例數量和品類(lèi)都進(jìn)一步大增。數據庫安全方面,2021年8月我國正式出臺了個(gè)人信息保護法,個(gè)人隱私數據保護成為了數據庫運維的時(shí)代重點(diǎn)。
在以上時(shí)代背景下,vivo互聯(lián)網(wǎng)云平臺架構師鄧松認為,數據庫運維面臨著(zhù)大規模數據庫實(shí)例難以有效運維、數據庫難以做好資源彈性伸縮以及個(gè)人隱私數據安全難以保障這三個(gè)方面的挑戰。對此,vivo也給出了自身的應對方案。
首先,vivo自研了數據庫運維平臺DaaS來(lái)支撐數據庫運維工作。在規模覆蓋、效率提升、故障告警處理等層面均衡發(fā)力,保障了數據的穩定性,以工單自助,故障自愈為核心,實(shí)現了數據庫的高效運維。
其次,在數據庫資源彈性管理層面,vivo重視資源成本優(yōu)化。圍繞資源分配、資源彈性伸縮、資源隔離分別給出了智能化解決方案,并通過(guò)套餐自動(dòng)優(yōu)化,進(jìn)一步降低了管理成本。最后,基于個(gè)人隱私數據,平臺也提供了對業(yè)務(wù)幾乎無(wú)影響的MySQL的透明加密方案,來(lái)減輕因為隱私數據加密帶來(lái)的研發(fā)和運維工作量。
vivo互聯(lián)網(wǎng)云平臺架構師 鄧松
步履不停,vivo持續探索消息平臺新可能
長(cháng)期以來(lái),vivo在超大規模消息中間件方面也是動(dòng)作頻頻。在線(xiàn)業(yè)務(wù)側,vivo選擇RocketMQ構建消息平臺,意在依托其豐富的功能特性滿(mǎn)足業(yè)務(wù)間削峰、解耦、異步化的需求。大數據側,vivo選擇具備高并發(fā)、高可用、高吞吐的消息流組件Kafka構建超大規模數據處理能力的數據接入服務(wù)。在大數據業(yè)務(wù)全鏈路中,Kafka作為統一數據接入服務(wù)和實(shí)時(shí)數倉服務(wù),是大數據生態(tài)體系建設中不可或缺的重要組件之一。
基于此,vivo互聯(lián)網(wǎng)中間件架構師羅明波從資源隔離、流量均衡、限流、集群治理四個(gè)維度分享了Kafka在vivo的最佳實(shí)踐。vivo kafka消息中間件團隊在三年時(shí)間內,根據實(shí)際的業(yè)務(wù)場(chǎng)景和生產(chǎn)數據規模沉淀了較多的實(shí)踐經(jīng)驗。未來(lái),也將以項目啟動(dòng)、穩定性建設、能力進(jìn)階、穩定運營(yíng)四個(gè)階段為基準,展開(kāi)對Pulsar組件的長(cháng)續規劃和建設。
vivo互聯(lián)網(wǎng)中間件架構師 羅明波
除此之外,vivo基于RocketMQ的消息中間件平臺建設也有著(zhù)豐富的實(shí)踐經(jīng)驗。在會(huì )上,vivo互聯(lián)網(wǎng)中間件架構師劉潤云分享了保障消息平臺高可用落地的三個(gè)方面,包括集群部署架構和平臺系統架構、日常運維操作平臺化以及構建集群的監控大盤(pán)和完善平臺的的監控告警能力。以高可用建設落地為基礎,vivo通過(guò)建設AMQP消息網(wǎng)關(guān)的方式完成了在線(xiàn)業(yè)務(wù)超過(guò)1000個(gè)服務(wù)從RabbitMQ到RocketMQ的無(wú)縫遷移,實(shí)現了在線(xiàn)業(yè)務(wù)消息中間件組件的統一。
圍繞在線(xiàn)業(yè)務(wù)消息平臺的未來(lái)發(fā)展方向,vivo也有著(zhù)十分明確的規劃。在新特性引入層面,vivo表示希望可以調研升級到RocketMQ5.0版本架構,力求借該版本的存算分離架構來(lái)更好的解決其當前遇到的存儲瓶頸問(wèn)題;通過(guò)Pop消費實(shí)現更好的消費負載均衡;并基于gRPC協(xié)議建設統一的消息網(wǎng)關(guān)能力。此外,在平臺能力提升層面,vivo則希望可以探索消息中間件容器化部署,提供消息中間件的快速彈性擴縮容能力,更好的支持業(yè)務(wù)需求。
vivo互聯(lián)網(wǎng)中間件架構師 劉潤云
vivo將在消息中間件運維領(lǐng)域繼續深入研究,期望可以建設擁有更高性能、更豐富功能特性的消息平臺,為各位開(kāi)發(fā)者與合作伙伴提供更優(yōu)質(zhì)的服務(wù)!