在數據庫領(lǐng)域,萬(wàn)里數據庫已經(jīng)默默耕耘了16年,如今,萬(wàn)里數據庫已經(jīng)悄然走向了前臺,開(kāi)始嶄露頭角。
近日,賽迪顧問(wèn)發(fā)布了《“十四五”關(guān)鍵應用領(lǐng)域之數據庫市場(chǎng)研究報告》。賽迪直屬工業(yè)和信息化部中國電子信息產(chǎn)業(yè)發(fā)展研究院,所以,能拿到一些媒體拿不到的官方數據,比如:關(guān)鍵應用領(lǐng)域數據庫部署情況等,因此,有一定參考價(jià)值。
值得關(guān)注的是,此次報告中,萬(wàn)里數據庫進(jìn)入領(lǐng)導者象限,成為最大黑馬。
按賽迪報告對領(lǐng)導者象限廠(chǎng)商的定位:企業(yè)產(chǎn)品技術(shù)路線(xiàn)符合市場(chǎng)需求、市場(chǎng)占有率較高,且技術(shù)具有領(lǐng)先性,在某些方向具有一定的領(lǐng)導力。而且公司產(chǎn)品安全性高,符合關(guān)鍵應用領(lǐng)域需求。
萬(wàn)里數據庫入圍領(lǐng)導者象限是否實(shí)至名歸?說(shuō)實(shí)話(huà),閱讀報告前,我其實(shí)有些不以為然。但仔細閱讀報告后,我意識到之前的判斷可能有些草率和片面了。萬(wàn)里數據庫的異軍突起,還是有一定數據與事實(shí)支撐的。當然,這是建立在特定市場(chǎng)與特定條件的基礎之上。
賽迪報告評價(jià)模型采用競爭力四象限圖模型,從技術(shù)先進(jìn)性和產(chǎn)品安全性?xún)蓚€(gè)維度對企業(yè)展開(kāi)評估。從象限圖中可以看到,萬(wàn)里數據庫處于領(lǐng)導者象限的中間位置,在產(chǎn)品安全性和技術(shù)先進(jìn)性方面,與國內熟知的一些數據庫廠(chǎng)商位于同一領(lǐng)先水平。
報告開(kāi)篇就強調:
“本報告主要研究在關(guān)鍵應用領(lǐng)域中應用的數據庫產(chǎn)品,涉及的數據庫均為商業(yè)發(fā)行版?!?/p>
這句話(huà),我理解有兩層意思:其一,調研對象僅針對數據庫商業(yè)發(fā)行版,排除了開(kāi)源版(社區版)產(chǎn)品,這或許就是為什么有些數據庫廠(chǎng)商并未出現在這份報告中的原因;其二,報告針對的并非全市場(chǎng),而是關(guān)鍵應用領(lǐng)域市場(chǎng)。那么,什么是關(guān)鍵應用領(lǐng)域?
報告給出的定義是:
關(guān)鍵應用領(lǐng)域是指面向公眾提供網(wǎng)絡(luò )信息服務(wù)或支撐能源、通信、金融、 交通、公共事業(yè)等重要行業(yè)運行的信息系統或工業(yè)控制系統。毫無(wú)疑問(wèn),關(guān)鍵應用領(lǐng)域其實(shí)就是國產(chǎn)化替代首當其沖的產(chǎn)業(yè)。
為什么評估模型要基于技術(shù)先進(jìn)性和產(chǎn)品安全性這2個(gè)維度?這2個(gè)維度又具體包含哪些因素?該報告也給出了原因。這與在“十四五”關(guān)鍵應用領(lǐng)域建設過(guò)程中,對數據庫的要求直接相關(guān):
一、對數據庫安全性要求更高
關(guān)鍵應用領(lǐng)域被視為重要的信息基礎設施與行業(yè),因為它們的中斷或破壞將對重要的社會(huì )功能產(chǎn)生嚴重影響。這些系統一旦故障,會(huì )影響重要行業(yè)的正常運行,對國家政治、經(jīng)濟、科技、社會(huì )、文化、國防、環(huán)境以及人民生命財產(chǎn)造成嚴重損失。
據報告介紹,安全性這項指標主要考慮:公司股權結構、產(chǎn)品安全等級、客戶(hù)類(lèi)型等因素。
二、對數據庫技術(shù)架構先進(jìn)性要求更高
為什么關(guān)鍵應用領(lǐng)域對數據庫技術(shù)架構先進(jìn)性要求更高?報告指出,這取決于現階段,數據庫產(chǎn)品面臨兩大技術(shù)挑戰:
1、支撐云計算時(shí)代新的技術(shù)要求
依托公有云的存儲和計算資源,云數據庫實(shí)現了存儲和計算的完全解耦,在提供近乎無(wú)限的延展性和高彈性的同時(shí),亦保障了數據的一致性,并支持結構化和半結構化數據的處理。同時(shí),云數據庫平臺作為服務(wù)整體交付,節約了用戶(hù)管理基礎架構所需的成本、時(shí)間和資源。目前,數據庫管理軟件向云端的遷移亦成為明確趨勢。
2、滿(mǎn)足數據量劇增背景下,如何高效穩定地使用數據,支撐業(yè)務(wù)發(fā)展
隨著(zhù)計算載體的迭代與業(yè)務(wù)需求的相互促進(jìn),傳統數據庫在某些伸縮性強的業(yè)務(wù)場(chǎng)景中已難以滿(mǎn)足市場(chǎng)需求,分布式數據庫在這些場(chǎng)景中的優(yōu)勢便顯現出來(lái)。在數據量劇增的背景下,集中式數據庫顯現出了存儲建設成本高、擴展性較差等問(wèn)題。分布式數據庫則通過(guò)資源池化管理,實(shí)現物理或邏輯層的相互隔離和資源的自由伸縮,具備彈性擴張、HTAP事務(wù)、多租戶(hù)管理、高可用等能力,與云計算場(chǎng)景需求相匹配。同時(shí),分布式數據庫對多種數據類(lèi)型的兼容,可以實(shí)現對存儲于不同物理服務(wù)器、不同格式的數據進(jìn)行結構與算法的優(yōu)化,突破服務(wù)器類(lèi)型的限制,為上層不同類(lèi)型的應用提供多模式的數據服務(wù)。
因此,基于以上2大挑戰,云數據庫及分布式架構成為現階段最熱門(mén)的技術(shù)路線(xiàn)。數據庫產(chǎn)品是否考慮到新的技術(shù)要求并與新興技術(shù)融合,就成為了一項重要指標。
當然,技術(shù)先進(jìn)性這項指標也并不僅限于此。據該報告介紹,這項指標主要考慮:產(chǎn)品架構、技術(shù)路線(xiàn)、服務(wù)體系、應用案例等因素。
搞明白了產(chǎn)品安全性及技術(shù)先進(jìn)性?xún)蓚€(gè)維度所包含的具體指標,萬(wàn)里數據庫憑什么能進(jìn)入領(lǐng)導者象限,就可以一一對應進(jìn)行分析了。
從公司股權結構看,萬(wàn)里數據庫算是國內較早一批從事分布式數據庫研發(fā)的廠(chǎng)商,成立于2000年10月24日。據工信部數據庫發(fā)展白皮書(shū)2021顯示,國產(chǎn)數據庫企業(yè)成立年限超過(guò)10年的不足50%,而成立20年以上的數據庫企業(yè)只有十四家,萬(wàn)里數據庫就屬于其中一家。
從天眼查可以查到,萬(wàn)里數據庫是一家背景“清白”的獨立數據庫企業(yè),并沒(méi)有外資背景,也沒(méi)有與任何一家云廠(chǎng)商綁定。這對于企業(yè)多云異構的復雜環(huán)境有適用性、中立性。國外當紅炸子雞Snowflake,已經(jīng)證明了中立性的價(jià)值。
“未來(lái),國內數據庫市場(chǎng)會(huì )形成至少2個(gè)梯隊。第1梯隊是互聯(lián)網(wǎng)巨頭,萬(wàn)里數據庫的目標是做第2梯隊領(lǐng)頭羊。為什么除了互聯(lián)網(wǎng)巨頭之外,還能有第2梯隊?因為,客戶(hù)替換是為了避免被外資大廠(chǎng)綁定,同樣,也不愿意接下來(lái)被另外的巨頭綁定,這就給萬(wàn)里數據庫這樣的獨立數據庫廠(chǎng)商提供了市場(chǎng)空間?!?/p>
這是去年,萬(wàn)里數據庫聯(lián)合創(chuàng )始人林韶賓在接受我的采訪(fǎng)時(shí)說(shuō)過(guò)的一段話(huà)。其中就提到了中立性這點(diǎn)。
天眼查顯示,萬(wàn)里數據庫旗下有且僅有唯一一個(gè)全資子公司,即北京拓林思軟件有限公司(Turbolinux),是國內最早一批從事Linux產(chǎn)品化的公司。
這說(shuō)明,萬(wàn)里數據庫在基礎軟件領(lǐng)域很早就開(kāi)始布局國產(chǎn)替代市場(chǎng),有著(zhù)較深的技術(shù)積累和國內商業(yè)化的認知,否則不會(huì )存活到現在。這與近幾年跟隨風(fēng)口瘋狂入場(chǎng)的一些新興數據庫公司,有著(zhù)本質(zhì)區別。
從產(chǎn)品安全等級看,萬(wàn)里數據庫是否符合國產(chǎn)化要求?具體到行業(yè),如:萬(wàn)里數據庫是否符合金融國產(chǎn)化要求,相關(guān)資質(zhì)是否齊全?
從公眾號、網(wǎng)站等公開(kāi)資料可以了解到,萬(wàn)里數據庫自2018年開(kāi)始與國產(chǎn)芯片、操作系統、服務(wù)器、中間件等國產(chǎn)軟硬件開(kāi)展兼容適配。目前,萬(wàn)里的數據庫已兼容所有主流的國產(chǎn)軟硬件。
萬(wàn)里數據庫先后通過(guò)了中國人民銀行、中國電科院、中國軟件評測中心等行業(yè)及業(yè)內權威的安全等級測試認證,并且產(chǎn)品在金融、運營(yíng)商、能源等行業(yè)有較大規模的落地。
這說(shuō)明萬(wàn)里數據庫滿(mǎn)足國家安全標準與用戶(hù)安全標準。通過(guò)安全等級測試是一方面,更具說(shuō)服力的是在金融、運營(yíng)商、能源等行業(yè)頭部企業(yè)中有較大規模的落地實(shí)踐,這能說(shuō)明很多問(wèn)題。
從客戶(hù)類(lèi)型及應用案例看,客戶(hù)類(lèi)型及案例能有效證明產(chǎn)品的安全性。賽迪報告中雖未直接披露廠(chǎng)商和產(chǎn)品,但從案例架構圖中,不難找到萬(wàn)里數據庫的身影??陀^(guān)地說(shuō),對于沒(méi)有國家隊背景的萬(wàn)里數據庫而言,活著(zhù)且越活越好,并不是一件容易的事。
雖然,萬(wàn)里數據庫的商業(yè)模式與大部分數據庫廠(chǎng)商沒(méi)有區別,主要以售賣(mài)License為主。但萬(wàn)里數據庫針對頭部客戶(hù)采用靈活的聯(lián)合研發(fā)模式,我認為,這才是萬(wàn)里數據庫能夠敲開(kāi)金融、運營(yíng)商、能源等行業(yè)客戶(hù),并迅速鋪開(kāi)的主要原因。
聯(lián)合研發(fā)的案例并不難發(fā)現。2019年,萬(wàn)里數據庫與國家電網(wǎng)聯(lián)合發(fā)布“思極有容”數據庫。2020年,又與聯(lián)通沃音樂(lè )聯(lián)合研發(fā)海納數據智能平臺uniBase。
售賣(mài)License的案例,如2020年,萬(wàn)里數據庫中標了中移動(dòng)OLTP數據庫聯(lián)合創(chuàng )新項目,在業(yè)內一鳴驚人。
毫無(wú)疑問(wèn),萬(wàn)里數據庫的主要用戶(hù)都是國內關(guān)鍵應用領(lǐng)域中的頭部企業(yè)。如前所述,如果萬(wàn)里數據庫的產(chǎn)品不符合國家電網(wǎng)、中國移動(dòng)等行業(yè)巨頭的應用標準,它憑什么中標?沒(méi)國家隊身份的它又憑什么活著(zhù)?
從產(chǎn)品架構看,去年,我對萬(wàn)里數據庫聯(lián)合創(chuàng )始人林韶賓的專(zhuān)訪(fǎng)中已經(jīng)提及(詳情見(jiàn)《萬(wàn)里數據庫是一家怎樣的公司?》)
GreatDB采用原生分布式架構、基于多數派協(xié)議+數據冗余實(shí)現高可靠,基于兩階段提交協(xié)議+DTM實(shí)現分布式事務(wù)ACID、集群架構全組件按需高可擴展。 GreatDB還針對中國企業(yè)級市場(chǎng)的需求改進(jìn)了事務(wù)模型,從吞吐和延時(shí)兩個(gè)維度改進(jìn)了性能。從用戶(hù)角度出發(fā),對原生分布式數據庫進(jìn)行了增強。
因此,從產(chǎn)品架構上,萬(wàn)里數據庫的原生分布式架構具有一定技術(shù)領(lǐng)先性。
從技術(shù)路線(xiàn)看,萬(wàn)里數據庫基于MySQL技術(shù)路線(xiàn)進(jìn)行自主研發(fā),這與其技術(shù)優(yōu)勢直接相關(guān)。萬(wàn)里數據庫技術(shù)團隊為前MySQL中國研發(fā)中心及服務(wù)中心,先后與MySQL AB、SUN、Oracle合作研發(fā)過(guò)MySQL核心代碼。
萬(wàn)里數據庫對MySQL主要有以下貢獻:Replication功能開(kāi)發(fā)、NDB Cluster功能開(kāi)發(fā)、Bug修復、中文手冊編譯等。顯然,在MySQL技術(shù)路線(xiàn)上,萬(wàn)里數據庫有很深的技術(shù)積累而非浮于表面,這是其核心競爭力的體現。
眾所周知,國產(chǎn)數據庫多數基于MySQL和PostgreSQL二次開(kāi)發(fā)而來(lái),利用開(kāi)源技術(shù)縮短與國外頭部企業(yè)的差距無(wú)可厚非。事實(shí)上,不僅在國內,國外也一樣。以下列出的都是基于MySQL開(kāi)發(fā)的產(chǎn)品,其中就包含大眾所熟知的國外的AWS Aurora。
(來(lái)源:Database of Database 網(wǎng)站)
但是,如我一直強調的,利用開(kāi)源技術(shù)不等于完全依靠開(kāi)源技術(shù),應該在開(kāi)源技術(shù)上有著(zhù)自己的創(chuàng )新。掌握核心能力,不是在開(kāi)源技術(shù)上穿個(gè)“衣”帶個(gè)“帽”就號稱(chēng)自研、自主可控。
這點(diǎn),萬(wàn)里數據庫相比國內其它一些廠(chǎng)商的含糊其辭,要實(shí)在些,并不掩飾自己產(chǎn)品基于MySQL技術(shù)路線(xiàn)的事實(shí),想必這份自信也是源于其多年自主研發(fā)經(jīng)驗及對MySQL核心技術(shù)的掌控。并且,萬(wàn)里數據庫還兼具目前流行的開(kāi)源技術(shù)路線(xiàn)。2021年,萬(wàn)里數據庫將其多年技術(shù)積累進(jìn)行了開(kāi)源,推出GreatSQL社區。
基于國內已經(jīng)形成龐大的圍繞MySQL軟件生態(tài)和人才生態(tài)的事實(shí),搭建一個(gè)獨立自主的國內MySQL分支社區,其現實(shí)意義已在業(yè)界形成廣泛共識。當然,分支社區搭建容易搞活難,GreatSQL社區未來(lái)發(fā)展還有待觀(guān)察,但GreatSQL社區2021年已被評為“Gitee最有價(jià)值開(kāi)源項目”,可見(jiàn)其潛力還是被業(yè)內認可的。目前,國內數據庫分支社區做的成功的不是沒(méi)有,比如openGauss就做得風(fēng)生水起,不過(guò)它是基于PostgreSQL技術(shù)路線(xiàn)。
從服務(wù)體系看,服務(wù)很重要。因為,大部分應用企業(yè)在MySQL數據庫方面的故障解決能力、企業(yè)級數據服務(wù)支撐能力是不足的,維護團隊規模也不大。
從趨勢看,專(zhuān)業(yè)化服務(wù)是當前數據庫市場(chǎng)的主要發(fā)展趨勢。什么是專(zhuān)業(yè)化服務(wù)?舉個(gè)例子,雖然Oracle貴,服務(wù)也貴,但絕對是專(zhuān)業(yè)服務(wù)的典范。一個(gè)電話(huà)過(guò)去,Oracle派團隊過(guò)來(lái)駐場(chǎng)一個(gè)月,調試-測試-出報告,甚至會(huì )將配置哪里錯了、哪里可以?xún)?yōu)化、哪些工具可以用來(lái)繼續監測等都講得清清楚楚。甚至不是Oracle的問(wèn)題,也會(huì )順手提出來(lái),這就是專(zhuān)業(yè)化服務(wù)。
但是,專(zhuān)業(yè)化技術(shù)服務(wù)能力并不等于“搬磚”能力,其源動(dòng)力是企業(yè)的技術(shù)能力水平。解決當前國產(chǎn)化替換的關(guān)鍵是技術(shù)掌控,而不是堆人。當然,堆人是一種態(tài)度,也能解決表面問(wèn)題,但最核心的仍是對技術(shù)的掌控。
萬(wàn)里數據庫是少數幾家接受我采訪(fǎng)時(shí),主動(dòng)談到測試方法論和工具的廠(chǎng)商。數據庫研發(fā)過(guò)程中最大的痛點(diǎn)不是解決問(wèn)題,而是發(fā)現并重現問(wèn)題。
如何保障產(chǎn)品的穩定性?涉及分布式產(chǎn)品的測試,與以往單機不同。分布式架構有許多故障組合,尤其是機器多了以后,計算、存儲節點(diǎn)包含對上下游工具的兼容等都會(huì )導致一系列行為的不同。為此,萬(wàn)里數據庫倒騰出了一個(gè)厲害的東西“混沌測試工具DBomb”。這個(gè)東西,我只有在采訪(fǎng)高斯實(shí)驗室和Oracle時(shí)才聽(tīng)過(guò)。所以,萬(wàn)里數據庫在解決產(chǎn)品技術(shù)問(wèn)題方面是有其獨到之處的,這不是剛剛成立三五年的數據庫廠(chǎng)商可以做到的。
綜上所述, 無(wú)論是從公司技術(shù)團隊背景、產(chǎn)品、成功案例可移植性以及技術(shù)服務(wù)能力,萬(wàn)里數據庫都表現得全面且均衡。因此,能進(jìn)入到領(lǐng)導者象限,也就不難理解了。
關(guān)注”萬(wàn)里數據庫“公眾號,下載完整報告。