TDSQL進(jìn)入第四階段。
作者|趙健
作為三大基礎(chǔ)軟件之一,國(guó)產(chǎn)數(shù)據(jù)庫(kù)一直是備受關(guān)注的領(lǐng)域。
【資料圖】
3月30日,騰訊云數(shù)據(jù)庫(kù)TDSQL宣布了最新進(jìn)展:在國(guó)際事務(wù)處理性能委員會(huì)(TPC,Transaction Processing Performance Council)的TPC-C基準(zhǔn)測(cè)試中打破了世界紀(jì)錄。
TPC-C是全球數(shù)據(jù)庫(kù)廠商公認(rèn)的性能評(píng)價(jià)標(biāo)準(zhǔn),是OLTP數(shù)據(jù)庫(kù)(交易型數(shù)據(jù)庫(kù))里唯一的國(guó)際權(quán)威榜單,被譽(yù)為數(shù)據(jù)庫(kù)領(lǐng)域的“奧林匹克”。它模擬超大型高并發(fā)的極值場(chǎng)景,同時(shí)有一套嚴(yán)格的審計(jì)流程和標(biāo)準(zhǔn),對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的軟硬件協(xié)同能力要求極高。
此前,該基準(zhǔn)測(cè)試的世界紀(jì)錄保持者為螞蟻集團(tuán)旗下的自研數(shù)據(jù)庫(kù)OceanBase。
消息宣布之后,「甲子光年」也受邀采訪了騰訊云數(shù)據(jù)庫(kù)技術(shù)負(fù)責(zé)人潘安群、騰訊云數(shù)據(jù)庫(kù)總經(jīng)理王義成,來(lái)了解下騰訊云數(shù)據(jù)庫(kù)本次打榜背后的故事。
刷新世界紀(jì)錄,對(duì)騰訊云數(shù)據(jù)庫(kù)意味著什么?
1.新的世界紀(jì)錄如何誕生?
TPC-C模擬的是電商交易系統(tǒng),核心指標(biāo)有兩個(gè):tpmC(每分鐘的處理事務(wù)數(shù))與性價(jià)比。騰訊云數(shù)據(jù)庫(kù)技術(shù)負(fù)責(zé)人潘安群介紹,本次打榜有四個(gè)亮點(diǎn)。
一是tpmC成績(jī)刷新世界紀(jì)錄,每分鐘交易量達(dá)到8.14億筆。
每分鐘8.14億是什么概念?以中國(guó)工商銀行、中國(guó)農(nóng)業(yè)銀行、中國(guó)銀行、中國(guó)建設(shè)銀行四大行為例,業(yè)務(wù)系統(tǒng)峰值預(yù)計(jì)在4小時(shí)內(nèi)產(chǎn)生大約20億筆交易。如果換算成每分鐘,只有800萬(wàn)左右,離8.14億還有很大的差距。換句話說(shuō),這個(gè)性能足以支撐中國(guó)所有大規(guī)模應(yīng)用性能的要求。
二是顯著的成本優(yōu)勢(shì),單筆交易的價(jià)格為1.27元,接近同類(lèi)產(chǎn)品的1/3。
潘安群提到了降低價(jià)格的三個(gè)方式:首先,TDSQL通過(guò)軟件優(yōu)化提升單機(jī)性能,降低硬件成本;其次,使用公有云的彈性資源進(jìn)一步降低成本;同時(shí),公有云上系統(tǒng)自動(dòng)化和規(guī)模化的運(yùn)營(yíng)也能幫助降低成本。
單純的實(shí)現(xiàn)高性能并不難,只需要不停地疊加機(jī)器就好了,難的是保證高性能的同時(shí)也能降低成本。TDSQL這一次同時(shí)實(shí)現(xiàn)了兩個(gè)指標(biāo)的世界第一。
三是在超大規(guī)模集群下的性能穩(wěn)定性。
騰訊云這次構(gòu)建了將近2700臺(tái)機(jī)器(包含1650臺(tái)物理機(jī)、1000臺(tái)虛擬機(jī)),在此基礎(chǔ)上持續(xù)運(yùn)行8個(gè)小時(shí),tpmC的波動(dòng)率一直處在0.2%以下,遠(yuǎn)遠(yuǎn)低于官方要求的2%,保障了超過(guò)8600億總事務(wù)、4萬(wàn)億條訂單詳細(xì)信息不出錯(cuò)。
潘安群介紹道,用200臺(tái)機(jī)器測(cè)試,數(shù)據(jù)不會(huì)出任何問(wèn)題;但如果擴(kuò)展到一兩千臺(tái)機(jī)器,理論上會(huì)發(fā)現(xiàn)各種各樣的硬件問(wèn)題。按照經(jīng)驗(yàn),在整個(gè)騰訊集團(tuán)百萬(wàn)臺(tái)服務(wù)器里,每2000臺(tái)服務(wù)器持續(xù)工作8小時(shí),就會(huì)產(chǎn)生1~2臺(tái)的故障率。
打榜時(shí),騰訊云數(shù)據(jù)庫(kù)團(tuán)隊(duì)一共做了12輪8小時(shí)的壓力測(cè)試,只有最后三輪沒(méi)有出現(xiàn)故障,前面都在做優(yōu)化,“最后幾天攻堅(jiān)時(shí)上廁所都是跑著去的”,并最終實(shí)現(xiàn)了0.2%的波動(dòng)率。
潘安群表示:“這是一個(gè)非常震撼的數(shù)據(jù),因?yàn)楣_(kāi)資料中其他數(shù)據(jù)庫(kù)廠商大概能做到1%左右。這也體現(xiàn)了這么多年騰訊云數(shù)據(jù)庫(kù)在產(chǎn)品架構(gòu)、分布式、水平擴(kuò)展、資源調(diào)度方面的優(yōu)勢(shì)。”
最后一點(diǎn)是在超大規(guī)模集群下的高可用和分布式容災(zāi)能力。
1個(gè)小時(shí)的容災(zāi)場(chǎng)景測(cè)試,進(jìn)行了2次隨機(jī)斷電物理機(jī)器和1次destroy騰訊云實(shí)例的模擬故障,模擬故障之后,18秒完成HA(高可用性)切換,大盤(pán)整體影響微乎其微。
HA切換是指當(dāng)數(shù)據(jù)庫(kù)系統(tǒng)出現(xiàn)故障時(shí),可以在很短時(shí)間內(nèi)自動(dòng)切換到備份系統(tǒng),以保證業(yè)務(wù)的正常運(yùn)行。金融行業(yè)對(duì)數(shù)據(jù)庫(kù)的要求一般是分鐘級(jí)切換,如果一家全國(guó)性銀行故障時(shí)間超過(guò)30分鐘,銀行的技術(shù)負(fù)責(zé)人必須去銀保監(jiān)會(huì)解釋原因。
騰訊云數(shù)據(jù)庫(kù)總經(jīng)理王義成表示:“對(duì)于金融機(jī)構(gòu)的核心系統(tǒng)故障切換,一般公有云廠商對(duì)外承諾的時(shí)間是30秒。對(duì)比而言,騰訊云數(shù)據(jù)庫(kù)的18秒,意味著完全滿足中國(guó)現(xiàn)階段金融級(jí)核心系統(tǒng)災(zāi)難恢復(fù)管理規(guī)范的要求。”
2.為什么要現(xiàn)在打榜?
騰訊云數(shù)據(jù)庫(kù)為什么選擇在這個(gè)時(shí)間點(diǎn)打榜?要回答這個(gè)問(wèn)題,首先要了解下騰訊云數(shù)據(jù)庫(kù)TDSQL的發(fā)展歷程。
騰訊云數(shù)據(jù)庫(kù)技術(shù)負(fù)責(zé)人潘安群將TDSQL總結(jié)為三個(gè)階段。
第一階段為支撐騰訊自身業(yè)務(wù)。TDSQL誕生于2007年,彼時(shí)騰訊業(yè)務(wù)爆發(fā)式增長(zhǎng),開(kāi)源的MySQL已經(jīng)越來(lái)越捉襟見(jiàn)肘,服務(wù)于計(jì)費(fèi)業(yè)務(wù)、增值業(yè)務(wù),定位于金融場(chǎng)景的TDSQL應(yīng)運(yùn)而生。
當(dāng)時(shí)潘安群對(duì)團(tuán)隊(duì)提出的要求是“安心喝咖啡”,業(yè)務(wù)上線時(shí)所有DBA(數(shù)據(jù)庫(kù)管理員)和開(kāi)發(fā)人員都不用因?yàn)榻鉀Q擴(kuò)容等問(wèn)題而手忙腳亂。同時(shí),團(tuán)隊(duì)也支撐了Q幣業(yè)務(wù),做到銀行級(jí)的賬戶系統(tǒng),每一分錢(qián)都不出錯(cuò)。
2009年,騰訊推出開(kāi)放平臺(tái),騰訊云對(duì)外提供服務(wù),TDSQL也走出內(nèi)部,服務(wù)產(chǎn)業(yè)互聯(lián)網(wǎng),開(kāi)始進(jìn)入第二階段。
此后,TDSQL先后做了微眾銀行、第七次全國(guó)人口普查政務(wù)系統(tǒng)、數(shù)字廣東、騰訊會(huì)議、99公益等標(biāo)桿項(xiàng)目,逐漸形成銀行級(jí)高可用、極致彈性伸縮、雙引擎計(jì)算、智能運(yùn)營(yíng)等能力。
2014-2020年,從第一家銀行客戶微眾銀行開(kāi)始,TDSQL進(jìn)入第三階段——攻堅(jiān)金融標(biāo)桿客戶。
互聯(lián)網(wǎng)公司跨界到金融場(chǎng)景是一件非常困難的事情,TDSQL秉承從周邊系統(tǒng)到核心系統(tǒng)、從小銀行到大銀行逐步遞進(jìn)的策略。“我們不希望一口吃成大胖子,最后可能自己吃不下。”潘安群表示。
潘安群現(xiàn)在還記得當(dāng)年服務(wù)微眾銀行的場(chǎng)景。“第一次溝通時(shí),我們提出了基于互聯(lián)網(wǎng)的完整分布式架構(gòu)方案,客戶的CTO跟我們爭(zhēng)論了將近兩個(gè)小時(shí),誰(shuí)也說(shuō)服不了誰(shuí),最后留下一句’你們不懂銀行!‘最后通過(guò)不斷地互相了解,終于才達(dá)成了一致的方案。”
2018年,張家港農(nóng)商銀行傳統(tǒng)核心Sybase for AIX替換為T(mén)DSQL,成為T(mén)DSQL在國(guó)內(nèi)完成的首家傳統(tǒng)銀行數(shù)據(jù)中心國(guó)產(chǎn)化的案例。2020年,平安信用卡從IBM大型機(jī)替換為T(mén)DSQL,是業(yè)內(nèi)首例銀行核心系統(tǒng)從IBM大型機(jī)下移至國(guó)產(chǎn)分布式架構(gòu)的案例。
2021年9月,騰訊云宣布TDSQL金融核心系統(tǒng)客戶已經(jīng)超過(guò)20家,客戶涵蓋平安銀行、張家港銀行、昆山農(nóng)商行等頭部銀行和廣泛的金融行業(yè)機(jī)構(gòu)。
時(shí)間來(lái)到今天,騰訊云數(shù)據(jù)庫(kù)TDSQL已經(jīng)進(jìn)入規(guī)模化復(fù)制的第四個(gè)階段。
潘安群表示:“兩年之前,我們投入了大量資源做大行的攻堅(jiān),優(yōu)先解決客戶的交付,而沒(méi)有急于向外界證明自己。而到了新的階段,是時(shí)候?qū)ξ覀兊淖陨砟芰ψ鲆粋€(gè)階段性總結(jié)和展示了,也就是我們選擇此時(shí)打榜的原因。”
3.規(guī)模化復(fù)制,具體怎么做?
目前,騰訊云TDSQL已經(jīng)服務(wù)了了國(guó)內(nèi)排行前十的銀行中的7家,助力20多家金融機(jī)構(gòu)完成核心系統(tǒng)的替換。從去年年底開(kāi)始,TDSQL開(kāi)始步入到全面復(fù)制的階段。
但是具體到不同的細(xì)分領(lǐng)域,TDSQL的業(yè)務(wù)節(jié)奏并不完全一致。
在金融行業(yè),又可以細(xì)分為銀行、資管、保險(xiǎn)與泛金融四個(gè)領(lǐng)域。
首先,泛金融對(duì)于數(shù)據(jù)庫(kù)的需求并非國(guó)產(chǎn)替代,而是一些偏互聯(lián)網(wǎng)屬性的金融企業(yè)。騰訊在十年前剛開(kāi)始做騰訊云的時(shí)候,對(duì)于泛金融客戶接觸就較多,這是一個(gè)穩(wěn)定增長(zhǎng)的過(guò)程。
在銀行領(lǐng)域,國(guó)有大行(6家)和股份制銀行(14家)投入更早,在過(guò)去兩年基本已經(jīng)完成了整體框架的技術(shù)選型。比如,某銀行在2015年就開(kāi)始招標(biāo)做第一輪的POC,在經(jīng)過(guò)7輪POC之后,騰訊云數(shù)據(jù)庫(kù)才擊敗了將近20家廠商,終于在2020年中標(biāo)并開(kāi)始交付。
騰訊云數(shù)據(jù)庫(kù)總經(jīng)理王義成介紹道:“騰訊云數(shù)據(jù)庫(kù)在大行和股份制銀行的數(shù)量還是相對(duì)占優(yōu)的。我們更多是自己不犯錯(cuò),然后提升產(chǎn)品穩(wěn)定性、交付能力、技術(shù)能力。大行和股份制銀行在選型時(shí)一般不會(huì)只選一家,我們更多是做好自己,把今天能拿下的核心戰(zhàn)場(chǎng)做扎實(shí),不給競(jìng)爭(zhēng)對(duì)手留機(jī)會(huì)。”
而在規(guī)模較小、數(shù)量更多(200多家)的農(nóng)商行、城商行體系,大多數(shù)還沒(méi)有完成國(guó)產(chǎn)數(shù)據(jù)庫(kù)替換的選型。
“今年我們大批量復(fù)制就是盯著城商行、農(nóng)商行市場(chǎng),我們也在和前線銷(xiāo)售團(tuán)隊(duì)、ISV(獨(dú)立軟件開(kāi)發(fā)商)等做好聯(lián)動(dòng)、產(chǎn)品適配與方案引導(dǎo),實(shí)現(xiàn)全面覆蓋。”王義成表示。
在保險(xiǎn)領(lǐng)域,國(guó)產(chǎn)化的進(jìn)程與銀行并不一樣。銀行在十幾年前就上線了核心系統(tǒng),近幾年在國(guó)產(chǎn)替代的趨勢(shì)下進(jìn)行核心系統(tǒng)的改造,加上數(shù)據(jù)庫(kù)的替換,使得國(guó)產(chǎn)數(shù)據(jù)庫(kù)公司趕上東風(fēng)。但保險(xiǎn)公司的國(guó)產(chǎn)替代并不替換核心系統(tǒng),只是替換數(shù)據(jù)庫(kù),大多數(shù)保險(xiǎn)公司都在Oracle數(shù)據(jù)庫(kù)的體系之下,因此對(duì)國(guó)產(chǎn)數(shù)據(jù)庫(kù)的要求基本上是兼容Oracle。
王義成表示:“在保險(xiǎn)領(lǐng)域我們是要在兼容性上投入重兵,把Oracle兼容性的能力做得更豐富,圍繞數(shù)據(jù)遷移體系、Oracle評(píng)估體系做產(chǎn)品演進(jìn)。”
在金融資管領(lǐng)域,不僅重視Oracle的兼容性,又很重視ISV,因此騰訊云數(shù)據(jù)庫(kù)會(huì)加大在ISV的投入,投入重兵做前序適配。
王義成表示,打標(biāo)桿階段可以投入幾十人死磕,但真正到了業(yè)務(wù)復(fù)制階段,要比拼誰(shuí)的業(yè)務(wù)質(zhì)量更高、誰(shuí)的效率更高。從去年下半年開(kāi)始,騰訊云數(shù)據(jù)庫(kù)開(kāi)始大力投入關(guān)于精細(xì)化運(yùn)營(yíng)、質(zhì)量打磨升級(jí)的方案,進(jìn)入全面復(fù)制產(chǎn)品的階段,并且在金融行業(yè)起到了初步的效果。
在金融行業(yè)之外的其他行業(yè)賽道,騰訊云數(shù)據(jù)庫(kù)更多還是打標(biāo)桿為主,比如能源、發(fā)電輸電、交通領(lǐng)域,對(duì)于行業(yè)理解和認(rèn)知,目前還是在學(xué)習(xí)階段。
責(zé)任編輯:Rex_03