拒絕宕機(jī)!Intel攜手ZStack將F.T.技術(shù)推向生產(chǎn)應(yīng)用

企業(yè)數(shù)字化、智能化轉(zhuǎn)型還在繼續(xù),新基建浪潮已經(jīng)來臨。新基建不僅是國(guó)家長(zhǎng)期的戰(zhàn)略部署,更是拉動(dòng)中國(guó)經(jīng)濟(jì)新的增長(zhǎng)點(diǎn)。云計(jì)算作為新基建的基礎(chǔ),必將迎來前所未有的發(fā)展契機(jī)!

全面推行數(shù)字經(jīng)濟(jì)的過程中,老舊的IT應(yīng)用不可能完全被取代,必然對(duì)底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)提出更高的要求,在特殊場(chǎng)景中,例如ETC,業(yè)務(wù)的連續(xù)性變成首要考慮的問題,然而現(xiàn)實(shí)情況是,如果沒有在應(yīng)用層進(jìn)行相應(yīng)改寫,云平臺(tái)層面是無法實(shí)現(xiàn)容災(zāi)的。

針對(duì)這一問題,ZStack聯(lián)合Intel發(fā)布了業(yè)界首個(gè)采用了F.T.技術(shù)的ZStack Mini超融合一體機(jī)。在ZStack Mini里,要針對(duì)老應(yīng)用做任何支持容災(zāi)的改造,就可以實(shí)現(xiàn)業(yè)務(wù)0中斷。

以下是Intel亞太研發(fā)有限公司資深首席工程師、Xen/KVM社區(qū)F.T.技術(shù)的主要發(fā)起者Eddie董(董耀祖),詳細(xì)闡述F.T.技術(shù)在實(shí)際場(chǎng)景中應(yīng)用的原理和意義。

拒絕宕機(jī)!Intel攜手ZStack將F.T.技術(shù)推向生產(chǎn)應(yīng)用

QUESTION 01

問:現(xiàn)有的虛擬化軟件里,只有VMware提供了相對(duì)成熟的F.T.技術(shù),您作為Xen/KVM社區(qū)F.T.技術(shù)的主要發(fā)起者,請(qǐng)給觀眾簡(jiǎn)單介紹一下這項(xiàng)技術(shù)的原理和意義嗎?

答:首先,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息系統(tǒng)在各行業(yè)的關(guān)鍵業(yè)務(wù)中扮演著越來越重要的角色,例如在通訊、金融、醫(yī)療、電子商務(wù)、物流、政府等領(lǐng)域。而信息系統(tǒng)業(yè)務(wù)中斷,會(huì)導(dǎo)致巨大經(jīng)濟(jì)損失、影響企業(yè)品牌形象,并可能導(dǎo)致重要數(shù)據(jù)丟失。因此,保證業(yè)務(wù)系統(tǒng)連續(xù)性,就是信息系統(tǒng)建設(shè)的關(guān)鍵之一。解決這些問題,需要FT/HA技術(shù)。

傳統(tǒng)的FT/HA技術(shù)經(jīng)過多年的發(fā)展,已經(jīng)被業(yè)界廣泛認(rèn)同, 主要分為3類:

1. 應(yīng)用層實(shí)現(xiàn)的FT/HA功能。需要用戶程序在設(shè)計(jì)時(shí)就添加FT/HA相關(guān)功能邏輯與機(jī)制。這類方案的缺點(diǎn)是,需要每個(gè)APP都有一套FT/HA機(jī)制,軟件開發(fā)成本比較高。

2. 基礎(chǔ)軟件層實(shí)現(xiàn)的FT/HA功能。比如MySQL數(shù)據(jù)庫(kù)所實(shí)現(xiàn)的用戶數(shù)據(jù)高可用功能。這種方案解決了用戶APP開發(fā)的痛點(diǎn),但是基礎(chǔ)軟件的種類和數(shù)量非常大,并不是所有基礎(chǔ)軟件都具備這個(gè)能力。這當(dāng)中存儲(chǔ)層面實(shí)現(xiàn)的FT/HA功能目前最為普及,各大云廠商甚至都有自己的解決方案。

3.操作系統(tǒng)和虛擬機(jī)層面實(shí)現(xiàn)的FT/HA功能。COLO就屬于這類的實(shí)現(xiàn)方案。COLO可以在主/備端之間完全同步用戶虛擬機(jī)的運(yùn)行時(shí)狀態(tài),并保證磁盤數(shù)據(jù)的一致性,并且在發(fā)生故障時(shí)可以進(jìn)行自動(dòng)切換 (Failover) ,對(duì)用戶完全透明。

VMware vSphere Fault Tolerance最早提供商用虛擬機(jī)層面的高可用性支持,它通過指令級(jí)別的鎖步(Lock-stepping)方法對(duì)用戶虛擬機(jī)進(jìn)行熱備份,以防止主機(jī)發(fā)生故障時(shí)丟失數(shù)據(jù)、事務(wù)或連接。但是在某些情況下,這種鎖步方案可能導(dǎo)致虛擬機(jī)狀態(tài)同步的性能開銷很大。

在另一個(gè)方面,云計(jì)算廠商廣泛采用開源虛擬化方案如Xen和KVM,而開源虛擬化方案中的高可用性支持一直是一個(gè)痛點(diǎn)。因此,開源社區(qū)也進(jìn)行了廣泛的技術(shù)探索。最先在Xen上出現(xiàn)了以checkpoint為基礎(chǔ)的技術(shù)方案,這種技術(shù)并不是基于指令層面的同步,而是在某些限定條件下通過周期性的同步來達(dá)到相同的效果。但是checkpoint帶來的虛擬機(jī)同步開銷和額外延遲,仍然是一個(gè)嚴(yán)重問題。

在這種情況下Intel從2012年開始提出了全新的基于開源虛擬化方案的FT/HA方案COLO (COarse-grained LOck-stepping Virtual Machines for Non-stop Service)。在COLO環(huán)境下,如果運(yùn)行主虛擬機(jī)的主機(jī)發(fā)生故障,則會(huì)發(fā)生即時(shí)且對(duì)軟件透明的故障切換(Failover)。正常運(yùn)行的備份虛擬機(jī)將無縫切換成主虛擬機(jī),而不會(huì)出現(xiàn)可感知的斷網(wǎng)或服務(wù)中斷現(xiàn)象。采用透明故障切換,不會(huì)有數(shù)據(jù)丟失,并且可以維護(hù)用戶的網(wǎng)絡(luò)連接。在進(jìn)行透明故障切換之后,COLO將重新生成新的備份虛擬機(jī),并重新建立系統(tǒng)備機(jī)冗余。

COLO基于虛擬機(jī)的熱遷移功能實(shí)現(xiàn), 在整個(gè)過程中,主虛擬機(jī)內(nèi)運(yùn)行的服務(wù),可以像普通熱遷移一樣持續(xù)保持運(yùn)行,外部用戶對(duì)整個(gè)過程幾乎沒有感知。所以,能夠保證關(guān)鍵服務(wù)在極端情況下的高可用性,如電力意外中斷,網(wǎng)絡(luò)意外中斷等,這對(duì)用戶來說是至關(guān)重要的。

QUESTION 02

問:為什么F.T.這項(xiàng)技術(shù)在虛擬化中落地這么難?

答:因?yàn)镕T/HA技術(shù)在虛擬化中涉及的技術(shù)點(diǎn)非常多, 需要保證主虛擬機(jī)和備份虛擬機(jī)的全部運(yùn)行狀態(tài)和磁盤狀態(tài)的完全一致,或者從外部觀察者角度看起來上完全一致;以及如何在出現(xiàn)意外錯(cuò)誤的時(shí)候,可以在用戶無感知的情況下切換運(yùn)行中的服務(wù)。這里面具體會(huì)涉及到虛擬機(jī)熱遷移、磁盤遠(yuǎn)程增量復(fù)制、虛擬機(jī)網(wǎng)絡(luò)包復(fù)制和路由等一系列較為復(fù)雜的技術(shù)問題。

QUESTION 03

問:過去一年里,ZStack產(chǎn)品團(tuán)隊(duì)跟Intel團(tuán)隊(duì)在將F.T.技術(shù)運(yùn)用到私有云的過程中進(jìn)行了緊密配合,你們具體分工是如何?

答:在過去的一年中,Intel COLO團(tuán)隊(duì)和開源社區(qū)以及ZStack產(chǎn)品團(tuán)隊(duì),都致力于將COLO 產(chǎn)品化,將這個(gè)FT/HA技術(shù)真正落地,讓終端用戶真正可以方便的使用COLO。COLO是Intel眾多的開源項(xiàng)目之一, 在KVM/Xen上是目前最為成熟的FT/HA方案。而ZStack具有豐富的面對(duì)客戶需求的實(shí)踐經(jīng)驗(yàn),雙方合作的基礎(chǔ)非常雄厚。

在這個(gè)過程中,Intel主要負(fù)責(zé)upstream為基礎(chǔ)的社區(qū)開發(fā)和支持,而ZStack利用upstream的工作成果并結(jié)合自己的業(yè)務(wù)需求,再開發(fā)形成downstream產(chǎn)品,將COLO集成在ZStack產(chǎn)品中,從而便于技術(shù)真正落地。我們秉承開源合作精神,通過開源社區(qū)和開源協(xié)作模式,一直保持著非常緊密的合作關(guān)系。

比如,根據(jù)ZStack的需求和提議,我們開發(fā)了全新的COLO內(nèi)置的心跳模塊(Heart Beat)來自動(dòng)監(jiān)控和處理系統(tǒng)的狀態(tài),使其可以與云廠商的控制面軟件保持實(shí)時(shí)連接,部署更加方便快捷。又比如,我們?cè)诤蚙Stack技術(shù)團(tuán)隊(duì)深入交流后發(fā)現(xiàn),客戶需要能夠持續(xù)建立備機(jī)的能力,才可以真正保證用戶服務(wù)”永不宕機(jī)”。

QUESTION 04

問:ZStack首先將F.T.技術(shù)運(yùn)用到私有云產(chǎn)品中,在國(guó)內(nèi)還是首次,您對(duì)這項(xiàng)技術(shù)在生產(chǎn)實(shí)踐中的期望。

答:ZStack作為國(guó)內(nèi)一個(gè)領(lǐng)先的私有云廠商,我們對(duì)ZStack公司的技術(shù)和產(chǎn)品非??春谩N覀円蚕嘈?,集成了COLO功能的ZStack產(chǎn)品,一定能在國(guó)內(nèi)私有云市場(chǎng)上獲得更大的成功,同時(shí)也能幫助中國(guó)的企業(yè)獲得更可靠、高效的普遍FT/HA技術(shù), 杜絕再發(fā)生服務(wù)宕機(jī)的事故。

QUESTION 05

問:未來Intel在F.T.方面繼續(xù)投入的方向及預(yù)期?

答:COLO FT/HA 既是Intel和ZStack的合作落地項(xiàng)目,更是一個(gè)開源項(xiàng)目, Intel會(huì)基于開源社區(qū)的反饋不斷進(jìn)行升級(jí)和改造,基于開源社區(qū)不斷投入資源去優(yōu)化和改進(jìn)COLO的各項(xiàng)功能, 另外我們也期望ZStack能夠帶來更多的市場(chǎng)和客戶對(duì)COLO的精準(zhǔn)需求。共同打造成功一個(gè)由中國(guó)人發(fā)起和領(lǐng)導(dǎo)的主流云技術(shù)與云產(chǎn)品!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )