專訪陳諤:為什么網(wǎng)易云能承載網(wǎng)易 95%的業(yè)務(wù)?

在容器云市場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈的今天,網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的負(fù)責(zé)人陳諤確實(shí)是一個(gè)大忙人。不過(guò),在陳諤的臉上,我們很少能夠看到一絲急躁,似乎十年的磨煉足以讓他面對(duì)任何挑戰(zhàn)都能做到有條不紊。

  在陳諤看來(lái),技術(shù)架構(gòu)的劇變發(fā)生在 Web 2.0爆發(fā)之時(shí),之后至今只是平緩期的不斷優(yōu)化,而網(wǎng)易杭州研究院(下稱杭研)經(jīng)歷了那個(gè)時(shí)刻。

  他分享了此后杭研網(wǎng)易私有云、網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的研發(fā)思路、技術(shù)優(yōu)化路線以及研發(fā)管理心得。他表示,云計(jì)算的研發(fā)是一定要能夠提升業(yè)務(wù)研發(fā)效率的,SDN、容器、編排管理等技術(shù)框架的選擇及應(yīng)用,都是要回歸于業(yè)務(wù)架構(gòu)。意外的是,他還提出編程語(yǔ)言的選擇對(duì)云計(jì)算研發(fā)的影響會(huì)越來(lái)越重。

圖片1.png

(網(wǎng)易杭州研究院云計(jì)算平臺(tái)產(chǎn)品部總監(jiān)陳諤)

 一、杭研十年印象

  Q:請(qǐng)先介紹您在杭研的早期工作經(jīng)歷,參與過(guò)哪些系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)?

  陳諤:我負(fù)責(zé)過(guò)網(wǎng)易博客、網(wǎng)易監(jiān)控平臺(tái)、網(wǎng)易消息推送平臺(tái)以及易信公眾號(hào)系統(tǒng),從 2012年起就一直做云計(jì)算,從網(wǎng)易私有云、網(wǎng)絡(luò)虛擬化架構(gòu)設(shè)計(jì),再到現(xiàn)在的網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)。

  早期的網(wǎng)易博客個(gè)人首頁(yè),是我開(kāi)發(fā)的,博客的認(rèn)證授權(quán)框架,包括一些和數(shù)據(jù)庫(kù)對(duì)接的中間件,運(yùn)維方面的類似持續(xù)發(fā)布、持續(xù)集成的東西,也是我的工作。

  Q:作為杭研的第一批員工,您心目中這十年來(lái)杭研最大的技術(shù)成果是什么?

  陳諤:第一個(gè),我們幾乎是最早做分布式關(guān)系數(shù)據(jù)庫(kù)的,而且是把分布式關(guān)系數(shù)據(jù)庫(kù)直接用于 Web 2.0的產(chǎn)品上,這對(duì)于杭研是一個(gè)很大的成就。

  另一個(gè),云計(jì)算平臺(tái)的應(yīng)用,對(duì)整個(gè)網(wǎng)易公司的互聯(lián)網(wǎng)業(yè)務(wù)帶來(lái)很明顯的推動(dòng)作用,因?yàn)楫?dāng)時(shí)我們對(duì)服務(wù)器的管理、業(yè)務(wù)的增長(zhǎng)都已經(jīng)到了一個(gè)瓶頸,必須有這樣一朵云,才能實(shí)現(xiàn)新的突破。我個(gè)人認(rèn)為這兩個(gè)方面是杭研很重要的成果。

圖片2.png

(網(wǎng)易私有云架構(gòu)(2014年))

  Q:回顧十年,在做私有云和網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)之前,您參與過(guò)多個(gè)網(wǎng)易系統(tǒng)的研發(fā),其中哪些是您至今仍然印象非常深刻的經(jīng)歷?

  陳諤:早期從頭開(kāi)始做的東西讓我記憶猶新。我剛進(jìn)入網(wǎng)易的時(shí)候,正值 Web 2.0概念爆發(fā),整個(gè)技術(shù)挑戰(zhàn)、技術(shù)方向突然和以前完全不一樣,關(guān)注點(diǎn)變成水平擴(kuò)展、高并發(fā)、大吞吐量等。我是網(wǎng)易第一個(gè)做 Web 2.0業(yè)務(wù)的(網(wǎng)易博客),不僅做博客本身的屬性,同時(shí)還做博客的運(yùn)維,包括版本控制等等。從那個(gè)時(shí)間點(diǎn)到現(xiàn)在,整個(gè)技術(shù)體系的發(fā)展相對(duì)平緩,就那個(gè)時(shí)間突然跳躍了一下,需要不同的運(yùn)維手段,做互聯(lián)網(wǎng)的似乎變成了做運(yùn)維的,所以我的印象是比較深刻的。

  回頭來(lái)看,那個(gè)時(shí)候杭研大約有20號(hào)人,還分為前臺(tái)(負(fù)責(zé)中間件和產(chǎn)品)和后臺(tái)(負(fù)責(zé)數(shù)據(jù)庫(kù)),效率還是很高的。

  Q:這些經(jīng)驗(yàn)對(duì)后來(lái)網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的研發(fā)有什么影響?

  陳諤:其實(shí)包括網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)、網(wǎng)易私有云的研發(fā),都不是從純粹的運(yùn)維工程師或者系統(tǒng)工程師的角度來(lái)做,因?yàn)槲覀円郧岸际亲鲋虚g件、做業(yè)務(wù)的架構(gòu)師,設(shè)計(jì)云平臺(tái)的時(shí)候,我們都會(huì)思考如果自己在上面開(kāi)發(fā)業(yè)務(wù)系統(tǒng),能否實(shí)現(xiàn)很高的研發(fā)效率。

  網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的研發(fā)初衷,就是因?yàn)槲覀冇X(jué)得只是把 IaaS系統(tǒng)做好,對(duì)提升研發(fā)效率的作用還是很有限的。網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的技術(shù)路線,包括一些細(xì)節(jié)的決策,包括網(wǎng)絡(luò)的設(shè)計(jì),包括 Docker容器、 Kubenetes編排技術(shù)的選擇,都是從業(yè)務(wù)架構(gòu)去考慮的,是來(lái)自于前期研發(fā)工作積累的經(jīng)驗(yàn)。如果我們?cè)瓉?lái)只是運(yùn)維或者系統(tǒng)工程師,現(xiàn)在的網(wǎng)易云的形態(tài)可能是有很大的不同的,哪怕是 Docker的使用方法,都不一定是現(xiàn)在這樣的。

圖片3.png

 二、云計(jì)算系統(tǒng)設(shè)計(jì)法則

  Q:從業(yè)務(wù)架構(gòu)的角度考慮,設(shè)計(jì)云系統(tǒng)或者分布式系統(tǒng)有沒(méi)有一些通用的黃金準(zhǔn)則?

  陳諤:我們做云計(jì)算、分布式關(guān)系數(shù)據(jù)庫(kù),都是分布式系統(tǒng),我認(rèn)為最核心的是要懂得可以取舍哪些東西,也就是要非常清楚地掌握它的非功能需求是什么。

  因?yàn)榉植际较到y(tǒng)架構(gòu)的方式、實(shí)現(xiàn)的技術(shù),這十幾二十年沒(méi)有太大的突破,該有的理論很早就存在,后面的 CAP原理(一致性、可用性、分區(qū)容錯(cuò)性)也只是歸納性的東西。所以,最重要的還是要知道取舍,比如 CAP的取舍,還有系統(tǒng)的復(fù)雜性與可運(yùn)維性的取舍,功能很強(qiáng)大但是運(yùn)維很麻煩也是不行的。

  還有一點(diǎn),從我個(gè)人的偏好出發(fā),采用合適的編程語(yǔ)言做分布式系統(tǒng)也是一件很重要的事情。我們采用 OpenStack有很多坑,其實(shí)就是 Python語(yǔ)言帶來(lái)的——不是說(shuō) Python不好,但是它很多的機(jī)制,在公有云的發(fā)展方向上會(huì)帶來(lái)一些性能、并發(fā)的瓶頸。Go語(yǔ)言出現(xiàn)之后,一大批的公有云產(chǎn)品都是基于 Golang開(kāi)發(fā)的,Golang比以前的語(yǔ)言在并發(fā)、性能、安全性等方面做得更好,如果是用 Java來(lái)寫這些系統(tǒng),要達(dá)到一樣的性能效果,需要的研發(fā)周期會(huì)長(zhǎng)很多。所以,從長(zhǎng)期的發(fā)展來(lái)看,編程語(yǔ)言對(duì)云計(jì)算研發(fā)決策的影響會(huì)越來(lái)越重。

  Q:能否介紹您對(duì)編程語(yǔ)言、編程模型有什么特別的偏好?您還在編寫代碼?

  陳諤:我個(gè)人不會(huì)執(zhí)著于“PHP是世界上最好的語(yǔ)言”之類的想法。比較流行的語(yǔ)言,包括 Erlang、Ruby、Java、JavaScript 等,甚至像 Rust這樣一些偏門的語(yǔ)言,我都會(huì)去了解,因?yàn)樗鼈兩瞄L(zhǎng)于解決某些方面的問(wèn)題。

  你可以發(fā)現(xiàn)我剛才沒(méi)提 Go,因?yàn)槲蚁冉佑| Erlang,后來(lái)又接觸 Rust,從我的角度,Go要解決的一部分問(wèn)題,我可以直接用 Erlang來(lái)寫,而如果是系統(tǒng)編程,對(duì) GC很敏感的,我會(huì)傾向于用 Rust來(lái)寫,如果讓我用 Go來(lái)寫,我好像沒(méi)有什么動(dòng)力。包括之前給網(wǎng)易博客做運(yùn)維需要的腳本語(yǔ)言,我希望用起來(lái)簡(jiǎn)單,有成熟的庫(kù)可以依賴,選擇了 Java技術(shù)棧,雖然 Ruby語(yǔ)法特性更好,但是 Java生態(tài)可以依賴那些很好的庫(kù)。所以,能產(chǎn)生直接的效果、擅長(zhǎng)解決某些問(wèn)題,這就是我選擇編程語(yǔ)言的偏好。

圖片4.png

  至于編程語(yǔ)言的特性,個(gè)人更傾向于往 Functional的方向發(fā)展,包括一些解決異步方面的問(wèn)題,個(gè)人覺(jué)得 Reactive這種模型,更加偏向于 Functional,會(huì)更讓人喜歡。因?yàn)樗鋵?shí)是描述解決問(wèn)題的方法,而不是密密麻麻地寫一堆指令去描述解決問(wèn)題的過(guò)程。這是我接觸各種不同的語(yǔ)言之后逐漸養(yǎng)成的習(xí)慣。

  落實(shí)到我們整個(gè)團(tuán)隊(duì)的開(kāi)發(fā)工作,語(yǔ)言的選擇其實(shí)是很實(shí)際的:OpenStack就只能選擇 Python;網(wǎng)絡(luò)、內(nèi)核相關(guān)的東西,就只能選擇 C;Docker、Kubernetes的選擇必然是 Go。當(dāng)我們?cè)O(shè)計(jì)一些適配容器的東西,比如寫一個(gè)Kubernetes的Controller,雖然有些工程師之前擅長(zhǎng) Java,但是我會(huì)告訴他去學(xué)習(xí) Go,用 Go來(lái)寫。所以這和我們的技術(shù)選型是相關(guān)的。其實(shí) Google也選擇這種組合,這是很有道理的。

  我個(gè)人目前也會(huì)寫代碼,但是不適合和團(tuán)隊(duì)協(xié)作,因?yàn)閳F(tuán)隊(duì)在等待我提交某個(gè)模塊或者修復(fù)某個(gè) Bug的時(shí)候,我往往正在進(jìn)行一些無(wú)法離開(kāi)的溝通工作,這會(huì)影響項(xiàng)目進(jìn)度。所以,我現(xiàn)在只能寫一些 Demo,寫一些東西去體驗(yàn)我們自己的網(wǎng)易云,嘗試我們的接口。

 三、厚積薄發(fā)網(wǎng)易云

  Q:網(wǎng)易云承載網(wǎng)易95%的業(yè)務(wù),您如何看待網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)所扮演的角色,以及能夠做到95%的關(guān)鍵因素?

  陳諤:首先,網(wǎng)易云能夠承載網(wǎng)易95%業(yè)務(wù)的背景,是網(wǎng)易的互聯(lián)網(wǎng)技術(shù)棧是很統(tǒng)一的,因?yàn)樗械闹虚g件、公共技術(shù)解決方案都出自我們杭研,這使得我們開(kāi)發(fā)一個(gè)云平臺(tái)把一些服務(wù)封裝提供給大家變得很容易。同時(shí)杭研掌握了網(wǎng)易運(yùn)維體系,運(yùn)維是必須和云計(jì)算配合的,這是最大的基礎(chǔ)。

  其次,網(wǎng)易的互聯(lián)網(wǎng)業(yè)務(wù)都不小,雖然業(yè)務(wù)的數(shù)量不是太多,但是每個(gè)大業(yè)務(wù)對(duì)吞吐能力、性能要求都是很極端的,基于網(wǎng)易 19年的互聯(lián)網(wǎng)技術(shù)積累,我們花費(fèi)大量的精力進(jìn)行云化,在 IaaS、網(wǎng)絡(luò)方面的投入是很大的,而網(wǎng)絡(luò)和存儲(chǔ)就是云計(jì)算平臺(tái)研發(fā)最難解決的問(wèn)題。

  以網(wǎng)絡(luò)為例,從第一個(gè)版本上線開(kāi)始,三年之內(nèi)對(duì)于整個(gè)網(wǎng)絡(luò)的架構(gòu)、網(wǎng)絡(luò)的優(yōu)化,我們投入的力量是最大的。最開(kāi)始只有三層,后來(lái)完成二層的格局,然后把網(wǎng)絡(luò)性能從只能跑千兆網(wǎng)絡(luò),做到一直到接近萬(wàn)兆,這就經(jīng)歷了一個(gè)很長(zhǎng)的優(yōu)化過(guò)程。網(wǎng)絡(luò)問(wèn)題解決之后,上面的業(yè)務(wù)就好集成,因?yàn)橛?jì)算虛擬化是相對(duì)比較成熟的,但各方對(duì)網(wǎng)絡(luò)實(shí)現(xiàn)優(yōu)化的差異其實(shí)是很大的,有些方案連千兆都做不到,尤其是做 SDN之后。

圖片5.png

  再說(shuō)網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)。我剛才提到過(guò)一個(gè)邏輯,在做完傳統(tǒng) IaaS私有云、網(wǎng)易業(yè)務(wù)遷移進(jìn)來(lái)后,我們監(jiān)控大家使用云的情況,和業(yè)務(wù)線的技術(shù)部門訪談,發(fā)現(xiàn) IaaS對(duì)業(yè)務(wù)部門開(kāi)發(fā)效率的提升是非常有限的,有時(shí)候甚至起到了反作用。為了解決這個(gè)問(wèn)題,我們才做的網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)。

  網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的原型,是一套內(nèi)部的 OMAD系統(tǒng),為了解決業(yè)務(wù)的 CI/CD流程而開(kāi)發(fā),因?yàn)楫?dāng)時(shí)容器技術(shù)還不成熟,做完這個(gè)系統(tǒng)之后,我們發(fā)現(xiàn)它對(duì) Runtime的管理存在一些問(wèn)題,比如各方需要不同的 Runtime,需要 update的時(shí)候,或者做集成的時(shí)候,就會(huì)碰到很多環(huán)境的問(wèn)題。后來(lái)我們發(fā)現(xiàn)了 Docker容器,就用 Docker改造系統(tǒng),把它做成網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢),最后做成現(xiàn)在的形態(tài)。以 PaaS融合 IaaS,業(yè)務(wù)部門無(wú)需特別考慮資源,也無(wú)需對(duì)應(yīng)用做太大的改變,即可實(shí)現(xiàn)應(yīng)用彈性、DevOps。

  同時(shí),我們也開(kāi)始選擇了開(kāi)源的技術(shù)棧,因?yàn)槲覀儼l(fā)現(xiàn),很多東西如果能夠用社區(qū)的力量,我們也能掌控這個(gè)東西,或者能夠貢獻(xiàn)到上游,這個(gè)東西的生命力會(huì)更長(zhǎng)久;反而自己折騰的一些東西,過(guò)幾年被廢棄的可能性會(huì)很大,投資回報(bào)是很低的。

  Q:這些經(jīng)驗(yàn)對(duì)后來(lái)網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的研發(fā)有什么影響?

  陳諤:在用 Neutron之前,Nova是一個(gè)平坦的大而全的網(wǎng)絡(luò),分割成很多的 VLAN,要搞很多路由,要設(shè)很多的 IP規(guī)則做隔離,二層的擴(kuò)展能力就存在問(wèn)題;而且安全組的規(guī)則、一致性、網(wǎng)絡(luò)的調(diào)試,已經(jīng)變得非常復(fù)雜,有個(gè)地方是不通的,沒(méi)有人知道是怎么回事,這個(gè)問(wèn)題愈演愈烈,所以我們開(kāi)始嘗試 Neutron,并且用 SDN的方案。

  我們膽子還是比較大的,有些實(shí)踐會(huì)同時(shí)保留經(jīng)典網(wǎng)絡(luò)和 SDN,默認(rèn)提供經(jīng)典網(wǎng)絡(luò),我們直接默認(rèn)提供 SDN的私有網(wǎng)絡(luò),這個(gè)性能要求非常高,我們就要拼命優(yōu)化這個(gè)東西?,F(xiàn)在,從我們業(yè)務(wù)的角度,一個(gè)二層就夠了,很多個(gè)二層可能還不相通,還會(huì)增加復(fù)雜性。一個(gè)二層里面,能支持?jǐn)?shù)千個(gè)虛擬機(jī)節(jié)點(diǎn);從容器的角度,一個(gè)租戶下,一張網(wǎng)絡(luò)支持?jǐn)?shù)萬(wàn)個(gè)容器應(yīng)該是沒(méi)有問(wèn)題的,當(dāng)然一般也不會(huì)支撐這么多。這是我們目前的網(wǎng)絡(luò)狀態(tài),當(dāng)然以后要適應(yīng)新的 IT架構(gòu),有可能會(huì)支持大二層網(wǎng)絡(luò),二層網(wǎng)絡(luò)之間有路由,這是以后的規(guī)劃了。

圖片6.png

  四、做好產(chǎn)品研發(fā)的關(guān)鍵

  Q:您提到了很多好技術(shù),但是要把它們整合成為一個(gè)云計(jì)算平臺(tái)產(chǎn)品,達(dá)到“網(wǎng)易出品,必屬精品”的境界,有哪些關(guān)鍵因素需要注意?

  陳諤:把技術(shù)交付給用戶的時(shí)候,一定要考慮用戶的真正場(chǎng)景和他的使用方式,了解有哪一些性能是用戶特別關(guān)注的,這是很重要的一點(diǎn)。比如剛才說(shuō),不應(yīng)該由用戶處理復(fù)雜性,否則,很容易做成一個(gè)看似很高大上的實(shí)現(xiàn),某項(xiàng)功能很復(fù)雜,結(jié)果用戶不是這樣使用,或者他根本不愿意去應(yīng)對(duì)這個(gè)復(fù)雜性。

  有一個(gè)很簡(jiǎn)單的例子,以前有些虛擬網(wǎng)絡(luò)是通過(guò) NAT去提供的,有一些浮動(dòng) IP,我們?cè)O(shè)計(jì)的時(shí)候,就要避免這種 NAT出去一個(gè)浮動(dòng) IP的情況,因?yàn)檫@可能會(huì)造成用戶做長(zhǎng)連接業(yè)務(wù)時(shí),以前能用的寫心跳的程序,突然就不能用了,或者用戶程序依賴本地 IP,但是本地看不到 IP,他的業(yè)務(wù)上來(lái)就發(fā)現(xiàn)不行了,還得改業(yè)務(wù)。

  我們強(qiáng)調(diào),有時(shí)候,你感覺(jué)你的設(shè)計(jì)是高大上的,性能也很好,但是用戶真的上來(lái)的時(shí)候,他的感受不一定是這樣的。所以,一定是考慮用戶怎么會(huì)使用這個(gè)技術(shù)去解決他的問(wèn)題。

  Q:所以還是需要一些非技術(shù)最優(yōu)的折中?

  陳諤:對(duì)。包括 Docker也是這樣,比如網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)如果直接用 Docker的理念,那是很極端的,它覺(jué)得根本不應(yīng)該存在有狀態(tài)的、不能隨時(shí)掐掉的業(yè)務(wù),但實(shí)際上我們看到用戶還是需要有狀態(tài)的、可以保證硬件故障或者宕機(jī)時(shí)能夠恢復(fù)的有狀態(tài)容器——他可能開(kāi)一個(gè)數(shù)據(jù)庫(kù),不可能從這里宕機(jī),再?gòu)牧硪粋€(gè)地方起來(lái),至少短期之內(nèi)還做不到這樣的事情。所以你必須先讓他把業(yè)務(wù)架構(gòu)搬到云上面,先能用上 Docker的一些鏡像、部署的好處,再逐步幫他做解決方案,讓他用上你提供的更多好處,否則他搬都搬不上來(lái)。

  Q:那么從網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的角度,目前優(yōu)化的主要方向都有哪些?

  陳諤:首先,作為云計(jì)算基礎(chǔ)服務(wù),永遠(yuǎn)要提升性能指標(biāo),包括吞吐能力,而且性能指標(biāo)必須平穩(wěn),不能有太大的波動(dòng),所以我們?cè)趬K存儲(chǔ)、虛擬網(wǎng)絡(luò)性能方面不斷優(yōu)化,希望也能滿足那些極端的情況。我們認(rèn)為,只要做基礎(chǔ)設(shè)施,就要不停提升網(wǎng)絡(luò) IO性能,就會(huì)有很大的效果,這是直接影響客戶業(yè)務(wù)體驗(yàn)的。

  還有重要的一塊是容器的編排管理,不僅要考慮用戶業(yè)務(wù)在線上怎么做編排管理,還要從研發(fā)、測(cè)試的角度來(lái)考慮怎么利用編排管理的服務(wù)來(lái)支撐研發(fā)的過(guò)程。同時(shí) Kubernetes也在不停地發(fā)展,包括對(duì)兩地三中心的支持,我們會(huì)保持容器編排管理的持續(xù)跟進(jìn)、優(yōu)化,使得用戶的業(yè)務(wù)能夠在盡可能短的時(shí)間內(nèi)獲得到容器云技術(shù)最新進(jìn)展的支持。

  Q:您會(huì)如何帶領(lǐng)研發(fā)團(tuán)隊(duì)去實(shí)現(xiàn)您的目標(biāo)?

  陳諤:我目前帶領(lǐng)最多的就是研發(fā)工程師。我認(rèn)為很重要的一點(diǎn),就是要給大家學(xué)習(xí)、表現(xiàn)的機(jī)會(huì)。我們根據(jù)研發(fā)路線的需求提供一些可以學(xué)習(xí)的方向,通過(guò)學(xué)習(xí),還能夠篩選出一些能力基礎(chǔ)很好、有發(fā)展?jié)摿Φ墓こ處熚灾厝?。所以技術(shù)團(tuán)隊(duì)的學(xué)習(xí)、交流的機(jī)會(huì)很重要。同時(shí),技術(shù)團(tuán)隊(duì)的學(xué)習(xí)和實(shí)踐有了積淀之后,要推動(dòng)這些人去分享,不管是技術(shù)文章,還是技術(shù)課堂,優(yōu)秀的工程師,無(wú)論對(duì)內(nèi)對(duì)外都要有表現(xiàn)的機(jī)會(huì),讓他的價(jià)值得到肯定。

  另外就是標(biāo)準(zhǔn)化的管理、目標(biāo)的設(shè)定。從技術(shù)的角度,我更傾向于設(shè)定目標(biāo)的管理,而不是 KPI的管理。我會(huì)告訴大家我們都能認(rèn)同的目標(biāo),比如網(wǎng)絡(luò)模塊應(yīng)該做到哪些目標(biāo),網(wǎng)絡(luò)抖動(dòng)可以下降到多少,網(wǎng)絡(luò)吞吐量可以到多少,讓他自己在理解項(xiàng)目整體目標(biāo)的基礎(chǔ)上,再把自己的量化目標(biāo)定出來(lái)。

  分享我們做過(guò)的一件很有意思的事情:

  網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)最初的版本,從申請(qǐng)資源開(kāi)始監(jiān)測(cè),到虛擬機(jī)、容器全部啟動(dòng),大概需要兩分半鐘。我認(rèn)為這個(gè)速度太慢,當(dāng)時(shí)就提出要求,希望20秒就能把容器啟動(dòng)搞定。大家覺(jué)得這個(gè)事情太困難,幾乎是不可能完成的。但是接下來(lái)分解目標(biāo),我們不是制定哪個(gè)組幾秒鐘的 KPI,而是分一些階段性的目標(biāo),先優(yōu)化到1分鐘,再到40秒,再到20秒,讓大家看自己的環(huán)節(jié),還有哪些潛力可以挖掘,怎么可以一步步地進(jìn)步,設(shè)定一些業(yè)界有挑戰(zhàn)的、有價(jià)值的目標(biāo)(不是拍腦袋,而是根據(jù)業(yè)界先進(jìn)水平或者理論來(lái)決定),不斷迭代,朝著目標(biāo)前進(jìn)。最后,我們確實(shí)實(shí)現(xiàn)了在20秒左右完成一個(gè)容器的建立(除去鏡像傳輸?shù)臅r(shí)間)。在云計(jì)算這個(gè)復(fù)雜系統(tǒng)里面,做到這一點(diǎn)其實(shí)是很不容易的。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-03-02
專訪陳諤:為什么網(wǎng)易云能承載網(wǎng)易 95%的業(yè)務(wù)?
在容器云市場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈的今天,網(wǎng)易云基礎(chǔ)服務(wù)(網(wǎng)易蜂巢)的負(fù)責(zé)人陳諤確實(shí)是一個(gè)大忙人。不過(guò),在陳諤的臉上,我們很少能夠看到一絲急躁,似乎十年的磨煉足以讓他面對(duì)任何挑戰(zhàn)都能做到有條不紊。

長(zhǎng)按掃碼 閱讀全文