在華為云上,美圖以綜合治理的確定性讓用戶實(shí)時(shí)變“美”

科技讓美更簡單,在美圖,2.4億月活躍用戶一起變美。作為一家以“美”為內(nèi)核、以人工智能為驅(qū)動的科技公司,美圖打造的美圖秀秀、美顏相機(jī)、Wink等移動互聯(lián)網(wǎng)產(chǎn)品,深受廣大用戶的喜愛。

基于對影像科技的研發(fā)創(chuàng)新專注,美圖持續(xù)領(lǐng)跑影像賽道,滿足了用戶在圖片美化、拍照攝影、視頻美化等影像美的需求,并產(chǎn)出著月均約60億的照片和視頻。在面向用戶的前端,美圖深入洞察前沿趨勢,了解用戶需求,不斷探索更多“變美”的功能,迭代產(chǎn)品,致力于讓用戶“美”實(shí)時(shí)在線。不過面對用戶遍及全球、產(chǎn)品線眾多、服務(wù)發(fā)布頻率高的現(xiàn)狀,要做到業(yè)務(wù)穩(wěn)如泰山并不容易,這有賴于一個(gè)穩(wěn)固的大后方為業(yè)務(wù)運(yùn)行提供保障。

2019年,美圖全量業(yè)務(wù)搬上華為云,將業(yè)務(wù)底座升級為云原生基礎(chǔ)設(shè)施,實(shí)現(xiàn)性能、彈性伸縮能力的極大提升,從而輕松應(yīng)對超10億用戶量級的海量突發(fā)業(yè)務(wù)請求。美圖高級技術(shù)總監(jiān)王關(guān)勝指出,兩年多以來,美圖攜手華為云聯(lián)合共創(chuàng)積累了豐富的云上綜合治理經(jīng)驗(yàn),并希望與行業(yè)展開技術(shù)交流,共同探索長效運(yùn)維新思路。日前,華為云聯(lián)創(chuàng)營?云上綜合治理研討班走進(jìn)廈門,美圖分享了云上綜合治理實(shí)踐,為行業(yè)企業(yè)用好云、管好云、提升云效能提供了有益借鑒。

穩(wěn)定、效率、成本,做美圖服務(wù)最穩(wěn)的大后方

易變性、不確定性、復(fù)雜性、模糊性,“烏卡(VUCA)”一詞描繪了當(dāng)今世界的時(shí)代特征,亦體現(xiàn)在數(shù)字化轉(zhuǎn)型的過程中?!拔覀兯龅姆€(wěn)定性保障工作,就是在和VUCA做對抗,即在一個(gè)復(fù)雜的、不確定性的環(huán)境下,去追求確定性的結(jié)果?!泵缊D高級運(yùn)維經(jīng)理石鵬道出了SRE的挑戰(zhàn)和目標(biāo),并指出了美圖SRE(Site Reliability Engineer,站點(diǎn)可用性工程師)的核心工作職責(zé),在穩(wěn)定性、效率和成本之間的“矛盾”中尋求平衡,從而做美圖服務(wù)最穩(wěn)的大后方。

很明顯,保障線上服務(wù)的穩(wěn)定性,建設(shè)工具/平臺/基礎(chǔ)設(shè)施提升效率,用技術(shù)手段控制、優(yōu)化服務(wù)的運(yùn)行成本,成為美圖SRE開展工作的中心。

其中,“全生命周期覆蓋”成為貫穿三大目標(biāo)的一個(gè)關(guān)鍵詞。在穩(wěn)定性保障方面,從故障的預(yù)防到故障的發(fā)現(xiàn)、定位,再到故障的恢復(fù)與改進(jìn),SRE要做的事情就是要在建設(shè)/演練/OnCall,到應(yīng)急響應(yīng),再到復(fù)盤/改進(jìn)/OnCall的過程中不斷迭代和優(yōu)化;在效率提升方面,美圖構(gòu)建了Dev-X-Ops的工具體系,X意在覆蓋了更長的應(yīng)用生命周期的鏈條和場景,并打破輪子眾多、工具間數(shù)據(jù)割裂、不成體系的瓶頸;在成本優(yōu)化方面,從財(cái)務(wù)角度進(jìn)行云服務(wù)的預(yù)算制定、成本核算、成本歸集和成本優(yōu)化變得越來越重要,只有完成成本管控的流程閉環(huán),才能實(shí)現(xiàn)對云服務(wù)的精細(xì)化管理、客觀評價(jià)和科學(xué)決策。

所以,美圖的確定性運(yùn)維體系構(gòu)建出一個(gè)清晰的思路和路線,即從數(shù)據(jù)化到自動化、體系化,再到智能化的演變,美圖SRE希望不斷拓寬能力邊界,進(jìn)行運(yùn)維生命周期的左移和上移,即更早介入保障、更關(guān)注上層業(yè)務(wù),下層則交給華為云的一站式運(yùn)維平臺,實(shí)現(xiàn)多維度實(shí)時(shí)監(jiān)控和問題的快速診斷與修復(fù),從被動應(yīng)對到主動出擊,不僅用好云、管好云,更在提升云效能上做到更進(jìn)一步。

3大方向、2個(gè)基礎(chǔ)、1些探索,美圖的云上綜合治理實(shí)踐

為此,美圖圍繞“3大方向、2個(gè)基礎(chǔ)、1些探索”進(jìn)行了一系列云上綜合治理的實(shí)踐。

首先,美圖做的就是圍繞穩(wěn)定性、效率和成本3大核心方向梳理流程和體系、開發(fā)工具、搭建平臺。在穩(wěn)定性方面,美圖面向用戶端和服務(wù)端梳理出了全面的質(zhì)量監(jiān)控體系,建設(shè)了監(jiān)控大盤,從而擁有一個(gè)全局視角來查看整個(gè)業(yè)務(wù)各個(gè)鏈路環(huán)節(jié)的狀態(tài);并附以圖文告警快速感知服務(wù)整體狀態(tài)、縮短故障定位時(shí)間;當(dāng)然,監(jiān)的目的是為了更好地控,進(jìn)一步地,美圖搭建了應(yīng)急響應(yīng)平臺,把對服務(wù)的干預(yù)手段抽象為原子性的動作,并對這些動作進(jìn)行編排,形成應(yīng)對不同場景的保障預(yù)案。在效率提升上,得益于華為云提供的OpenAPI與一鍵WarRoom機(jī)制等,從而實(shí)現(xiàn)運(yùn)維效率工具的自動化覆蓋和敏捷響應(yīng),命令行&移動端工具的建設(shè)大幅降低了使用門檻,并實(shí)現(xiàn)隨時(shí)隨地處理運(yùn)維信息。在成本優(yōu)化方面,F(xiàn)inOps的探索讓成本管控貫穿在服務(wù)的整個(gè)周期中,為此,美圖建設(shè)了MTCC平臺,并與OKR掛鉤,從目標(biāo)、人員、流程和工具多方面入手來進(jìn)行成本的可視化、分析和優(yōu)化。

其次,圍繞運(yùn)維元數(shù)據(jù)和團(tuán)隊(duì)建設(shè),美圖深化了2個(gè)基礎(chǔ)建設(shè)。CMDB+Service Directory的構(gòu)建,用統(tǒng)一的運(yùn)維元數(shù)據(jù)串聯(lián)工具系統(tǒng)、打破數(shù)據(jù)壁壘,從而形成統(tǒng)籌的能力;打造學(xué)習(xí)型組織,開展SRE-Pharos項(xiàng)目,推進(jìn)AB崗覆蓋,不斷強(qiáng)化團(tuán)隊(duì)健壯性。

再者,在云上綜合治理方面,美圖亦進(jìn)行了一些有意思的探索。例如利用機(jī)器人來自動化發(fā)布監(jiān)控告警和服務(wù)巡檢報(bào)告;建立SRE權(quán)威消息發(fā)布通道來樹立和強(qiáng)化團(tuán)隊(duì)品牌;創(chuàng)建SRE官方群組來收斂固定運(yùn)維支撐的渠道;構(gòu)建穩(wěn)定性運(yùn)營平臺來挖掘、分析穩(wěn)定性數(shù)據(jù),解讀隱藏在數(shù)據(jù)背后的含義。

總之而言,面對人手不足的問題,在華為云的助力下通過效率工具的開發(fā)和流程梳理,美圖大幅提升了治理效率;面對穩(wěn)定性壓力大的挑戰(zhàn),監(jiān)控大盤、應(yīng)急響應(yīng)平臺的建設(shè)和監(jiān)控告警治理等,讓美圖云上綜合治理的自動化水平顯著提高;面對工具不稱手的問題,通過建設(shè)運(yùn)維元數(shù)據(jù)、借助華為云能力,提供了更易用和高效的工具;面對成本管控壓力大的挑戰(zhàn),F(xiàn)inOps體系推進(jìn)、借助OKR共同推進(jìn)目標(biāo),構(gòu)建了相對完善的成本管控系統(tǒng)。

數(shù)據(jù)庫運(yùn)維和治理,為云端確定性加碼

作為存放數(shù)據(jù)的“倉庫”,數(shù)據(jù)庫的穩(wěn)定是保障系統(tǒng)穩(wěn)定運(yùn)行的重中之重。在數(shù)據(jù)庫穩(wěn)定性治理方面,美圖亦進(jìn)行了大量探索與實(shí)踐。

在研討班上,美圖DBA負(fù)責(zé)人肖維分享了美圖云上數(shù)據(jù)庫運(yùn)維和治理實(shí)踐。美圖通過平臺層DBA小秘書、操作平臺MTDAS、云管平臺實(shí)現(xiàn)對后端資源全生命周期的管控。同時(shí)深入建設(shè)數(shù)據(jù)庫容災(zāi)系統(tǒng),并且已經(jīng)介入到SRE的編排系統(tǒng),針對不同場景,只需要輸入相關(guān)參數(shù),系統(tǒng)就會自行處理工單系統(tǒng),依據(jù)故障診斷系統(tǒng)和日志系統(tǒng),并做出相應(yīng)預(yù)案。此外,面對數(shù)據(jù)的持續(xù)擴(kuò)張帶來的容量管理難題,美圖DBA建立了智能壓測系統(tǒng),更準(zhǔn)確的做好云上的容量管理。 在大規(guī)模數(shù)據(jù)庫集群,美圖DBA搭建異常檢測、異常分析和異常處理體系,為快速定位問題、解決故障、恢復(fù)業(yè)務(wù)提供基礎(chǔ)能力。這其中,異常檢測,實(shí)現(xiàn)對監(jiān)控指標(biāo)的數(shù)據(jù)變化進(jìn)行快速識別;異常分析,則針對異常業(yè)務(wù)變化進(jìn)行量化分析;異常處理,是通過自動擴(kuò)容、SQL限流、相關(guān)預(yù)案處理等操作實(shí)現(xiàn)。系統(tǒng)之間嚴(yán)密的配合,保證了美圖云上服務(wù)的持續(xù)穩(wěn)定運(yùn)行。

從組織、流程到工具,看得出,美圖的云上綜合治理進(jìn)行了諸多前瞻性的實(shí)踐,在DBA的治理中同樣得到體現(xiàn)。從上云以來,美圖尤為重視數(shù)據(jù)庫穩(wěn)定性治理,并設(shè)立了DBRE(數(shù)據(jù)庫可靠性工程師),組成SRE團(tuán)隊(duì)的重要成員,并與產(chǎn)品一起開發(fā)解決方案,在華為云的助力下致力于相關(guān)數(shù)據(jù)庫指標(biāo)的可觀察性。

從IT治理到云上綜合治理,雖然IT的架構(gòu)進(jìn)行了改變,但治理的體系一脈相承,目標(biāo)一致,并同樣具備較高的復(fù)雜性。好在華為云提供了全流程專業(yè)服務(wù),并有一套完善的云上治理架構(gòu)支撐,這為美圖不斷夯實(shí)云端系統(tǒng)穩(wěn)定性提供了保障。

雖非生于云,但長在云上的未來美圖,攜手華為云不斷創(chuàng)新與能力升級,在用好云、管好云、提升云效能的基礎(chǔ)上,精準(zhǔn)洞察年輕用戶需求,并深入探索更多“變美”功能與創(chuàng)新,聚焦產(chǎn)品、聚焦用戶、聚焦服務(wù),與華為云一起用云上綜合治理的確定性讓用戶一直“美”下去。

當(dāng)然,隨著業(yè)務(wù)發(fā)展,云上綜合治理沒有終點(diǎn),是一項(xiàng)復(fù)雜的工程。秉承“智者·同行·創(chuàng)想”的理念,華為云聯(lián)創(chuàng)營為行業(yè)客戶、伙伴打造了一個(gè)技術(shù)交流的陣地,共探云上綜合治理新思路、新路徑,讓企業(yè)云上創(chuàng)新不止步。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-10-13
在華為云上,美圖以綜合治理的確定性讓用戶實(shí)時(shí)變“美”
科技讓美更簡單,在美圖,2.4億月活躍用戶一起變美。作為一家以“美”為內(nèi)核、以人工智能為驅(qū)動的科技公司,美圖打造的美圖秀秀、美顏相機(jī)、Wink等移動互聯(lián)網(wǎng)產(chǎn)品,深受廣大用戶的喜愛?;趯τ跋窨萍嫉难邪l(fā)創(chuàng)新專注,美圖持續(xù)領(lǐng)跑影像賽道,滿足了用戶在圖片美化、拍照攝影、視頻美...

長按掃碼 閱讀全文