阿里戰(zhàn)道:端網(wǎng)協(xié)同體系化創(chuàng)新 保障數(shù)據(jù)中心走向新時代

12月24日消息(顏翊)近日,在“GNTC 2020全球網(wǎng)絡技術大會”上,阿里巴巴集團研究員,阿里云基礎設施首席網(wǎng)絡架構師戰(zhàn)道發(fā)表了題為《數(shù)據(jù)中心網(wǎng)絡的“高鐵”時代》的演講,分享了阿里云在云計算數(shù)據(jù)中心領域的技術創(chuàng)新和實踐。

他表示,我們已經(jīng)進入數(shù)字經(jīng)濟的社會,整個數(shù)字經(jīng)濟社會的基礎設施就是數(shù)據(jù)中心。作為一個社會基礎設施必須具備大規(guī)模部署能力,超高穩(wěn)定性和更高性能,而且性能要有保障,可預期。因此,通訊技術也要像和交通工具變革一樣,從綠皮火車向高鐵迭代,才能夠支撐起未來數(shù)字經(jīng)濟社會的發(fā)展。

本世紀頭十年是互聯(lián)網(wǎng)蓬勃發(fā)展的時期,運營商網(wǎng)絡不斷進行擴容,帶動設備廠商的不斷地設備更新迭代,大型設備的出現(xiàn)本質上解決了規(guī)模帶來的挑戰(zhàn)。到了本世紀第二個十年,互聯(lián)網(wǎng)應用相比傳統(tǒng)的企業(yè)規(guī)模來說指數(shù)級增加,數(shù)據(jù)中心的規(guī)模也是指數(shù)級的增加,已有網(wǎng)絡架構、網(wǎng)絡設備、網(wǎng)絡運營管控模式難以為繼。數(shù)字經(jīng)濟時代對我們網(wǎng)絡無論規(guī)模還是穩(wěn)定性、性能提出更高的要求。如何解決這個問題,是未來網(wǎng)絡發(fā)展的一個方向。

戰(zhàn)道認為,要解決這一問題,不能依靠單點技術,無論協(xié)議創(chuàng)新、設備創(chuàng)新、控制器創(chuàng)新,單點技術都很難突破,一定要靠體系化的融合創(chuàng)新。首先,是要在網(wǎng)絡層面進行體系化創(chuàng)新。從架構層面、設備自主掌控的層面、運營管控、監(jiān)控系統(tǒng)層面一體化融合創(chuàng)新;第二是設備簡化。設備的自主掌控,芯片功能和芯片白盒化,到全部自主研發(fā),軟件自主研發(fā)最主要就是設備監(jiān)控,做更細顆粒度監(jiān)控,本地分布式處理和有機結合。第三就是監(jiān)控、管控系統(tǒng)的大量投入。

他介紹稱,網(wǎng)絡監(jiān)控目前主要以監(jiān)控網(wǎng)絡設備和網(wǎng)絡連通性為主要目標,沒有辦法把網(wǎng)絡的狀態(tài),如故障、信息和單側應用相結合,所以網(wǎng)絡發(fā)生故障時候,往往幾秒鐘就反應到應用和計算,當反應到存儲可能會帶來十幾分鐘或者幾十分鐘的故障。這一方面是組織的壁壘,一方面也是廠商和芯片設備的壁壘,缺乏一體化設計,無法達到端到端的打通。對此,阿里云已經(jīng)大規(guī)模部署了端網(wǎng)協(xié)同監(jiān)控和流控技術,其端網(wǎng)協(xié)同理念是變成可視化的技術,把網(wǎng)絡當中一些信息準確實時帶到端上,再和業(yè)務流進行打通,這樣可以做到業(yè)務毫秒級故障恢復。

在端網(wǎng)協(xié)同的流控方面,其主要目的是打造低延時、高性能網(wǎng)絡,低延時得到前所未有的關注。因為低延時、高性能是強算力、規(guī)?;膽谩_M入人工智能、大數(shù)據(jù)的時代,我們需要強大的算力來計算數(shù)據(jù)。由于單個芯片計算演進受到摩爾定律限制,所以必須有算力規(guī)?;芏嘈酒B在一起協(xié)同計算,這就離不開高性能網(wǎng)絡。對于高性能網(wǎng)絡優(yōu)化,要從兩個層次進行優(yōu)化,其一是AI計算通信模型優(yōu)化,如果AI計算感知網(wǎng)絡的拓撲、帶寬和網(wǎng)絡狀態(tài),在模型上做一些調整,會直接關系到整個AI計算的性能。除此之外還要網(wǎng)絡本身優(yōu)化,因為網(wǎng)絡延時是復雜系統(tǒng)化工程,當網(wǎng)絡不是理想狀況,會出現(xiàn)擁塞,會出現(xiàn)丟包,出現(xiàn)丟包延時會呈現(xiàn)數(shù)量級提升。如何做好更好的流控,避免網(wǎng)絡出現(xiàn)這個擁塞或者減少丟包,處理好場景,在工業(yè)界和學術界是一直探討的話題。

阿里云目前還正在探索采用端網(wǎng)協(xié)同多路徑管理技術來提供差異化的服務。該技術是采用分布式和集中式有機結合,端上可以自動計算路徑,自動檢測路徑質量、負載情況和擁塞情況并自動切換。我們都知道流量工程在廣域網(wǎng)相當成熟,但在數(shù)據(jù)中心沒有人用,首先是因為數(shù)據(jù)中心本身鏈路相對便宜,另一個原因是數(shù)據(jù)中心兩臺服務器之間鏈路不同組合可能有上萬條甚至更多,所以傳統(tǒng)的流量工程技術很難在數(shù)據(jù)中心進行應用。這導致目前的現(xiàn)狀就是網(wǎng)絡利用率不均勻,造成局部擁塞,不能保證差異化服務。在過去這可能不是一個問題,但是面向未來,智慧中心會越來越繁多,有些AI計算可以做出一定的路徑的選擇,數(shù)據(jù)中心的業(yè)務價值才能真正體現(xiàn)出來。

最后,戰(zhàn)道總結道,未來數(shù)據(jù)中心要支撐起數(shù)字經(jīng)濟社會,需要創(chuàng)新實現(xiàn)超越網(wǎng)絡,需要和應用相結合,需要和計算成熟相結合,只有這樣才能達到真正可預測的性能,保障智慧中心網(wǎng)絡走向另外一個時代。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-12-24
阿里戰(zhàn)道:端網(wǎng)協(xié)同體系化創(chuàng)新 保障數(shù)據(jù)中心走向新時代
阿里戰(zhàn)道:端網(wǎng)協(xié)同體系化創(chuàng)新 保障數(shù)據(jù)中心走向新時代,C114訊 12月24日消息(顏翊)近日,在GNTC 2020全球網(wǎng)絡技術大會上,阿里巴巴集團研究員

長按掃碼 閱讀全文