云計算網(wǎng)絡(luò)基礎(chǔ)架構(gòu)的實踐和演進
點擊:1435
A+ A-
所屬頻道:新聞中心
從傳統(tǒng)IT部署到云,人肉運維已經(jīng)是過去式,云上運維該怎么開展?人工智能對于運維“威脅論”也隨之襲來,如何去做更智能的活,當下很多運維人在不斷思考和探尋答案。在2017云棲社區(qū)運維/DevOps在線技術(shù)峰會上,阿里云專家云登就為大家分享了云計算網(wǎng)絡(luò)基礎(chǔ)架構(gòu)的實踐和演進,精彩不容錯過。
以下內(nèi)容根據(jù)演講視頻以及PPT整理而成。
眾所周知,云計算是以計算、存儲和網(wǎng)絡(luò)作為基礎(chǔ)的。網(wǎng)絡(luò)作為云計算的重要基石之一,其架構(gòu)設(shè)計和演進是云計算發(fā)展的重要一環(huán),而網(wǎng)絡(luò)架構(gòu)涉及可靠性、性能、可擴展性等多方面內(nèi)容。架構(gòu)是從理論設(shè)計開始的,理論設(shè)計和實踐碰撞到一起,能否經(jīng)得住考驗,是否能夠符合預(yù)期呢?廠商所提供的網(wǎng)絡(luò)設(shè)備的高級特性真的是解決問題的銀彈么?如何通過經(jīng)典網(wǎng)絡(luò)和VPC構(gòu)建混合云,打通云上和云下呢?阿里云在以往的實踐以及與用戶的交互碰撞中遇到的問題又是如何解決的呢?本次分享中將與大家一起進行探討。
本次分享的目錄
一、常見的云計算網(wǎng)絡(luò)架構(gòu)
二、云計算網(wǎng)絡(luò)的可靠性和故障定界
三、專有云網(wǎng)絡(luò)的模塊化
四、混合云構(gòu)建的并網(wǎng)案例
五、云網(wǎng)絡(luò)架構(gòu)的演進趨勢
一、常見的云計算網(wǎng)絡(luò)架構(gòu)
下圖所展示是一種常見的云計算網(wǎng)絡(luò)集群架構(gòu)。傳統(tǒng)情況下云計算網(wǎng)絡(luò)架構(gòu)會分為三層:接入層、匯聚層和核心層。如下圖所示,在接入層下面的兩臺交換機會進行堆疊,再下面會連接服務(wù)器,服務(wù)器一般會選擇使用兩個網(wǎng)卡進行bond之后以雙上連的方式連接到2臺接入交換機。在接入交換機和匯聚交換機之間也會有多條線路的連接,一般而言會存在二層或者三層的接入。對于帶寬收斂比的設(shè)計而言,對于千兆集群可以采用1:1無收斂的方式,而對于萬兆集群則可以使用收斂比為1:3或者1:2的方案,也可能使用無收斂的設(shè)計。從匯聚層再向上連接到核心層,一般情況會使用三層連接。
下圖是另外一種比較常見的云計算網(wǎng)絡(luò)集群架構(gòu),在Spine節(jié)點和Leaf節(jié)點之間可能會存在三層連接,而Spine節(jié)點和Core節(jié)點之間也可能會存在三層連接,這種網(wǎng)絡(luò)架構(gòu)相比于前面提到的架構(gòu)而言,其擴展粒度要更細,可以細化到一組或者多組進行接入。
想必大家對于Overlay以及Underlay網(wǎng)絡(luò)都有所了解,物理網(wǎng)絡(luò)被稱為Underlay網(wǎng)絡(luò),物理網(wǎng)絡(luò)搭建完成之后應(yīng)該盡量保證網(wǎng)絡(luò)拓撲是固定的;而對于Overlay的網(wǎng)絡(luò)而言,可以基于VXLAN技術(shù)構(gòu)建VPC網(wǎng)絡(luò),通過軟件定義和控制器的方式可以動態(tài)地構(gòu)建虛擬的網(wǎng)絡(luò)。所構(gòu)建的網(wǎng)絡(luò)可以是一個或多個虛擬的網(wǎng)絡(luò),可以通過云上不同的租戶去定義地址規(guī)劃以及路由的規(guī)劃,甚至還可以提供類似于高速通道這樣跨VPC之間的互通。Underlay網(wǎng)絡(luò)的設(shè)計基本上就是前面所提到的接入-匯聚-核心架構(gòu)以及Spine-Leaf架構(gòu),而對于Overlay的網(wǎng)絡(luò)則描述的是虛擬的層面,提供的實際上是虛擬的路由器和虛擬的交換機,包括其構(gòu)建出來的可以接入像SLB、RDS、ECS、OCS等云產(chǎn)品的VPC容器。為什么叫做Overlay呢?其實因為Overlay網(wǎng)絡(luò)是通過VXLAN隧道的封裝運行在Underlay物理網(wǎng)絡(luò)之上的。通過Overlay邏輯網(wǎng)關(guān)去組織業(yè)務(wù)進行資源編排就可以構(gòu)建出非常豐富的基于Overlay網(wǎng)絡(luò)的產(chǎn)品。
二、云計算網(wǎng)絡(luò)的可靠性和故障定界
前面主要介紹了云計算網(wǎng)絡(luò)的一些基礎(chǔ)概念,接下來將會針對云計算網(wǎng)絡(luò)的可靠性以及故障定位的方式進行分享。
對于云計算平臺的物理網(wǎng)絡(luò)而言,其可靠性可以分為以下的幾類:
1、多線路,常見二層的LACP,也就是鏈路聚合,對于三層則使用等價路由
2、設(shè)備HA,從體系結(jié)構(gòu)來講,分布式的多框、多插槽的設(shè)備能夠提供多主控、多接口板這樣的方式,還可以提供類似于堆疊技術(shù)和多機之間的雙機熱備以及多機的備份或者多機堆疊的方式,還可以提供VRRP的鏈路切換。
3、探測和切換機制,實際上在網(wǎng)絡(luò)配置交付之后,如果遠端出現(xiàn)了問題,為了解決鏈路上的負載均衡以及主備切換的問題,可以引入比如NQA+Track這樣的探測技術(shù),這樣可以針對靜態(tài)路由的配置通過不同的優(yōu)先級和NQA探測方式發(fā)現(xiàn)遠端節(jié)點不可達的時候進行路由切換。除此之外,在探索到某臺設(shè)備出現(xiàn)故障的時候就可以進行故障隔離,可以實現(xiàn)端口級或者設(shè)備級的故障隔離,保證流量可以走備份或者冗余鏈路進而避免流量中斷,當然,這種情況下可能對于流量帶寬造成一定的損失。
4、巡檢和監(jiān)測,針對于Overlay和Underlay的網(wǎng)絡(luò)會提供主動探測的機制,還有對于設(shè)備的日常日志告警的分析。設(shè)備在運行中往往會報很多的日志和告警,將這些信息收集起來之后結(jié)合云平臺的業(yè)務(wù)流量可以挖掘出很多故障的可能性、已經(jīng)出現(xiàn)的故障還有對于未來可能出現(xiàn)故障的預(yù)判。還可以進行流量分析,并且基于此判斷云平臺的網(wǎng)絡(luò)是否出現(xiàn)了一些問題。
如下圖所示的是常見的網(wǎng)絡(luò)集群故障點分布圖,云計算平臺的網(wǎng)絡(luò)故障點主要集中在下圖中標號的幾個位置:
■標號1:線路故障,比如服務(wù)器上連到TOR交換機,也就是服務(wù)器上的接入網(wǎng)卡接入到交換機上時出現(xiàn)了網(wǎng)卡、線路或者是接入端口損壞導(dǎo)致線路上出現(xiàn)故障。同樣的,從接入層到匯聚層,從匯聚層到核心層也會出現(xiàn)這樣的線路故障。
■標號2:核心設(shè)備的故障,核心設(shè)備的故障可能導(dǎo)致跨網(wǎng)絡(luò)端口之間的流量損失,由此造成的影響范圍往往比較大。對圖中所示的網(wǎng)絡(luò)架構(gòu)而言,如果流量需要跨端口進行傳輸,就一定需要從接入層到匯聚層再到核心層再轉(zhuǎn)入另外一個POD的匯聚層。
■標號3:匯聚交換機的故障,一般情況下匯聚交換機采用堆疊的方式,可能會出現(xiàn)堆疊的分裂以及單臺設(shè)備的故障,也可能出現(xiàn)整個端口流量上行的帶寬減半或者是分裂以后導(dǎo)致等一些不可預(yù)期的后果,因此需要及時檢測出一些故障并且及時進行隔離以及對于設(shè)備進行下線維修從而排除此類故障。
■標號4:接入交換機的故障,接入交換機也會發(fā)生類似于匯聚交換機的故障,堆疊分裂或者單機故障則會導(dǎo)致下面連接的服務(wù)器出現(xiàn)問題。
■標號5:服務(wù)器故障。
■標號6和7:像上述提到的堆疊出現(xiàn)問題造成的故障,這樣的故障需要通過日常的巡檢以及網(wǎng)絡(luò)設(shè)備自身報告故障的日志告警來發(fā)現(xiàn)問題并及時去進行相應(yīng)的處理。
以下是對于常見的網(wǎng)絡(luò)集群故障點的詳細描述:
1、線路故障。體現(xiàn)為帶寬的損失,一般通過多條線路保障,三層網(wǎng)絡(luò)設(shè)備間通常用ECMP等價路由,二層網(wǎng)絡(luò)設(shè)備間通常采用聚合LACP,提高可靠性。在實際情況下,在公有云環(huán)境中會發(fā)現(xiàn):一旦網(wǎng)絡(luò)集群規(guī)模大了之后,堆疊出現(xiàn)問題的概率就會變大,與此同時,二層的廣播風暴和環(huán)路出現(xiàn)的概率也會變大,阿里云目前在逐步地考慮去掉堆疊并且去掉二層,這也可能是未來的發(fā)展方向。這樣的目的是為了簡化網(wǎng)絡(luò)并提高網(wǎng)絡(luò)集群的可靠性。
2、DSW故障。DSW是對于核心設(shè)備的稱呼,由于所有的DSW之間不直接互聯(lián),它本身的可靠性只能依靠硬件框式分布式,多主控板(主備HA)、多接口板(上面說的多線路跨板連接)來保證單點可靠性,使用多臺DSW,平時負載均衡,單臺故障時互為備份鏈路。如果是單臺DSW故障,將會影響帶寬損失。
3、PSW故障。也就是匯聚設(shè)備的故障,拓撲中有PSW堆疊和去堆疊兩種情況,如果是堆疊的,單臺故障,上下連線依靠跨堆疊設(shè)備的LACP或者ECMP實現(xiàn)業(yè)務(wù)不中斷(但帶寬有損失),如果不是堆疊的,參考(2)的場景。如果是單臺PSW故障,影響的是下連的多組ASW帶寬損失一半。
4、ASW故障。線上很多的ASW都是堆疊的,目前阿里云也開始去堆疊,如果是堆疊的,ASW下連服務(wù)器,服務(wù)器雙網(wǎng)卡bond接入(LACP),如果是去堆疊的ASW,服務(wù)器雙網(wǎng)卡等價路由負載均衡。如果單臺ASW故障,影響的是下連的48臺服務(wù)器的帶寬損失一半。未來,阿里云新構(gòu)建的集群會逐漸減少對于堆疊的使用,進而提高網(wǎng)絡(luò)設(shè)備的可靠性。其實對于網(wǎng)絡(luò)廠商而言,他們也會對于堆疊特性進行大量的測試,但是實際上由于堆疊特性十分復(fù)雜,因為其涉及到硬件、軟件、內(nèi)部檢測以及協(xié)議的傳輸備份,也就是會涉及到很多跨框、跨設(shè)備的同步以及選舉機制。由于堆疊特性實現(xiàn)本身就非常復(fù)雜,就會導(dǎo)致出現(xiàn)問題的可能性比像路由轉(zhuǎn)發(fā)這樣其他簡單特性更高。而在云計算場景下海量的網(wǎng)絡(luò)設(shè)備同時運行,就進一步提升了堆疊特性出現(xiàn)問題的可能性,基本上就會導(dǎo)致出現(xiàn)存在堆疊的場景下可能經(jīng)常會出現(xiàn)問題。為了解決這樣的問題就需要逐步地去除堆疊和二層。
5、服務(wù)器故障??赡荏w現(xiàn)在服務(wù)器網(wǎng)卡或者本身內(nèi)部的應(yīng)用系統(tǒng)的問題,服務(wù)器故障一般只會影響自己,范圍比較小。
6、PSW堆疊分裂。各自認為自己是主設(shè)備,為了減小影響,一般會配置DAD雙主檢測,禁掉一邊,影響為整個pod的上聯(lián)帶寬和跨asw之間轉(zhuǎn)發(fā)帶寬損失一半。如果PSW堆疊整體故障,整個pod掛掉(各組ASW下的48臺服務(wù)器之間仍可互通),上連不通,跨asw的互連不通。
7、ASW堆疊分裂。類似于(6),影響為一組ASW下掛的48臺服務(wù)器的互聯(lián)或者上聯(lián)帶寬損失一半。如果ASW堆疊整體故障,該組ASW下連的48臺服務(wù)器全部不通。對于(6)(7)的堆疊故障,由于廠商堆疊技術(shù)本身復(fù)雜,導(dǎo)致故障概率提升,再加上公共云使用的網(wǎng)絡(luò)設(shè)備規(guī)模大,基數(shù)上去了就進一步放大出故障的概率,且影響范圍大。因此網(wǎng)絡(luò)本身的可靠性和故障位置,對于云產(chǎn)品來說影響的范圍也是不同的,ecs之類的云產(chǎn)品能夠打散到不同的ASW、POD甚至AZ(跨網(wǎng)絡(luò)集群),其可靠性指標也是不同的?;旧鲜谴蛏⒌木W(wǎng)絡(luò)設(shè)備之間的層級越高,可靠性保證越高,但同樣的網(wǎng)絡(luò)延遲也越高。
那么怎樣才能夠及早地發(fā)現(xiàn)這些故障呢?其實可以使用故障主動探測的模型。在網(wǎng)絡(luò)集群里面,可能會選擇特定的接入設(shè)備比如像服務(wù)器,將其作為主動探測的機器,其探測的目標就是網(wǎng)絡(luò)設(shè)備下面的其他服務(wù)器。
建立的第一個簡單故障主動探測的模型如下:
1、一個TOR下面所有物理服務(wù)器(例如48臺)都同時出現(xiàn)大量丟包 --> TOR交換機故障。
2、個別物理服務(wù)器出現(xiàn)丟包 --> 服務(wù)器負載問題/TOR交換機端口隊列打滿。
3、到某個機房的大量物理服務(wù)器同時出現(xiàn)大量丟包-->匯聚交換機/核心交換機故障。
4、到某個機房的大量物理服務(wù)器出現(xiàn)少量概率丟包->匯聚交換機/核心交換機的個別端口問題。
5、每個機房最少只需要1臺機器作為探測源,部署對業(yè)務(wù)網(wǎng)絡(luò)影響小,ICMP ping之類的只能做Layer3的探測。
依照上述的故障主動探測模型就可以簡單地判斷網(wǎng)絡(luò)出現(xiàn)故障的范圍。
建立的第二個簡單故障主動探測的模型如下:
1、通過選擇不同位置的服務(wù)器作為探測源或者探測目標,發(fā)現(xiàn)不同層次的故障位置,多輪次組合。
2、要求每臺服務(wù)器運行agent,并接受外部控制器指令,動態(tài)調(diào)整探測策略,可建立TCP連接并測試。
3、可以針對overlay和underlay網(wǎng)絡(luò)進行探測,更容易模擬實際應(yīng)用的業(yè)務(wù)流量特征,支持Layer 4探測、時延計算。
第二個故障主動探測模型在服務(wù)器內(nèi)部會增加一些代理Agent,安裝代理之后可以做到對于4到7層的探測,可以探測出TCP連接的情況以及其延遲和性能速率。同樣的,探測模型也可以組合出不同的探測方式,在了解網(wǎng)絡(luò)架構(gòu)的拓撲之后就可以探測位于同一組接入交換機下面的兩臺或者多臺服務(wù)器,也可以探測位于不同的核心交換機或者匯聚交換機下面的多臺服務(wù)器。通過這種建模方式就可以知道當前延遲高或者丟包的場景下,網(wǎng)絡(luò)的問題到底出現(xiàn)在什么位置。
三、專有云網(wǎng)絡(luò)的模塊化
上述提到的是網(wǎng)絡(luò)體現(xiàn)在本身體系結(jié)構(gòu)上的可靠性,比如分布式設(shè)備、支持主備HA、支持雙機熱備或者多機堆疊以及其他一些高級特性,這些都是從網(wǎng)絡(luò)設(shè)備本身的角度而言的。除此之外,通過線路帶寬的設(shè)計保證收斂比以及負載均衡,以此來保證云計算網(wǎng)絡(luò)的可靠性。而通過日常的巡檢和探測能夠及時地發(fā)現(xiàn)故障,并在故障發(fā)生之后及時了解故障發(fā)生的具體原因并提供故障定位的方式,進而提高云平臺網(wǎng)絡(luò)的可靠性。
上述這些都是在公有云網(wǎng)絡(luò)上的實踐,對于專有云而言,又會存在什么樣的差別呢?其實對于專有云而言,更多地會對其進行模塊化的設(shè)計。公有云一般而言是可規(guī)劃的,可以對于未來集群的規(guī)模、建設(shè)的地域以及網(wǎng)絡(luò)架構(gòu)的選擇等進行規(guī)劃。而對于專有云而言,客戶的需求往往不能夠規(guī)劃出來,不同的客戶所需要的業(yè)務(wù)的場景和訴求往往是不同的,這些在網(wǎng)絡(luò)設(shè)備的選型、已有設(shè)備的利舊使用以及對于云平臺功能的裁剪上都會有所體現(xiàn),所以專有云與公有云上的的網(wǎng)絡(luò)設(shè)計就存在較大的差別。
下圖是專有云網(wǎng)絡(luò)架構(gòu)圖,一個很明顯的特點就是專有云網(wǎng)絡(luò)會分成幾個區(qū)域,最上面的是外部接入?yún)^(qū),外部接入?yún)^(qū)包含了阿里云和ISP或者用戶骨干網(wǎng)出口的鏈接以及在其上進行安全防護的云盾。專有云網(wǎng)絡(luò)架構(gòu)圖中間的DSW和下部的PSW則屬于DC區(qū),也就是網(wǎng)絡(luò)架構(gòu)的核心區(qū)域。圖中右面的綜合接入?yún)^(qū)分為了兩個部分,一部分是阿里云所提供的負載均衡、VPC網(wǎng)關(guān)以及OPS相關(guān)的接入,另外一部分則是CSW,實際上就是客戶的VPC專線接入?yún)^(qū),阿里云的專有云客戶會有一些原來的物理網(wǎng)絡(luò)需要與云上的VPC進行網(wǎng)絡(luò)打通,一般會通過VPC的專線接入交換機的綜合交換機接入進來。也就是說專有云網(wǎng)絡(luò)的每一個模塊都有一個相對獨立的設(shè)計,所有的模塊實際上都是作為半獨立的部分,所謂半獨立就是意味著可以進行獨立的裁剪或者進行局部調(diào)整。專有云網(wǎng)絡(luò)進行模塊化之后能夠帶來的好處就是可以進行隨意地裁剪,比如很多專有云客戶沒有連接互聯(lián)網(wǎng)的需求,只需要一個完全的孤島環(huán)境,這樣就可以將外部接入?yún)^(qū)全部裁減掉。這樣做所帶來的優(yōu)點就是首先簡化了不必要的功能,其次減少了設(shè)備的采購,也就減少了用戶不必要的網(wǎng)絡(luò)成本。
專有云網(wǎng)絡(luò)架構(gòu)其他方面的一些考慮與公有云存在哪些差別呢?
(1)專有云的網(wǎng)絡(luò)架構(gòu)源于公有云
專有云基于公有云已驗證輸出的架構(gòu)版本,進行裁剪和變更。既保證云網(wǎng)絡(luò)架構(gòu)是同構(gòu)的,又引入靈活性和降低成本。
(2)公有云的建設(shè)是可規(guī)劃的,專有云則是按項目走的
公有云的網(wǎng)絡(luò)架構(gòu)一旦確定,建設(shè)就有了標準,在架構(gòu)整個生命周期內(nèi)建設(shè)都需要按照架構(gòu)設(shè)計進行實現(xiàn),而且完全可以提前規(guī)劃。專有云更強調(diào)的是可以進行細粒度的調(diào)整,其可定制化要求會更高一些。專有云的網(wǎng)絡(luò)架構(gòu)確定后,每個項目的客戶需求不同,常常要求變更,最常見的是網(wǎng)絡(luò)設(shè)備選型變更,網(wǎng)絡(luò)拓撲也常有變更,例如拉專線、利舊原有網(wǎng)絡(luò)設(shè)備等的需求,對于這些情況大多是case by case進行解決。
(3)公有云的硬件和配置可定制化,專有云的硬件和配置盡量通用化
根據(jù)架構(gòu)演進設(shè)計,公有云啟用的硬件可定制,且規(guī)劃是一脈相承的。專有云由于面對的是不同的客戶,需求不同,重口難調(diào),架構(gòu)設(shè)計往往需要考慮兼容性,要能利舊,客戶常常要求將其已有的交換機資產(chǎn)用在云網(wǎng)絡(luò)建設(shè)上。所以專有云的網(wǎng)絡(luò)設(shè)備往往要求需要通用化,便于不同用戶理解,降低用戶后期運維的復(fù)雜性和學(xué)習的成本。
(4)架構(gòu)支持的服務(wù)器規(guī)模
公有云的網(wǎng)絡(luò)拓撲,一開始的考慮就是中、大規(guī)模的。專有云的需求規(guī)模各項目不一致,服務(wù)器少的項目只有幾十臺,而服務(wù)器多的項目又需要超過幾千臺以上,因此專有云的網(wǎng)絡(luò)架構(gòu)設(shè)計需要考慮S/M/L等不同規(guī)模,甚至要劃分的更細粒度,以便兼顧云平臺的穩(wěn)定性和客戶采購的硬件成本的均衡。
四、混合云構(gòu)建的并網(wǎng)案例
一般而言,客戶在建設(shè)專有云之后,可能也會對于自己的租戶提供服務(wù),或者自身也會存在部門的劃分,希望每個部門也有自己的專有網(wǎng)絡(luò),并希望云上的專有網(wǎng)絡(luò)能夠和原有的云下物理網(wǎng)絡(luò)進行打通。
案例1:傳統(tǒng)IDC接入阿里云VPC
下圖是一個常見的傳統(tǒng)IDC接入阿里云并網(wǎng)的網(wǎng)絡(luò)拓撲。圖中左半部分是云平臺的網(wǎng)絡(luò),圖上的示例劃分了三個VPC,每個VPC內(nèi)部都包含了自己的云產(chǎn)品,也會有自己的虛擬交換機和虛擬路由器。圖中右半部分表示的是客戶原有的網(wǎng)絡(luò),這個網(wǎng)絡(luò)可能會基于業(yè)務(wù)或者基于部門進行劃分。那么如何將用戶原有的網(wǎng)絡(luò)接入到云上的網(wǎng)絡(luò),實現(xiàn)將業(yè)務(wù)從云下遷移到云上呢?阿里云會提供VPC的專線接入方案幫助實現(xiàn)傳統(tǒng)IDC與阿里云的并網(wǎng)接入。
案例2:傳統(tǒng)IDC接入阿里云VPC--單租戶多VPC
下圖中展現(xiàn)的是單租戶多VPC的網(wǎng)絡(luò)拓撲。圖中左半部分是傳統(tǒng)IDC的網(wǎng)絡(luò)區(qū),客戶原來可能是通過VLAN劃分不同部門之間的網(wǎng)絡(luò)的,那么如何接入到阿里云的VPC呢?如圖中右半部分所示的其實是一個專線接入設(shè)備CSW,可以看到左側(cè)的網(wǎng)絡(luò)一般而言可以根據(jù)VLAN的劃分設(shè)計出接入的方式。如圖中所示以VLAN劃分為X、Y、Z三個部門的網(wǎng)絡(luò),右邊在阿里云網(wǎng)絡(luò)區(qū)中也會相應(yīng)地劃分出三個VLAN IF接口,這三個VLAN IF接口會對應(yīng)地接收客戶這邊的三部分的報文。客戶IDC中的三個VLAN的報文通過Trunk口上行到CSW上以后,因為VPC網(wǎng)絡(luò)可以進行VPC內(nèi)的路由和地址規(guī)劃,因此在CSW交換機上可以劃分三個VRF,每個VRF會根據(jù)入端口去確定后面的路由轉(zhuǎn)發(fā),比如VLAN X的報文通過Trunk口接收上來之后會終結(jié)到三層口VLAN IF X上。VRF一般都是通過入端口進行確定的,因此自然就會在VRF A中進行路由,這樣就可以設(shè)計從傳統(tǒng)IDC網(wǎng)絡(luò)到VPC上的路由以及從VPC到傳統(tǒng)網(wǎng)絡(luò)的回包路由。當報文通過VRF A路由到出接口的時候,VSI會進行虛擬的交換將當前的流量對應(yīng)到某一個VXLAN Tunnel上去進行封裝和轉(zhuǎn)發(fā),這樣報文就會通過綜合接入交換機LSW轉(zhuǎn)發(fā)到VPC的XGW網(wǎng)關(guān),之后XGW網(wǎng)關(guān)根據(jù)VXLAN的ID確定當前的流量需要引入到哪一個VPC中去,這樣就實現(xiàn)了云下的傳統(tǒng)IDC客戶網(wǎng)絡(luò)和云上的租戶的VPC的網(wǎng)絡(luò)打通。
案例3:傳統(tǒng)IDC接入阿里云VPC--多租戶
下圖中展現(xiàn)的是另外一個例子:多租戶的傳統(tǒng)IDC接入阿里云VPC的情況。這與公有云的接入方式比較類似,上一個例子實際上是專有云客戶內(nèi)部網(wǎng)絡(luò)不同部門或者不同應(yīng)用的劃分并通過VLAN的方式接入,而下圖中例子則是專有云客戶自己還有很多個租戶需要接入,這樣接入方式其實與公有云比較相似,多個租戶可以通過三層的專線直接接入到VPC的接入點CSW,后面的邏輯其實與上面的案例是一樣的,通過入端口確定VRF之后,在CSW內(nèi)部可以將流量引入到不同的VPC中去來實現(xiàn)云下的網(wǎng)絡(luò)和云上VPC網(wǎng)絡(luò)的打通。
上述的實現(xiàn)方式在專有云的實踐中經(jīng)常遇到用戶使用靜態(tài)地址進行接入的情況,因此會需要靜態(tài)路由配置,比如流量回包時會需要通過VPC到客戶網(wǎng)絡(luò)那一側(cè)進行靜態(tài)路由的指回。以下圖為例,配置靜態(tài)路由的CSW是一個堆疊的設(shè)備,如果遠端客戶的網(wǎng)絡(luò)出現(xiàn)了問題,比如光纖被挖斷或者出現(xiàn)了設(shè)備故障問題,怎樣去實現(xiàn)流量的切換呢?其實需要使用NQA + Track的方式,需要定義兩種具有不同優(yōu)先級的路由,正常情況下會通過高優(yōu)先級的路由傳回客戶的租戶網(wǎng)絡(luò),當NQA探測到遠端的設(shè)備不可達的時候則會通過Track方式將路由切換到備用專線上來傳回給租戶的網(wǎng)絡(luò),這樣就實現(xiàn)了遠端故障時的流量切換。當遠端網(wǎng)絡(luò)主鏈路恢復(fù)之后流量還可以重新切換回來。這樣就實現(xiàn)了云上和云下多鏈路VPC專線接入的情況下的靜態(tài)路由鏈路。
五、云網(wǎng)絡(luò)架構(gòu)的演進趨勢
未來,云計算平臺網(wǎng)絡(luò)架構(gòu)演進的趨勢主要如下圖所示:
未來云計算平臺上的網(wǎng)絡(luò)會發(fā)生從經(jīng)典網(wǎng)絡(luò)到VPC網(wǎng)絡(luò)進行切換;逐漸去除堆疊,從堆疊環(huán)境切換到獨立設(shè)備,在一個比較大范圍的網(wǎng)絡(luò)使用場景里面減少堆疊帶來的故障,整體提高云平臺網(wǎng)絡(luò)的可靠性;在Underlay物理網(wǎng)絡(luò)中逐漸去掉二層,因為二層經(jīng)常會出現(xiàn)廣播風暴或者環(huán)路問題,去掉二層則可以提高網(wǎng)絡(luò)的可靠性;對于端口而言,會從原來的支持千兆和萬兆逐漸過渡到支持25G和100G;對于物理網(wǎng)絡(luò)的復(fù)雜度而言,會逐漸降低對于物理網(wǎng)絡(luò)的依賴,逐漸將其復(fù)雜度下沉到服務(wù)器端,無論是VPC網(wǎng)關(guān)還是普通云產(chǎn)品的宿主服務(wù)器,都會將其對網(wǎng)絡(luò)的依賴進行逐漸解耦,盡量減少因為網(wǎng)絡(luò)故障給云平臺帶來的不穩(wěn)定。
(審核編輯: 林靜)
分享