• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C数据中心交换机M-LAG配置指导书-6W102

00-M-LAG组网推荐方案

本章节下载  (1.32 MB)

00-M-LAG组网推荐方案

目 

1 M-LAG组网规划方案

1.1 IRF与M-LAG对比

1.2 Overlay组网规划方案说明

1.3 传统Underlay组网规划方案说明

1.4 组网规划注意事项

1.5 组网配置限制和指导

2 M-LAG部署网络模型

2.1 M-LAG二层组网部署方案

2.1.1 M-LAG+STP

2.1.2 M-LAG+VSI的环路检测

2.2 M-LAG三层组网部署方案

2.2.1 网关部署方案概述

2.2.2 M-LAG VLAN双活网关

2.2.3 M-LAG VLAN双活网关场景网关接口配置M-LAG虚拟IP地址建立路由邻居

2.2.4 M-LAG+VRRP的三层转发方案

2.2.5 单挂(即服务器通过非M-LAG接口接入)接入使用限制

2.2.6 路由配置限制和指导

2.3 M-LAG+RDMA部署方案

2.3.1 部署方案说明

2.3.2 配置限制和指导

2.4 M-LAG+EVPN部署方案

2.4.1 分布式网关部署方案说明

2.4.2 集中式网关部署方案说明

2.4.3 Border故障DC间切换方案说明

2.4.4 基础配置限制和指导

2.4.5 peer-link链路上AC的配置限制和指导

2.4.6 MAC配置限制和指导

2.4.7 Leaf配置限制和指导

2.4.8 Border/ED配置限制和指导

2.4.9 服务器主备接入模式配置限制

2.5 M-LAG+分布式EVPN网关场景VSI接口配置虚拟IP地址建立路由邻居

2.6 M-LAG+EVPN+DHCP中继部署方案

2.6.1 部署方案说明

2.6.2 配置限制和指导

2.7 M-LAG+EVPN+微分段+服务链部署方案

2.7.1 部署方案说明

2.8 M-LAG+Underlay组播部署方案

2.9 组播VXLAN部署方案

2.10 DCI部署方案

2.11 管理网部署方案分析

3 M-LAG可靠性部署方案

3.1 M-LAG系统上行链路故障可靠性部署

3.2 Leaf可靠性部署方案

3.3 Border可靠性部署方案

4 推荐的设备款型与版本


1 M-LAG组网规划方案

1.1  IRF与M-LAG对比

1. IRF简介

IRF(Intelligent Resilient Framework,智能弹性架构)是H3C自主研发的软件虚拟化技术。它的核心思想是将多台设备连接在一起,进行必要的配置后,虚拟化成一台设备。使用这种虚拟化技术可以集合多台设备的硬件资源和软件处理能力,实现多台设备的协同工作、统一管理和不间断维护。

2. M-LAG简介

M-LAG(Multichassis link aggregation,跨设备链路聚合)是一种跨设备链路聚合技术,将两台物理设备在聚合层面虚拟成一台设备来实现跨设备链路聚合,从而提供设备级冗余保护和流量负载分担。

3. IRF和M-LAG对比

表1-1为IRF和M-LAG对比,组网可靠性要求高,升级过程要求业务中断时间短的场景推荐使用M-LAG。在同一组网环境中,不能同时部署IRF和M-LAG。

表1-1 IRF和M-LAG对比

项目

IRF

M-LAG

控制面

·     所有成员设备控制面统一,集中管理

·     所有成员设备需要同步所有表项

·     两台独立设备,控制平面解耦

·     主要同步MAC表项/ARP表项/ND表项

设备面

紧耦合

·     硬件要求:芯片架构相同,一般要求同系列

·     软件要求:必须相同版本

松耦合

·     硬件要求:支持不同型号

·     软件要求:支持不同版本(由于M-LAG的特性支持情况还在快速发展阶段,现阶段部分产品要求相同版本)

版本升级

·     需要成员设备同步升级,或者主设备、从设备分开升级但操作较复杂

·     传统主备倒换升级(不使用ISSU)时业务中断时间30s以上;ISSU升级时业务中断时间2s左右

可独立升级,升级时业务中断时间小于1s

对于支持GIR(Graceful Insertion and Removal,平滑插入和移除)的版本,可以做到不中断。关于使用GIR进行M-LAG系统升级的更多介绍,请参见“H3C交换机M-LAG升级、替换、扩容指导”

配置管理

统一配置,统一管理,操作简单

耦合度高,和控制器配合存在单点故障可能

独立配置,M-LAG系统会进行配置一致性检查,具体业务配置需要手工保证

独立管理,耦合度低,和控制器配合使用不存在单点故障,可靠性更高

 

说明

GIR提供了一种设备隔离方案,适用于设备进行维护或升级的场景。通过GIR模式切换功能,可以一次下发多个业务模块的隔离命令,各业务协议模块会先将流量切换至冗余路径,再将设备置于维护模式,此时处于维护模式下的设备与其他设备之间网络隔离。当完成维护或者升级操作之后,将设备切换到普通模式,恢复流量的正常转发和处理。有关GIR功能的详细描述,请参见“基础配置指导”中的“GIR”。

 

1.2  Overlay组网规划方案说明

H3C推荐的数据中心M-LAG Overlay组网方案有如下两种:

·     Leaf、Spine、Border三级组网,如图1-1所示。

·     Leaf、Spine(和Border合一)两级组网,如图1-2所示。

当服务器规模较大,Border提供的下行接口不能承接所有Leaf设备的接入时推荐采用Spine和Border独立的组网方案,Spine做路由RR(Route Reflector,路由反射器)。

1. 组网图

图1-1 Leaf、Spine、Border三级组网示意图

 

图1-2 Leaf、Spine(和Border合一)两级组网示意图

 

2. 组网说明

·     Border

Border(边界网关)部署M-LAG。Border通过M-LAG接口与FW(FireWall,防火墙)、LB(LoadBalance,负载均衡)对接;通过三层以太网接口与Spine/Leaf对接,与Spine/Leaf间的流量通过ECMP实现负载分担。

Border与PE/Core之间可以通过三层以太网接口(主推)、VLAN接口或M-LAG接口建立路由互通。

·     ED

ED(Edge Device,边缘设备)使用VXLAN与其它DC对接,实现与其他DC的二、三层互通。ED可以使用独立设备也可以和Border合一,也可以ED、Border和Spine都合一。

·     Spine

独立设置的Spine不配置M-LAG。Spine配置RR,负责在各个Border、Leaf间反射BGP路由。

独立设置的Spine仅进行Underlay转发,Spine与Border之间、Spine与Leaf之间通过ECMP实现负载分担。

在服务器规模较小的情况下,Spine可以与Border合一。

·     Leaf

Leaf部署M-LAG,作为数据中心内服务器的网关。当服务器网卡为负载分担模式时(bond4),Leaf通过M-LAG接口与服务器对接。当服务器网卡为主备模式时(bond1),Leaf设备连接服务器的端口不需要配置为M-LAG接口,将物理口加入VLAN即可,网卡推荐设置主链路的故障恢复后不抢占主角色或者延迟抢占,避免因链路不稳定时主备网卡频繁切换。

H3C建议您将服务器双归接入到Leaf设备以提高可靠性,不建议服务器单归接入。

Leaf与上行设备之间采用三层以太网接口互联,通过ECMP实现可靠性和负载分担。

·     FW

内网FW(FireWall,防火墙)旁挂到Border上,部署两个聚合口(分别用于上行和下行)与Border的M-LAG接口对接。Border与FW之间使用静态路由。

·     LB

LB(LoadBalance,负载均衡)部署聚合口与Border的M-LAG接口对接。Border与LB之间使用静态路由。

1.3  传统Underlay组网规划方案说明

传统Underlay组网的典型应用方式如图1-3图1-4所示:

·     当服务器规模较大时采用两级M-LAG组网,Spine设备作为服务器网关,配置举例请参考“两级M-LAG组网配置举例(Spine作网关,ECMP到外网)”;

·     当服务器规模较小时,采用Leaf设备作为服务器网关,Leaf与Spine之间采用ECMP互连。

图1-3 两级M-LAG、Spine作网关

 

图1-4 Leaf作网关、Leaf与Spine ECMP互连

 

1.4  组网规划注意事项

1. peer-link链路

peer-link链路除了交互协议报文外,还作为上行链路的备份路径,当上行链路故障时,M-LAG设备通过peer-link链路将流量发给对端M-LAG设备处理。在框式设备上部署M-LAG时,建议每个slot都有端口加入peer-link接口所在的聚合组,避免设备重启后由于不同业务板启动时间不同,导致peer-link接口延迟UP,造成的链路震荡。对于盒式带子卡设备,建议采用多个子卡上的接口作为peer-link链路聚合组的成员端口。建议peer-link链路聚合组至少有一个成员口与上行口不在同一单板/子卡上。对于盒式固定端口设备,建议至少配置两个物理接口作为peer-link链路聚合组的成员端口,以保证peer-link链路的可靠性。

peer-link链路聚合组的成员端口需要使用相同速率端口。

Leaf设备peer-link链路带宽要求:要特别关注存在大量主备模式接入服务器时的情况。当服务器通过主备模式接入M-LAG设备时,同组Leaf下挂服务器之间互访的流量都需要通过peer-link链路,此时需要计算互访流量大小确定合适的peer-link链路带宽。

建议在peer-link接口上配置link-delay命令,且配置取值不为0的相同的delay-time,以减少接口震荡对上层业务的影响。

两端M-LAG设备的peer-link接口上允许通过的超长帧需要相同(通过jumboframe enable命令配置),否则会导致M-LAG设备间信息同步失败。

2. Keepalive

Keepalive链路通过交互Keepalive报文来进行peer-link链路故障时的双主检测。

建议M-LAG设备间单独建立一条直连链路,作为Keepalive链路,不与其他链路复用,同时需保证该链路二三层均可达。Keepalive链路接口可以为管理用以太网接口、三层以太网接口、三层聚合接口、绑定VPN实例的接口。不建议使用VLAN接口作为Keepalive链路接口,如确有此使用需求,需要将对应VLAN从peer-link链路允许通过的VLAN中去掉,否则peer-link链路和Keepalive链路之间会形成环路。

对于有多个管理用以太网接口的设备,可以使用单独的管理用以太网接口作为Keepalive链路,不能与管理网共用链路。

对于多单板/多子卡设备:建议和peer-link链路接口部署在不同的单板/子卡上。

Keepalive链路接口(包括物理口和逻辑口)请务必配置为M-LAG保留接口(当peer-link链路故障时不会被MAD down)。

3. M-LAG接口

同一M-LAG组中,M-LAG接口的LACP系统MAC地址不能相同。

在M-LAG组网中,建议LACP超时时间采用缺省值,即LACP超时时间为长超时(90秒),通过undo lacp period命令配置。

裸金属服务器使用M-LAG聚合口上线时,聚合口要配置lacp edge-port

4. M-LAG保留接口

传统Underlay组网中,M-LAG保留接口要求:

·     缺省情况下,M-LAG系统分裂后接口处于M-LAG MAD DOWN状态,即m-lag mad default-action down命令生效(此命令为缺省配置,无需手工配置)。

·     M-LAG接口和peer-link接口所在VLAN对应的VLAN接口需要通过m-lag mad exclude interface命令配置为M-LAG保留接口,M-LAG系统分裂后,这些端口不Down。

·     Keepalive链路的接口需要通过m-lag mad exclude interface命令配置为M-LAG保留接口,M-LAG系统分裂后,这些端口不Down。

·     上行接口(路由口、VLAN接口、物理接口)不需要通过m-lag mad exclude interface命令配置为M-LAG保留接口,M-LAG系统分裂后,这些端口会Down。

EVPN+M-LAG组网中,M-LAG保留接口要求:

·     执行m-lag mad default-action none命令使M-LAG系统分裂后接口保持原状态不变。

·     M-LAG接口和peer-link接口所在VLAN对应的VLAN接口不需要做任何配置,M-LAG系统分裂后,这些端口不会Down。单挂口(即服务器通过非M-LAG接口接入)需要通过m-lag mad include interface命令配置为M-LAG非保留接口,M-LAG系统分裂后,单挂口会Down。

·     M-LAG聚合成员端口不需要做任何配置,M-LAG系统分裂后,这些端口会Down。

·     采用以太网聚合链路作为peer-link链路时:上行接口(路由口、VLAN接口、物理接口)需要通过m-lag mad include interface命令配置为M-LAG非保留接口,M-LAG系统分裂后,这些端口会Down。采用VXLAN隧道作为peer-link链路时不需要进行此配置。

·     所有参与EVPN业务的接口(VSI虚接口、BGP对等体地址所在的接口、Keepalive链路的接口)不需要做任何配置,M-LAG系统分裂后,这些端口不会Down。

·     M-LAG设备采用的虚拟地址(即evpn m-lag group命令配置的IP地址)所在的接口不需要做任何配置,M-LAG系统分裂后,这些端口不会Down。

配置M-LAG保留接口的方法有如下两种:

·     执行m-lag mad default-action down(缺省)命令使M-LAG系统分裂后接口处于M-LAG MAD DOWN状态,然后通过m-lag mad exclude interface命令将需要保持UP状态的接口配置为M-LAG保留接口。如果存在大量逻辑接口(除物理接口外的所有接口,例如VLAN接口、聚合接口、Loopback接口、Tunnel接口和VSI接口等)需要在M-LAG系统分裂后可以正常工作,则可以使用m-lag mad exclude logical-interfaces命令配置所有逻辑接口为M-LAG保留接口。

·     执行m-lag mad default-action none命令使M-LAG系统分裂后接口保持原状态不变,然后再使用m-lag mad include interface命令配置M-LAG系统分裂后需要处于M-LAG MAD DOWN状态的接口。

在ADDC 6.2及以上版本方案中,配置不指定下一跳的跨VPN的静态路由时,需要同时配置服务环回组(即业务环回组,service-loopback group)以保证静态路由可以生效。配置服务环回组并在该组中加入接口后,还需要在跨设备聚合->M-LAG系统->修改M-LAG系统页面,将该接口添加为例外接口,否则设备带配置重启时会概率出现此接口被MAD Down,导致跨VPN路由不生效。

5. S12500X-AF/S12500F-AF MAC地址设置指导

S12500X-AF/S12500F-AF配置M-LAG时,需要先设置MAC基地址,再根据MAC基地址设置M-LAG系统各MAC地址。具体设置方式和举例如表1-2所示。

表1-2 S12500X-AF/S12500F-AF MAC地址设置方式和举例

设备

桥MAC

MAC基地址(routing-interface base-mac

M-LAG系统MAC地址(m-lag system-mac)

EVPN的全局MAC地址(evpn global-mac)

承载L3VNI接口的vsi-interfac MAC

VLAN接口(网关)的MAC

分布式网关VSI接口MAC

M-LAG 1

542b-de0c-0a00

设置为较小的桥MAC+64:542b-de0c-0264

建议设置为较小的base-mac542b-de0c-0200

建议设置为较小的base-mac+1542b-de0c-0201

使用缺省值即evpn global-mac值542b-de0c-0201

缺省值为base-mac+1:542b-de0c-0265

建议设置为较小的base-mac+c8:542b-de0c-02c8

缺省值为base-mac+1:542b-de0c-0265

建议设置为evpn global-mac值:542b-de0c-0201

M-LAG 2

542b-de0c-0200

设置为较小的桥MAC:542b-de0c-0200

建议设置为较小的base-mac542b-de0c-0200

建议设置为较小的base-mac+1542b-de0c-0201

使用缺省值即evpn global-mac值542b-de0c-0201

缺省值为base-mac+1542b-de0c-0201

建议设置为较小的base-mac+c8:542b-de0c-02c8

缺省值为base-mac+1:542b-de0c-0201

建议设置为evpn global-mac值:542b-de0c-0201

 

桥MAC的查看方式:在Probe视图执行debug sysm bridgemac read命令,查看BridgeMac字段。例如,下面设备的桥MAC地址为542b-de0c-0200。

[Sysname-probe]debug sysm bridgemac read

 

The Bridge Macs are as follows:

542b-de0c-0200

Total reserved mac number: 256

SNID:23a6-db6c-d829-a93d

BridgeMac:542b-de0c-0200 BaseInfMac:542b-de0c-0200 INTFMac:542b-de0c-0201

分布式网关VSI接口MAC高36位要与base-mac一致,低12位没要求。建议分布式网关VSI接口MAC和EVPN的全局MAC地址(evpn global-mac)配置一致。

有关MAC基地址的详细介绍,请参见“二层技术—以太网交换配置指导”中的“MAC地址表”。

1.5  组网配置限制和指导

1. M-LAG互通限制

M-LAG不支持与友商互通。

2. M-LAG基本配置限制和指导

目前仅支持两台设备组成一个M-LAG系统。为了能够让上行或下行设备将M-LAG组中的两台设备看成一台设备,要求同一M-LAG组中所有M-LAG设备配置相同的系统MAC地址和系统优先级,配置不同的系统编号。

M-LAG组网环境中,M-LAG系统的MAC地址需要唯一。

当在设备上部署M-LAG配置后,如果该设备脱离M-LAG系统独立工作,则需要删除M-LAG相关配置,避免影响报文转发。

如果因为M-LAG设备业务切换、故障替换等原因需要批量关闭设备上所有的物理端口,请注意先关闭Keepalive链路物理端口再关闭peer-link链路物理端口,否则会出现备设备先被MAD Down然后再被解除MAD Down,M-LAG成员接口震荡的现象。

请不要在M-LAG进程重启时或ISSU升级前配置DRCP超时时间为短超时(m-lag drcp period short),否则在M-LAG进程重启时或ISSU升级期间会出现网络流量中断,导致流量转发不通。

3. M-LAG设备工作模式及优先级配置指导

M-LAG设备工作模式分为以下两种:

·     M-LAG系统工作模式:作为M-LAG系统成员设备参与报文转发。

·     独立工作模式:脱离M-LAG系统独立工作,独自转发报文。

当M-LAG系统分裂时,为了避免M-LAG系统中的两台设备都作为主设备转发流量的情况,需要M-LAG设备独立工作。在peer-link链路和Keepalive链路均处于DOWN状态时,从设备会立即或经过一段时间切换到独立运行模式。

建议为不同M-LAG设备上的聚合接口配置不同的LACP系统MAC地址或不同的LACP系统优先级。推荐配置不同的LACP系统优先级。

M-LAG设备切换到独立运行模式后,M-LAG接口发送的LACP报文中携带的参数由M-LAG系统MAC地址和M-LAG系统优先级修改为该M-LAG接口对应聚合接口的LACP系统MAC地址和LACP系统优先级。由于同一M-LAG组中的两个聚合接口的LACP系统MAC地址和LACP系统优先级不一致,因此只有一边聚合接口的成员端口可以被选中,通过被选中的设备转发业务流量,避免流量转发异常。

M-LAG系统MAC地址和M-LAG系统优先级、M-LAG接口对应聚合接口的LACP系统MAC地址和LACP系统优先级的配置方法如下:

·     M-LAG系统MAC地址在系统视图下通过m-lag system-mac命令配置;M-LAG系统优先级在系统视图下通过m-lag system-priority命令配置。

·     M-LAG接口对应聚合接口的LACP系统MAC地址、LACP系统优先级可以在系统视图和接口视图下配置。接口视图下的配置优先。

¡     在系统视图下通过lacp system-maclacp system-priority命令配置。

¡     在M-LAG接口视图下通过port lacp system-macport lacp system-priority命令配置。

M-LAG系统优先级和M-LAG接口的LACP系统优先级配置要求如下:

·     单级M-LAG场景:Leaf设备上,M-LAG系统优先级的配置值需要大于M-LAG接口的LACP系统优先级的配置值(优先级值越小,优先级越高)。两台M-LAG设备上,同一M-LAG组的M-LAG接口需要配置不同的LACP系统优先级。

·     多级M-LAG场景:M-LAG接口的LACP系统优先级配置要求如下:为核心层、汇聚层和接入层同一侧的M-LAG设备配置较高的LACP系统优先级,以保证M-LAG系统分裂时选择相同侧的设备,使流量在同一侧转发。

4. peer-link接口配置指导

配置为peer-link接口的二层聚合接口需要配置undo mac-address static source-check enable命令关闭报文入接口与静态MAC地址表项匹配检查功能,否则可能会导致跨peer-link链路三层转发的流量不通(S12500X-AF/S12500F-AF/S12500G-AF/S12500R/S6890不涉及)。

5. m-lag restore-delay命令配置要求

m-lag restore-delay命令用来配置延迟恢复时间。本定时器用来设置M-LAG设备间MAC地址表项、ARP表项等信息同步的最大时间间隔。管理员需要根据M-LAG设备上的表项大小,合理调整延迟恢复时间。如果M-LAG设备间需要同步的表项较少,则适当减少延迟时间;如果M-LAG设备间需要同步的表项较多,则适当增加延迟时间。一般情况下,建议配置为300秒;S12500X-AF/S12500F-AF/S12500G-AF/S12500R的ARP表项接近48K规格时,延迟时间需要配置为900秒。

6. IRF

不支持在IRF设备上(包括运行在IRF模式的单台设备)配置M-LAG,配置M-LAG前请确保设备处于独立运行模式。

说明

S12500R设备不支持IRF特性。

 

7. MDC

MDC不支持M-LAG。

说明

仅S12500X-AF/S12500F-AF/S12500G-AF设备支持MDC特性。

 

8. GIR

在M-LAG组网环境中,通过GIR功能将设备从维护模式切回到普通模式,请先执行display m-lag mad verbose命令确认设备接口状态未处于“M-LAG MAD DOWN”状态,再执行undo gir system-mode maintenance命令。

9. MAC地址

在M-LAG组网环境中,在设备存在大量MAC地址表项时,请通过mac-address timer aging命令增加MAC地址老化时间,建议配置MAC地址老化时间在20分钟以上。

不要在peer-link接口下执行mac-address mac-learning enable命令或undo mac-address mac-learning enable命令,请保持该功能的缺省状态。

10. ARP

如果M-LAG接口接入了三层(例如M-LAG接口所属VLAN配置了VLAN接口),那么不建议配置如下功能,否则可能会导致M-LAG设备ARP表项无法学习或ARP表项不一致,从而影响流量。

·     arp active-ack enable命令:开启ARP主动确认功能。

·     arp max-learning-number命令:配置设备允许学习动态ARP表项的最大数目。

11. 链路聚合

请勿在M-LAG组网环境开启全自动聚合功能。

配置聚合接口加入S-MLAG组后,该聚合接口不能再配置为M-LAG接口或peer-link接口。

聚合管理网段功能不能和M-LAG结合使用。

当聚合接口配置为M-LAG接口时,请注意:

·     该聚合接口上最大选中端口数和最小选中端口数的配置不生效。

·     通过display link-aggregation verbose命令显示该聚合接口详细信息时,显示信息中SystemID为M-LAG配置的M-LAG系统MAC和M-LAG系统优先级。如果参考端口在M-LAG接口上,则两台M-LAG设备上会各显示一个参考端口。

12. 端口隔离

peer-link接口和M-LAG接口不能加入同一隔离组中。

13. CFD

在使用远端MEP的MAC地址进行其它CFD各项功能测试之前,若本端内向MEP和远端MEP中间链路存在二层聚合接口,请勿将该二层聚合接口配置为peer-link接口,否则会造成这些测试功能失效。

14. Smart Link

在M-LAG组网中,请确保两台M-LAG设备的Smart Link配置完全一致。请勿将M-LAG接口和非M-LAG接口加入同一个Smart Llink组,否则M-LAG接口在Smart Link组中将不会生效;请勿将peer-link接口加入Smart Link组,否则该端口在Smart Link组中将不会生效。

说明

目前仅S6805/S6825/S6850/S9850/S9820-64H/S9820-8C/S12500G-AF/S12500R设备支持M-LAG的Smart Link。

 

15. 镜像

设备同时配置镜像和M-LAG时,请注意避免出现镜像源端口为聚合组A的成员端口,镜像目的端口、出端口或反射端口为聚合组B的成员端口,以免聚合组B成员端口接收到聚合组A成员端口的镜像LACP报文,引起聚合接口震荡。

16. 关于MAC地址同步的说明

Underlay网络中,两台M-LAG设备通过peer-link链路进行MAC地址同步;Overlay网络中,两台M-LAG设备通过BGP EVPN进行MAC地址同步。

只有设备硬件学习的MAC地址表项有老化时间,同步的MAC地址没有老化时间。当设备硬件学习的MAC地址表项老化时,M-LAG设备通知对端同步删除该MAC地址表项。

2 M-LAG部署网络模型

2.1  M-LAG二层组网部署方案

说明

Underlay组网中,推荐使用生成树协议消除环路;Overlay组网中,推荐使用VSI的环路检测功能消除环路。

 

2.1.1  M-LAG+STP

1. 部署方案

在M-LAG组网中,针对几种常见的引发环路的故障,可以预先部署一些对应的STP配置,以避免环路的产生。

这些故障场景和对应的部署方案的配置请参见图2-1表2-1

图2-1 网络防环STP部署方案要点示意图

 

表2-1 网络防环STP部署方案说明

故障场景

部署方案

参考命令行

防止M-LAG系统分裂、误接线或者配置不当导致聚合成员口之间经过peer-link链路形成环路

M-LAG设备上都部署STP

stp global enable(系统视图)

在M-LAG+EVPN组网中,如果Leaf和Spine使用VLAN接口互联,建议两台Leaf设备连接Spine的接口加入不同的VLAN,并且关闭物理接口的STP功能,避免环路和错误的阻塞端口

undo stp enable(二层以太网接口视图)

新扩容设备加入STP网络可能动态抢占STP根,导致STP网络震荡

两级M-LAG组网中,上级M-LAG系统中两台M-LAG设备同时配置为STP根,并部署根保护

stp root primary(系统视图)

stp root-protection(M-LAG聚合接口视图)

M-LAG设备收到TC-BPDU报文攻击时会清除设备MAC,引起网络频繁震致、设备CPU增加和瞬时产生大量泛洪报文

M-LAG设备上可以部署设备对TC类型BPDU报文的保护功能,这样可以避免频繁删除MAC地址表项和ARP表项,从而达到保护设备的目的

stp tc-protection(系统视图)

在M-LAG设备上端口物理状态变化后,因设备不支持BPDU报文导致收敛性能较差

对端设备不支持/不运行STP时,将本端设备端口配置为STP边缘端口

stp edged-port(M-LAG聚合接口视图)

M-LAG设备正常情况下应该不会收到不参与STP计算的设备发送的BPDU。但如果有人伪造BPDU恶意攻击设备,就会引起网络震荡

可以在M-LAG设备上部署BPDU保护功能来防止恶意用户伪造BPDU攻击

开启BPDU保护功能后,如果边缘端口收到BPDU报文,则系统将这些端口关闭,同时通知网管这些端口已被生成树协议关闭。被关闭的端口在经过一定时间间隔之后将被重新激活

stp bpdu-protection(系统视图)

 

2. 配置限制和指导

在M-LAG场景中,由于M-LAG设备对外呈现为一台设备,所以两台M-LAG设备上STP的相关配置需要保持一致,包括生成树全局配置、M-LAG接口和peer-link接口的生成树端口配置。在M-LAG组网中,peer-link接口不参与生成树拓扑计算。

在M-LAG+STP部署方案中,为了避免M-LAG系统分裂影响STP拓扑计算,可以在M-LAG设备上使用m-lag standalone enable命令开启M-LAG设备独立工作功能。

对于生成树的配置,系统视图下的配置全局生效;二层以太网接口视图下的配置只对当前端口生效;二层聚合接口视图下的配置只对当前接口生效;聚合成员端口上的配置,只有当成员端口退出聚合组后才能生效。

在二层聚合接口上开启生成树协议后,生成树的相关计算只在二层聚合接口上进行,聚合成员端口不再参与生成树计算。二层聚合接口的所有选中成员端口上生成树协议的开启/关闭状态以及端口转发状态与二层聚合接口保持一致。尽管聚合成员端口不参与生成树计算,但端口上的生成树相关配置仍然保留,当端口退出聚合组时,该端口将采用这些配置参与生成树计算。

2.1.2  M-LAG+VSI的环路检测

1. 部署方案

图2-2所示,在VXLAN支持M-LAG网络中,环路检测功能的工作机制为:

·     对于用户终端双归接入M-LAG系统的情形(如图中Server 2):

¡     需要在M-LAG的两台VTEP上均开启环路检测功能。开启环路检测功能后,两台VTEP都会在M-LAG接口的AC上发送环路检测报文,报文的源MAC地址、VLAN Tag、发送时间间隔和检测优先级相同。报文的源MAC地址为AC所在接口的M-LAG系统MAC地址。

¡     M-LAG设备从M-LAG接口接收到环路检测报文后,会通过peer-link链路同步给另一台VTEP设备,以避免单点链路故障导致另一台VTEP设备无法收到环路检测报文。

¡     M-LAG设备从M-LAG接口的AC接收到环路检测报文并判断网络中存在环路后,将比较报文中携带的优先级与自身的优先级。若报文中携带的优先级更高,则在两台M-LAG设备中,属于同一M-LAG组的AC均会进行配置的环路检测保护动作;否则不触发环路检测保护动作。

·     对于用户终端单归接入M-LAG系统的情形(如图中Server 4):

¡     只需要在用户终端接入的VTEP上开启环路检测功能即可。开启环路检测功能后,仅用户终端接入的VTEP设备会在单边接入的M-LAG接口AC上发送环路检测报文。报文的源MAC地址为AC所在接口的M-LAG系统MAC地址。

¡     M-LAG设备从单归接入的M-LAG接口的AC接收到环路检测报文并判断网络中存在环路后,将比较报文中携带的优先级与自身的优先级。若报文中携带的优先级更高,则对接收到报文的AC进行配置的环路检测保护动作;否则不触发环路检测保护动作。

图2-2 VXLAN网络下的环路检测支持M-LAG组网图

 

数据中心产品对VSI的环路检测支持情况如下表所示:

设备

软件版本

参考配置手册

S12500X-AF/S12500F-AF/S6890/

暂不支持

-

S12500R

R5210及以上版本

请参考“H3C S12500R系列交换路由器 配置指导(R52xx)”“二层技术-以太网交换配置指导”“环路检测配置”中的“VXLAN网络下的环路检测”

S12500G-AF

R7625及以上版本

请参考“H3C S12500G-AF系列交换机 配置指导-R7625Pxx”“二层技术-以太网交换配置指导”“环路检测配置”中的“VXLAN网络下的环路检测”

S6805/S6825/S6850/S9850

R6710及以上版本

请参考 “H3C S6805 & S6825 & S6850 & S9850系列交换机 配置指导-Release 671x”“二层技术-以太网交换配置指导”“环路检测配置”中的“VXLAN网络下的环路检测”

S9820-64H/S9820-8C

不支持

-

S6800/S6860

R6710及以上版本

请参考“H3C S6800 & S6860系列交换机 配置指导-Release 671x”中“二层技术-以太网交换配置指导”“环路检测配置”中的“VXLAN网络下的环路检测”

S6900

R2910及以上版本

请参考“H3C S6900系列交换机 配置指导-Release 291x”中“二层技术-以太网交换配置指导”“环路检测配置”中的“VXLAN网络下的环路检测”

S6812/S6813

N/A

版本开发中,请联系技术支持获取最新支持信息

 

2. 配置限制和指导

在双归接入的EVPN VXLAN+M-LAG组网中开启环路检测功能时,请在两台M-LAG设备上配置相同的环路检测功能参数。

2.2  M-LAG三层组网部署方案

2.2.1  网关部署方案概述

M-LAG设备为M-LAG接口连接的服务器提供网关和路由接入的方式和适用场景如表2-2所示。

表2-2 M-LAG三层组网部署方案

网关部署方案

适用场景

VLAN双活网关(推荐)

·     双活网关,主设备和备设备都可以回应ARP报文和作为网关转发报文

·     在容器接入场景(例如K8S),服务器有和M-LAG设备建立路由的需求,此时有两种配置方式:

¡     使用静态路由

¡     使用动态路由接入功能(在作为网关的VLAN接口上配置M-LAG虚拟IP地址(通过port m-lag virtual-ip/port m-lag ipv6 virtual-ip命令配置),使用虚拟IP地址与服务器建路由)

VRRP网关

·     VRRP主、备都可以作为网关转发报文,但只有VRRP主设备可以回应ARP报文(VRRP双活网关方案中,网关收到目的MAC是VRRP虚拟MAC、本地实MAC、对端M-LAG设备实MAC的报文,都会进行三层本地优先转发。本地双活网关实MAC会通过RLINK通道同步到对端M-LAG设备上)

·     可以支持服务器动态路由接入

 

说明

各产品对VLAN双活网关的支持情况,请参考“M-LAG组网IPv4和IPv6 VLAN双活网关配置举例”的“适用设备及使用版本”。

 

2.2.2  M-LAG VLAN双活网关

1. M-LAG VLAN双活网关简介

在M-LAG设备上部署VLAN双活网关,为用户侧提供冗余备份的网关。M-LAG VLAN双活网关的部署方案请参见图2-3表2-3

M-LAG VLAN双活网关的配置方式请参考“M-LAG组网IPv4和IPv6 VLAN双活网关配置举例”。

图2-3 M-LAG VLAN双活网关部署方案

 

表2-3 M-LAG VLAN双活网关方案说明

部署方案

流量模型

·     在同一M-LAG系统的两台M-LAG设备上各创建一个相同编号的VLAN接口(例如VLAN 100)作为IPv4和IPv6双活网关,在两台M-LAG设备上为该VLAN接口配置相同的IP地址和MAC地址作为网关地址。在同一M-LAG系统的两台M-LAG设备上各自再创建一个相同编号的VLAN接口(例如VLAN 101),将peer-link链路聚合接口加入该VLAN。两台M-LAG设备上分别为该VLAN接口配置同一网段的不同IP地址,以实现两台M-LAG设备的三层互通。如果M-LAG 1或M-LAG 2与上行设备Device A的链路故障,报文可以通过路由绕行到对端M-LAG设备处理

·     M-LAG设备与上行设备Device间通过三层接口部署等价路由进行负载分担

·     容器接入场景需要服务器与M-LAG设备建立路由邻居且设备不支持动态路由接入时,服务器需要配置静态路由

·     服务器发出的二层流量,查找MAC地址表找到出接口为聚合接口,将流量负载分担到M-LAG设备上。M-LAG设备根据本地优先转发原则,根据MAC地址表进行二层转发

·     (仅容器接入场景涉及)服务器发出的三层流量,根据静态路由,查找路由表找到出接口为VLAN 100,通过VLAN 100加入的聚合接口转发,将流量负载分担到M-LAG设备上,M-LAG设备根据FIB表对流量进行三层转发

·     外部网络访问Server的下行流量根据ECMP路由负载分担到M-LAG设备上。M-LAG设备根据本地路由信息,将流量转发到Server

 

2. 多级M-LAG+VLAN双活网关(核心设备作网关)组网模型

图2-4所示,三级M-LAG+ VLAN双活网关组网的部署方案如下:

·     接入层的Device A和Device B、汇聚层的Device C和Device D、核心层的Device E和Device F分别组成M-LAG系统,以避免单点故障造成流量转发中断,提高网络的可靠性。

·     Server和VM通过M-LAG接口双归接入到M-LAG系统,以提高上行流量和下行流量的可靠性。其中,Server双归接入到Device A和Device B组成的M-LAG系统;VM通过Device G双归接入到Device E和Device F组成的M-LAG系统。

·     核心层设备Device E和Device F作为VLAN双活网关,为服务器提供网关和路由接入服务。

·     在Device A~Device F上部署STP,并指定Device E和Device F作为根桥,以消除网络里的环路。

图2-4 三级M-LAG+VLAN双活网关组网示意图

 

两级M-LAG+VLAN双活网关组网的部署方案如图2-5所示。该部署方案与三级M-LAG+VLAN双活网关组网的部署方案类似。

图2-5 两级M-LAG+ VLAN双活网关组网示意图

 

本组网模型的配置方式请参考“三级M-LAG组网配置举例(核心设备为VLAN双活网关)”。

3. 多级M-LAG+VLAN双活网关(汇聚设备和核心设备为VLAN双活网关,运行OSPF)组网模型

图2-6所示:

·     接入层的Device A和Device B、汇聚层的Device C和Device D、核心层的Device E和Device F分别组成M-LAG系统,以避免单点故障造成流量转发中断,提高网络的可靠性。

·     Server和VM通过M-LAG接口双归接入到M-LAG系统,以提高可靠性。其中,VM双归接入到Device A和Device B组成的M-LAG系统;Server通过Device G双归接入到Device E和Device F组成的M-LAG系统。

·     核心层设备Device E和Device F作为三层网关,为服务器提供网关和路由接入服务。汇聚层设备Device C和Device D作为三层网关,为VM提供网关和路由接入服务。汇聚层设备和核心层设备之间运行OSPF进行三层互联。

由于不同M-LAG成员设备上的相同网关接口需要具有相同的IP地址和MAC地址,因而M-LAG成员设备无法使用主地址与其他设备之间建立路由邻居关系,因此Device C、Device D、Device E、Device F需要配置M-LAG虚拟IP地址用于互相之间建立OSPF邻居。

图2-6 三级M-LAG+VLAN双活网关+OSPF组网图

设备

接口

IP地址

Device C

Device D

Vlan-int10

IPv4: 10.1.1.1/24

IPv6: 10:1::1/64

Vlan-int20

IPv4:

20.1.1.1/24

Device C M-LAG Virtual-IP:20.1.1.103/24

Device D M-LAG Virtual-IP:20.1.1.104/24

IPv6: 20:1::1/64

Device C M-LAG IPv6 Virtual-IP:FE80::6

Device D M-LAG IPv6 Virtual-IP:FE80::8

Device E

Device F

Vlan-int20

IPv4: 20.1.1.2/24

Device E M-LAG Virtual-IP:20.1.1.101/24

Device F M-LAG Virtual-IP:20.1.1.102/24

IPv6: 20:1::2/64

Device E M-LAG IPv6 Virtual-IP:FE80::2

Device F M-LAG IPv6 Virtual-IP:FE80::4

Vlan-int30

IPv4: 30.1.1.1/24

IPv6: 30:1::1/64

 

本组网模型的配置方式请参考“三级M-LAG+VLAN双活网关+OSPF配置举例”。

4. 配置限制和指导

对于IPv6 VLAN双活网关,必须在网关接口配置ipv6 nd unsolicited-na-learning enable命令开启接口从未经请求的NA报文中学习邻居信息的功能,才能实现ND表项在两台M-LAG设备之间的同步。

2.2.3  M-LAG VLAN双活网关场景网关接口配置M-LAG虚拟IP地址建立路由邻居

在M-LAG VLAN双活网关场景中,M-LAG成员设备作为网关进行三层转发。由于作为网关的VLAN接口具有相同的IP地址和MAC地址,M-LAG成员设备无法用该IP地址与用户侧设备之间建立路由邻居关系。为了解决上述问题,可以在作为网关的VLAN接口上配置M-LAG虚拟IP地址(通过port m-lag virtual-ip/port m-lag ipv6 virtual-ip命令配置),并配置路由协议,使用虚拟IP地址与服务器建立邻居关系。具体部署方式请参见图2-7表2-4

容器接入场景主推此方案。

图2-7 M-LAG VLAN双活网关场景网关接口配置M-LAG虚拟IP地址建立路由邻居

 

表2-4 M-LAG VLAN双活网关场景网关接口配置M-LAG虚拟IP地址建立路由邻居

应用场景

部署方案

流量模型

容器接入场景,服务器需要与M-LAG设备部署动态路由

·     在同一M-LAG系统的两台M-LAG设备上各创建一个相同编号的VLAN接口(例如VLAN 100)作为IPv4和IPv6双活网关,在两台M-LAG设备上为该VLAN接口配置相同的IP地址和MAC地址作为网关地址。Server通过M-LAG接口双归接入到M-LAG设备,且IPv4和IPv6流量均可通过网关地址访问外部网络

·     在同一M-LAG系统的两台M-LAG设备上,作为网关的VLAN接口下分别配置同一网段不同的M-LAG虚拟IP地址,使用该虚拟IP地址与服务器建立三层连接,通过BGP或OSPF实现三层互通

·     在同一M-LAG系统的两台M-LAG设备上各自再创建一个相同编号的VLAN接口(例如VLAN 101),将peer-link链路聚合接口加入该VLAN。两台M-LAG设备上分别为该VLAN接口配置同一网段的不同IP地址,以实现两台M-LAG设备的三层互通。如果M-LAG 1或M-LAG 2与上行设备Device A的链路故障,报文可以通过路由绕行到对端M-LAG设备处理

·     M-LAG设备与上行设备Device A间通过三层接口部署等价路由进行负载分担

·     服务器发出的二层流量,查找MAC地址表找到出接口为聚合接口,将流量负载分担到M-LAG设备上。M-LAG设备根据本地优先转发原则,根据MAC地址表进行二层转发

·     服务器发出的三层流量,根据配置的动态路由生成的路由表找到出接口为VLAN 100,通过VLAN 100加入的聚合接口转发,将流量负载分担到M-LAG设备上,M-LAG设备根据FIB表对流量进行三层转发

·     外部网络访问Server的流量根据ECMP路由,将流量负载分担转到M-LAG设备。M-LAG设备根据本地路由信息将流量转发到Server

BFD快速检测(如有需要)

两台M-LAG设备分别使用M-LAG虚拟IP地址与下行设备的VLAN接口100的从IP地址建立BFD会话

-

 

本组网模型的配置方式请参考“M-LAG组网IPv4和IPv6 VLAN双活网关配置举例”。

2.2.4  M-LAG+VRRP的三层转发方案

1. 部署方案

在M-LAG设备上部署VRRP,为服务器提供冗余备份的网关。M-LAG+VRRP的三层转发部署方案请参见图2-8表2-5

图2-8 M-LAG+VRRP的三层转发方案

 

表2-5 M-LAG+VRRP的三层转发方案说明

部署方案

流量模型

·     M-LAG设备部署VRRP,VRRP虚拟IP地址作为Server的网关地址,Server通过M-LAG接口双归接入到VRRP网关

·     M-LAG接口所属VLAN创建VLAN接口,两台M-LAG设备的VLAN接口分别配置同网段内不同的IP地址作主IP地址,再配置另一网段内同网段不同的IP地址作从IP地址

·     使用VLAN接口的主IP或从IP地址可以与Server建立三层连接,通过BGP或OSPF实现三层互通(容器接入场景有此需求)

·     两台M-LAG设备通过peer-link链路建立的三层接口建立路由邻居作为三层链路备份,如果M-LAG 1或M-LAG 2与上行设备Device A的链路故障,报文可以通过路由绕行到对端M-LAG设备处理

·     M-LAG设备与上行设备Device A间通过三层接口部署等价路由进行负载分担

·     服务器发往其它网段的报文,通过M-LAG接口负载分担到两台M-LAG设备,两台M-LAG设备均可以作为VRRP虚拟路由器对报文进行转发

·     服务器发出的三层流量,根据服务器与M-LAG设备VLAN接口从IP建立的路由信息转发

·     外部网络访问Server的流量根据ECMP路由,将流量负载分担转发到M-LAG设备上。M-LAG设备根据本地路由信息将流量转发到Server

 

本组网模型的配置方式请参考“M-LAG+VRRP网关配置举例”。

2. 配置限制和指导

M-LAG+VRRP组网支持VRRP标准模式和负载均衡模式。M-LAG+VRRP组网中的VRRP标准模式支持负载分担,建议使用VRRP标准模式即可。

在M-LAG和VRRP组网环境下,需要确保vrrp vrid timer advertise命令和vrrp ipv6 vrid timer advertise命令配置的时间间隔大于m-lag keepalive hold-time配置的时间间隔,否则在确认peer-link链路故障前可能会进行VRRP主备切换,导致流量丢失。

建议配置IPv4/IPv6 VRRP备份组中的路由器工作在非抢占方式,避免频繁切换Master路由器。

对于S12500X-AF/S12500F-AF H系列单板:在VRRP标准模式下,设备上只能有15个编号不同的VRRP备份组;在VRRP负载均衡模式下,设备上只能有7个编号不同的VRRP备份组。建议不同三层接口使用相同编号的VRRP备份组以节省备份组资源。如果某VLAN接口下发某VRRP备份组配置时由于超过规格下发失败,通过删除其他备份组释放资源后,下发失败的VRRP备份组配置需要手动取消然后重新配置。

对于S12500G-AF/S6805/S6825/S6850/S9850/S9820-64H/S9820-8C/S6800/S6860/S6900设备设备:最多支持256个VRRP备份组,每个接口最多可以配置32个备份组。不同三层接口建议使用相同的VRRP备份组号。

对于S12500R设备:最多支持255个VRRP备份组,每个接口最多可以配置32个备份组,不同三层接口建议使用相同的VRRP备份组号。

对于S6812/S6813设备:最多支持255个VRRP备份组,每个接口最多可以配置16个备份组,不同三层接口建议使用相同的VRRP备份组号。

2.2.5  单挂(即服务器通过非M-LAG接口接入)接入使用限制

1. VLAN双活网关

如果所有服务器都是通过主备接入(bond1)或者单端口接入,需要创建一个M-LAG聚合组,M-LAG聚合接口允许主备接入服务器和单端口接入服务器所在的所有VLAN通过。例如:VLAN接口100配置了VLAN双活网关(两台M-LAG设备配置相同IP和MAC),但是没有任何M-LAG聚合接口加入VLAN 100,此时VLAN 100会出现预期外的流量转发不通。

对于S12500X-AF、S12500F-AF、S12500R、S6890、S6812、S6813、S6800、S6860、S6900、S6805、S6825、S6850、S9850、S9820-64H、S9820-8C交换机,规避方法为创建一个M-LAG聚合接口,并配置聚合接口允许VLAN 100通过,创建的M-LAG聚合组不需要加物理接口。

对于S12500G-AF交换机,规避方法为创建一个M-LAG聚合接口,并配置聚合接口允许VLAN 100通过,创建的M-LAG聚合组需要加物理接口且状态为UP,否则M-LAG主设备重启后,未重启的M-LAG备设备会被MAD Down。

2. VRRP网关

存在服务器主备接入(bond1),并且配置VRRP网关的VLAN没有配置M-LAG接口时,需要创建一个M-LAG聚合组,并配置M-LAG聚合接口允许配置VRRP网关的VLAN通过。例如:VLAN接口100配置了VRRP备份组,但是没有任何M-LAG聚合接口加入VLAN 100,此时VLAN 100会出现预期外的未知单播流量,如果未知单播流量超过未知单播抑制配置值出现大量丢包。

上述问题的规避方法:

·     对于S12500X-AF、S12500F-AF、S12500R、S6890、S6812、S6813、S6800、S6860、S6900、S6805、S6825、S6850、S9850、S9820-64H、S9820-8C交换机,规避方法为创建一个M-LAG聚合接口,并配置聚合接口允许VLAN 100通过,创建的M-LAG聚合组不需要加物理接口。

·     对于S12500G-AF交换机,规避方法为创建一个M-LAG聚合接口,并配置聚合接口允许VLAN 100通过,创建的M-LAG聚合组需要加物理接口且状态为UP,否则M-LAG主设备重启后,未重启的M-LAG备设备会被MAD Down。

只有VRRP主设备能够学习到单挂设备的ARP,备设备只有在接收到报文触发备设备主动向单挂设备发ARP请求报文后,才能学到单挂设备的ARP,所以会导致少量丢包。

2.2.6  路由配置限制和指导

1. Router ID

对于路由协议来说,两台M-LAG设备是独立设备,需要配置不同的Router ID。请手工配置Router ID,否则设备会自动选择Router ID,可能会出现Router ID冲突的情况。在EVPN+M-LAG环境,建议配置方式:

·     同一M-LAG系统的两台设备采用LoopBack0接口地址作为M-LAG系统的本地VTEP地址和Router ID,且不能配置相同地址;

·     同一M-LAG系统的两台设备采用LoopBack1接口地址作为虚拟VTEP地址(通过evpn m-lag group命令配置),需要配置相同的地址。

2. NSR

双主控设备上需要配置路由协议的NSR。

3. OSPF/OSPFv3配置要求

为了保证流量收敛时间,建议进行如下配置:

·     所有设备上用于建立OSPF/OSPFv3邻居的接口配置ospf network-type p2p/ospfv3 network-type p2p

·     针对设备链路故障时发生的路由撤销及路由切换场景收敛时间优化,所有设备上需在OSPF/OSPFv3视图下配置spf-schedule-interval 1 10 10和lsa-generation-interval 1 10 10。

·     针对设备重启后的收敛时间优化,所有设备上需在OSPF/OSPFv3视图进行如下配置:

¡     OSPF视图:stub-router include-stub on-startup,盒式设备建议配置时长为300秒,框式设备建议配置时长为300秒以上,满插单板的情况建议配置900秒或以上。

¡     OSPFv3视图:stub-router max-metric include-stub on-startup,盒式设备建议配置时长为300秒,框式设备建议配置时长为300秒以上,满插单板的情况建议配置900秒或以上。

2.3  M-LAG+RDMA部署方案

2.3.1  部署方案说明

在RDMA组网中,Leaf设备部署M-LAG,可以实现服务器的双上行接入,从而实现服务器上行链路冗余备份和流量负载分担。

图2-9 M-LAG+RDMA典型组网图

 

表2-6 M-LAG+RDMA部署方案说明

部署方案

流量模型

·     Leaf 1和Leaf 2、Leaf 3和Leaf 4分别组成M-LAG系统,实现服务器上行链路冗余备份和流量负载分担

·     Leaf 1和Leaf 2、Leaf 3和Leaf 4分别配置VLAN双活网关或VRRP备份组,实现服务器的入网需求,并实现网关的冗余备份和负载分担

·     Spine作为汇聚层设备,部署RR,负责在各个Leaf间反射BGP路由

·     Leaf设备连接服务器的物理端口、Leaf和Spine互连的物理端口进行无损网络相关配置,包括:(1)为无损队列开启PFC功能并设置PFC门限,对该优先级的报文进行流量控制;(2)PFC死锁检测功能,避免某优先级的报文出现转发环路时设备进入PFC死锁状态,使报文无法转发;(3)配置QoS队列调度,保证无损队列和CNP(Congestion Notification Packet,拥塞通知报文)所在队列报文优先转发;(4)配置WRED避免拥塞,无损队列和CNP所在队列配置ECN,实现端到端的拥塞管理,减缓拥塞扩散恶化

·     Leaf设备为无损队列调整数据缓冲区配置,一般配置为可以使用headroom缓冲区的最大值和出方向共享区域的最大值

·     两台M-LAG设备之间通过peer-link链路的VLAN接口建立路由邻居或配置Monitor Link,实现上行链路故障时的流量保护

·     服务器访问同组Leaf设备连接的其它服务器时,查找MAC地址表找到出接口为聚合接口,将流量负载分担到M-LAG设备上。M-LAG设备根据本地优先转发原则,根据MAC地址表进行二层转发

·     服务器访问跨Leaf组的其它服务器时,查找路由表,将流量转发到M-LAG设备,流量通过M-LAG链路进行负载分担。M-LAG设备通过ECMP路由将流量负载分担到Spine设备

·     外部网络访问Server的下行流量根据ECMP路由负载分担到M-LAG设备上。M-LAG设备根据本地路由信息,将流量转发到Server

·     同组Leaf设备连接的服务器互访流量在拥塞的情况下不丢包

·     不同组Leaf设备连接的服务器互访流量在拥塞的情况下不丢包

 

本组网模型的配置方式请参考“M-LAG+RDMA配置举例”。

2.3.2  配置限制和指导

peer-link链路物理端口需要进行如下配置:

·     配置QoS队列调度,保证无损队列和CNP所在队列报文优先转发;

·     配置WRED避免拥塞。

2.4  M-LAG+EVPN部署方案

M-LAG+EVPN部署方案是指利用M-LAG技术将EVPN组网中的两台Leaf、Border等设备连接起来虚拟成一台设备,使用该虚拟设备作为Leaf、Border,可以避免Leaf、Border单点故障对网络造成影响,从而提高EVPN网络的可靠性。

M-LAG+EVPN的更多部署说明请参考1.2  Overlay组网规划方案说明,本节以Leaf、Spine、Border三级组网为例说明。

M-LAG+EVPN组网分为分布式网关组网和集中式网关组网。

在分布式网关组网中,每台Leaf设备都可以作为VXLAN IP网关,对本地站点的流量进行三层转发,较好的分担了网关的压力。

集中式网关组网时,不同VXLAN之间的流量以及VXLAN访问外界网络的流量全部由集中式VXLAN IP网关处理,网关压力较大。

推荐使用以太网聚合链路作为peer-link链路组网,不推荐使用VXLAN隧道作为peer-link链路组网。

2.4.1  分布式网关部署方案说明

图2-10 M-LAG+EVPN部署方案示意图

 

表2-7 M-LAG+EVPN推荐部署方案说明

部署方案

流量模型

·     Leaf作为VTEP或者EVPN网关,实现服务器之间二三层流量的转发,通过部署M-LAG使服务器双归接入VTEP或EVPN网关,避免单条链路故障导致虚拟机无法访问网络

·     Spine(不配置M-LAG)作为路由反射器,负责在Leaf、Border之间反射路由

·     Border作为边界网关,实现数据中心与外部网络的互通;ED作为本数据中心的边缘设备,通过VXLAN DCI隧道实现本数据中心与其他数据中心的互通;通过部署M-LAG,避免设备故障导致无法访问外部网络或其他数据中心

·     服务器通过M-LAG接口接入Leaf设备,在Leaf设备上查表,通过VXLAN隧道完成服务器之间二三层流量的转发,当服务器需要访问外部网络时,Leaf通过VXLAN隧道将流量转发到Border,再由Border查找路由表完成服务器对外部网络的访问

·     同一M-LAG系统的两台Leaf/Border具有相同的虚拟地址(通过evpn m-lag group命令配置),对外表现为一台虚拟设备。其他Leaf/Border使用该地址与这台虚拟设备自动建立VXLAN隧道

·     同一M-LAG系统的两台Leaf/Border使用不同的地址作为BGP对等体地址,分别与作为反射器的Spine建立BGP EVPN邻居。利用Underlay网络的等价路由机制,其他Leaf/Border可以将发往虚拟Leaf/Border地址的流量同时发送到两台Leaf/Border,从而实现负载分担和冗余备份

 

本方案的具体配置方式请参见“M-LAG+EVPN分布式网关(Underlay路由协议为IS-IS)配置举例”和“M-LAG+EVPN分布式网关(Underlay路由协议为BGP)配置举例”。

2.4.2  集中式网关部署方案说明

图2-11 集中式网关部署示意图

 

表2-8 集中式网关部署方案说明

部署方案

流量模型

·     Leaf配置M-LAG作为服务器接入设备,将服务器的报文接入EVPN VXLAN网络进行二层转发。通过部署M-LAG使服务器双归接入VTEP,避免单条链路故障导致虚拟机无法访问网络

·     Spine(不配置M-LAG)作为路由反射器,负责在Leaf、Border之间反射路由

·     Border作为边界网关,实现数据中心与外部网络的互通;同时将Border设备部署为EVPN集中式网关,实现不同VXLAN之间的三层转发;ED作为本数据中心的边缘设备,通过VXLAN DCI隧道实现本数据中心与其他数据中心的互通。通过部署M-LAG,可以避免Border设备故障导致无法访问外部网络或其他数据中心

·     服务器通过M-LAG接口接入Leaf设备,在Leaf设备上查表,通过VXLAN隧道完成服务器之间二层流量的转发,当服务器之间进行三层转发或需要访问外部网络时,流量上行到Border的集中式网关,再由Border查找路由表完成服务器对外部网络的访问

·     同一M-LAG系统的两台Leaf/Border具有相同的虚拟地址(通过evpn m-lag group命令配置),对外表现为一台虚拟设备。其他Leaf/Border使用该地址与这台虚拟设备自动建立VXLAN隧道

·     同一M-LAG系统的两台Leaf/Border使用不同的地址作为BGP对等体地址,分别与作为反射器的Spine建立BGP EVPN邻居。利用Underlay网络的等价路由机制,其他Leaf/Border可以将发往虚拟Leaf/Border地址的流量同时发送到两台Leaf/Border,从而实现负载分担和冗余备份

 

本方案的具体配置方式请参见“M-LAG+EVPN集中式网关配置举例”。

2.4.3  Border故障DC间切换方案说明

当数据中心内采用M-LAG+EVPN组网,且多数据中心互联场景中,如果Border连接外网的链路故障或者Border设备故障,内外网互访流量需要切换到备份数据中心Border设备。

 “M-LAG+EVPN组网Border故障DC间切换配置指导”介绍了通过M-LAG接口、三层以太网接口连接外网时,如下故障场景中外网互访流量需要切换到备份数据中心Border设备的情况。

·     一个数据中心网络中两台Border上某一M-LAG接口的所有成员口都down。这种情况要求只切走故障M-LAG接口对应的外网交互流量,其他外网交互流量不需要切走。

·     两台Border上所有连接Spine端口都down。

·     两台Border都故障。

说明

对于单台Border设备的M-LAG接口/peer-link链路/Keepalive/公网口故障、或单台Border设备故障的恢复,EVPN+M-LAG的典型配置中已经涵盖恢复方式。

 

2.4.4  基础配置限制和指导

1. 基础配置类

·     在作为M-LAG成员设备的两台VTEP(既可以是仅用于二层转发的VTEP,也可以是EVPN网关)上EVPN配置需要保持一致。例如:AC、VSI、EVPN Route MAC等。

¡     AC同一M-LAG系统的两台VTEP上的AC配置必须保持完全一致。

¡     VSI:相同的VSI必须关联相同的VXLAN ID

¡     EVPN Route MAC:用户可以通过evpn global-mac命令配置EVPN的全局MAC地址;也可以通过mac-address命令配置承载L3VNIVSI虚接口的MAC地址。

·     请勿配置interface vsi-interface 0作为分布式EVPN网关。

·     开启、关闭EVPN的M-LAG模式后,需要在BGP实例视图下执行address-family l2vpn evpn命令,以便设备采用新的源端地址与远端VTEP建立隧道。

·     M-LAG的虚拟VTEP地址不能指定为接口的从IP地址。

·     配置为peer-link接口的二层聚合接口、网络侧的物理接口都需要配置undo mac-address static source-check enable命令关闭报文入接口与静态MAC地址表项匹配检查功能,否则可能会导致跨peer-link链路三层转发的流量不通(S12500X-AF/S12500F-AF/S12500G-AF/12500R/S6890不涉及)。

·     Underlay网络为IPv4网络(或IPv6网络)时,M-LAG的虚拟VTEP地址必须同为IPv4地址(或IPv6地址)。

·     建议不要在M-LAG的两台VTEP上引入外部路由。

2. AC

采用以太网聚合链路作为peer-link链路时:

·     根据用户侧以太网服务实例的报文匹配规则创建peer-link链路上的AC时,用户侧以太网服务实例配置的报文匹配规则只能为匹配报文的外层VLAN tag(encapsulation s-vid { vlan-id | vlan-id-list })、匹配不携带VLAN tag的所有报文(encapsulation untagged),且AC的接入模式必须为VLAN模式。配置相同报文匹配规则的以太网服务实例必须关联相同的VSI。

·     采用VXLAN ID映射方式生成peer-link链路上动态AC的报文匹配规则时,AC的接入模式必须为VLAN模式。匹配双层VLAN Tag的报文时,以太网服务实例的匹配规则请配置为encapsulation s-vid vlan-id-list c-vid vlan-id-list,如果使用encapsulation s-vid { vlan-id | vlan-id-list }匹配多层VLAN Tag的报文,该报文经过peer-link链路转发时,可能会出现携带的VLAN ID值错误,导致不能正常转发。S6812/S6813是否有限制待确认。

·     当VXLAN隧道的出接口是M-LAG接口时,请不要将M-LAG接口允许通过的VLAN与peer-link链路上以太网服务实例的报文匹配规则匹配的VLAN配置为相同值。

3. peer-link链路

·     建议将peer-link接口的PVID配置为4094。否则,如果设备配置了通过VXLAN ID映射方式生成peer-link链路上动态AC的报文匹配规则(l2vpn m-lag peer-link ac-match-rule vxlan-mapping命令),可能会出现计算出的AC的报文匹配规则外层VLAN标签为peer-link接口的PVID,影响VLAN Tag为VXLAN ID%4094+1(VXLAN ID除以4094,取余后加1)的Underlay流量转发。

·     作为M-LAG设备的两台VTEP通过peer-link链路同步本地AC口的MAC地址、ARP和ND信息。

4. 其他

·     在M-LAG+EVPN组网中,如果Leaf和Spine使用VLAN接口互联,建议两台Leaf设备连接Spine的接口加入不同的VLAN,并且关闭物理接口的STP功能,避免环路和错误的阻塞端口。

·     在M-LAG设备之间配置备份路由,可以确保M-LAG设备的上行链路故障时,上行流量通过备份路由切换到另一台M-LAG设备转发,保证流量不中断。

·     对于S6800-32Q(LS-6800-32Q-H1)、S6800-54HF、S6800-54HT、S6800-2C(LS-6800-2C-H1)、S6800-2C-FC、S6800-4C(LS-6800-4C-H1)、S6800-54QF(LS-6800-54QF-H3)、S6800-54QF(LS-6800-54QF-H5)、S6800-54QT(LS-6800-54QT-H3)、S6900-54HF-F、S6900-2F(LS-6900-2F-H1)、S6900-4F(LS-6900-4F-H1)、S6900-54QF-F(LS-6900-54QF-F-H3)交换机:在AC或者peer-link链路上存在转发overlay和underlay两种流量的场景中,会出现报文源端口进源端口出的现象,用户需要根据实际情况,在AC口或者peer-link接口下配置端口隔离组来解决此问题。需要注意,配置端口隔离组后,经过该聚合端口进入设备的报文将不再从源端口转发出去。

2.4.5  peer-link链路上AC的配置限制和指导

对于S12500R、S12500G-AF、S6800、S6860、S6900、S6812、S6813、S6805、S6825、S6850、S9850产品,推荐配置通过VXLAN ID映射方式生成peer-link链路上动态AC的报文匹配规则(l2vpn m-lag peer-link ac-match-rule vxlan-mapping命令)。使用本方式时,VTEP上创建的VXLAN的ID不能大于16000000。

对于S12500X-AF/S12500F-AF/S6890设备,推荐配置l2vpn m-lag peer-link tunnel命令开启成员设备间自动建立VXLAN隧道功能。执行本命令后,作为M-LAG成员设备的两台VTEP之间会自动建立VXLAN隧道,并将该VXLAN隧道自动与所有VXLAN关联。M-LAG设备之间同步的表项会下发在该隧道上,不在peer-link链路自动创建AC。

设备未配置通过VXLAN ID映射方式生成peer-link链路上动态AC的报文匹配规则(l2vpn m-lag peer-link ac-match-rule vxlan-mapping命令)或成员设备间自动建立VXLAN隧道功能(l2vpn m-lag peer-link tunnel命令)时,如果采用以太网聚合链路作为peer-link链路,设备缺省在peer-link链路上根据用户侧AC自动创建AC。peer-link链路上动态AC的报文匹配规则与用户侧链路上AC的报文匹配规则相同。使用本方式需要注意,匹配相同外层VLAN Tag的不同以太网服务实例必须关联相同的VSI。

2.4.6  MAC配置限制和指导

在M-LAG+EVPN组网中,所有的分布式EVPN网关设备(GW)上主要存在以下类型的MAC地址:

·     作为分布式网关接口的VSI虚接口的MAC地址。该接口的IP地址作为VXLAN内虚拟机的网关地址。

·     承载L3VNI的VSI虚接口的MAC地址。该接口需要与VPN实例关联,并需要指定L3VNI。该接口的MAC地址作为网关之间转发的三层报文的内层源MAC地址,即Router MAC地址。

两种类型的MAC地址的配置方式如下所示,两种类型的MAC地址不要配置相同。

1. 承载L3VNI的VSI虚接口的MAC地址

·     用户可以通过如下命令配置承载L3VNI的VSI虚接口的MAC地址:

¡     evpn global-mac命令:该命令对设备上所有承载L3VNI的VSI虚接口生效。H3C建议您优先采用本方式。

¡     mac-address命令:该命令仅对当前指定的VSI虚接口生效。

·     设备上承载L3VNI的VSI虚接口的MAC地址必须配置一致,组成M-LAG系统的两台设备的该MAC地址也要配置一致。设备选择此类VSI接口中接口ID最小的VSI虚接口的MAC地址作为网关唯一的Router MAC地址。

·     组成M-LAG系统的两台成员设备上需要配置相同的EVPN全局MAC(evpn global-mac)。每个M-LAG系统的EVPN全局MAC需要在本数据中心和通过DCI隧道连接的多个数据中心内唯一。DCI互联场景尤其要注意EVPN全局MAC地址规划,避免冲突。

对于S6805/S6825/S6850/S9850/S6800/S6900/S6860/S12500G-AF/12500R系列交换机,建议用户采用如下方式之一来配置EVPN全局MAC地址:

¡     采用一台成员设备上三层以太网接口(即工作模式为route的以太网接口)的缺省MAC地址作为一个M-LAG系统内所有成员设备的EVPN全局MAC。H3C建议您优先采用本方式。

¡     指定符合要求的单播MAC地址作为M-LAG系统内所有成员设备的EVPN全局MAC,建议采用0001-0001-0001~0001-0001-FFFE范围内未被使用的MAC地址。

对于S12500X-AF/S12500F-AF系列交换机evpn global-mac的配置方式请参考“S12500X-AF/S12500F-AF MAC地址设置指导”。S6890 MAC地址设置方式请联系研发确认。

·     如果通过mac-address命令修改了某一关联L3VNI的VSI虚接口的MAC地址,则必须通过该命令将两台M-LAG设备上所有与L3VNI关联的VSI虚接口的MAC地址修改为相同的值,否则可能会导致报文转发失败。

·     当网关连接IPv6站点网络时,还需要为同一分布式网关设备上承载L3VNI的VSI虚接口配置相同的IPv6链路本地地址。采用自动方式生成链路本地地址时,由于MAC地址相同,则生成的链路本地地址相同;若采用手工方式配置,则必须保证配置的链路本地地址相同。

2. 分布式网关接口的MAC地址

·     不同设备上作为同一个VXLAN网络分布式网关接口的VSI虚接口需要配置相同的IP/IPv6地址和MAC地址。

·     VSI接口的MAC地址不能配置为设备的保留MAC。各设备的保留MAC地址范围请参见产品配置指导。

2.4.7  Leaf配置限制和指导

配置evpn m-lag local命令。配置该命令后,VTEP发布从单挂AC学习到的路由信息时,将路由的下一跳设置为本命令配置的本地VTEP地址(local-ipv4-addresslocal-ipv6-address)。在单挂场景下,可以使访问单挂AC的流量能够直接转发到单挂AC接入的VTEP上,避免发往单挂AC的流量通过peer-link链路绕行。单挂指服务器通过非M-LAG接口接入。

配置vxlan default-decapsulation命令。在建立单向VXLAN隧道的组网(即对端建立了指向本端的VXLAN隧道,但本端未建立指向对端的VXLAN隧道)中,需要在本端配置vxlan default-decapsulation命令,避免因为无法解封装VXLAN报文而丢弃该报文。配置vxlan default-decapsulation命令时指定的接口上必须配置了IP地址,该功能才生效。

对于S12500R、S12500G-AF、S6800、S6860、S6900、S6812、S6813、S6805、S6825、S6850、S9850设备,配置l2vpn m-lag peer-link ac-match-rule vxlan-mapping命令。

2.4.8  Border/ED配置限制和指导

配置nexthop evpn-m-lag group-address命令。配置本命令后,设备发布EVPN路由时,将下一跳地址修改为M-LAG的虚拟地址。从而可以利用Underlay网络的等价路由机制,使其他设备可以将发往虚拟VTEP地址的流量同时发送到两台VTEP,从而实现负载分担和冗余备份。

Border设备不可以配置evpn m-lag local命令(即使存在单挂设备),否则nexthop evpn-m-lag group-address命令的配置不能生效。

2.4.9  服务器主备接入模式配置限制

对于S12500G-AF交换机,如果所有服务器都是通过主备接入(bond1)且服务器网卡是抢占模式,需要在设备上创建一个M-LAG聚合组,否则会导致MAD Down机制不生效,设备重启或者Peer link down时收敛性能差。创建的M-LAG聚合组需要加物理接口且状态为UP,否则M-LAG主设备重启后,未重启的M-LAG备设备会被MAD Down。如果所有服务器都是通过主备接入(bond1)但服务器网卡是非抢占模式时,没有上述限制。

2.5  M-LAG+分布式EVPN网关场景VSI接口配置虚拟IP地址建立路由邻居

在M-LAG+分布式EVPN网关场景中,M-LAG成员设备作为EVPN网关进行三层转发。由于作为网关的VSI虚接口具有相同的IP地址和MAC地址,M-LAG成员设备无法用该IP地址与用户侧设备之间建立路由邻居关系。为了解决上述问题,需要在M-LAG设备上的VSI虚接口下配置虚拟IP地址(通过port m-lag virtual-ip/port m-lag ipv6 virtual-ip命令配置),用于区分不同的M-LAG设备,并配置使用该虚拟IP地址与其他设备建立路由邻居关系。具体部署方式请参见图2-7表2-4

图2-12 M-LAG+分布式EVPN网关场景VSI接口配置虚拟IP地址建立路由邻居

 

表2-9 M-LAG VSI双活网关场景网关接口配置虚拟IP地址建立路由邻居

部署方案

流量模型

·     在同一M-LAG系统的两台M-LAG设备上各创建一个相同编号的VSI接口(例如Vsi-int 10)作为EVPN网关,在两台M-LAG设备上为该VSI接口配置相同的IP地址(IPv4和IPv6均支持,可以同时配置)作为网关地址。Server通过M-LAG接口双归接入到M-LAG设备,在M-LAG设备上实现二三层流量的转发,且IPv4和IPv6流量均可通过网关地址访问外部网络

·     M-LAG设备上采用VSI虚接口的虚拟IP地址与Server建立路由邻居关系,在Server上实现三层流量的转发

·     服务器发出的Overlay业务的流量,上行到Leaf的AC口,然后根据M-LAG设备学到的MAC地址表项和FIB表项表项进行二三层转发

·     (仅容器接入场景涉及)容器Node节点的三层流量,通过服务器与虚拟IP地址建立的路由进行转发

·     外部网络访问服务器的流量,通过服务器与虚拟IP地址建立的路由进行转发

 

说明

分布式EVPN网关场景VSI接口配置虚拟IP地址特性支持情况以及配置方式,请参考“动态路由接入M-LAG+分布式EVPN网关配置举例”。

 

2.6  M-LAG+EVPN+DHCP中继部署方案

2.6.1  部署方案说明

在EVPN分布式网关组网中,DHCP server和DHCP client所在的虚拟机属于不同的VXLAN,位于不同的网段。DHCP client可以通过DHCP中继跨网段从DHCP server获取IP地址。

说明

·     DHCP和DHCPv6均支持M-LAG+EVPN+DHCP中继部署方案。

·     DHCP中继需要在同一M-LAG系统的两台设备上同时配置。

·     建议使用专用服务器来部署DHCP服务器,由于交换机CPU计算性能和协议运行压力限制,不建议将交换机部署为DHCP服务器。

 

图2-13 M-LAG+EVPN+DHCP中继典型组网图

 

 

表2-10 M-LAG+EVPN+DHCP中继推荐部署方案说明

部署方案

流量模型

注意事项

·     Leaf 1-1和Leaf 1-2、Leaf 2-1和Leaf 2-2分别组成M-LAG系统,以避免单点故障造成流量转发中断,提高网络的可靠性

·     DHCP server和DHCP client所在的虚拟机通过M-LAG接口双上行接入到组成M-LAG系统的两台Leaf设备(即M-LAG接入),或单上行接入到M-LAG系统中的一台Leaf设备(即单挂接入)

·     Leaf设备同时作为EVPN分布式网关和DHCP中继,以实现DHCP client通过DHCP中继跨越EVPN网络从位于不同网段的DHCP server获取IP地址

DHCP client发送的DHCP请求报文到达Leaf 1-1或Leaf 1-2后,Leaf 1-1或Leaf 1-2作为DHCP中继,为其选择DHCP server。同时,Leaf 1-1或Leaf 1-2作为EVPN分布式网关,查找到达DHCP server的VXLAN隧道,为报文添加VXLAN封装后,将其转发给连接DHCP server的Leaf 2-1或Leaf 2-2。Leaf 2-1或Leaf 2-2解封装VXLAN报文,将DHCP请求报文转发给DHCP server

DHCP server发送的DHCP应答报文到达Leaf 2-1或Leaf 2-2, Leaf 2-1或Leaf 2-2为报文添加VXLAN封装后,将其转发给DHCP中继Leaf 1-1或Leaf 1-2。 Leaf 1-1或Leaf 1-2解封装VXLAN报文,将DHCP应答报文转发给DHCP client

如果网络中存在两组以上Leaf,DHCP应答报文转发到任何一组分布式网关Leaf上,分布式网关都会把DHCP应答报文继续转发到DHCP client所在的网关上。需要注意的是:大量终端同时上线时,网络中会有大量DHCP报文,可能导致部分终端短时间内无法申请到IP地址

DHCP client和DHCP server感知不到overlay网络

连接DHCP client的Leaf设备需要配置为DHCP中继。若不能预先知道DHCP client的位置,建议将所有Leaf(如Leaf 1-1、Leaf 1-2、Leaf 2-1和Leaf 2-2)均配置为DHCP中继

Leaf设备同时作为EVPN分布式网关和DHCP中继时,如果DHCP中继未记录收到的DHCP应答报文中DHCP客户端的MAC地址和中继出接口的对应关系,则DHCP中继必须根据客户端的MAC地址查询MAC地址表,在表项对应的出接口转发DHCP应答报文,即Leaf设备上必须执行dhcp relay mac-forward enable命令。同时,该Leaf设备上还需要执行dhcp relay request-from-tunnel discard命令,配置DHCP中继丢弃从VXLAN隧道收到的DHCP请求报文

 

本组网模型的配置方式请参考“M-LAG+EVPN分布式网关(Underlay路由协议为OSPF)+DHCP中继+微分段+服务链配置举例”。

2.6.2  配置限制和指导

分布式EVPN组网环境中,DHCPv6服务器发送给DHCPv6中继的应答报文中必须携带客户端的MAC地址,DHCPv6中继按照MAC地址表转发DHCPv6应答报文功能才能生效。因此必须在DHCPv6中继上先通过ipv6 dhcp relay interface-id user mac命令将客户端MAC地址填充到DHCPv6请求报文的Option 18选项中,DHCPv6服务器在回应报文时才会携带此选项,从而保证应答报文中包含客户端的MAC地址信息

M-LAG场景下,不支持如下DHCP Relay功能:

·     配置DHCP中继用户地址表项记录功能;

·     配置DHCP中继支持代理功能;

·     配置DHCP中继的用户下线探测功能。

2.7  M-LAG+EVPN+微分段+服务链部署方案

2.7.1  部署方案说明

在EVPN分布式网关组网中,部署微分段对不同网段的用户实现精细分组和安全隔离,然后基于分组来部署流量控制策略,从而达到简化运维、安全管控的目的。部署服务链控制业务报文按次序通过防火墙等服务节点,实现对业务流量的过滤和保护。

图2-14 M-LAG+EVPN+微分段+服务链典型组网图

 

表2-11 M-LAG+EVPN+微分段+服务链推荐部署方案说明

部署方案

流量模型

·     Service Leaf 1和Service Leaf 2、Leaf 3和Leaf 4、Leaf 5和Leaf 6分别组成M-LAG系统,以避免单点故障造成流量转发中断,提高网络的可靠性

·     Spine A和Spine B作为路由反射器在Leaf和border之间反射路由,并进行underlay流量的转发

·     Border1 和Border2组成M-LAG系统,作为Fabric的Border,上行通过M-LAG聚合连接到外网设备,下行通过三层以太网接口连接到Spine

·     在Leaf和Border上部署微分段,对不同网段的用户实现精细分组和安全隔离,然后基于分组来部署流量控制策略,从而达到简化运维、安全管控的目的

·     在Leaf和Border部署服务链控制业务报文按次序通过防火墙等服务节点,实现对业务流量的过滤和保护

·     业务流量通过AC接入Leaf后,根据Leaf上的微分段配置被划分在不同的微分段,通过ACL匹配微分段ID,实现对不同微分段之间互访的业务流量的筛选

·     Leaf通过微分段的ACL匹配业务流量,并将匹配到的南北向业务流量的下一跳指定为NS防火墙的地址并添加服务链ID;将匹配到的东西向业务流量的下一跳指定为EW防火墙的地址并添加服务链ID

·     Service Leaf通过匹配服务链ID将报文下一跳指向NS/EW防火墙,可以基于不同的过滤和保护策略对不同方向的业务流量进行过滤和保护

·     经过NS/EW防火墙的处理的业务流量通过设备上配置的路由返回Leaf,Leaf通过查表转发将报文转发到本地站点

 

本组网模型的配置方式请参考“M-LAG+EVPN分布式网关(Underlay路由协议为OSPF)+DHCP中继+微分段+服务链配置举例”。

2.8  M-LAG+Underlay组播部署方案

二/三层组播利用M-LAG功能将两台物理设备连接起来虚拟成一台设备,使用该虚拟设备连接组播源或组播接收者,可避免单点故障对组播网络造成影响,提高组播网络可靠性。

数据中心产品对M-LAG+Underlay组播的支持情况如下表所示:

设备

软件版本

参考配置手册

S12500X-AF/S12500F-AF/S6890

二层组播:R2825版本

三层组播:R2825版本

请参考“H3C S12500X-AF系列交换机 配置指导(R28xx)”、“H3C S12500F-AF系列交换机 配置指导(R28xx)”和“H3C S6890系列交换机 配置指导(R28xx)”中“IP组播配置指导”中的如下手册:

·     IGMP Snooping配置

·     PIM配置

·     MLD Snooping配置

·     IPv6 PIM配置

S12500R

二层组播:暂不支持

三层组播:暂不支持

-

S12500G-AF

二层组播:R7625版本

三层组播:R7625版本

请参考“H3C S12500G-AF系列交换机 配置指导-R7625Pxx”中“IP组播配置指导”中的如下手册:

·     IGMP Snooping配置

·     PIM配置

·     MLD Snooping配置

·     IPv6 PIM配置

S6805/S6825/S6850/S9850

二层组播:R6710版本,仅支持IPv4

三层组播:R6710版本,仅支持IPv4

请参考 “H3C S6805 & S6825 & S6850 & S9850系列交换机 配置指导-Release 671xx”中“IP组播配置指导”中的如下手册:

·     IGMP Snooping配置

·     PIM配置

S9820-64H/S9820-8C

二层组播:暂不支持

三层组播:暂不支持

-

S6800/S6860/S6900

二层组播:暂不支持

三层组播:暂不支持

-

S6812/S6813

二层组播:暂不支持

三层组播:F6628P22版本

请参考“H3C S6812 & S6813系列以太网交换机 配置指导-R662x”中“IP组播配置指导”中的如下手册:

·     PIM配置

·     IPv6 PIM配置

 

2.9  组播VXLAN部署方案

MVXLAN(Multicast VXLAN,组播VXLAN)是一种在VXLAN或EVPN VXLAN网络中进行组播业务传输的技术,实现了点到多点的高效数据传递。

M-LAG MVXLAN部署方案是指利用M-LAG技术将MVXLAN组网中的两台VTEP/Border设备连接起来虚拟成一台设备,使用该虚拟设备作为VTEP/Border,可以避免VTEP/Border单点故障对网络造成影响,从而提高MVXLAN网络的可靠性。

组播VXLAN组网中的组播源可以位于本数据中心内、其他数据中心内或公网中。

图2-15 M-LAG MVXLAN部署方案示意图

 

表2-12 M-LAG+ MVXLAN推荐部署方案说明

部署方案

流量模型

·     Leaf作为VTEP,用于组播源和组播接收者的接入,通过部署M-LAG使组播源和组播接收者双归接入VTEP,避免单条链路故障导致组播业务无法访问

·     Spine作为路由反射器,负责在Leaf、Border之间反射路由

·     Border作为数据中心内的边界网关,实现数据中心与外部网络互通,通过部署M-LAG,避免设备故障导致无法访问外部网络

·     在数据中心内的Leaf、Spine和Border之间互联的接口上配置PIM-SM,在Leaf上配置IGMP Snooping功能用于建立组播转发表项

·     在Leaf和Border上部署组播VXLAN,用于建立MVXLAN隧道,Leaf接收到组播流量后,查找组播转发表项,将组播流量通过MVXLAN隧道转发到远端Leaf/Border

·     数据中心内的ED与其他数据中心的ED通过BGP EVPN路由感知DC外是否存在组播接收者,以此来控制ED是否将组播流量经VXLAN-DCI隧道转发至其他DC,实现按需转发组播流量

·     Leaf通过M-LAG虚拟成一台设备,拥有相同的虚拟地址,并与其他设备建立以虚拟地址为组播源地址、相同的Default-group为目的地址的MVXLAN隧道;组成M-LAG系统的两个设备通过peer-link链路同步组播流量和组播接收者加入请求(IGMP成员关系报告报文或者PIM加入报文),使成员设备上的组播源和组播接收者信息保持一致,形成设备级备份。当一台成员设备发生故障(设备故障、上下行链路故障等)时,组播流量可以由另一台成员设备进行转发,从而避免组播流量转发中断

·     Leaf接收到组播流量后,可以通过peer-link链路将组播流量转发到组成M-LAG系统的另一台成员设备上,组播流量在M-LAG系统的成员之间采用奇偶原则进行负载分担,即M-LAG系统编号为奇数的成员设备转发组播组地址为奇数的流量,M-LAG系统编号为偶数的成员设备转发组播组地址为偶数的流量。当一台设备发生故障时,另一台设备可以接替其工作,避免流量转发中断

·     Leaf与Leaf、Border之间通过MVXLAN隧道转发组播流量,远端设备通过MVXLAN隧道接收到组播流量后,将报文解封装后根据组播转发表项完成组播流量在本地的转发

 

说明

各产品对组播VXLAN的支持情况以及配置方式,请参考“M-LAG+MVXLAN配置举例”。

 

2.10  DCI部署方案

DCI部署方案是指利用M-LAG技术将EVPN组网中的两台ED设备连接起来虚拟成一台设备,使用该虚拟设备作为ED,可以避免ED单点故障对网络造成影响,从而提高EVPN网络的可靠性。

不同数据中心的ED之间可以通过口字型或交叉型链路连接。采用口字型链路连接时,需要的物理链路条数较少,成本低;采用交叉型链路连接时,本数据中心的ED与其他数据中心的同一ED之间存在多条互为备份的链路,具有更高的可靠性。例如:ED 1与ED 3之间的链路故障,ED 1上的流量需要绕行到ED 2再转发到ED 4上,而采用交叉型链路连接时,ED 1上的流量无需绕行,就可以通过ED 1与ED 4之间的链路进行转发。

对于S12500X-AF、S12500F-AF、S6890、S6800、S6860、S6900系列交换机:DCI部署方案仅支持IPv4 Underlay网络,Overlay可以为IPv4或IPv6网络。

对于S12500R/S12500G-AF/S6805/S6825/S6850/S9850交换机系列交换机,支持IPv4或者IPv6 Underlay网络,在Underlay为IPv6的时候,Overlay可以为IPv4或IPv6网络,在Underlay为IPv4的时候,Overlay可以为IPv4或IPv6网络。

图2-16 DCI部署方案示意图(以口字型连接为例)

 

表2-13 DCI推荐部署方案说明

部署方案

流量模型

·     ED设备作为数据中心的边缘设备,通过Underlay网络与对端数据中心ED建立VXLAN-DCI隧道,实现跨数据中心报文的转发

·     Leaf作为接入设备,与ED设备之间建立VXLAN隧道,实现数据中心内报文的转发

·     Spine作为路由反射器,负责在Leaf、ED之间反射路由

·     同一M-LAG系统的两台ED具有相同的虚拟地址(通过evpn m-lag group命令配置),对外表现为一台虚拟设备。其他Leaf或其他数据中心的ED使用该地址与这台虚拟设备自动建立VXLAN隧道和VXLAN-DCI隧道

·     两台ED使用不同的地址作为BGP对等体地址,分别与其他Spine或ED建立BGP EVPN邻居。利用Underlay网络的等价路由机制和配置的虚拟地址,其他Leaf或ED可以将发往虚拟ED地址的流量同时发送到两台ED,从而实现负载分担和冗余备份

·     ED与数据中心内部的Leaf建立VXLAN隧道;ED与其他数据中心内部的ED建立VXLAN-DCI隧道。ED从VXLAN隧道上接收到服务器发送的报文后,解除VXLAN封装,根据目的IP地址重新对报文进行VXLAN封装,并将其转发到VXLAN-DCI隧道。同理,ED从VXLAN-DCI隧道上接收到报文后,解除VXLAN封装后,根据目的IP地址重新对报文进行VXLAN封装,并将其转发到VXLAN隧道

 

说明

ED支持M-LAG情况以及配置方式,请参考“ED支持M-LAG配置举例”。

 

2.11  管理网部署方案分析

管理网的部署推荐带外管理。带外管理指使用设备的管理用以太网口管理设备。管理用以太网口不在设备上的转发芯片上,因此设备的转发故障不影响管理功能。大部分H3C数据中心设备提供两个管理用以太网接口(各设备管理用以太网口数目请参考表2-14),也能很好的实现管理网络的可靠性。

说明

在M-LAG系统中,主、备设备上的所有管理用以太网口都是可用的。从网络管理系统角度看,M-LAG系统的两台设备是相互独立的设备,需要分别管理。

 

表2-14 数据中心设备管理用以太网接口数量

提供两个(或两个以上)管理用以太网接口的设备

提供一个管理用以太网接口的设备

·     S12500X-AF/ S12500F-AF系列(部分主控板提供4个)

·     S12500R系列(部分主控板提供4个)

·     S12500G-AF系列

·     S6890系列

·     S6805系列

·     S6825系列

·     S6850系列

·     S9850系列

·     S9820-8C

·     S9820-64H

·     S6800-54QF(LS-6800-54QF-H3)

·     S6800-54QF(LS-6800-54QF-H5)

·     S6800-54QT(LS-6800-54QT-H3)

·     S6800-54HF

·     S6800-54HT

·     S6900-54QF-F(LS-6900-54QF-F)

·     S6900-54QF-F(LS-6900-54QF-F-H1)  

·     S6900-54QT-F

·     S6900-2F

·     S6900-4F

·     S6800-32Q

·     S6800-54QF(LS-6800-54QF)

·     S6800-54QF(LS-6800-54QF-H1)

·     S6800-54QT(LS-6800-54QT)

·     S6800-54QT(LS-6800-54QT-H1)

·     S6800-2C

·     S6800-2C-FC

·     S6800-4C

·     S6812/S6813

·     S6900-54HF-F

·     S6900-54HQF-F

·     S6900-54QF-F(LS-6900-54QF-F-H3)

 

Border、Spine、Leaf等设备通过管理用以太网接口连接带外管理网交换机,服务器通过BMC连接带外管理网交换机。带外管理网提供网关。

图2-17 带外管理示意图

 

3 M-LAG可靠性部署方案

3.1  M-LAG系统上行链路故障可靠性部署

上行链路故障可靠性部署有两种配置方式:

·     路由配置方式

两台M-LAG设备之间通过peer-link链路VLAN的VLAN接口建立路由邻居,当上行链路故障时,流量通过peer-link链路发送给对端M-LAG设备转发。

¡     如果单级M-LAG组网,下行设备M-LAG接入,上行设备ECMP接入,则M-LAG设备间需要部署逃生链路。

¡     如果是多级M-LAG组网,则下级M-LAG系统(二层)的M-LAG设备间不需要部署逃生链路。

·     Monitor Link配置方式

配置Monitor Link后,上行链路故障时触发下行链路切换。本方式适用于跨peer-link链路流量较大,peer-link链路带宽存在瓶颈的情况。

M-LAG+EVPN组网中,通过Monitor Link实现上行链路故障可靠性的配置方式请参见“M-LAG+EVPN组网+Monitor Link配置举例”。

3.2  Leaf可靠性部署方案

在M-LAG组网的Leaf节点,需要进行可靠性的规划和相应的配置,请参见图3-1表3-1

图3-1 Leaf可靠性部署方案要点示意图

 

表3-1 Leaf可靠性部署方案说明

故障序号

故障场景

影响分析

推荐部署方案

1

Leaf设备故障

·     设备重启时,业务流量快速切换到Leaf 2

·     设备重启完成重新加入网络时,peer-link链路先UP,M-LAG设备Leaf 2将MAC地址表项、ARP表项等信息通过peer-link链路发送给Leaf 1,进行M-LAG设备之间的表项同步。然后,Leaf 1上M-LAG成员端口经过延迟恢复时间(m-lag restore-delay配置时间)后恢复UP。所有接口刷新表项后,业务口状态变为UP

-

2

Leaf与Spine链路故障

·     Leaf 1与Spine 1链路故障,上行流量切换至Spine 2

·     Leaf 1到两台Spine的链路都处于down状态,流量走peer-link链路绕行到Leaf 2

-

3

Leaf与Server链路故障(M-LAG接入)

Server通过M-LAG双归接入到Leaf,一条链路故障,流量快速切换到另外一条链路,链路故障恢复后,流量快速回切

-

Leaf与Server链路故障(服务器主备接入)

Server通过两条物理链路分别接入到两台M-LAG设备上(端口不需要加聚合,只有一条链路处于工作状态),如果其中一条链路故障,流量快速切换到另一条链路(设备侧保证两个端口配置一致)。当故障链路恢复时,流量是否回切取决于服务器的配置(推荐网卡设置主链路故障恢复后不抢占主角色或者延迟抢占)

-

4

Keepalive链路故障

Keepalive链路只在设备和peer-link链路故障场景下起作用,通过交互Keepalive报文来进行peer-link链路故障时的双主检测

·     不承载流量,故障场景无影响

·     Keepalive口配置为M-LAG保留接口

5

peer-link链路down(成员链路全部故障

·     peer-link链路故障,Keepalive链路检测后,将备Leaf的上行口和下行口置于M-LAG MAD DOWN状态,流量快速切换到另一台Leaf

·     peer-link链路故障恢复后,所有处于M-LAG MAD DOWN的端口经过延迟恢复时间(m-lag restore-delay配置时间)后恢复UP,端口UP后,流量快速回切

peer-link链路跨板/子卡提高可靠性,极大降低peer-link链路故障概率

6

Keepalive链路和peer-link链路同时故障(M-LAG接入)

Keepalive链路先故障,peer-link链路后故障:则M-LAG设备上的接口不会被置为M-LAG MAD DOWN状态,将立即或延迟一段时间切换到设备独立工作模式,切换到独立工作模式以后,由于组成M-LAG系统的两台设备的LACP System ID不一致了,仅有一台M-LAG设备上的聚合成员口可以被选中,流量由存在选中端口的M-LAG设备转发

peer-link链路先故障,Keepalive链路后故障,处理结果和Keepalive链路先故障peer-link链路后故障类似。区别是peer-link链路先故障后M-LAG备设备上的端口会先置为M-LAG MAD Down状态,Keepalive链路也故障后,M-LAG备设备上的端口会解除M-LAG MAD Down状态,然后设备进入独立运行模式

·     使用m-lag standalone enable命令开启M-LAG设备独立工作功能

·     配置LACP System ID,使用如下两组命令之一:在系统视图下执行lacp system-maclacp system-priority命令;在二层聚合接口视图下执行port lacp system-macport lacp system-priority命令

Keepalive链路和peer-link链路同时故障(服务器主备接入)

peer-link链路先故障,Keepalive链路后故障:从设备上的接口会解除M-LAG MAD DOWN状态,并升级为主设备,使M-LAG系统中的两台设备都作为主设备转发流量,引起网络故障。为了避免以上情况,可以在设备上开启M-LAG MAD DOWN状态保持功能(m-lag mad persistent命令),使从设备上的接口一直处于M-LAG MAD DOWN状态,不参与流量转发。需要注意的是,如果主设备出现故障,从设备也不能解除MAD DOWN状态,需要执行m-lag mad restore手工恢复

Keepalive链路先故障,peer-link链路后故障:尽快修复链路故障

根据需要选配m-lag mad persistent命令

 

3.3  Border可靠性部署方案

在M-LAG组网的Border节点,需要进行可靠性的规划和相应的配置,请参见图3-2表3-2

图3-2 Border可靠性部署方案要点示意图

表3-2 Border可靠性部署方案说明

故障序号

故障场景

影响分析

推荐部署方案

1

Border设备故障

·     设备重启时,业务流量快速切换到Border 2

·     设备重启完成重新加入网络时,peer-link链路先UP,M-LAG设备Border 2将MAC地址表项、ARP表项等信息通过peer-link链路发送给Border 1,进行M-LAG设备之间的表项同步。然后,Border 1上M-LAG成员端口经过延迟恢复时间(m-lag restore-delay配置时间)后恢复UP。所有接口刷新表项后,业务口状态变为UP

-

Border单板故障

如果上行链路或者下行链路连接到不同单板,在Border单板故障时,流量将会切换到本设备其他单板;如果其他单板上也没有可用链路,流量通过对端设备处理

Border为多单板/多子卡设备时,建议上、下行链路设置在不同单板/子卡上,并且上行链路和下行链路不全在同一单板/子卡上

2

上行链路或设备故障

Border与PE链路故障后,流量快速切换到备份路径,链路故障恢复后,路由快速回切,回切速度与PE侧处理有关

Border进行如下配置以减少PE侧收敛慢带来的丢包(路由量较少或者PE侧收敛快的情况下不需要配置):

对于IS-IS/OSPF/OSPFv3,isis peer hold-max-cost durationospf peer hold-max-cost durationospfv3 peer hold-max-cost duration命令配置通告给邻居的链路开销值保持最大值的持续时间;如果是设备故障场景,对于BGP,可以配置bgp apply-policy on-startup duration seconds为BGP应用启动策略并通过bgp policy on-startup med命令配置启动策略中的MED值,seconds值需大于PE和Border建立邻居的时间

3

Border与FW、LB链路故障

FW/LB通过M-LAG双归接入到Border,一条链路故障,流量快速切换到另外一条链路,链路故障恢复后,流量快速回切

-

Border与Spine链路故障

Spine通过三层接口ECMP接入到Border,一条链路故障,流量通过路由收敛切换到另外一条链路

4

Keepalive链路故障

Keepalive链路只在设备和peer-link链路故障场景下起作用,通过交互Keepalive报文来进行peer-link链路故障时的双主检测

·     不承载流量,故障场景无影响

·     Keepalive口配置为M-LAG保留接口

5

peer-link链路down(成员链路全部故障

·     peer-link链路故障,Keepalive链路检测后,将备Leaf的上行口和下行口置于M-LAG MAD DOWN状态,流量快速切换到另一台Border

·     peer-link链路故障恢复后,所有处于M-LAG MAD DOWN的端口经过延迟恢复时间(m-lag restore-delay配置时间)后恢复UP,端口UP后,流量快速回切

peer-link链路跨板/子卡提高可靠性,极大降低peer-link链路故障概率

6

Keepalive链路和peer-link链路同时故障

Keepalive链路先故障,peer-link链路后故障:则M-LAG设备上的接口不会被置为M-LAG MAD DOWN状态,将立即或延迟一段时间切换到设备独立工作模式,切换到独立工作模式以后,由于组成M-LAG系统的两台设备的LACP System ID不一致了,仅有一台M-LAG设备上的聚合成员口可以被选中,流量由存在选中端口的M-LAG设备转发

peer-link链路先故障,Keepalive链路后故障,处理结果和Keepalive链路先故障peer-link链路后故障类似。区别是peer-link链路先故障后M-LAG备设备上的端口会先置为M-LAG MAD Down状态,Keepalive链路也故障后,M-LAG备设备上的端口会解除M-LAG MAD Down状态,然后设备进入独立运行模式

·     使用m-lag standalone enable命令开启M-LAG设备独立工作功能

·     配置LACP System ID,使用如下两组命令之一:在系统视图下执行lacp system-maclacp system-priority命令;在二层聚合接口视图下执行port lacp system-macport lacp system-priority命令

 

4 推荐的设备款型与版本

注意

·     在推荐版本的基础上,请安装最新补丁(如果有)。

·     本节所列版本如与特性配置举例中的适用设备及版本冲突,请以特性配置举例中的适用设备及版本为准,如仍有无法确定的信息,请联系技术支持。

 

表4-1 推荐的设备款型与版本

设备角色

应用场景

设备型号

推荐版本

Border/ED

中大型规模网络

·     S12500X-AF/S12500F-AF H系列单板

·     S12500R K系列单板

·     S12500G-AF全系列单板

·     S12500X-AF/S12500F-AF H系列单板:R2825

·     S12500R K系列单板:R5210及以上版本

·     S12500G-AF全系列单板:R7625及以上的版本

小型规模网络

同Leaf角色

同Leaf角色版本

Spine

-

S12500X-AF/S12500F-AF H系列单板

R2825

S12500R K系列单板

R5210及以上版本

S12500G-AF全系列单板

R7625及以上的版本

Leaf

10GE接入

·     S6800

·     S6860

·     S6805

·     S6850-2C/S9850-4C配置10GE接口卡

·     S6890

·     S6812/S6813

·     S6900

·     S6800/S6860:R6710

·     S6900:R2910

·     S6805/S6850/S9850:R6710

·     S6890:R2825

·     S6812/S6813:F6628P22

25GE接入

·     S6825

·     S6850-56HF

·     S6850-2C/S9820-4C配置25GE接口卡

S6825/S6850/S9850:R6710

40GE接入

·     S6800

·     S6850-2C/S9850-4C配置40GE接口卡

·     S6900-2F/ S6900-4F配置40GE接口卡

·     S6800:R6710

·     S6900:R2910

·     S6850/S9850:R6710

100GE接入

·     S9850-32H

·     S6850-2C/S9850-4C配置100GE接口卡

·     S9820-8C

·     S9820-64H

S6850/S9850/S9820-8C/S9820-64H:R6710

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。 H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们