H3C RoCE网络开局一本通

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

除新华三技术有限公司的商标外，本手册中出现的其它公司的商标、产品标识及商品名称，由各自权利人拥有。

本文档中的信息可能变动，恕不另行通知。

1 RoCE网络概述··· 6

1.1 RDMA的产生背景·· 6

1.2 RDMA技术分类·· 7

1.3 为什么RoCEv2协议需要无损网络环境·· 7

1.4 智能无损网络的技术架构·· 8

2 构建RoCE网络的智能无损以太网关键技术··· 9

2.2.2 ECN Overlay· 17

2.3 智能无损存储网络技术（iNOF）·· 26

2.3.1 iNOF简介·· 26

2.3.2 iNOF组网·· 26

2.3.3 技术优点·· 28

2.3.4 H3C iNOF实现的技术特色·· 28

3 RoCE网络的典型应用场景··· 39

3.2 高性能无损存储网络（高性能计算中心/金融等场景）·· 45

4.1.1 小规模组网（单框/单盒）·· 48

4.1.2 中大规模组网（Leaf-Spine架构）·· 48

4.2 参数网配置举例（S9825二层盒盒400G端口组网）·· 49

5 RoCE高性能存储网络介绍··· 60

5.1 组网方案·· 60

5.1.1 小规模组网·· 60

5.1.2 中大规模组网·· 61

5.2 集中式存储典型配置举例（盒式-盒式）·· 61

5.3 集中式存储典型配置举例（框式-盒式）·· 84

5.4 集中式存储典型配置举例（框式-框式）·· 108

5.5 分布式存储前端网络RDMA/TCP融合组网典型配置举例·· 133

5.6 分布式存储后端网络典型配置举例·· 150

6.3 推荐值（S9825&S9855）·· 157

6.4.3 配置网卡接口信任报文的DSCP优先级·· 159

6.4.4 设置CNP报文的DSCP优先级·· 159

6.4.5 开启RoCE队列的PFC功能·· 159

6.4.6 开启RoCE队列的ECN功能·· 159

6.5 参数调整（国产芯片设备S12500G-AF/S12500CR/S6850-G）·· 160

6.5.1 配置限制和指导·· 160

6.5.2 观察是否存在丢包·· 160

6.5.3 观察时延是否满足需求·· 163

6.6 参数调整（S9825&S9855）·· 164

6.6.1 配置限制和指导·· 164

6.6.2 观察是否存在丢包·· 164

6.6.3 观察时延是否满足需求·· 165

7 RoCE网络运维··· 167

7.1 AD-DC实现AI网络全程监控·· 167

7.2 AD-DC方案RoCE网络能力简述·· 167

7.3 RoCE自动化：算网协同、AIDC参数网一键部署·· 168

7.4 RoCE可视·· 169

7.4.1 支持RoCE全栈纳管可视化·· 169

7.4.2 支持异常拓扑连线告警·· 170

7.5 RoCE流量分析：AD-DC海量数据归类细化关联分析·· 170

7.6 RoCE调优·· 172

8 400G/200G光模块和线缆推荐··· 172

8.1 400G/200G光模块及线缆推荐·· 172

8.2 200G/400G 端口拆分和降速方案·· 173

9 RoCE网络典型故障FAQ·· 175

9.1 光模块故障·· 175

9.2 网卡故障·· 175

9.3 RoCE网络参数故障·· 175

10 HASH负载分担不均典型问题处理··· 176

10.1 什么是负载分担不均·· 176

10.2 负载分担不均一般处理原则·· 176

10.3 HASH负载分担调整命令·· 176

10.4 HASH极化·· 177

10.5 跨IRF成员设备ECMP或聚合是否开启了本地优先转发功能·· 178

10.6 增加成员接口数量，建议出接口总数目为2的N次方·· 178

10.7 其他常见HASH功能·· 178

11 光模块的诊断和故障处理··· 180

11.1 简介·· 180

11.2 工作原理·· 180

11.3 光模块在网络中的位置·· 181

11.9 光模块常见问题FAQ·· 193

11.9.1 如何根据客户光纤链路的情况选择使用哪种传输距离的光模块？·· 193

11.9.2 光纤及光模块端面如何进行清洁？·· 193

11.9.3 光模块能否外环或者用短光纤对接？·· 196

11.9.4 接口有CRC错误或Local Fault一定是本端口的问题吗？·· 196

11.9.5 为什么H3C光模块条码插在其他友商设备上与H3C读到的不一致？·· 197

11.9.6 H3C千兆电口光模块（SFP-GE-T）无法读取制造信息或条码是否正常？·· 197

11.9.7 40G和100G长距光模块光功率诊断数值为何与光功率计实测的不一致？·· 197

11.9.8 100G QSFP28 SR4/eSR4光模块到底是用8芯跳线还是12芯跳线？·· 197

1 RoCE网络概述

1.1 RDMA的产生背景

随着高性能计算、大数据分析、人工智能以及物联网等技术的飞速发展，集中式存储、分布式存储以及云数据库的普及，业务应用有越来越多的数据需要从网络中获取，这些应用对数据中心网络的交换速度和性能要求越来越高。

传统的TCP/IP软硬件架构及应用存在着网络传输和数据处理的延迟过大、存在多次数据拷贝和中断处理、TCP/IP协议处理消耗CPU资源等问题。RDMA（Remote Direct Memory Access，远程直接内存访问）技术的内核旁路机制允许应用与网卡之间直接读写数据，使得服务器内的数据传输时延降低。同时，RDMA利用相关的硬件和网络技术，使服务器网卡之间可以直接读内存，实现了高吞吐量、超低时延下低CPU开销的效果。

与TCP/IP协议相比，RDMA具有以下优势：

· 低时延：RDMA的内核旁路机制，允许应用与网卡之间的直接数据读写，将服务器内的数据传输时延降低到接近1微秒。

· 低CPU负载：RDMA的内存零拷贝机制，允许接收端直接从发送端的内存读取数据，极大的减少了CPU的负担，提升了CPU的效率。

图1-1 传统TCP/IP数据传输过程

图1-2 RDMA数据传输过程

1.2 RDMA技术分类

目前，RDMA网络主要有IB、iWAPR和RoCE三种类型。

· IB（InfiniBand，无限带宽）：基于InfiniBand架构的RDMA技术，由IBTA（InfiniBand Trade Association）提出。搭建基于IB技术的RDMA网络需要专用的IB网卡和IB交换机，主要应用于高性能计算用户，成本较高。

· iWARP（Internet Wide Area RDMA Protocal，互联网广域RDMA协议）：iWARP是基于TCP/IP协议的RDMA技术，由IETF标准定义。iWARP支持在标准以太网基础设施上使用RDMA技术，但服务器需要使用支持iWARP的网卡。

· RoCE（RDMA over Converged Ethernet，融合以太网RDMA协议）：RoCE是基于以太网的RDMA技术，也是由IBTA提出。RoCE支持在标准以太网基础设施上使用RDMA技术，但是需要交换机支持无损以太网传输，需要服务器使用RoCE网卡。

其中ROCE分为RoCEv1和RoCEv2两代。

· RoCEv1协议：基于以太网承载RDMA，RoCEv1协议是一种以太网链路层协议，允许同一以太网广播域（VLAN）中的两个主机进行通信，只能部署于二层网络，它的报文结构是在原有的IB架构的报文上增加二层以太网的报文头，使用以太网类型（EtherType）0x8915标识RoCE报文。

· RoCEv2协议：基于UDP/IP协议承载RDMA，可部署于三层网络，它的报文结构是在原有的IB架构的报文上增加UDP头、IP头和二层以太网报文头，通过UDP目的端口号4791标识RoCE报文。RoCEv2支持基于源端口号HASH，采用ECMP实现负载分担，提高了网络的利用率。RoCEv2协议克服了RoCEv1仅限于单个广播域（VLAN）的限制。RoCEv2可以在L2和L3网络中使用，它通过改变数据包的封装方式，包括IP和UDP报头，实现L3路由功能。这使得RoCEv2可以在具有多个子网的网络中使用，从而实现更好的可扩展性。

1.3 为什么RoCEv2协议需要无损网络环境

当前分布式存储、HPC高性能计算、AI人工智能等场景均采用RoCEv2（RDMA over Converged Ethernet version 2）作为以太网上的传输协议来降低传输时延和CPU负担。

RoCEv2网络是基于无连接协议的UDP协议，相比于TCP协议，UDP协议传输速率更高、占用CPU资源更少，但是由于其不像TCP协议那样有滑动窗口、确认应答等机制来实现可靠传输，出现网络丢包时，依靠上层应用检查到后再做重传，会大大降低RDMA网络的传输效率。所以为了发挥出RDMA真正的性能，突破数据中心大规模分布式系统的网络性能瓶颈，就需要为RDMA搭建一套不丢包的无损网络环境，其关键就是解决网络拥塞。因此，以太网交换机需要支持无损网络的部署才能支持RoCEv2协议及其相关应用。

1.4 智能无损网络的技术架构

在RoCE网络中，我们需要构建智能无损以太网用于保证网络传输过程中不丢包。

智能无损网络一方面通过流量控制技术和拥塞控制技术来提升网络整体的吞吐量，降低网络时延，另一方面通过智能无损存储网络等技术实现网络和应用系统融合优化。根据智能无损网络技术和TCP/IP协议栈的对应关系，智能无损网络的技术架构如图1-3所示：

图1-3 智能无损网络的技术架构

在智能无损网络中，PFC和ECN是必须配置的特性，其他特性可以根据实际情况进行选择性配置。

· 在物理硬件层，智能无损网络需要支持智能无损算法的AI芯片和转发/交换芯片的支持。

· 在数据链路层，部署流量控制技术PFC（Priority-based Flow Control，基于优先级的流量控制），同时预防PFC死锁问题。PFC技术由IEEE 802.1Qbb定义，用于解决拥塞丢帧问题。

· 在网络层，智能无损网络可以应用如下拥塞控制技术：

¡ ECN（Explicit Congestion Notification，显式拥塞通知）技术：ECN是一种端到端的网络拥塞通知机制，它允许网络在发生拥塞时不丢弃报文，在RFC 3168中定义。

¡ ECN Overlay技术：将ECN技术应用到VXLAN网络中，以实现VXLAN网络中端到端的拥塞通知机制。

¡ 大小流区分调度：设备端口转发报文时使用QoS的拥塞管理技术进行队列调度，提供不同的服务标准。网络中流量被管理员区分为大小流，并区分调度，以保证大流的吞吐率和小流的时延需求。

¡ 大小流自适应缓存：在设备上，小流队列和大流队列共享一块缓存空间来调度报文。开启大小流自适应缓存功能可以动态调节小流队列和大流队列所占共享缓存空间的大小。

¡ AI ECN功能：AI ECN结合了智能算法，可以根据智能算法对现网流量模型进行预测，并动态调整ECN的门限。

¡ IPCC（Intelligent Proactive Congestion Control，智能主动拥塞控制）是一种以网络设备为核心的主动拥塞控制技术，可以根据设备端口的拥塞状态，准确控制服务器发送RoCEv2报文的速率。

· 在传输层可以采用ECMP等技术对网络中的流量进行负载分担：

¡ ECMP（Equal-Cost Multipath Routing，等价多路径路由）：路由表中到达同一目的地址的多个优先级和开销值相同、下一跳不同的多条路由构成等价路由。匹配等价路由的报文在多个下一跳上进行负载分担。

¡ DLB（Dynamic load balance，动态负载均衡）在芯片引入了硬件流表（FlowSet），可以记录某条流的状态，结合等价路径的状态信息，可以实现根据实时拥塞状态的等价路径成员的动态选择，优先选择负载较轻的链路进行转发。

¡ LBN（Load Balance Network，负载均衡网络）是一种网络级别的负载均衡技术。通过对端口进行分组和智能编排，形成入口和出口之间的一对一映射关系，将流量精准地负载分担到不同的出口，以提升网络吞吐率。

¡ SprayLink是一种端网融合负载均衡方案，由网络侧进行等价路由负载分担，由主机侧对负载分担后的报文进行乱序调整。网络侧逐包选择负载较轻的链路进行负载分担，解决传统等价路由负载分担不均，无法充分利用链路带宽的问题。

¡ GLB（Global Load Balancing，全局负载均衡）特性是在DLB特性基础上的一个功能扩展，主要是为了解决数据中心多跳网络中出现远端设备负载不均衡的问题。GLB在进行负载分担时会选择报文从本设备到目的设备之间负载最轻的链路。

· 在应用层，智能无损网络提供了iNOF（Intelligent Lossless NVMe Over Fabric，智能无损存储网络）功能，通过对iNOF主机的快速管控，提升存储网络的易用性，实现以太网和存储网络融合。

2 构建RoCE网络的智能无损以太网关键技术

2.1 流量控制技术

PFC（Priority-based Flow Control，基于优先级的流量控制）是构建无损以太网的必选手段之一，能够逐跳提供基于优先级的流量控制。

2.1.1 PFC工作原理

PFC允许网络设备根据不同的数据流的802.1p优先级进行流量控制。PFC允许在一条以太网链路上创建8个虚拟通道，并为每条虚拟通道指定一个802.1p优先等级。当特定优先级的流量拥塞时，网络设备可以向对端设备发送反压信号（PFC PAUSE帧），要求对端设备停止发送特定优先级的流量，以防止缓冲区溢出和数据丢失。这种个别流量控制方式允许网络在某些流量拥塞时保持流畅，同时防止对其他流量造成干扰。

如图2-1所示，Device A和Device B之间存在多个802.1p优先级的流量，每个优先级的流量采用单独的虚拟通道转发。当Device B设备指定优先级的报文发生拥塞时，设备会根据本端收到报文的802.1p优先级进行判别，从而确定对报文的处理方式：

· 如果Device B收到报文的802.1p优先级开启了PFC功能，则接收该报文，并向对端Device A发送PFC PAUSE帧，通知对端设备暂时停止发送该类报文。

· 对端Device A设备在接收到PFC PAUSE帧后，将暂时停止向本端发送该类报文。当拥塞仍然存在时，此过程将重复进行，直至拥塞解除。

· 如果Device B收到报文的802.1p优先级未开启PFC功能，则直接将报文丢弃。

· Device B收到的其他802.1p优先级的报文不受影响，可以正常处理。

如果Device A发生拥塞，也会采用上述过程通知Device B之停止发送该优先级的流量。

图2-1 PFC工作原理示意图

如图2-2所示，当Device B的出接口上某个队列产生拥塞时，导致本设备对应流量的入接口缓存超过门限，Device B向所有上游设备（数据报文的来源）发送PFC PAUSE帧。Device A接收到PFC PAUSE，会根据PFC PAUSE的指示，停止发送对应优先级的报文，并将数据存储到本地接口的缓存空间。如果Device A本地接口的缓存消耗超过缓存门限，则也向上游设备发送PFC PAUSE。如此，一级一级的发送PFC PAUSE，直到抵达网络终端设备，从而消除网络节点因拥塞造成的丢包。Device E接收到PFC PAUSE后，对该队列报文进行缓存，未达到Device E的缓存门限时，不向上游设备发送PFC PAUSE。

图2-2 多级设备之间的PFC PAUSE帧处理示意图

2.1.2 PFC死锁检测

1. PFC死锁的产生

PFC死锁是指多个设备之间，因为环路等原因，同时出现了拥塞（各自端口缓存消耗超过了阈值），又都在等待对方释放资源，从而导致的“僵持状态”（所有交换机的数据流永久堵塞）。

如图2-3所示，多个设备发生拥塞后互相发送PFC PAUSE帧，使PFC PAUSE帧在网络内泛洪，导致网络内设备无法转发报文，使整网业务瘫痪。

图2-3 PFC死锁产生示意图

2. 触发PFC死锁检测

如图2-4所示，Device B的端口Interface收到来自Device A的PFC PAUSE帧后，停止发送对应优先级队列的报文。Device B启动PFC死锁检测定时器，在检测周期内检测该优先级队列收到的PFC PAUSE帧。

图2-4 触发PFC死锁检测示意图

3. PFC死锁判定

如图2-5所示，如果在PFC死锁检测周期内，Device B上端口Interface的指定优先级队列一直处于PFC XOFF（PFC反压帧触发门限）状态，即在检测周期内该优先级队列持续不断地收到PFC PAUSE帧，则Device B判定Device A发生死锁，进入死锁状态。

图2-5 PFC死锁判定示意图

PFC反压帧触发门限是缓冲区中某802.1p优先级报文在该存储空间使用的资源上限。该802.1p优先级报文占用的资源达到上限后，会触发设备发送PFC PAUSE帧。

4. PFC死锁恢复

设备检测到某个接口发生死锁后，将启动自动恢复定时器。在自动恢复周期内，设备将关闭该接口的PFC功能和PFC死锁检测功能，以忽略接口收到的PFC PAUSE帧。同时，设备对数据报文执行转发或丢弃动作（由管理员手工配置），以规避PFC死锁问题。

在自动恢复定时器超时后，设备将开启PFC功能和PFC死锁检测功能。如果经过死锁恢复后，仍不断出现PFC死锁现象，管理员可以设置PFC死锁的触发上限，当PFC死锁发生次数到达上限后，设备将强制关闭PFC功能和PFC死锁检测功能。待排除故障后，需要管理员手工恢复PFC功能和PFC死锁检测功能。

2.1.3 PFC死锁预防

PFC死锁预防是指设备通过识别易造成PFC死锁的业务流，修改队列优先级，从而预防PFC死锁的发生。

1. PFC死锁预防的产生背景

如图2-6所示，正常情况下，业务流量转发路径为A-B-C-D。当网络的防环机制出现问题时，将会导致业务流量从D向A转发。故障流量在A-B-C-D间转发，形成环路。如果网络设备A~D接口的缓存空间中使用的资源达到PFC XOFF门限，则网络设备向故障流量的上游发送PFC PAUSE帧。PFC PAUSE帧在环网中持续发送，最终导致所有设备进入PFC死锁状态，整网断流。

图2-6 环网PFC死锁示意图

2. PFC高风险业务流

PFC死锁预防功能中定义了端口组概念，如图2-7所示，设备D上interface 1与interface 2属于同一端口组。当设备D检测到同一条业务流从属于该端口组的接口上进出，即说明该业务流是一条高风险业务流，易形成PFC PAUSE帧环路，引起PFC死锁。

具有相同PFC死锁预防功能配置的接口属于同一端口组。有关PFC死锁预防功能配置，请参见相关配置手册。

图2-7 PFC高风险业务流

3. PFC死锁预防工作原理

目前，PFC死锁预防仅针对携带DSCP值的业务流量。

设备收到报文后，会根据报文的DSCP值以及设备上dscp-lp的映射关系，将该报文加入指定lp优先级的队列转发。PFC死锁预防功能工作原理为：

(1) 部署端口组：管理员提前规划，将可能产生PFC PAUSE帧的接口划分到同一端口组。例如，一台Leaf交换机，将其上行口划分到同一端口组中。

(2) 识别高风险业务流。

(3) 修改映射关系：设备收到报文后，修改报文的DSCP值和对应的lp优先级，使报文在新的lp优先级队列中使用新的DSCP值转发。

如图2-8所示，Device A发送指定DSCP值的业务流量。Device B收到业务流量后，根据报文的DSCP值以及设备上dscp-lp的映射关系，让业务流量在队列1中转发。如果Device B检测到该业务流量为高风险业务流，易引起PFC死锁，则Device B会修改业务流量队列优先级，使业务流量切换到队列2转发，这样就可以规避队列1可能产生的PFC PAUSE帧，预防PFC死锁的产生。

图2-8 PFC死锁预防工作原理示意图

2.2 拥塞控制技术

拥塞控制是指对进入网络的数据总量进行控制，使网络流量保持在可接受水平的一种方法。拥塞控制与流量控制的区别在于：

· 流量控制是由接收端来控制数据传输速率，防止发送端过快的发送速率引起接收方拥塞丢包；

· 拥塞控制是一个全网设备协同的过程，所有主机和网络中的转发设备均参与控制网络中的数据流量，以达到网络无丢包、低时延、高吞吐的目的。

在现网中，流量控制和拥塞控制需要配合应用才能真正解决网络拥塞。

在当前的数据中心网络中，ECN功能是应用最广泛的一种拥塞控制方法，本章节介绍ECN、ECNOverlay、大小流区分调度、AI ECN和IPCC等功能的基本原理。

2.2.1 ECN

1. 基本概念

ECN（Explicit Congestion Notification，显式拥塞通知）是一种拥塞通知技术，ECN功能利用IP报文头中的DS域来标记报文传输路径上的拥塞状态。支持该功能的终端设备可以通过报文中的ECN标记判断出传输路径上是否发生了拥塞，从而调整报文的发送方式，避免拥塞加剧。

在RFC 2481标准中，IP报文头中DS域的最后两个比特位被定义为ECN域，并进行了如下定义：

· 比特位6用于标识发送端设备是否支持ECN功能，称为ECT位（ECN-Capable Transport）

· 比特位7用于标识报文在传输路径上是否经历过拥塞，称为CE位（Congestion Experienced）

图2-9 IPv4报文头中的ECN域示意图

如图2-9所示以IPv4报文为例，RFC 3168对ECN域的取值进行如下规定：

· ECN域的取值为00时，表示该报文不支持ECN功能。

· ECN域的取值为01或者10时，表示该报文支持ECN功能，分别记为ECT（0）或ECT（1）。

· ECN域的取值为11时，表示该报文在转发路径上发生了拥塞，记为CE。

2. 实现原理

ECN功能需要和WRED策略配合应用。

如图2-10所示，没有开启ECN功能的WRED策略按照一定的丢弃策略随机丢弃队列中的报文，WRED策略为每个队列都设定上限长度QL_max和下限长度QL_min，对队列中的报文进行如下处理：

· 当队列的长度小于下限QL_min时，不丢弃报文；

· 当队列的长度超过上限QL_max时，丢弃所有到来的报文；

· 当队列的长度在上限QL_max和下限QL_min之间时，开始随机丢弃到来的报文。队列越长，丢弃概率越高，队列丢弃概率随队列长度线性增长，不超出最大丢弃概率x%。

图2-10 WRED丢弃概率与队列长度示意图

· 如图2-11所示，在部署ECN功能的WRED策略的组网图中，存在三类设备角色：

· 转发设备（Congestion Point）：报文在网络中转发路径上经过的设备，转发设备支持ECN功能，可以识别报文中ECN域的取值。报文在转发设备的接口上可能发生拥塞，所以转发设备又称为Congestion Point，转发设备需要部署ECN功能的WRED策略。

· 报文接收端（Notification Point）：接收端设备网卡支持ECN功能，可以识别报文中取值为01、10或者11的ECN域。接收端同时作为拥塞通知的发起设备，收到ECN域取值为11的报文时，将每隔时间周期T1发送拥塞通知报文给报文发送端，要求发送端降低报文发送速率。

· 报文发送端（Reaction Point）：发送端设备网卡支持ECN功能，从发送端发出报文的ECN域的取值为01或者10。发送端同时作为拥塞通知的应答设备，收到拥塞通知时，将以一定的降速比率降低当前自身发送报文的发送速率，并开启计时器，当计时器超出时间T2（T2>T1）后，发送端设备未再次收到拥塞通知，则发送端认为网络中不存在拥塞，恢复之前的报文发送速率。当计时器在时间T2（T2>T1）内，发送端设备再次收到拥塞通知，则发送端进一步降低报文发送速率。

图2-11 部署ECN功能的WRED策略的组网图

部署了ECN功能的WRED策略的转发设备（Congestion Point）对接收到的数据报文进行识别和处理的具体处理方式如下：

· 当转发设备的报文在出方向进入队列排队，该队列的长度小于下限QL_min（QL_min也称为ECN低门限）时，不对报文进行任何处理，转发设备直接将报文从出接口转发。

· 当转发设备的报文在出方向进入队列排队，该队列的长度大于下限QL_min但小于上限QL_max（QL_max也称为ECN高门限）时：

¡ 如果设备接收到的报文中ECN域取值为00，表示报文发送端不支持ECN功能，转发设备按照未开启ECN功能的WRED策略处理，即随机丢弃接收的报文。

¡ 如果设备接收到的报文中ECN域取值为01或者10，表示报文发送端支持ECN功能，将按照WRED策略中的线性丢弃概率来修改部分入方向报文的ECN域为11后继续转发该报文，所有入方向接收到的报文均不丢弃。

¡ 如果设备接收到的报文中ECN域取值为11，表示该报文在之前的转发设备上已经出现拥塞，此时转发设备不处理报文，直接将报文从出接口转发。

· 当转发设备的报文在出方向进入队列排队，该队列的长度大于上限QL_max时：

¡ 如果设备接收到的报文中ECN域取值为00，表示报文发送端不支持ECN功能，转发设备按照未开启ECN功能的WRED策略处理，即丢弃接收的报文。

¡ 如果设备接收到的报文中ECN域取值为01或者10，表示报文发送端支持ECN功能，将100%修改入方向报文的ECN域为11后继续转发该报文，所有入方向接收到的报文均不丢弃。

¡ 如果设备接收到的报文中ECN域取值为11，表示该报文在之前的转发设备上已经出现拥塞，此时转发设备不处理报文，直接将报文从出接口转发。

合理设置ECN门限可以缓解拥塞的同时保证网络的时延和吞吐率。

上述ECN域标识的修改过程是转发设备在出方向报文检测到拥塞后，修改入方向报文ECN域标识。设备在处理过程中存在一定延时，为了加快该流程，转发设备在出方向队列检测到拥塞后，直接修改出方向报文的ECN域标识，这个技术称为Fast ECN。

相较于未部署ECN功能的WRED策略，部署了ECN功能的WRED策略具备如下优势：

· 通过合理设置WRED策略中队列长度的下限值，可以使转发设备提前感知到路径上的拥塞，并由报文接收端通知报文发送端放缓发送速率。

· 在转发设备上，对超出队列长度上限值的报文仅标记ECN域为11，而不再丢弃报文，避免网络中报文丢弃和重传的过程，减少了网络时延。

· 网络中出现拥塞时，发送端在一定时间内逐步降低报文发送速率，在拥塞现象消失后，发送端逐步提升报文发送速率，避免出现网络吞吐量在拥塞前后快速振荡的情况。

2.2.2 ECN Overlay

1. 基本概念

ECN Overlay功能是指在VXLAN网络中使用ECN功能，即在VXLAN网络中设备出接口发生拥塞时，报文的ECN域可以被标记为CE，并且设备可以正常传递携带CE标记的报文，而不会丢失ECN域中的标记信息。

2. 实现原理

VXLAN网络中拥塞发生的位置不同，报文ECN域处理流程和传递ECN信息的过程略有不同。如图2-12所示，VXLAN隧道入节点的出接口发生拥塞为例，报文ECN域处理流程和传递ECN信息的过程为：

(1) ECN信息的映射：在VXLAN隧道的发起端检测到拥塞时，设备将原始IP报文的ECN域标记为CE。报文发送时，将原始IP报文进行VXLAN封装，此时设备将原始IP报文ECN域的CE映射到VXLAN报文外层IP头部的ECN域中。

(2) ECN信息的传递：在VXLAN网络中传递的报文将携带CE标记，Underlay的中转设备不进行修改。

(3) ECN信息的恢复：在VXLAN隧道的终结端解封装VXLAN报文时，执行第一步中相反的操作，即设备将VXLAN报文外层IP头部的ECN域中的信息复制到原始IP报文的ECN域中。

如果VXLAN网络的中转发设备的出接口上发生拥塞，则仅在Underlay的中转设备上标记VXLAN报文外层IP头部的ECN域，并且在VXLAN隧道的终结端将ECN域中的信息复制到原始IP报文的ECN域中。如果VXLAN隧道出节点的出接口发生拥塞，则仅需要执行上述ECN信息的恢复步骤。

图2-12 ECN Overlay工作原理示意图

2.2.3 大小流区分调度

网络中充斥着各种各样的流量，我们可以简单的将其分为大流和小流。

· 大流（Elephant Flows，大象流）：大流通常是业务数据流量，如文件传输、数据库同步和数据备份信息。大流的特点是数量虽少，却占用了网络中相当大的带宽资源，对吞吐率有要求，对时延不敏感。大流占网络流总数的10%左右，但其承载了网络总数据量的85%。

· 小流（Mice Flows ，老鼠流）：小流通常是用来建立连接的协议流量，如网页请求、协议信令消息等等。小流的特点是它们在网络中出现非常频繁，数量众多，但每个流的数据量小，对时延敏感，对带宽和吞吐率的要求较低。网络流量中的绝大多数都是小流。

突发大流引起的网络拥塞，可能会增加小流的时延，并引发小流丢包。因此，在调度流量避免拥塞时，优先保障小流的调度和时延至关重要。在无损网络中我们希望将大小流区分调度，以满足小流的延迟需求和大流的吞吐率需求。

如图2-13所示，大小流区分调度机制如下：

(1) 网络管理员配置大流识别参数（流速和尺寸），设备根据识别参数将网络流量中的大流识别出来；

(2) 网络管理员为大流指定丢弃优先级、本地优先级或dot1q优先级，设备根据本地优先级或者dot1q优先级将识别出来的大流映射到特定的队列中，与其他非大流区分调度。一旦发生拥塞，设备也可以根据配置的丢弃优先级，优先丢弃大流报文，以保证小流的低延迟体验。

图2-13 大小流区分调度示意图

2.2.4 大小流自适应缓存

大小流区分调度可以在一定程度上解决小流被大流阻塞的问题，但在网络中如果绝大多数流量都是小流的场景或者突发流量等情况下，通过静态配置识别参数的大小流区分调度功能优化的效果不佳，例如数据中心网络中绝大多数流量是对时延更敏感的小流。对于上述场景，可以开启大小流自适应缓存功能。

在设备上，小流队列和大流队列共享一块缓存空间来调度报文。开启大小流自适应缓存功能可以动态调节小流队列和大流队列所占共享缓存空间的大小。

大小流自适应缓存功能的工作机制如下：

(1) 如下图所示，缺省情况下，设备中的不同队列均分共享缓冲区，队列之间允许互相抢夺竞争缓冲区资源。网络拥塞时，造成拥塞的队列可能竞争得到较多的共享缓冲区资源。共享缓冲区占满之后，大小流均采取尾丢弃的策略来丢弃报文，即新进入缓冲区的大流和小流均被丢弃，丢弃的报文引发重传机制，重传的报文时延变大，因此，小流的时延无法保障。

图2-14 未启用大小流自适应缓存功能

(2) 启用大小流自适应缓冲技术后，如果发生网络拥塞出现丢包，系统自动调整大流为WRED拥塞管理策略，标记大流的丢弃优先级为黄色，并且降低大流的WRED丢弃门限，队列长度超出Qlmin门限，开始丢弃大流。系统限制大流可占用的共享缓存区降低到Qlmin门限以内。大流减少的缓冲区资源被小流抢占。

图2-15 启用大小流自适应缓存功能时小流丢包

(3) 一段时间周期内，如果仍出现网络拥塞和丢包现象，则继续降低大流的WRED丢弃门限，限定大流可用的共享缓存区大小。系统可以多次降低大流可用的共享缓存区大小。

(4) 一段时间周期内，如果不再出现丢包，则逐渐恢复大流的WRED丢弃门限，直到大流最终恢复到缺省的尾丢弃策略。

图2-16 启用大小流自适应缓存功能时小流不再丢包

2.2.5 AI ECN

1. 背景简介

各个队列转发的数据流量特征会随时间动态变化，网络管理员通过静态设置ECN门限时，并不能满足实时动态变化的网络流量特征：

· ECN门限设置过高时，转发设备将使用更长的队列和更多缓存来保障流量发送的速率，满足吞吐敏感的大流的带宽需求。但是，在队列拥塞时，报文在缓存空间内排队，会带来较大的队列时延，不利于时延敏感的小流传输。

· ECN门限设置偏低时，转发设备使用较短的队列和少量缓存尽快触发来降低队列排队的时延，满足小流对时延的需求。但是，过低的ECN门限会降低网络吞吐率，影响吞吐敏感的大流，限制了大流的传输。

另一方面网络中如果同时部署了PFC和ECN功能时，我们希望ECN门限设置可以保证设备优先触发ECN功能，降低报文发送端的速率缓解拥塞情况，而非先触发PFC功能直接通知发送端停止发送报文。只有当ECN功能触发后未缓解拥塞，拥塞反而严重恶化时才触发PFC功能，此时通知发送端停止数据报文发送，直到拥塞缓解后再通知继续发送数据报文。ECN和PFC同时部署减缓拥塞时的作用顺序应如下图所示：

图2-17 ECN和PFC同时部署减缓拥塞示意图

由图2-17流程可知，当拥塞发生时，从转发设备发送ECN域标记为11的数据报文到报文发送端降速的过程中，发送端仍以原速率持续发送数据报文，这段时间内网络中的拥塞将进一步恶化，只有合理并动态设置ECN低门限，设备才能尽量避免PFC触发影响网络中的吞吐率。

基于以上原因，我们需要一种智能地实时ECN低门限控制功能，这种功能称为AI ECN功能。

2. 实现原理

AI ECN利用设备本地的AI业务组件，按照一定流量模型算法动态优化ECN门限。

图2-18 AI ECN功能实现示意图

设备内的转发芯片会对当前流量的特征进行采集，比如队列缓存占用率，流量吞吐率，当前大小流占比等特征数据，然后将网络流量实时信息传递给AI业务组件。

AI ECN功能启用后，AI业务组件收到推送的流量状态信息后，将智能的对当前的流量特征进行判断，识别当前的网络流量场景是否符合已知的流量模型。

· 如果该流量模型符合大量已知流量模型中的一种，AI业务组件将根据已知流量模型推理出实时ECN门限最优值。

· 如果该流量模型不符合已知流量模型，AI组件将基于现网状态，在保障高带宽、低时延的前提下，对当前的ECN门限不断进行实时修正，最终计算出最优的ECN门限配置。

最后，AI业务组件将最优ECN门限下发到设备转发芯片中，调整ECN门限。

AI ECN能够根据流量特征和变化而实时调整ECN门限：

· 当队列中小流占比高时，降低ECN触发门限，保证多数小流的低时延性。

· 当队列中大流占比高时，提高ECN触发门限，保证多数大流的高吞吐性。

根据设备芯片和硬件能力，AI ECN功能实现的模式有三类，采用不同的AI ECN功能模式，设备获取ECN门限的方式不同：

· 网络中设备的ECN门限由分析器集中计算并传递给设备，实现拥塞通知功能，这种方式AI ECN功能由分析器完成计算分析，对设备本身硬件能力要求较低。

· 设备本地实现的分布式AI ECN功能，设备智能地为队列设置最佳的ECN门限，这种方式AI ECN功能对设备硬件算力要求较高，可能消耗设备CPU资源。

· 设备的神经网络功能实现的AI ECN功能，神经网络算法智能地为队列设置最佳的ECN门限，需要设备硬件芯片支持该功能的算法。

2.2.6 IPCC

1. 基本概念

IPCC（Intelligent Proactive Congestion Control，智能主动拥塞控制）与ECN技术类似，也是一种通过拥塞通知报文来通知发送端降低报文发送速率，从而避免网络拥塞的技术。IPCC是由网络设备主动发起的拥塞控制技术。用于转发RoCEv2报文的网络设备接口如果开启了IPCC功能，则设备根据该接口的拥塞情况，主动发送拥塞通知报文通知报文发送端降低发送报文的速率，并且设备可以基于接口队列的拥塞严重程度，智能计算出需要发送拥塞通知报文的数量，精准调整控制发送端发送报文的降速，避免发送端过度降低速度。

IPCC和传统ECN技术的对比如表2-1所示。

表2-1 IPCC和传统ECN技术对比

技术对比	IPCC	传统ECN
发送拥塞通知报文位置	转发报文的网络设备	报文的接收端
报文拥塞的响应过程	直接主动响应。由网络中出现拥塞点的设备发送拥塞通知给报文发送端，拥塞点快速触发，通知发送端降速	间接被动响应。被标记的报文需传播整条转发路径抵达接收端后再由接收端发送拥塞通知报文通知发送端降速
发送端降速的效果	出现拥塞点的网络设备根据拥塞接口上队列长度和缓存占用，智能计算需要发送的拥塞通知报文个数，精确控制发送端降速	报文接收端如果持续收到ECN域取值为11的报文时，将每隔一定时间周期发送拥塞通知报文给报文发送端降速，降速效果滞后于拥塞点的实际变化
应用场景	仅对RoCEv2报文生效	对于TCP、UDP等报文均能生效，适用范围更广
硬件支持要求	需要硬件芯片和驱动支持	需要硬件芯片和驱动支持

由表2-1比较可知，IPCC在ECN功能基础上进行改进，使转发设备具备发送拥塞通知报文的能力，对于网络中拥塞控制更加准确和迅速。

2. 实现原理

由于IPCC功能仅对RoCEv2报文生效，下面先简单介绍RoCEv2报文的结构和报文的关键信息。

RoCEv2和InfiniBand是目前主流的RDMA协议，但相较于InfiniBand，RoCEv2是基于以太网的RDMA协议。如图2-19所示，RoCEv2是基于UDP协议封装的，其中RoCEv2报文的目的端口号固定为4791。RoCEv2和InfiniBand主要变化在数据链路层和网络层，RoCEv2报文传输层继承了InfiniBand报文中传输层的Base Transport Header和Extended Transport Header的结构和信息。

图2-19 RoCEv2与InfiniBand报文格式对比

根据InfiniBand Architecture Specification标准中的定义，BTH（Base Transport Header，基本传输层报文头）中包含了RoCEv2报文的关键信息，其中部分字段的含义如下：

· OpCode：表示RoCEv2的操作类型，也标识了BTH之后携带的ETH（Extended Transport Header，扩展传输层报文头）的类型。具体类型包括但不限于：

¡ Send：此类操作用于发送端向远端请求传递数据，发送端不指定接收端存储数据的地址。

¡ RDMA Write：此类操作用于发送端向远端请求写入数据，发送端会在报文中指定接收端存储数据的地址、key（关键值）和数据长度。

¡ RDMA Read：此类操作用于发送端向远端请求读取数据，发送端会在报文中会指定远端请求读取数据的地址、key和数据长度。

¡ ACK：表示ACK报文，远端接收到一组RoCEv2报文，会反馈的应答消息。

操作类型为Send、Write和Read的RoCEv2报文也被称为RoCEv2数据报文。

· Destination QP（Destination Queue Pair）：目的端的队列编号，用来标识一条RoCEv2流。通常，在RoCEv2数据报文中执行一个Send、RDMA Write和RDMA Read操作时，发送端和目的端都会创建一个队列，生成一个队列对QP。发送队列用于存储发送端的消息和请求，接收队列用于存储远端发送的消息或请求。Destination QP是用来建立RoCEv2流表的关键信息。

· ACK Request：应答响应要求标记位，表示是否要求远端发送ACK的响应。

· PSN（Packet Serial Number）：表示RoCEv2报文的序列号，可通过检测PSN是否连续来判断是否存在丢失的数据包，若出现了丢包，就会返回NAK报文。

图2-20 IPCC工作原理图

IPCC的工作原理如图2-20所示。

· 建立RoCEv2流表：在转发设备上，启用了IPCC功能的接口复制经过该设备的RoCEv2数据报文，并将其上送到设备的CPU处理。根据RoCEv2报文的源IP地址、目的IP地址和目的QP信息等信息建立RoCEv2流表。RoCEv2流表中包括流量的入方向接口和出方向接口、出接口队列的相关信息。

持续存在RoCEv2流量时，设备上保持并维护RoCEv2流表。如果出接口上发生拥塞则可以判断根据RoCEv2流表定位到该业务流的出入接口。

· 智能计算拥塞通知报文数量：转发设备对接口中启用了IPCC功能的队列进行检测，根据队列长度以及队列占用缓存空间的比率变化智能计算主动发送的拥塞通知报文数量。

¡ 当队列长度增加，队列缓存占用率较少，则发送少量拥塞通知报文给发送端，缓解队列拥塞，但不会使发送端过渡降速；

¡ 当队列长度增加，队列缓存占用率较多，则发送较多的拥塞通知报文给发送端，快速缓解队列拥塞，降低转发时延。

¡ 当队列长度减少，队列缓存占用率较少，则不发送拥塞通知报文给发送端，防止降速造成吞吐率下降；

¡ 当队列长度减少，队列缓存占用率较多，则发送少量拥塞通知报文给发送端，在尽量保证吞吐率和时延性能的情况下缓解队列拥塞。

转发设备根据RoCEv2流表中的地址信息构造拥塞通知报文，并主动将拥塞通知报文发送给发送端。发送的拥塞通知报文数量为上一步中计算出的报文数目。发送端收到拥塞通知报文后，通过降低RoCEv2报文的发送速率来缓解网络拥塞。

IPCC功能克服了传统ECN所面临的局限性，它通过更精细的算法来确定何时以及如何发送拥塞通知报文。这种改进方法依赖于对网络状况的实时分析，以计算出恰当的拥塞通知报文发送频率。该机制确保拥塞通知的发送既迅速又精确，以便及时地缓解网络拥塞情况，而不会引起不必要的性能下降。IPCC功能通过动态调整通知报文的发送，优化了网络流量管理，从而提高了整个网络的数据传输效率和稳定性。

2.3 智能无损存储网络技术（iNOF）

2.3.1 iNOF简介

智能无损网络是一系列技术的集合，它一方面通过流量控制技术和拥塞控制技术来提升网络整体的吞吐量，降低网络时延，另一方面通过智能无损存储网络等技术实现网络和应用系统融合优化。

iNOF（Intelligent Lossless NVMe Over Fabric，智能无损存储网络）就是一种以太网和存储网络的融合优化技术。它能实现海量存储设备的自动发现，网络故障的快速感知，并将存储设备的加入和离开第一时间通知给智能无损网络内的所有设备，为实现智能无损网络的“无丢包、低时延、高吞吐”提供基础支持。

2.3.2 iNOF组网

iNOF有两种典型组网：iNOF直连组网和iNOF跨交换机组网，这两种组网的适用场景不同，原理机制也不同。

1. iNOF网络元素

iNOF网络中，包括以下三个重要元素：

· iNOF主机：支持iNOF协议的网络服务器和磁盘设备，以下简称主机。

· iNOF交换机：用于接入主机且支持iNOF功能的交换机。

· iNOF域（Zone）：iNOF使用域来管理主机。当域内有主机加入或者离开，iNOF会将这个主机的加入和离开信息通知给同一域内的其它主机，以便其它主机能够感知同一域内任一主机的加入或者离开。

为方便管理，iNOF域分为两类：

¡ 自定义iNOF域：用户根据组网需求手工创建的iNOF域，需要手工向其中添加主机。

¡ 缺省iNOF域：设备出厂即存在的iNOF域，无需用户创建，不能删除。对于未加入自定义iNOF域的主机，用户可以选择是否自动让它加入缺省iNOF域。

2. iNOF直连组网

iNOF直连组网如图2-21所示，它要求同一域内的所有主机和同一iNOF交换机直连。主机和iNOF交换机之间通过交互二层报文，来通知主机状态变化（即主机加入或离开iNOF网络，也称为主机上线/离线），iNOF交换机之间不交互iNOF相关信息。iNOF直连组网适用于小规模网络。

图2-21 iNOF直连组网示意图

3. iNOF跨交换机组网

iNOF跨交换机组网如图2-22所示，它支持同一域内的主机可以连接在不同的iNOF交换机上，iNOF交换机之间通过iNOF报文传递域内所有主机的加入或离开信息。iNOF跨交换机组网适用于规模较大的数据中心，这样的数据中心拥有多台主机，主机属于不同的组织或部门（对应不同的iNOF域），同一组织或部门的主机通过多台iNOF交换机相连。

为了跨交换机传递主机信息，通常要求iNOF交换机之间全部两两建立直连连接，这种全连接的方式增加了维护复杂度，不利于后续iNOF交换机的加入。H3C基于成熟的BGP技术，将BGP协议进行扩展，复用BGP反射器技术，来实现iNOF跨交换机组网。

在iNOF跨交换机组网中：

· iNOF交换机和主机直连，iNOF交换机和主机之间交互的报文和报文交互流程同iNOF直连组网。

· iNOF交换机之间基于IBGP连接建立iNOF连接，通过BGP报文携带iNOF路由信息，利用BGP反射器技术，将一台iNOF交换机感知到的主机状态变化通知给域内的所有iNOF交换机。iNOF路由信息包括主机的加入或离开信息，以及iNOF的配置信息。

在iNOF跨交换机组网中，为简化组网，必须至少部署一台iNOF反射器，其它iNOF交换机均为客户机。所有客户机和反射器连接，客户机和客户机之间不建议连接，主机和iNOF反射器、iNOF交换机直连。因为客户机和客户机之间连接容易导致组网的复杂性，在路由快速变化时可能会出现路由表项短暂波动等非预期或不可控的现象。

为避免单点故障、提高网络的可靠性，一个iNOF域中也可以部署多个iNOF反射器。当一个反射器故障时，其它反射器能继续工作。这些路由反射器及其客户机之间形成一个集群，反射器上需要配置相同的集群ID，以便集群具有统一的标识，避免路由环路的产生。

图2-22 iNOF跨交换机组网示意图

2.3.3 技术优点

iNOF具有以下优势：

· 即插即用

当主机接入iNOF网络时，iNOF交换机能够自动发现该设备，并将新主机加入消息同步给网络中的其他iNOF交换机以及通知同一iNOF域中的其它主机，以便其它主机能迅速发现新加入的主机，并自动和新主机建立连接，迅速实现存储业务的部署。

· 故障快速感知

当网络故障时，iNOF交换机能够快速检测到故障，并将故障状态信息同步给网络中的其它iNOF交换机以及通知同一iNOF域中的其它主机。如果该网络故障影响了存储设备，则主机会快速断开与该存储设备的连接，将业务切换到冗余路径。

2.3.4 H3C iNOF实现的技术特色

H3C对成熟的BGP技术进行扩展，来实现iNOF跨交换机组网的技术具有以下特性：

· 基于BGP连接建立iNOF连接，传输层使用TCP协议，可以为iNOF信息的传输提供稳定的连接。

· 基于BGP提供的丰富的路由策略，能够对iNOF路由实现灵活的过滤和选择。

· iNOF复用BGP路由反射功能，在大规模的iNOF网络中可以有效减少iNOF连接的数量，简化网络拓扑，降低网络维护成本。同时，管理员在反射器上完成iNOF域和成员主机的配置后，iNOF可自动将这些配置同步给客户机，从而，可以简化iNOF的部署和配置。

· iNOF复用BGP的GR（Graceful Restart，平滑重启）和NSR（Nonstop Routing，不间断路由）功能，在iNOF交换机进行主备倒换或BGP协议重启时，保障iNOF信息的传递不中断。

· iNOF复用BGP连接，BGP支持和BFD联动，因此，iNOF也能够利用BFD快速检测到链路故障。

· 借助BGP会话的各种加密手段，例如MD5认证、GTSM（Generalized TTL Security Mechanism，通用TTL安全保护机制）、keychain认证，可以提高iNOF交换机间连接的安全性。

2.4 负载均衡技术

负载均衡技术提供高效便捷的流量分发服务，通过对访问流量进行分析、调度和优化，将访问流量自动分配给多个数据中心、多条链路或多台服务器，从而轻松应对大流量访问需求。

负载均衡技术分为服务器负载均衡、入链路负载均衡、出链路负载均衡、DNS透明代理、全局负载均衡等。本文主要介绍链路级的负载均衡技术，其他内容请参考相关手册。

2.4.1 DLB

1. 产生背景

传统的以太网链路聚合、等价路由采用逐流负载分担机制。在该机制下，设备会根据报文的五元组等特征，通过HASH算法为数据流选择一个下一跳。对于特征相同的流量，哈希算法会选择相同的等价等价路由下一跳或聚合成员链路。这种方法实现了不同数据流在不同链路上的负载分担，也避免了报文乱序。

这种方式选择的下一跳时固定的，不能根据实际的转发情况和链路负载情况变化，因此也被称为静态负载分担。它的缺点如下：

· 没有考虑负载分担链路中各成员链路的利用率，从而会出现成员链路之间的负载分担不均衡，尤其当大数据流出现时会加剧所选中成员链路的拥塞甚至引起丢包。

· 在多跳路径上容易出现HASH极化，导致报文在多次转发后负载不均匀。

图2-23 流量在等价路由的多条路径上实现负载分担

DLB（Dynamic load balance，动态负载均衡）的出现弥补了静态负载分担的缺陷。它在芯片引入了硬件流表（FlowSet），可以记录某条流的状态，结合等价路径的状态信息，可以实现根据实时拥塞状态的等价路径成员的动态选择，优先选择负载较轻的链路进行转发。

2. 功能简介

DLB通过引入时间戳、实时负载度量（端口带宽负载、队列大小）因子，在时间、带宽空间两个维度优化了负载均衡效果，提供了动态、智能的HASH机制。

等价路由和聚合组通过配置动态负载分担模式，实现DLB功能。配置动态负载分担模式后，设备可以根据链路的负载分担情况，优先选择负载最轻的路径进行转发。动态负载分担有三种模式（本功能的支持情况请以设备的实际情况为准）：

· Eligibility模式：Eligibility模式下，同一个数据流中时间间隔小于等于flowset-inactive-time的报文组成一个FlowSet。设备基于FlowSet选取当前负载较轻的成员链路进行转发，同一FlowSet中的数据包的转发链路相同。具体过程如下：

a. 具有一定特征的流量第一次进入设备转发，则被认为是新的流，设备为之创建Flowset；同时为之设置flowset-inactive-time老化计时器。

b. 设备在flowset-inactive-time周期内，计算出当前等价路由组中负载较轻的路径，转发该流量，在该周期内，具有相同特征的流量会使用相同的转发路径，并实时刷新flowset-inactive-time老化计时器，维持本Flowset为有效状态（会话保持）。

c. 超过flowset-inactive-time老化时间周期，如若未有流量维持该Flowset有效，则该Flowset记录被老化，即使后续再有该Flowset相同特征的流量到来，设备认为是一个新的流，创建新的Flowset，重新HASH到负载较轻的路径。

图2-24 Eligibility模式

· Spray模式：Spray模式采用逐包负载分担机制，设备基于数据包选取当前等价路由组中负载最轻的路径进行转发。同一个数据流的多个数据包的转发链路可能不同，因此接收端可能会出现报文乱序的问题，在该模式下需确保接收端支持报文乱序重组的功能。

图2-25 Spray模式

· 固定模式（Fixed模式）：固定模式会为数据流的第一个数据包选择负载较轻的路径，同一个数据流的后续数据包使用第一个数据包的转发路径。

图2-26 固定模式（Fixed模式）

关于等价路由模式和聚合动态负载分担的详细介绍，请参见产品配套的“三层技术-IP路由”中的“IP路由基础”，以及“二层技术-以太网交换”中的“以太网链路聚合”配置和命令手册。

2.4.2 LBN

1. 产生背景

在上下行带宽1:1的AI智算网络中，常遇到多入口多出口的复杂场景。在此类场景中，我们希望能够在保持数据包顺序即逐流转发的前提，将来自多个入口相同目的地址的流量均匀地分发到多个出口。然而，在实际环境中，往往会出现多个入口的流量汇聚到某一个出口，而其他出口上没有流量的情况，导致负载分担不均衡和网络拥塞。

为了解决这一问题，H3C提出了LBN（Load Balance Network，负载均衡网络）技术，这是一种网络级别的负载均衡技术。通过对端口进行分组和智能编排，形成入口和出口之间的一对一映射关系，将流量精准地负载分担到不同的出口，以提升网络吞吐率。

关于LBN的详细介绍，请参见产品配套的“接口管理”中的“以太网接口”配置和命令手册。

2. 应用场景

目前LBN技术仅支持应用在等价路由场景和二层以太网链路聚合场景。

在等价路由场景，设备的路由表会出现相同目的地址不同下一跳的等价路由。具有相同目的地址的流量从设备不同的端口进入后，通过等价路由，会从不同的端口转发出去。通过LBN技术，入端口经过算法映射到唯一出端口，例如，来自Port 1的流量只能从Port 4出，来自Port 2的流量只能从Port 5出。

图2-27 LBN应用在等价路由场景

在二层以太网链路聚合场景，如下图所示，Port 4，Port 5，Port 6是二层聚合口Bridge-Aggregation 1的成员端口。具有相同目的地址的流量从设备不同的端口进入后，根据目的地址查找流量的出端口是一个二层聚合口，形成了多入口多出口的场景。通过LBN技术，入端口经过算法映射到唯一出端口，例如，来自Port 1的流量只能从Port 4出，来自Port 2的流量只能从Port 5出。

图2-28 LBN应用在二层以太网链路聚合场景

3. 工作原理

以等价路由场景为例，LBN的工作原理如下：

(1) 用户将入端口加入LBN组后，设备为LBN组中每个入端口设置LBN值，例如为Port 1 设置LBN值为0。

(2) 对出端口进行编号。根据路由表中每个等价路由组内的出端口顺序或二层聚合口成员端口的加入顺序，为出端口从0开始编号。例如，Port 4， Port 5，Port 6的编号依次为0，1，2。

图2-29 LBN为入端口和出端口进行编号

(3) 每个等价路由组与每个LBN组形成映射关系。将每个LBN组中入端口的LBN值依次对每个等价路由组内的出端口数量进行取余运算，形成每个入端口与出端口的映射关系。例如，Port 1的LBN值为0，等价路由组A中存在3个出端口。LBN值0对3取余为0，则Port 1对应的流量出端口是编号为0的Port 4。

图2-30 等价路由组与LBN组映射

在二层以太网链路聚合场景，则形成每个二层聚合口与每个LBN组的映射关系。计算方式与等价路由组类似。

4. 典型组网

在上下行带宽1:1的AI智算网络中，Leaf1设备有8个200G端口下连至服务器，编号为1~8；分别有4个400G端口上连至每个Spine设备，其中与Spine1连接的端口编号为9~12。

图2-31 LBN典型组网

Leaf1设备通过LBN技术，形成出入端口的映射关系。当流量从入端口进入后，根据目的地址查找路由表和映射关系，唯一确定转发出口，实现流量精确负载分担转发。

· Port 1、2对应的流量出端口为Port 9；

· Port 3、4对应的流量出端口为Port 10；

· Port 5、6对应的流量出端口为Port 11；

· Port 7、8对应的流量出端口为Port 12。

2.4.3 SprayLink

1. 产生背景

在等价路由场景中，流量在等价路由的多个下一跳上进行负载分担。然而，随着数据中心网络的发展，流量的模型也在发生着变化，时常会出现大象流与老鼠流共存的现象，传统的静态等价路由负载分担已经不能满足需求。

图2-32 传统的等价路由负载分担方式已经不能满足需求

2. 功能简介

SprayLink是一种端网融合负载均衡方案，由网络侧进行等价路由负载分担，由主机侧对负载分担后的报文进行乱序调整。

SprayLink可以根据链路带宽、队列深度情况动态调整报文转发的链路，像均匀的喷雾一般将流量喷洒至各条链路，以解决传统等价路由负载分担不均，无法充分利用链路带宽的问题。

图2-33 SprayLink示意图

3. 工作机制

设备通过三个步骤完成SprayLink负载分担。

(1) 区分流量。

SprayLink是一种逐包的负载均衡方式，而在数据中心网络中，部分场景下，部分报文要求不能乱序，无法通过逐包方式进行负载均衡，此时需要网络侧首先对流量进行区分，再进行负载分担。以无法进行逐包负载的RoCE协议报文为例，说明SprayLink区分流量的步骤：

a. 对所有报文默认采用逐包负载分担。

b. 设备全局下发ACL，规则为匹配UDP目的端口号为4791，reserve字段为0的报文，此报文为RoCE协议报文（reserve 为RoCE协议报文特有），动作为进行逐流负载分担。未匹配上ACL规则的报文则进行逐包负载分担。

(2) Spray HASH。

Spray HASH的特点如下：

¡ 设备基于数据包，而不是基于数据流进行转发。基于数据包的负载分担将每个数据包都视为一个独立的流，负载会更为均衡。

¡ 设备会定期检测成员链路端口发送的报文字节数，并依此挑选当前负载最轻的路径进行转发，以达到动态负载分担的效果。

Spray HASH效果如下图所示，网络侧向主机侧发送报文，中间的链路2负载过高，故报文将通过其他两条链路进行负载分担，直到高负载链路的负载恢复。

图2-34 Spray HASH效果图

负载分担的过程为：

a. Network Side收到报文1，在无负载的链路1和链路3中随机选择链路1转发。

b. Network Side收到报文2，选择负载较轻的链路3转发。

c. Network Side收到报文3，因为链路1和链路3负载相同，再次随机选择链路1转发。

d. Network Side收到报文4，选择负载较轻的链路3转发。

e. Network Side收到报文5，选择负载较轻的链路1转发。

(3) 乱序调整。

因为Spray HASH采用逐包负载分担，同一个数据流的多个数据包的转发链路可能不同，因此主机侧接收端收到的报文可能是乱序的，接收端需要通过报文乱序重组功能整理报文的顺序。如下图所示：

图2-35 Spray HASH报文乱序调整

4. 典型应用场景和部署样例

如今以太网越来越多的部署RoCE（RDMA over Converged Ethernet，以太网RDMA）网络，允许设备间不经CPU，直接互相访问网卡中的数据，以实现更低的延迟和更高的CPU效率。RoCE区分协议报文和数据报文，数据报文可以使用Spray HASH逐包负载分担，而协议报文因不能乱序，需使用传统的逐流负载分担方式，SprayLink可以区分这两种流量，适合部署于RoCE网络中。

某个数据中心RoCE网络流量的模型如下：

· 存在一条RoCE业务流量大象流，用于AI训练，占据带宽的70%。

· 存在数条业务流量老鼠流，用于HTTPS业务请求和应答、应用程序间的API调用和少量数据的查询和增删改，共占据带宽的20%。

· 存在数条RoCE协议报文的老鼠流，用于建立及维护RoCE网络，占据带宽的10%。

使用传统负载分担时，会出现负载分担不均的情况，大象流会集中于量集中到某条路径转发，其他路径分配到很少的流量或者没有流量，影响链路利用率，并且负载大的链路可能会发生业务异常。

如下图所示，业务集群1进行AI训练业务，使用SprayLink的效果为：

图2-36 SprayLink部署样例

5. 配置方法和关键命令

可通过如下模式配置SprayLink：

· 配置等价路由Spray模式：设备基于数据包选取当前等价路由组中负载最轻的路径进行转发，具体命令为：ecmp mode spray

关于上述命令的详细介绍，请参见产品配套的“三层技术-IP路由”中的“IP路由基础”配置和命令手册。

· 指定链路聚合的动态负载分担模式为Spray模式。该模式下，基于数据包选取当前负载分担链路中带宽利用率最小的成员链路进行转发。属于同一Flow的数据包可能选择不同的成员链路转发，接收流量的设备上可能出现报文乱序问题。因此，该模式下需要保证接收流量的设备上支持报文乱序重组功能。具体命令为：link-aggregation load-sharing mode dynamic spray

关于上述命令的详细介绍，请参见产品配套的“二层技术-以太网交换”中的“以太网链路聚合”配置和命令手册。

· 配置基于报文逐包进行负载分担，并指定spray算法。spray算法在逐包的同时，考虑不同报文的大小，让负载更均衡。具体命令为：ip load-sharing mode per-packet spray（三层接口视图）

关于上述命令的详细介绍，请参见产品配套的“三层技术-IP业务”中的“IP转发基础”配置和命令手册。

· 通过策略路由设置多个下一跳或缺省下一跳的负载分担方式为spray方式，在该方式下，设备基于数据包选取当前负载分担链路中负载较轻的成员链路进行转发。具体命令为：apply loadshare-mode { next-hop | default-next-hop } spray（策略节点视图/IPv6策略节点视图）

关于上述命令的详细介绍，请参见产品配套的“三层技术-IP路由”中的“策略路由”配置和命令手册。

2.4.4 GLB

1. 功能简介

GLB（Global Load Balancing，全局负载均衡）是在DLB特性基础上的一个功能扩展，主要是为了解决数据中心多跳网络中出现远端设备负载不均衡的问题。

由于DLB在进行负载分担时只会考虑本地下一跳链路的负载情况，不会考虑报文下一跳到目的设备之间的链路负载情况。如果下一跳设备在发送报文给下一个下一跳设备之间的链路发生拥塞，则可能会引起丢包。

如下图所示，在一个典型的Spine-Leaf数据中心组网中，由于ECMP的HASH极化问题或者是流量的分布问题，可能会出现负载分担不均衡导致的报文拥塞问题。

图2-37 Leaf1->Leaf4之间有2个负载分担链路

在上述网络中，流量的转发路径是Leaf1->Leaf4，Leaf1到Leaf4之间的链路形成等价路由。

· 在未配置GLB特性之前，如果Spine2到Leaf4之间的链路发生了拥塞，而Leaf1设备感知不到，它可能会把流量发给Spine2，再通过Spine2发送给Leaf4设备，从而加剧Spine2和Leaf4之间的链路拥塞。

· 配置了GLB之后，Spine设备会把链路质量周期性发送给Leaf设备，Leaf设备在进行选路时，会考虑报文从本设备到目的设备之间的所有链路质量，从而在源头上减少链路拥塞。在本例中，Leaf1设备会选择将报文发送给Spine1设备，Spine1再把报文发送给Leaf4，从而绕过拥塞链路。

2. 工作机制

GLB的工作机制如下：

(1) Spine和Leaf设备判断链路的质量，并记录在本地的链路状态表项里。

(2) Spine设备周期性地向Leaf设备通告链路的质量状态，Leaf设备接收所有Spine层的GLB消息，根据GLB消息刷新本地链路状态表项。经过上述过程，每台设备都知道了网络中所有链路质量信息。

(3) Leaf设备在发送报文给其他设备时，会计算本设备到目的设备之间的所有链路质量，并选择最优路径将报文转发出去。

通过上述过程，GLB实现的负载均衡的效果比DLB更好，可以做到亚毫秒级别流量调度粒度，对微突发造成的网络拥塞反应得更块。

3 RoCE网络的典型应用场景

目前RoCE网络主要应用于智算中心和高性能计算中心、金融存储网络环境中的参数网络和高性能存储网络。

在人工智能计算中心，RoCE网络分为参数网络和高性能存储网络两种类型：

· 参数网络：参数网络是业务区的RoCE网络，用于为GPU服务器、高性能计算服务器之间提供高带宽无丢包的互联能力。关于参数网络的更多详细介绍，请参见RoCE参数网络介绍。

· 高性能存储网络：高性能存储区的RoCE网络用于为GPU服务器、高性能计算服务器和高性能存储之间提供高带宽无丢包的互联能力。关于高性能存储网络的更多详细介绍，请参见RoCE高性能存储网络介绍。

3.1 智算中心

3.1.1 产生背景

人工智能作为全球科技领域的高地，近年来得到了飞速的发展。以ChatGPT为代表的人工智能技术不仅将对传统行业带来革命性的变革，也向数据中心等基础设施提出了更高的要求。

智算中心是人工智能领域的重要组成部分，肩负着助力人工智能产业的走向兴盛的使命，承担为人工智能企业提供高性能计算资源的重要职责。随着人工智能技术的快速发展，智算中心在智能制造、大数据分析、深度学习等领域中起着至关重要的作用。

智算中心的规模正在不断扩大，积极响应人工智能和大数据计算需求的爆发式增长。一方面，各大科技公司、高校和科研院所纷纷成立或扩建智算中心，形成了从区域级到国家级的多层次布局。另一方面，政府也在加大对智算中心建设的支持力度，加大计算集群的规模和数量。

布局和规划智算中心，可以为人工智能大模型、AI算法等技术的研究提供基础条件，进而提升各个行业的发展，促进数字经济的高质量发展。智算中心的创新发展，有望成为带动人工智能及相关产业快速发展的新引擎。

3.1.2 方案亮点

H3C智算中心全面支撑大模型的训练业务，提供从基础设施到模型训练的一站式开发平台；全面提升算力服务，提供算力、存力、运力协同感知的高性能计算集群；满足国家双碳战略，提供符合零碳绿色的算力中心。

· 全面提升算力性能，提供多种算力类型：同时提供NVIDIA GPU算力和国产化GPU算力，全面支持新华三的最新人工智能计算服务器，包含R5500G6、R5300G6和R4900G6。提供包含英伟达、昆仑芯等多种算力类型。并且傲飞算力调度平台可以同时兼容多种异构算力，灵活调度，让用户无感底层算力差异。全面助力算法工程师快速训练微调模型，同时满足不同用户的对不同算力类型的特色需求。

我司算力平台和大模型平台从底层服务器，到GPU驱动，K8S插件都完成了商用GPU算力和国产化算力的适配。根据客户选择的资源池不同，下发不同的依赖镜像，实现异构算力推理/训练的调度。

· 高性能算力配套硬件，极致释放澎湃算力：200G/400G RoCE网络，充分满足大模型训练微调的网络高带宽和低延时需求。并将新华三的高性能CX系列存储做成了云服务，在继承了云下高性能的读写带宽和IOPS要求的同时，提供了云服务模式下的多租户隔离能力，保证了最终用户的数据安全。

· 算网协同，充分释放GPU算力，提高运维效率：智能无损网络方案采取机内NVSwitch + 机间 RoCE组网方案实现大模型并行训练通信网络。自动将TP流量卸载在NVSwitch上，DP/PP流量卸载到RDMA网络，算网协同，最大程度提升GPU算力使用效率。同时人工智能计算节点上线自动感知，拓扑自动感知，支持大模型多机并行训练。同时AI参数网自动化部署能力，帮助客户减轻复杂的参数网运维，降低系统运维难度。

· 增强云服务能力，解决行业算力短缺难题：在支持云上、云下两种部署模式的基础上，增强了智算云服务的运营能力和多租户的支持能力，可以助力政府、算力运营商建设高效可靠的运营型人工智能算力中心，通过集约化建设解决区域内算力短缺的难题。

· 增强LLMOPS工程能力，提升大模型落地效率：在支持MLOPS及算力调度的基础之上，增加LLMOPS能力，帮助行业用户快速落地大模型。一方面基于百业灵犀系列大模型和新华三算力基础设施，可以为用户提供完整大模型开发部署解决方案。另一方面，智算解决方案基于新华三算力基础设施和算力平台，集成了LLama2、Chatglm2.0、百川等开源大模型，让用户可以基于开源路线实现大模型落地。同时配套提供训练推理的执行优化与过程优化及软硬件结合的训练推理优化服务，帮助用户在智算中心落地大模型。

3.1.3 部署架构：云上场景

1. 部署场景推荐

如下几种情况，建议选择云上场景，基于云的资源管理能力，可提供基础算力资源和算力平台：

· 政府、运营商建设的对外运营公共算力中心。

· 大企业自建，对内运营，服务于不同业务部门的智算中心。

· GPU服务器数量在32台以上。

2. 典型组网

智算解决方案云上场景典型组网如下图所示：

图3-1 智算方案云上场景典型组网

3. 资源分区说明

按资源分区，各部署区域及说明如下：

· 数据中心出口区：数据中心网络接入互联网，可旁挂出口防火墙等安全设备，提供平台级别的安全防护能力。是智算中心与外部网络之间的连接点，部署两台互联网接口交换机支持和运营商对接，同时配备抗D设备做安全防护；配备一对物理出口防火墙实现内外网络隔离、控制流量和访问策略等基础的安全防护；最后通过出口交换机，提供数据中心内部和其他网络平面的互联能力

· 云外业务区：又称公服区，一般部署不区分租户的业务，本次部署两类业务。傲飞平台，对外为用户提供AI开发的全流程服务，对内通过调用云的API接口创建用于人工智能训练的CCE容器集群以及向CCE容器集群下发训练任务；SA/SE，收集GPU服务器的网卡等运行信息，分析整体AI训练流量，用于AI业务调优。

· 管理区：部署云管理平台、平台级安全系统、UCenter统一运维平台，为用户提供统一的系统管理、安全防护和运维运营。

· 带外管理运维区：主要用于运维和管理接入。

· 通用存储区：部署OneStor块存储，主要为业务区的通用计算、网络安全和云平台提供块存储，一般采用三副本设计。

· 业务区：主要部署和最终用户相关的业务，主要部署四类业务资源。GPU训练计算资源，主要为人工智能算法开发和模型训练提供GPU能力，主要为H800 OAM服务器，如新华三的R5500G6服务器，训练资源会接入RoCE网络平面；GPU推理计算资源，主要为人工智能推理提供GPU能力，如对模型进行自动评估、部署为推理后进行人工测试等，获取在真实场景下的推理性能；网络安全资源，如提供HSLB，为容器集群提供外部的访问能力；通用资源，当用户申请了裸金属GPU服务器时，可以配套申请通用资源中的虚拟机，用户通过虚拟机做跳板，可以对所有裸金属服务器进行环境搭建和基础运维。

· 高性能存储区：部署用于人工智能训练的高性能分布式文件存储。CX系列存储，主要提供人工智能模型训练过程中的数据集读取，模型checkpoints的写入等；GUI节点，用于云平台的API接口调用；CES节点，用于外部的以太网络写入和导出数据。

4. 网络平面规划

按网络平面，智算解决方案云下场景可划分为如下平面：

· 数据中心接入平面：是智算中心与外部网络之间的连接点，部署两台互联网接口交换机以支持和运营商对接，同时配备抗D设备做安全防护；配备一对物理出口防火墙实现内外网络隔离、控制流量和访问策略等基础的安全防护；最后通过出口交换机，提供数据中心内部和其他网络平面的互联能力

· 云外业务平面：一般部署不区分租户的业务，此次部署一组公服TOR交换机，提供公共服务的连接能力

· 云内业务平面：被云控制器管理，通过VxLAN技术形成OverLay的大二层隔离网络，实现各租户的隔离功能，云内业务平面通过spine-leaf架构连接业务区的各资源

· RoCE网络平面：高速互联网络，提供高带宽无丢包的网络平面。为GPU服务器之间以及GPU服务器和高性能存储之间提供互联的能力

· 通用存储平面：网络安全、云平台一般基于虚拟化进行部署，所依赖的块资源，通用网络平面连通网络安全池和云平台集群，为其提供公共的块存储资源

· 带内管理平面：为云平台管理其他的服务器、存储提供独立的互联网络，网络为独立的Underlay网络，为spine-leaf架构

· 带外管理平面：统一运维平台通过独立的带外网管理各ICT基础设施，一般也是spine-leaf架构，提供独立的underlay网络。同时提供VPN接入能力，方便运维人员安全的接入此网络进行基础的运维。

3.1.4 部署架构：云下场景

1. 部署场景推荐

如下几种情况，建议选择云下场景，基于算力平台调度算力，快速开发AI算法和训练模型：

· 中小企业自建自用、AI开发业务相对单一的智算中心。

· 32台以下GPU服务器。

2. 典型组网

智算解决方案云下场景典型组网如下图所示：

图3-2 智算方案云下场景典型组网

3. 资源分区说明

按资源分区，各部署区域及说明如下：

· AI平台区：部署傲飞平台，对外为用户提供AI开发的全流程服务，对内通过调用云的API接口创建用于人工智能训练的CCE容器集群以及向CCE容器集群下发训练任务。

· 无损控制区：部署SA/SE，收集GPU服务器的网卡等运行信息，分析整体AI训练流量，用于AI业务调优。

· 业务区：主要部署和最终用户相关的业务，在智算场景下主要包括GPU训练计算资源和GPU推理计算资源。GPU训练计算资源主要为人工智能算法开发和模型训练提供GPU能力，主要采用H800 OAM服务器，如新华三的R5500G6服务器，训练资源会接入RoCE网络平面；GPU推理计算资源，主要为人工智能推理提供GPU能力，如对模型进行自动评估、部署为推理后进行人工测试等，获取在真实场景下的推理性能。

· 管理区：部署云管理平台、平台级安全系统、UCenter统一运维平台，为用户提供统一的系统管理、安全防护和运维运营。

4. 网络平面规划

按网络平面，智算解决方案云下场景可划分为如下平面：

· 数据中心接入平面：是智算中心与外部网络之间的连接点，部署两台互联网接口交换机支持和运营商对接，同时配备抗D设备做安全防护；配备一对物理出口防火墙实现内外网络隔离、控制流量和访问策略等基础的安全防护；最后通过出口交换机，提供数据中心内部和其他网络平面的互联能力。

· 业务平面：傲飞和业务节点的K8S集群通信业务，业务平面通过spine-leaf架构连接业务区的各资源。

· RoCE网络平面：高速互联网络，提供高带宽无丢包的网络平面。为GPU服务器之间以及GPU服务器和高性能存储之间提供互联的能力。

· 带内管理平面：为云平台管理其他的服务器、存储提供独立的互联网络，网络为独立的Underlay网络，为spine-leaf架构。

3.2 高性能无损存储网络（高性能计算中心/金融等场景）

3.2.1 产生背景

随着高性能计算、大数据分析、人工智能以及物联网等技术的飞速发展，集中式存储、分布式存储以及云数据库的普及等原因，业务应用有越来越多的数据需要从网络中获取，这对数据中心网络的交换速度和性能要求越来越高。

全闪存时代背景下，NVMe（Non-Volatile Memory express，非易失性内存主机控制器接口规范）存储协议的出现极大提升了存储系统内部的存储吞吐性能、降低了传输时延。NVMe-oF（NVMe over Fabrics）存储网络旨在使用NVMe通过网络结构将主机连接到存储。使用基于消息的模型通过网络在主机和目标存储设备之间发送请求和响应，NVMe-oF的普及使大数据服务的存算分离结构能够成为主流。在多种Fabric技术中，NVMe over RoCE比FC性能更高（更高的带宽、更低的时延），同时兼具TCP的优势（全以太化、全IP化），因此NVMe over RoCE是NoF最优的承载网络方案，也已成为业界NoF的主流技术被广大存储厂商所接受，成为业界NoF的主流。

图3-3 存储无损以太网

iNoF存储网络技术可实现客户业务在无损RoCE网络下iNOF域内的所有设备可以第一时间自动感知网络服务器和磁盘设备的加入和离开，实现“即插即用”，以及故障场景下业务快速感知和切换。

图3-4 iNoF存储网络核心优势

3.2.2 部署架构

无损存储网络典型组网如下图所示：

图3-5 无损存储网络示意图

在无损存储网络中，集中式存储场景通过iNOF支持RoCE，分布式存储场景通过iSER支持RoCE。

4 RoCE参数网络介绍

参数网络是智能计算中心业务区的RoCE网络，用于为GPU服务器之间提供高带宽无丢包的互联能力。参数网络是分布式训练专用网络，在网络层设备上不需要和其它网络相连。参数网络推荐采用无阻塞的200G/400G网络，各服务器网口利用参数网络进行高速无损的数据交换，以实现AI训练性能的最大化。

4.1 组网方案

根据组网规模和设备形态，目前支持如下组网类型：

· 小规模组网（单框/单盒）：在小规模场景（端口数量不超过512，服务器数量不超过64）下，可以根据实际情况使用单框/单盒组网，该方案部署简单、有更高的可靠性（双主控）、更先进的负载均衡技术（cell级均衡，无HASH极化等问题）、更优的拥塞控制（credit调度机制，确定性的拥塞控制），但是该方案规模有限、易扩展性差，建议谨慎选择此方式。

· 中大规模组网二级盒盒组网（Leaf-Spine架构）：在网络规模较大时推荐使用Leaf-Spine架构的二级盒盒组网，该方案易扩展、支持较大规模组网，并且转发时延较低，推荐使用此方案。

· 中大规模组网二级框盒组网（Leaf-Spine架构）：在超大规模网络环境中（端口数量超过2048，服务器数量超过256），可以使用Leaf-Spine架构的二级框盒组网，但是该方案部署较为复杂，框式交换机内部转发时延较高，建议谨慎选择此方案。

4.1.1 小规模组网（单框/单盒）

对于小规模组网，建议使用单盒或单框方案，GPU服务器的所有参数网网卡均与交换机互联，并针对不同服务器同序号的网卡配置到相同VLAN中。对于一级单框组网，建议同轨网卡接到相同的线卡上，同轨间通信集中在线卡内部，减少通信跳数及通信时延。

图4-1 单框/单盒组网示例

4.1.2 中大规模组网（Leaf-Spine架构）

对于中大规模组网，建议使用Leaf-Spine网络架构，具体如下：

· 服务器多轨接入：GPU服务器按交换机可连服务器数量分组，同组内的GPU服务器上相同序号的参数网网卡连接到同一台Leaf交换机上。少数需要跨轨通信的场景，通过交换机互通。例如，Leaf交换机可以连接32台GPU，则可以将32台服务器分为一组，每个服务器上安装8个参数网网卡，每个服务器上的第n台参数网网卡连接到第n台交换机上。

图4-2 多轨接入

· 每8台Leaf交换机为一组，Leaf交换机和Spine交换机之间全互连。

· 为了构建无阻塞、收敛比1：1的RDMA网络，Leaf交换机上行和下行接口带宽应该相同。

图4-3 中大规模组网示例

4.2 参数网配置举例（S9825二层盒盒400G端口组网）

4.2.1 组网需求

如图4-4所示：

· GPU计算场景RDMA网络采用Spine、Leaf两级架构，Spine设备为S9825-64D，Leaf设备为S9825-64D。

· Leaf设备作为服务器的网关，Spine、Leaf之间为三层ECMP网络，在进行数据高速转发的同时支持转发路径的冗余备份。

· 服务器接口单归接入，不需要Leaf堆叠或者M-LAG。

现要求实现RDMA应用报文使用队列5进行无损传输。

本文以2台Spine设备、8台Leaf设备示例。实际应用中Spine层部署4台S9825-64D设备、Leaf层部署8台S9825-64D设备（上行口/下行口各使用32*400G）可以实现收敛比1：1的RDMA网络。

图4-4 数据中心GPU计算场景RDMA组网图

表4-1 接口IP地址规划

设备	接口	IP地址	设备	接口	IP地址
Leaf1	400GE1/0/1~32	Vlan 2	Spine1	400GE1/0/1	9.179.56.0/31
	400GE1/0/33	9.179.56.1/31		…	…
	…	…		400GE1/0/8	9.179.56.14/31
	400GE1/0/40	9.179.56.15/31		400GE1/0/57	9.179.56.112/31
	400GE1/0/57	9.179.57.129/31		…	…
	…	…		400GE1/0/64	9.179.56.126/31
	400GE1/0/64	9.179.57.143/31
	Vlan-int2	9.179.64.1/26
Leaf 8	400GE1/0/1~32	Vlan 2	Spine 4	400GE1/0/1	9.179.57.128/31
	400GE1/0/33	9.179.56.113/31		…	…
	…	…		400GE1/0/8	9.179.57.142/31
	400GE1/0/40	9.179.56.127/31		400GE1/0/57	9.179.57.240/31
	400GE1/0/57	9.179.57.241/31		…	…
	…	…		400GE1/0/64	9.179.57.254/31
	400GE1/0/64	9.179.57.255/31
	Vlan-int2	9.179.65.193/26

Spine4端口编号规则与Spine1一样；Leaf8端口编号规则与Leaf1一样。为图形简洁起见，图中不再一一标注。

4.2.2 配置思路

1. 路由配置方案

配置BGP路由协议。配置Spine、Leaf设备的AS号都为805。Spine作为路由反射器，与各Leaf建立IBGP邻居。

2. RDMA功能配置

为实现RDMA应用报文的无损传输，我们需要部署PFC功能和ECN功能：

· PFC功能基于优先级队列对报文进行流量控制。RDMA报文携带802.1P优先级5，我们对802.1P优先级为5的报文开启PFC功能。

RDMA报文转发路径的所有端口都需要配置PFC功能，因此我们在Spine设备与Leaf设备互连的端口、Leaf设备连接服务器的端口均开启PFC功能。

· ECN功能提供端到端的拥塞控制。设备检测到拥塞后，对报文的ECN域进行标记。接收端收到ECN标记的报文后，向发送端发送拥塞通知报文，使发送端降低流量发送速率。本例中，我们在Spine设备与Leaf设备互连的端口、Leaf设备连接服务器的端口均开启ECN功能。

ECN功能配置的high-limit值（queue queue-id [ drop-level drop-level ] low-limit low-limit high-limit high-limit [ discard-probability discard-prob ]）需要小于PFC反压帧触发门限值，以使ECN功能先生效。

4.2.3 配置注意事项

配置PFC功能时，必须配置接口信任报文自带的802.1p优先级或DSCP优先级（qos trust { dot1p | dscp }），并且转发路径上所有端口的802.1p优先级与本地优先级映射关系以及DSCP优先级与802.1p优先级映射关系必须一致，否则PFC功能将无法正常工作。对于本组网中的二层或三层接口，建议配置接口信任报文自带的DSCP优先级（qos trust dscp）。

对于接收到的以太网报文，设备将根据优先级信任模式和报文的802.1Q标签状态，设备将采用不同的方式为其标记调度优先级。当设备连接不同网络时，所有进入设备的报文，其外部优先级字段（包括DSCP和IP）都被映射为802.1p优先级，再根据802.1p优先级映射为内部优先级；设备根据内部优先级进行队列调度的QoS处理。

关于优先级映射的详细介绍，请参见产品配套的“ACL和QoS配置指导”中的“优先级映射”。

4.2.4 配置步骤

1. 配置接口的IP地址

(1) 配置Leaf1。

# 配置FourHundredGigE1/0/33~FourHundredGigE1/0/64工作在三层模式，并配置各接口的IP地址。

<Leaf1> system-view

[Leaf1] interface range FourHundredGigE1/0/33 to FourHundredGigE1/0/64

[Leaf1-if-range] link-mode route

[Leaf1-if-range] quit

[Leaf1] interface Fourhundredgige 1/0/33

[Leaf1-FourHundredGigE1/0/33] ip address 9.179.56.1 31

[Leaf1-FourHundredGigE1/0/33] quit

[Leaf1] interface Fourhundredgige 1/0/34

[Leaf1-FourHundredGigE1/0/34] ip address 9.179.56.3 31

[Leaf1-FourHundredGigE1/0/34] quit

[Leaf1] interface Fourhundredgige 1/0/35

[Leaf1-FourHundredGigE1/0/35] ip address 9.179.56.5 31

[Leaf1-FourHundredGigE1/0/35] quit

[Leaf1] interface Fourhundredgige 1/0/36

[Leaf1-FourHundredGigE1/0/36] ip address 9.179.56.7 31

[Leaf1-FourHundredGigE1/0/36] quit

[Leaf1] interface Fourhundredgige 1/0/37

[Leaf1-FourHundredGigE1/0/37] ip address 9.179.56.9 31

[Leaf1-FourHundredGigE1/0/37] quit

[Leaf1] interface Fourhundredgige 1/0/38

[Leaf1-FourHundredGigE1/0/38] ip address 9.179.56.11 31

[Leaf1-FourHundredGigE1/0/38] quit

[Leaf1] interface Fourhundredgige 1/0/39

[Leaf1-FourHundredGigE1/0/39] ip address 9.179.56.13 31

[Leaf1-FourHundredGigE1/0/39] quit

[Leaf1] interface Fourhundredgige 1/0/40

[Leaf1-FourHundredGigE1/0/40] ip address 9.179.56.15 31

[Leaf1-FourHundredGigE1/0/40] quit

[Leaf1] interface Fourhundredgige 1/0/57

[Leaf1-FourHundredGigE1/0/57] ip address 9.179.57.129 31

[Leaf1-FourHundredGigE1/0/57] quit

[Leaf1] interface Fourhundredgige 1/0/58

[Leaf1-FourHundredGigE1/0/58] ip address 9.179.57.131 31

[Leaf1-FourHundredGigE1/0/58] quit

[Leaf1] interface Fourhundredgige 1/0/59

[Leaf1-FourHundredGigE1/0/59] ip address 9.179.57.133 31

[Leaf1-FourHundredGigE1/0/59] quit

[Leaf1] interface Fourhundredgige 1/0/60

[Leaf1-FourHundredGigE1/0/60] ip address 9.179.57.135 31

[Leaf1-FourHundredGigE1/0/60] quit

[Leaf1] interface Fourhundredgige 1/0/61

[Leaf1-FourHundredGigE1/0/61] ip address 9.179.57.137 31

[Leaf1-FourHundredGigE1/0/61] quit

[Leaf1] interface Fourhundredgige 1/0/62

[Leaf1-FourHundredGigE1/0/62] ip address 9.179.57.139 31

[Leaf1-FourHundredGigE1/0/62] quit

[Leaf1] interface Fourhundredgige 1/0/63

[Leaf1-FourHundredGigE1/0/63] ip address 9.179.57.141 31

[Leaf1-FourHundredGigE1/0/63] quit

[Leaf1] interface Fourhundredgige 1/0/64

[Leaf1-FourHundredGigE1/0/64] ip address 9.179.57.143 31

[Leaf1-FourHundredGigE1/0/64] quit

# 创建VLAN 2，并配置VLAN 2接口的IP地址。

[Leaf1] vlan 2

[Leaf1] interface vlan-interface 2

[Leaf1-Vlan-interface2] ip address 9.179.64.1 26

(2) 配置其他Leaf设备。

配置设备各接口工作在三层模式，并参考图4-4配置各接口的IP地址，具体步骤略。

(3) 配置Spine1。

# 配置FourHundredGigE1/0/1~FourHundredGigE1/0/64工作在三层模式，并配置各接口的IP地址。

<Spine1> system-view

[Spine1] interface range FourHundredGigE1/0/1 to FourHundredGigE1/0/64

[Spine1-if-range] link-mode route

[Spine1-if-range] quit

[Spine1] interface Fourhundredgige 1/0/1

[Spine1-FourHundredGigE1/0/1] ip address 9.179.56.0 31

[Spine1-FourHundredGigE1/0/1] quit

[Spine1] interface Fourhundredgige 1/0/2

[Spine1-FourHundredGigE1/0/2] ip address 9.179.56.2 31

[Spine1-FourHundredGigE1/0/2] quit

[Spine1] interface Fourhundredgige 1/0/3

[Spine1-FourHundredGigE1/0/3] ip address 9.179.56.4 31

[Spine1-FourHundredGigE1/0/3] quit

[Spine1] interface Fourhundredgige 1/0/4

[Spine1-FourHundredGigE1/0/4] ip address 9.179.56.6 31

[Spine1-FourHundredGigE1/0/4] quit

[Spine1] interface Fourhundredgige 1/0/5

[Spine1-FourHundredGigE1/0/5] ip address 9.179.56.8 31

[Spine1-FourHundredGigE1/0/5] quit

[Spine1] interface Fourhundredgige 1/0/6

[Spine1-FourHundredGigE1/0/6] ip address 9.179.56.10 31

[Spine1-FourHundredGigE1/0/6] quit

[Spine1] interface Fourhundredgige 1/0/7

[Spine1-FourHundredGigE1/0/7] ip address 9.179.56.12 31

[Spine1-FourHundredGigE1/0/7] quit

[Spine1] interface Fourhundredgige 1/0/8

[Spine1-FourHundredGigE1/0/8] ip address 9.179.56.14 31

[Spine1-FourHundredGigE1/0/8] quit

[Spine1] interface Fourhundredgige 1/0/57

[Spine1-FourHundredGigE1/0/57] ip address 9.179.56.112 31

[Spine1-FourHundredGigE1/0/57] quit

[Spine1] interface Fourhundredgige 1/0/58

[Spine1-FourHundredGigE1/0/58] ip address 9.179.56.114 31

[Spine1-FourHundredGigE1/0/58] quit

[Spine1] interface Fourhundredgige 1/0/59

[Spine1-FourHundredGigE1/0/59] ip address 9.179.56.116 31

[Spine1-FourHundredGigE1/0/59] quit

[Spine1] interface Fourhundredgige 1/0/60

[Spine1-FourHundredGigE1/0/60] ip address 9.179.56.118 31

[Spine1-FourHundredGigE1/0/60] quit

[Spine1] interface Fourhundredgige 1/0/61

[Spine1-FourHundredGigE1/0/61] ip address 9.179.56.120 31

[Spine1-FourHundredGigE1/0/61] quit

[Spine1] interface Fourhundredgige 1/0/62

[Spine1-FourHundredGigE1/0/62] ip address 9.179.56.122 31

[Spine1-FourHundredGigE1/0/62] quit

[Spine1] interface Fourhundredgige 1/0/63

[Spine1-FourHundredGigE1/0/63] ip address 9.179.56.124 31

[Spine1-FourHundredGigE1/0/63] quit

[Spine1] interface Fourhundredgige 1/0/64

[Spine1-FourHundredGigE1/0/64] ip address 9.179.56.126 31

[Spine1-FourHundredGigE1/0/64] quit

(4) 配置其他Spine设备。

配置与Spine1类似，请参考图4-4所示的接口和IP地址进行配置，具体步骤略。

2. Leaf设备配置接入端口

(1) 配置Leaf1

# 配置连接服务器的链路类型为Trunk，允许VLAN 2通过。

[Leaf1] interface range FourHundredGigE1/0/1 to FourHundredGigE1/0/32

[Leaf1-if-range] port link-type trunk

[Leaf1-if-range] undo port trunk permit vlan 1

[Leaf1-if-range] port trunk permit vlan 2

[Leaf1-if-range] port trunk pvid vlan 2

[Leaf1-if-range] quit

(2) 配置其他Leaf设备。

配置与Leaf1类似，具体步骤略。

3. 配置OSPF/BGP路由协议

(1) 配置Leaf1。

# 配置OSPF，与Spine互连接口使能OSPF。

<Leaf1> system-view

[Leaf1] interface loopback 0

[Leaf1-LoopBack0] ip address 1.1.1.1 255.255.255.255

[Leaf1-LoopBack0] quit

[Leaf1] ospf 1 router-id 1.1.1.1

[Leaf1-ospf-1] area 0.0.0.0

[Leaf1-ospf-1-area-0.0.0.0] network 1.1.1.1 0.0.0.0

[Leaf1-ospf-1-area-0.0.0.0] network 9.179.56.0 0.0.0.255

[Leaf1-ospf-1-area-0.0.0.0] network 9.179.57.0 0.0.0.255

[Leaf1-ospf-1-area-0.0.0.0] quit

[Leaf1-ospf-1] quit

# 启动BGP实例default，指定该BGP实例的本地AS号为805，并进入BGP实例视图。

[Leaf1] bgp 805

# 配置全局Router ID为1.1.1.1。

[Leaf1-bgp-default] router-id 1.1.1.1

# 创建IBGP对等体组Spine。

[Leaf1-bgp-default] group Spine internal

# 指定对等体组Spine建立邻居的源地址为loopbck0。

[Leaf1-bgp-default] peer Spine as-number 805

[Leaf1-bgp-default] peer Spine connect-interface loopback0

# 配置向对等体组Spine发布同一路由的时间间隔为0。

[Leaf1-bgp-default] peer Spine route-update-interval 0

# 将Spine设备添加为对等体组Spine中的对等体。

[Leaf1-bgp-default] peer 100.100.100.100 group Spine

[Leaf1-bgp-default] peer 100.100.100.103 group Spine

# 进入BGP IPv4单播地址族视图。

[Leaf1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为32。

[Leaf1-bgp-default-ipv4] balance 32

# 配置BGP路由的优先级，EBGP路由的优先级为10，IBGP路由的优先级为100，本地产生的BGP路由的优先级为100。

[Leaf1-bgp-default-ipv4] preference 10 100 100

# 允许本地路由器与对等体组Spine交换路由信息，发布本地业务网段路由9.179.64.0/26。

[Leaf1-bgp-default-ipv4] peer Spine enable

[Leaf1-bgp-default-ipv4] network 9.179.64.0 255.255.255.192

[Leaf1-bgp-default-ipv4] quit

[Leaf1-bgp-default] quit

(2) 配置Leaf8。

Leaf 8的配置与Leaf1类似，环回口地址为1.1.1.8，BGP发布本地业务网段路由9.179.65.192/26，具体配置略。

(3) 配置Spine1。

# 配置OSPF，与Leaf互连接口使能OSPF。

<Spine1> system-view

[Spine1] interface loopback 0

[Spine1-LoopBack0] ip address 100.100.100.100 255.255.255.255

[Spine1-LoopBack0] quit

[Spine1] ospf 1 router-id 100.100.100.100

[Spine1-ospf-1] area 0.0.0.0

[Spine1-ospf-1-area-0.0.0.0] network 100.100.100.100 0.0.0.0

[Spine1-ospf-1-area-0.0.0.0] network 9.179.56.0 0.0.0.255

[Spine1-ospf-1-area-0.0.0.0] network 9.179.57.0 0.0.0.255

[Spine1-ospf-1-area-0.0.0.0] quit

[Spine1-ospf-1] quit

# 启动BGP实例default，指定该BGP实例的本地AS号为805，并进入BGP实例视图。

<Spine1> system-view

[Spine1] bgp 805

# 配置全局Router ID为100.100.100.100。

[Spine1-bgp-default] router-id 100.100.100.100

# 配置设备在重启后延迟300秒发布路由更新消息。

[Spine1-bgp-default] bgp update-delay on-startup 300

# 创建IBGP对等体组LEAF。

[Spine1-bgp-default] group LEAF internal

# 指定对等体组LEAF建立邻居的源地址为loopbck0。

[Spine1-bgp-default] peer LEAF as-number 805

[Spine1-bgp-default] peer LEAF connect-interface loopback0

# 配置向对等体组LEAF发布同一路由的时间间隔为0。

[Spine1-bgp-default] peer LEAF route-update-interval 0

# 将Leaf设备添加为对等体组LEAF中的对等体。

[Spine1-bgp-default] peer 1.1.1.1 group LEAF

[Spine1-bgp-default] peer 1.1.1.8 group LEAF

# 进入BGP IPv4单播地址族视图。

[Spine1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为32。

[Spine1-bgp-default-ipv4] balance 32

# 配置BGP路由的优先级，EBGP路由的优先级为10，IBGP路由的优先级为100，本地产生的BGP路由的优先级为100。

[Spine1-bgp-default-ipv4] preference 10 100 100

# 允许本地路由器与对等体组LEAF100G交换路由信息，Spine为路由反射器。

[Spine1-bgp-default-ipv4] peer LEAF enable

[Spine1-bgp-default-ipv4] peer LEAF reflect-client

[Spine1-bgp-default-ipv4] quit

[Spine1-bgp-default] quit

(4) 配置Spine 4。

Spine 4的配置与Spine1类似，环回口地址为100.100.100.103，具体配置略。

4. 配置ECN功能

(1) 配置Leaf1

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf1] buffer egress cell queue 5 shared ratio 100

[Leaf1] buffer egress cell queue 6 shared ratio 100

[Leaf1] buffer apply

# 在接口FourHundredGigE1/0/1~FourHundredGigE1/0/64上配置队列5的WRED平均长度的下限为2100，平均长度的上限为5000，丢弃概率为20％，计算平均队列的指数为0，并为队列5开启ECN功能。开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。对队列6的报文进行流量整形。正常流速为200000000kbps，突发流量为16000000bytes。

[Leaf1] interface range fourhundredgige 1/0/1 to fourhundredgige 1/0/64

[Leaf1-if-range] qos wred queue 5 low-limit 2100 high-limit 5000 discard-probability 20

[Leaf1-if-range] qos wred queue 5 weighting-constant 0

[Leaf1-if-range] qos wred queue 5 ecn

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

[Leaf1-if-range] qos gts queue 6 cir 200000000 cbs 16000000

[Leaf1-if-range] quit

对于S9825系列、S9855系列交换机，支持在接口视图配置WRED的各种参数，并开启WRED功能（qos wred queue命令）。端口WRED方式可以只配置RoCE队列，不同接口可以配置不同的参数，使用更为灵活。对于支持该功能的产品和版本，推荐采用端口WRED方式。

(2) 配置Leaf8。

Leaf8和Leaf1的配置相同，具体配置略。

(3) 配置Spine1

# 配置队列5和队列6最多可使用的共享区域的大小为100%。

[Spine1] buffer egress cell queue 5 shared ratio 100

[Spine1] buffer egress cell queue 6 shared ratio 100

[Spine1] buffer apply

# 在接口FourHundredGigE1/0/1~FourHundredGigE1/0/64上配置队列5的WRED平均长度的下限为2100，平均长度的上限为5000，丢弃概率为20％，计算平均队列的指数为0，并为队列5开启ECN功能。开启接口的WFQ队列，并按照每次轮询可发送的报文字节数进行计算。配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。对队列6的报文进行流量整形。正常流速为200000000kbps，突发流量为16000000bytes。

[Spine1] interface range fourhundredgige 1/0/1 to fourhundredgige 1/0/64

[Spine1-if-range] qos wred queue 5 low-limit 2100 high-limit 5000 discard-probability 20

[Spine1-if-range] qos wred queue 5 weighting-constant 0

[Spine1-if-range] qos wred queue 5 ecn

[Spine1-if-range] qos wfq byte-count

[Spine1-if-range] qos wfq ef group 1 byte-count 60

[Spine1-if-range] qos wfq cs6 group sp

[Spine1-if-range] qos wfq cs7 group sp

[Spine1-if-range] qos gts queue 6 cir 200000000 cbs 16000000

[Spine1-if-range] quit

(4) 配置Spine 4

Spine 4的配置与Spine1相同，具体配置略。

5. 配置PFC功能和PFC死锁检测功能

(1) 配置Leaf1

# 配置Headroom最大可用的cell资源为32000（Headroom最大可用资源按照设备各个ITM所有接口配置的headroom总和计算，如S9825设备共两个ITM，每个ITM有32个400G接口（每个400G口Headroom门限为1000），则应配置为32*1000=32000）。

[Leaf1] priority-flow-control poolID 0 headroom 32000

# 配置PFC死锁检测周期为10，精度为high。

[Leaf1] priority-flow-control deadlock cos 5 interval 10

[Leaf1] priority-flow-control deadlock precision high

# 在Leaf设备连接服务器的下行接口FourHundredGigE1/0/1~FourHundredGigE1/0/32上配置接口信任DSCP优先级。

[Leaf1] interface range fourhundredgige 1/0/1 to fourhundredgige 1/0/32

[Leaf1-if-range] qos trust dscp

[Leaf1-if-range] quit

# 在Leaf设备连接Spine的上行接口FourHundredGigE1/0/33~FourHundredGigE1/0/64上配置接口信任报文自带的DSCP优先级。

[Leaf1] interface range fourhundredgige 1/0/33 to fourhundredgige 1/0/64

[Leaf1-if-range] qos trust dscp

[Leaf1-if-range] quit

# 在接口FourHundredGigE1/0/1~FourHundredGigE1/0/64上开启接口的PFC功能，并对802.1p优先级5开启PFC功能。开启接口的PFC死锁检测功能。配置接口物理连接up状态抑制时间为2秒。配置PFC门限值。

[Leaf1-1] interface range fourhundredgige 1/0/1 to fourhundredgige 1/0/64

[Leaf1-if-range] priority-flow-control enable

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

[Leaf1-if-range] priority-flow-control deadlock enable

[Leaf1-if-range] link-delay up 2

[Leaf1-if-range] priority-flow-control no-drop dot1p 5 pause-threshold ratio 5 headroom 1000 pause-threshold-offset 12 reserved-buffer 16

[Leaf1-if-range] quit

(2) 配置Leaf 8

Leaf 8与Leaf1配置相同，具体步骤略。

(3) 配置Spine1

[Spine1] priority-flow-control poolID 0 headroom 32000

# 配置PFC死锁检测周期为10，精度为high。

[Spine1] priority-flow-control deadlock cos 5 interval 10

[Spine1] priority-flow-control deadlock precision high

# 在接口FourHundredGigE1/0/1~FourHundredGigE1/0/64上配置接口信任报文自带的DSCP优先级，开启接口的PFC功能，并对802.1p优先级5开启PFC功能。开启接口的PFC死锁检测功能。配置接口物理连接up状态抑制时间为2秒。

[Spine1] interface range fourhundredgige 1/0/1 to fourhundredgige 1/0/64

[Spine1-if-range] qos trust dscp

[Spine1-if-range] priority-flow-control enable

[Spine1-if-range] priority-flow-control no-drop dot1p 5

[Spine1-if-range] priority-flow-control deadlock enable

[Spine1-if-range] link-delay up 2

# 配置接口FourHundredGigE1/0/1~FourHundredGigE1/0/64的PFC门限值。

[Spine1-if-range] priority-flow-control no-drop dot1p 5 pause-threshold ratio 5 headroom 1000 pause-threshold-offset 12 reserved-buffer 16

[Spine1-if-range] quit

(4) 配置Spine 4

Spine 4的配置与Spine1相同，具体配置略。

4.2.5 验证配置

2台Spine设备、2台Leaf设备连接2台服务器进行下面验证。

验证方式一：

· 验证条件：同VLAN连接的服务器多对多打流，报文长度为9000字节。

· 验证结果：流量没有丢包，速率稳定；ECN全程生效。

验证方式二：

· 验证条件：不同VLAN连接的服务器两两互发流量，报文长度为9000字节。

· 验证结果：流量没有丢包，速率稳定；ECN全程生效，偶尔触发PFC，总体还是ECN优先生效。

综上所述，RDMA流量全程无丢包；流量速率波动正常；ECN优于PFC生效控制流量速率。

5 RoCE高性能存储网络介绍

RoCE高性能存储网络用于为服务器和高性能存储之间提供高带宽无丢包的互联能力。

· 在人工智能计算中心，高性能存储网络用于连接AI训练/推理服务器和高性能存储设备，可以极大地提升AI训练和推理数据的存储和读写效率，单节点性能达到22GB/s。

· 在高性能计算中心或金融中心等场景，高性能存储网络连用于接高性能计算机和高性能存储设备，该方案可以解决客户需要高速读写数据、依赖存储性能问题的痛点。

在高性能无损存储网络中，RoCE网络对于真正发挥出iSER、NVMe-oF存储的高性能，突破数据中心大规模分布式系统的网络性能瓶颈至关重要。高性能存储网络中的RoCE网络分为如下类型：

· 集中式存储网络。

· 分布式存储前端、后端网络。

5.1 组网方案

根据网络规模，高性能存储网络可以分为小规模组网和中大规模组网：

· 小规模组网（单框/单盒）：在小规模场景（端口数量不超过512）下，可以根据实际情况使用单框/单盒组网，该方案部署简单、有更高的可靠性（双主控）、更先进的负载均衡技术（cell级均衡，无HASH极化等问题）、更优的拥塞控制（credit调度机制，确定性的拥塞控制），但是该方案规模有限、扩展性差，建议谨慎选择此方式。

· 中大规模组网二级盒盒组网（Leaf-Spine架构）：在网络规模较大推荐使用Leaf-Spine架构的二级盒盒组网，该方案易扩展、支持较大规模组网，并且转发时延较低，推荐使用此方案。

5.1.1 小规模组网

对于小规模组网，建议使用单盒或单框方案，计算服务器和存储服务器与交换机互联。交换机与服务器间提供100G、200G网络可选，该网络需配置支持RDMA的RoCE特性，同时网络收敛比需高于2:3，推荐1:1。同时存储服务器和计算服务器均配置至少2个端口确保存储网络高可用。

图5-1 小规模组网

5.1.2 中大规模组网

对于中大规模组网，建议使用Leaf-Spine网络架构，高性能存储网为Leaf-Spine的双层组网，Leaf和服务器间提供100G、200G网络可选，Spine和Leaf之间支持100G和400G两种。该网需配置支持RDMA的RoCE特性，同时网络收敛比需高于2:3，推荐1:1。同时存储服务器和计算服务器均配置至少2个端口确保存储网络高可用。

图5-2 中大规模组网示例

5.2 集中式存储典型配置举例（盒式-盒式）

5.2.1 典型组网

以二层盒盒组网为例，集中式存储的RoCE高性能存储网络典型组网如下图所示。

本节以每个平面使用Leaf-Spine的两层组网为例，Leaf和Spine均使用S6850-G系列盒式交换机。在该组网中，服务器和存储均采用VLAN接入，使用25G带宽链路，分别接入到两个平面的交换机；Leaf和Spine之间采用路由口互联，使用多条100G带宽链路，形成等价路由。

存储、存储服务器和交换机均支持iNOF（Intelligent Lossless NVMe Over Fabric，智能无损存储网络），从而可以快速感知网络服务器和磁盘设备的加入和离开。

本组网中要求实现RDMA应用报文使用队列5进行无损传输。

本文以一个平面1台Leaf设备示例，实际组网时一个平面可能存在多台Leaf，各Leaf设备的配置相似，此处不再一一列出。

图5-3 集中式存储典型组网

表5-1 服务器/存储接入口IP规划

设备	接口	IP地址/VLAN	设备	接口	IP地址/VLAN
Leaf1	WGE2/0/1	100	Leaf2	WGE2/0/1	200
	…	100		…	200
	WGE2/0/8	100		WGE2/0/8	200
	Vlan-int100	100.1.1.254/24		Vlan-int200	200.1.1.254/24
	LoopBack 0	91.1.1.1/32		LoopBack 0	91.1.1.2/32
Spine1	WGE2/0/1	101	Spine2	WGE2/0/1	201
	…	101		…	201
	WGE2/0/8	101		WGE2/0/8	201
	Vlan-int101	101.1.1.254/24		Vlan-int200	201.1.1.254/24
	LoopBack 0	92.1.1.1/32		LoopBack 0	92.1.1.2/32

表5-2 Leaf-Spine互联接口IP规划

设备	接口	IP地址/VLAN	设备	接口	IP地址/VLAN
Leaf1	HGE2/0/49	172.16.24.1/30	Spine1	HGE2/0/49	172.16.24.2/30
	HGE2/0/50	172.16.24.5/30		HGE2/0/50	172.16.24.6/30
	HGE2/0/52	172.16.24.9/30		HGE2/0/52	172.16.24.10/30
	HGE2/0/52	172.16.24.13/30		HGE2/0/52	172.16.24.14/30
Leaf2	HGE2/0/49	172.16.25.1/30	Spine2	HGE2/0/49	172.16.25.2/30
	HGE2/0/50	172.16.25.5/30		HGE2/0/50	172.16.25.6/30
	HGE2/0/51	172.16.25.9/30		HGE2/0/51	172.16.25.10/30
	HGE2/0/52	172.16.25.13/30		HGE2/0/52	172.16.25.14/30

· Leaf上服务器接入口的配置相似，配置仅以少量接口为例。

· Spine上存储接入口的配置相似，配置仅以少量接口为例。

· Leaf与Spine之间互联接口的配置相似，配置仅以少量接口为例。

· 本文以一个平面1台Leaf设备示例，实际组网时一个平面可能存在多台Leaf，各Leaf设备的配置相似，此处不再一一列出。

5.2.2 配置思路

1. 采用双平面组网

每个平面采用Leaf-Spine的两层组网形式。

2. 路由配置方案

使用IBGP作为路由互通协议：

· 通过BGP的IPv4地址族进行RDMA业务转发，发布Loopback口的地址（也作为router-id）、Leaf与Spine互联接口的网段、服务器/存储接入口的网段。

· 通过BGP的iNOF地址族传递存储、服务器的iNOF信息，Spine配置为路由反射器。

· 存储和服务器配置网关或路由，保证相互路由可达。

请按照业务需求和组网规模选择合适的路由协议，使用iNOF功能时，必须配置BGP的iNOF地址族用于iNOF信息传递，RDMA业务流量使用的路由协议没有限制。

3. RDMA功能配置

为实现RDMA应用报文的无损传输，我们需要部署PFC功能和ECN功能：

· PFC功能基于优先级队列对报文进行流量控制。RDMA报文携带802.1P优先级5，我们对802.1P优先级为5的报文开启PFC功能。

RDMA报文转发路径的所有端口都需要配置PFC功能。

· ECN功能提供端到端的拥塞控制。设备检测到拥塞后，对报文的ECN域进行标记。接收端收到ECN标记的报文后，向发送端发送拥塞通知报文，使发送端降低流量发送速率。ECN分为手工指定WRED参数来实现的静态ECN，和AI组件实现的AI ECN功能：

¡ 如果配置静态ECN功能，则在本例中，我们在报文转发路径的所有端口均开启ECN功能。ECN功能配置的high-limit值（queue queue-id [ drop-level drop-level ] low-limit low-limit high-limit high-limit [ discard-probability discard-prob ]）需要小于PFC反压帧触发门限值，以使ECN功能先生效。

¡ 如果Spine设备与Leaf设备都支持AI ECN功能，则可以开启指定队列的AI ECN功能。在智能无损网络中配置AI ECN功能时，需要先配置RoCEv2流量NetAnalysis功能，由NetAnalysis技术对现网的流量特征进行深度分析。关键配置包括：

- 使用netanalysis rocev2 mode命令配置RoCEv2流量NetAnalysis功能的工作模式；

- 使用netanalysis rocev2 statistics命令开启RoCEv2流量的NetAnalysis统计功能；

- 使用netanalysis rocev2 ai-ecn enable命令开启RoCEv2流量的AI ECN功能。

PFC和ECN参数请参考推荐值（国产芯片设备S12500G-AF/S12500CR/S6850-G）。

4. iNOF功能配置

Leaf和Spine均使能iNOF，与存储、服务器互联的接口需要使能lldp和dcbx等功能。

需要在Spine上配置iNOF zone，并按照规划将存储、服务器的ip添加到相应的iNOF zone中以用于访问控制。

5.2.3 配置注意事项

请确认存储及服务器的软件支持SNSD功能并配置正确，否则服务器和存储不能通过iNOF信息自动建立链接，也会导致存储网络的iNOF快速感知功能失效。

本文仅涉及交换机配置，存储以及存储服务器的配置，请以使用产品的资料为准。

静态ECN功能与AIECN功能选择一种配置即可。如果Spine设备与Leaf设备都支持AI ECN功能，则建议配置AI ECN功能。

AI ECN功能受License限制，请在使用本功能前安装有效的License。有关License的详细介绍，请参见“基础配置指导”中的“License管理”。

配置PFC功能时，必须配置接口信任报文自带的802.1p优先级或DSCP优先级（qos trust { dot1p | dscp }），并且转发路径上所有端口的802.1p优先级与本地优先级映射关系以及DSCP优先级与802.1p优先级映射关系必须一致，否则PFC功能将无法正常工作。对于本组网中的二层接口，建议配置接口信任报文自带的802.1p优先级（qos trust dot1p），对于三层接口，建议配置接口信任报文自带的DSCP优先级（qos trust dscp）。

关于优先级映射的详细介绍，请参见产品配套的“ACL和QoS配置指导”中的“优先级映射”。

5.2.4 配置步骤

1. 配置Leaf1

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Leaf1> system-view

[Leaf1] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Leaf1] vlan 100

[Leaf1-vlan100] quit

# 创建vlan虚接口。

[Leaf1] interface Vlan-interface 100

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Leaf1-Vlan-interface100] ip address 100.1.1.254 24

# 配置vlan虚接口mac地址。

[Leaf1-Vlan-interface100] mac-address 0000-5e00-0001

[Leaf1-Vlan-interface100] quit

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Leaf1-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Leaf1-if-range] undo port trunk permit vlan 1

# 允许vlan 100通过这些trunk接口。

[Leaf1-if-range] port trunk permit vlan 100

# 配置为stp edge-port。

[Leaf1-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Leaf1-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Leaf1-if-range] qos trust dot1p

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 将以太接口切换为三层工作模式。

[Leaf1-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Leaf1-if-range] qos trust dscp

[Leaf1-if-range] quit

# 配置接口IP地址。

[Leaf1] interface HundredGigE 2/0/49

[Leaf1-HundredGigE2/0/49] ip address 172.16.24.1 30

[Leaf1-HundredGigE2/0/49] quit

[Leaf1] interface HundredGigE 2/0/50

[Leaf1-HundredGigE2/0/50] ip address 172.16.24.5 30

[Leaf1-HundredGigE2/0/50] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Leaf1] interface LoopBack 0

# 配置LoopBack 0的ip，作为全局的Router ID

[Leaf1-LoopBack0] ip address 91.1.1.1 32

[Leaf1-LoopBack0] quit

# 配置全局Router ID

[Leaf1] router-id 91.1.1.1

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Leaf1-bgp-default] bgp 65512

# 配置BGP的Router ID

[Leaf1-bgp-default] router-id 91.1.1.1

# 将Spine设备添加为对等体

[Leaf1-bgp-default] peer 172.16.24.2 as-number 65512

[Leaf1-bgp-default] peer 172.16.24.6 as-number 65512

…

# 进入BGP ipv4单播地址族视图

[Leaf1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Leaf1-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由

[Leaf1-bgp-default-ipv4] network 91.1.1.1 255.255.255.255

# 发布业务服务器接入网段的路由

[Leaf1-bgp-default-ipv4] network 100.1.1.0 255.255.255.0

# 发布与Spine互联接口的网段路由

[Leaf1-bgp-default-ipv4] network 172.16.24.0 255.255.255.252

[Leaf1-bgp-default-ipv4] network 172.16.24.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息

[Leaf1-bgp-default-ipv4] peer 172.16.24.2 enable

[Leaf1-bgp-default-ipv4] peer 172.16.24.6 enable

…

[Leaf1-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图

[Leaf1-bgp-default] address-family inof

# 配置Leaf角色为客户机

[Leaf1-bgp-default-inof] role reflect-client

# 允许本地路由器与对等体交换路由信息

[Leaf1-bgp-default-inof] peer 172.16.24.2 enable

[Leaf1-bgp-default-inof] peer 172.16.24.6 enable

…

[Leaf1-bgp-default-inof]quit

[Leaf1-bgp-default]quit

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf1] buffer egress cell queue 5 shared ratio 100

[Leaf1] buffer egress cell queue 6 shared ratio 100

[Leaf1] buffer apply

# 全局使能ECN拥塞标记功能。

[Leaf1] qos wred ecn enable

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Leaf1-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Leaf1-if-range] qos gts queue 6 cir 12500000

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Leaf1-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Leaf1-if-range] qos gts queue 6 cir 50000000

[Leaf1-if-range] quit

对于S6850-G系列交换机，支持在接口视图配置WRED的各种参数。端口WRED方式可以只配置RoCE队列，不同接口可以配置不同的参数，使用更为灵活。对于支持该功能的产品和版本，推荐采用端口WRED方式。

(5) 配置AI ECN功能（S6850-G仅R8108Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

# 配置RoCEv2流量NetAnalysis功能的工作模式。为了保证能够正确分析RoCEv2流量，当同一个RDMA客户端和服务器端存在多条路径时，建议在客户端和服务器端接入的节点设备上均配置双向模式，在所有的中间节点设备上均配置单向模式。

[Leaf1] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Leaf1] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Leaf1] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Leaf1] ai-service

[Leaf1-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Leaf1-ai-service] ai-ecn

[Leaf1-ai-service-ai-ecn] queue 5 enable

[Leaf1-ai-service-ai-ecn] queue 6 enable

[Leaf1-ai-service-ai-ecn] quit

[Leaf1-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Leaf1] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Leaf1] priority-flow-control deadlock precision high

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Leaf1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Leaf1-if-range] priority-flow-control dot1p 5 headroom 2000

[Leaf1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 开启与对端自动协商是否开启PFC功能。

[Leaf1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Leaf1-if-range] priority-flow-control dot1p 5 headroom 3000

[Leaf1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf1-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Leaf1] inof enable

[Leaf1-inof] quit

2. 配置Leaf2

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Leaf2> system-view

[Leaf2] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Leaf2] vlan 200

[Leaf2-vlan200] quit

# 创建vlan虚接口。

[Leaf2] interface Vlan-interface 200

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Leaf2-Vlan-interface200] ip address 200.1.1.254 24

# 配置vlan虚接口mac地址。

[Leaf2-Vlan-interface200] mac-address 0000-5e00-0001

[Leaf2-Vlan-interface200] quit

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Leaf2-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Leaf2-if-range] undo port trunk permit vlan 1

# 允许vlan 200通过这些trunk接口。

[Leaf2-if-range] port trunk permit vlan 200

# 配置为stp edge-port。

[Leaf2-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Leaf2-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Leaf2-if-range] qos trust dot1p

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 将以太接口切换为三层工作模式。

[Leaf2-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Leaf2-if-range] qos trust dscp

[Leaf2-if-range] quit

# 配置接口IP地址。

[Leaf2] interface HundredGigE 2/0/49

[Leaf2-HundredGigE2/0/49] ip address 172.16.25.1 30

[Leaf2-HundredGigE2/0/49] quit

[Leaf2] interface HundredGigE 2/0/50

[Leaf2-HundredGigE2/0/50] ip address 172.16.25.5 30

[Leaf2-HundredGigE2/0/50] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Leaf2] interface LoopBack 0

# 配置LoopBack 0的ip，作为全局的Router ID

[Leaf2-LoopBack0] ip address 91.1.1.2 32

[Leaf2-LoopBack0] quit

# 配置全局Router ID

[Leaf2] router-id 91.1.1.2

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Leaf2-bgp-default] bgp 65513

# 配置BGP的Router ID

[Leaf2-bgp-default] router-id 91.1.1.2

# 将Spine设备添加为对等体

[Leaf2-bgp-default] peer 172.16.25.2 as-number 65513

[Leaf2-bgp-default] peer 172.16.25.6 as-number 65513

…

# 进入BGP ipv4单播地址族视图

[Leaf2-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Leaf2-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由

[Leaf2-bgp-default-ipv4] network 91.1.1.2 255.255.255.255

# 发布业务服务器接入网段的路由

[Leaf2-bgp-default-ipv4] network 200.1.1.0 255.255.255.0

# 发布与Spine互联接口的网段路由

[Leaf2-bgp-default-ipv4] network 172.16.25.0 255.255.255.252

[Leaf2-bgp-default-ipv4] network 172.16.25.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息

[Leaf2-bgp-default-ipv4] peer 172.16.25.2 enable

[Leaf2-bgp-default-ipv4] peer 172.16.25.6 enable

…

[Leaf2-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图

[Leaf2-bgp-default] address-family inof

# 配置Leaf角色为客户机

[Leaf2-bgp-default-inof] role reflect-client

# 允许本地路由器与对等体交换路由信息

[Leaf2-bgp-default-inof] peer 172.16.24.2 enable

[Leaf2-bgp-default-inof] peer 172.16.24.6 enable

…

[Leaf2-bgp-default-inof]quit

[Leaf2-bgp-default]quit

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf2] buffer egress cell queue 5 shared ratio 100

[Leaf2] buffer egress cell queue 6 shared ratio 100

[Leaf2] buffer apply

# 全局使能ECN拥塞标记功能。

[Leaf2] qos wred ecn enable

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Leaf2-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf2-if-range] qos wfq byte-count

[Leaf2-if-range] qos wfq ef group 1 byte-count 60

[Leaf2-if-range] qos wfq cs6 group sp

[Leaf2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Leaf2-if-range] qos gts queue 6 cir 12500000

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Leaf2-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf2-if-range] qos wfq byte-count

[Leaf2-if-range] qos wfq ef group 1 byte-count 60

[Leaf2-if-range] qos wfq cs6 group sp

[Leaf2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Leaf2-if-range] qos gts queue 6 cir 50000000

[Leaf2-if-range] quit

(5) 配置AI ECN功能（S6850-G仅R8108Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Leaf2] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Leaf2] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Leaf2] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Leaf2] ai-service

[Leaf2-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Leaf2-ai-service] ai-ecn

[Leaf2-ai-service-ai-ecn] queue 5 enable

[Leaf2-ai-service-ai-ecn] queue 6 enable

[Leaf2-ai-service-ai-ecn] quit

[Leaf2-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Leaf2] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Leaf2] priority-flow-control deadlock precision high

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Leaf2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Leaf2-if-range] priority-flow-control dot1p 5 headroom 2000

[Leaf2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 开启与对端自动协商是否开启PFC功能。

[Leaf2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Leaf2-if-range] priority-flow-control dot1p 5 headroom 3000

[Leaf2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf2-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Leaf2] inof enable

[Leaf2-inof] quit

3. 配置Spine1

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Spine1> system-view

[Spine1] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Spine1] vlan 101

[Spine1-vlan101] quit

# 创建vlan虚接口。

[Spine1] interface Vlan-interface 101

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Spine1-Vlan-interface101] ip address 101.1.1.254 24

# 配置vlan虚接口mac地址。

[Spine1-Vlan-interface101] mac-address 0000-5e00-0001

[Spine1-Vlan-interface101] quit

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Spine1-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Spine1-if-range] undo port trunk permit vlan 1

# 允许vlan 101通过这些trunk接口。

[Spine1-if-range] port trunk permit vlan 101

# 配置为stp edge-port。

[Spine1-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Spine1-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Spine1-if-range] qos trust dot1p

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 将以太接口切换为三层工作模式。

[Spine1-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Spine1-if-range] qos trust dscp

[Spine1-if-range] quit

# 配置接口IP地址。

[Spine1] interface HundredGigE 2/0/49

[Spine1-HundredGigE2/0/49] ip address 172.16.24.2 30

[Spine1-HundredGigE2/0/49] quit

[Spine1] interface HundredGigE 2/0/50

[Spine1-HundredGigE2/0/50] ip address 172.16.24.6 30

[Spine1-HundredGigE2/0/50] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Spine1] interface LoopBack 0

# 配置LoopBack 0的IP，作为全局的Router ID

[Spine1-LoopBack0] ip address 92.1.1.1 32

[Spine1-LoopBack0] quit

# 配置全局Router ID

[Spine1] router-id 92.1.1.1

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Spine1-bgp-default] bgp 65512

# 配置BGP的Router ID

[Spine1-bgp-default] router-id 92.1.1.1

# 将Leaf设备添加为对等体

[Spine1-bgp-default] peer 172.16.24.1 as-number 65512

[Spine1-bgp-default] peer 172.16.24.5 as-number 65512

…

# 进入BGP ipv4单播地址族视图

[Spine1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Spine1-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由。

[Spine1-bgp-default-ipv4] network 92.1.1.1 255.255.255.255

# 发布存储网卡接入网段的路由。

[Spine1-bgp-default-ipv4] network 101.1.1.0 255.255.255.0

# 发布与Leaf互联接口的网段路由

[Spine1-bgp-default-ipv4] network 172.16.24.0 255.255.255.252

[Spine1-bgp-default-ipv4] network 172.16.24.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine1-bgp-default-ipv4] peer 172.16.24.1 enable

[Spine1-bgp-default-ipv4] peer 172.16.24.5 enable

[Spine1-bgp-default-ipv4] peer 172.16.24.1 reflect-client

[Spine1-bgp-default-ipv4] peer 172.16.24.5 reflect-client

…

[Spine1-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图。

[Spine1-bgp-default] address-family inof

# 配置Spine角色为反射器。

[Spine1-bgp-default-inof] role reflector

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine1-bgp-default-inof] peer 172.16.24.1 enable

[Spine1-bgp-default-inof] peer 172.16.24.5 enable

[Spine1-bgp-default-inof] peer 172.16.24.1 reflect-client

[Spine1-bgp-default-inof] peer 172.16.24.5 reflect-client

…

[Spine1-bgp-default-inof]quit

[Spine1-bgp-default]quit

使用EBGP作为传递iNOF信息的路由协议时，iNOF地址族不需要配置role reflector，IPv4和iNOF地址族不需要配置peer {ipv4-address | ipv6-address } reflect-client。

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Spine1] buffer egress cell queue 5 shared ratio 100

[Spine1] buffer egress cell queue 6 shared ratio 100

[Spine1] buffer apply

# 全局使能ECN拥塞标记功能。

[Spine1] qos wred ecn enable

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Spine1-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine1-if-range] qos wfq byte-count

[Spine1-if-range] qos wfq ef group 1 byte-count 60

[Spine1-if-range] qos wfq cs6 group sp

[Spine1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Spine1-if-range] qos gts queue 6 cir 12500000

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Spine1-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine1-if-range] qos wfq byte-count

[Spine1-if-range] qos wfq ef group 1 byte-count 60

[Spine1-if-range] qos wfq cs6 group sp

[Spine1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Spine1-if-range] qos gts queue 6 cir 50000000

[Spine1-if-range] quit

(5) 配置AI ECN功能（S6850-G仅R8108Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Spine1] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Spine1] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Spine1] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Spine1] ai-service

[Spine1-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Spine1-ai-service] ai-ecn

[Spine1-ai-service-ai-ecn] queue 5 enable

[Spine1-ai-service-ai-ecn] queue 6 enable

[Spine1-ai-service-ai-ecn] quit

[Spine1-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Spine1] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Spine1] priority-flow-control deadlock precision high

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Spine1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Spine1-if-range] priority-flow-control dot1p 5 headroom 2000

[Spine1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine1-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Spine1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 开启与对端自动协商是否开启PFC功能。

[Spine1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Spine1-if-range] priority-flow-control dot1p 5 headroom 3000

[Spine1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine1-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Spine1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine1-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Spine1] inof enable

# 将允许相互访问的iNOF主机加入到相同域中

[Spine1-inof] zone H1toS1

[Spine1-inof-zone-H1toS1] host 100.1.1.1

[Spine1-inof-zone-H1toS1] host 101.1.1.1

[Spine1-inof-zone-H1toS1] host 100.1.1.2

[Spine1-inof-zone-H1toS1] host 101.1.1.2

[Spine1-inof-zone-H1toS1] quit

[Spine1-inof] zone H2toS1

[Spine1-inof-zone-H2toS1] host 100.1.1.3

[Spine1-inof-zone-H2toS1] host 101.1.1.1

[Spine1-inof-zone-H2toS1] host 100.1.1.4

[Spine1-inof-zone-H2toS1] host 101.1.1.2

[Spine1-inof-zone-H2toS1] quit

[Spine1-inof] quit

4. 配置Spine2

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Spine2> system-view

[Spine2] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Spine2] vlan 201

[Spine2-vlan201] quit

# 创建vlan虚接口。

[Spine2] interface Vlan-interface 201

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Spine2-Vlan-interface101] ip address 201.1.1.254 24

# 配置vlan虚接口mac地址。

[Spine2-Vlan-interface101] mac-address 0000-5e00-0001

[Spine2-Vlan-interface101] quit

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Spine2-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Spine2-if-range] undo port trunk permit vlan 1

# 允许vlan 201通过这些trunk接口。

[Spine2-if-range] port trunk permit vlan 201

# 配置为stp edge-port。

[Spine2-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Spine2-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Spine2-if-range] qos trust dot1p

[Spine2-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 将以太接口切换为三层工作模式。

[Spine2-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Spine2-if-range] qos trust dscp

[Spine2-if-range] quit

# 配置接口IP地址。

[Spine2] interface HundredGigE 2/0/49

[Spine2-HundredGigE2/0/49] ip address 172.16.25.2 30

[Spine2-HundredGigE2/0/49] quit

[Spine2] interface HundredGigE 2/0/50

[Spine2-HundredGigE2/0/50] ip address 172.16.25.6 30

[Spine2-HundredGigE2/0/50] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Spine2] interface LoopBack 0

# 配置LoopBack 0的IP，作为全局的Router ID

[Spine2-LoopBack0] ip address 92.1.1.2 32

[Spine2-LoopBack0] quit

# 配置全局Router ID

[Spine2] router-id 92.1.1.2

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Spine2-bgp-default] bgp 65513

# 配置BGP的Router ID

[Spine2-bgp-default] router-id 92.1.1.2

# 将Leaf设备添加为对等体

[Spine2-bgp-default] peer 172.16.25.1 as-number 65513

[Spine2-bgp-default] peer 172.16.25.5 as-number 65513

…

# 进入BGP ipv4单播地址族视图

[Spine2-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Spine2-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由。

[Spine2-bgp-default-ipv4] network 92.1.1.2 255.255.255.255

# 发布存储网卡接入网段的路由。

[Spine2-bgp-default-ipv4] network 201.1.1.0 255.255.255.0

# 发布与Leaf互联接口的网段路由

[Spine2-bgp-default-ipv4] network 172.16.25.0 255.255.255.252

[Spine2-bgp-default-ipv4] network 172.16.25.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine2-bgp-default-ipv4] peer 172.16.25.1 enable

[Spine2-bgp-default-ipv4] peer 172.16.25.5 enable

[Spine2-bgp-default-ipv4] peer 172.16.25.1 reflect-client

[Spine2-bgp-default-ipv4] peer 172.16.25.5 reflect-client

…

[Spine2-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图。

[Spine2-bgp-default] address-family inof

# 配置Spine角色为反射器。

[Spine2-bgp-default-inof] role reflector

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine2-bgp-default-inof] peer 172.16.25.1 enable

[Spine2-bgp-default-inof] peer 172.16.25.5 enable

[Spine2-bgp-default-inof] peer 172.16.25.1 reflect-client

[Spine2-bgp-default-inof] peer 172.16.25.5 reflect-client

…

[Spine2-bgp-default-inof]quit

[Spine2-bgp-default]quit

使用EBGP作为传递iNOF信息的路由协议时，iNOF地址族不需要配置role reflector，IPv4和iNOF地址族不需要配置peer {ipv4-address | ipv6-address } reflect-client。

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Spine2] buffer egress cell queue 5 shared ratio 100

[Spine2] buffer egress cell queue 6 shared ratio 100

[Spine2] buffer apply

# 全局使能ECN拥塞标记功能。

[Spine2] qos wred ecn enable

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Spine2-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine2-if-range] qos wfq byte-count

[Spine2-if-range] qos wfq ef group 1 byte-count 60

[Spine2-if-range] qos wfq cs6 group sp

[Spine2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Spine2-if-range] qos gts queue 6 cir 12500000

[Spine2-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Spine2-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine2-if-range] qos wfq byte-count

[Spine2-if-range] qos wfq ef group 1 byte-count 60

[Spine2-if-range] qos wfq cs6 group sp

[Spine2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Spine2-if-range] qos gts queue 6 cir 50000000

[Spine2-if-range] quit

(5) 配置AI ECN功能（S6850-G仅R8108Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Spine2] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Spine2] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Spine2] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Spine2] ai-service

[Spine2-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Spine2-ai-service] ai-ecn

[Spine2-ai-service-ai-ecn] queue 5 enable

[Spine2-ai-service-ai-ecn] queue 6 enable

[Spine2-ai-service-ai-ecn] quit

[Spine2-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Spine2] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Spine2] priority-flow-control deadlock precision high

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Spine2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Spine2-if-range] priority-flow-control dot1p 5 headroom 2000

[Spine2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine2-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Spine2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine2-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 开启与对端自动协商是否开启PFC功能。

[Spine2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Spine2-if-range] priority-flow-control dot1p 5 headroom 3000

[Spine2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine2-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Spine2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine2-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Spine2] inof enable

# 将允许相互访问的iNOF主机加入到相同域中

[Spine2-inof] zone H1toS1

[Spine2-inof-zone-H1toS1] host 100.1.1.1

[Spine2-inof-zone-H1toS1] host 101.1.1.1

[Spine2-inof-zone-H1toS1] host 100.1.1.2

[Spine2-inof-zone-H1toS1] host 101.1.1.2

[Spine2-inof-zone-H1toS1] quit

[Spine2-inof] zone H2toS1

[Spine2-inof-zone-H2toS1] host 100.1.1.3

[Spine2-inof-zone-H2toS1] host 101.1.1.1

[Spine2-inof-zone-H2toS1] host 100.1.1.4

[Spine2-inof-zone-H2toS1] host 101.1.1.2

[Spine2-inof-zone-H2toS1] quit

[Spine2-inof] quit

5. 查询命令

· 查看接口WRED参数（ECN水线）配置

display qos wred interface

· 查看接口的PFC信息

display priority-flow-control interface

· 查看设备所有接口丢包计数、ECN拥塞标记计数的汇总信息

display packet-drop summary

· 查看接口丢包计数、ECN拥塞标记计数等信息

display packet-drop interface

· 查看iNOF域的相关信息

display inof configuration zone

· 查看iNOF网络中接入主机的信息

display inof information host

5.3 集中式存储典型配置举例（框式-盒式）

5.3.1 典型组网

以二层框盒组网为例，集中式存储的RoCE高性能存储网络典型组网如下图所示。

本节以每个平面使用Leaf-Spine的两层组网为例，Leaf使用S6850-G系列盒式交换机，Spine使用S12500G-AF系列框式交换机。

在该组网中，服务器和存储均采用VLAN接入，使用25G带宽链路，分别接入到两个平面的交换机；Leaf和Spine之间采用路由口互联，使用多条100G带宽链路，形成等价路由。

存储、存储服务器和交换机均支持iNOF（Intelligent Lossless NVMe Over Fabric，智能无损存储网络），从而可以快速感知网络服务器和磁盘设备的加入和离开。

本组网中要求实现RDMA应用报文使用队列5进行无损传输。

本文以一个平面1台Leaf设备示例，实际组网时一个平面可能存在多台Leaf，各Leaf设备的配置相似，此处不再一一列出。

图5-4 集中式存储典型组网

表5-3 服务器/存储接入口IP规划

设备	接口	IP地址/VLAN	设备	接口	IP地址/VLAN
Leaf1	WGE2/0/1	100	Leaf2	WGE2/0/1	200
	…	100		…	200
	WGE2/0/8	100		WGE2/0/8	200
	Vlan-int100	100.1.1.254/24		Vlan-int201	200.1.1.254/24
	LoopBack 0	91.1.1.1/32		LoopBack 0	91.1.1.2/32
Spine1	WGE2/0/1	101	Spine2	WGE2/0/1	201
	…	101		…	201
	WGE2/0/8	101		WGE2/0/8	201
	Vlan-int101	101.1.1.254/24		Vlan-int200	201.1.1.254/24
	LoopBack 0	92.1.1.1/32		LoopBack 0	92.1.1.2/32

表5-4 Leaf-Spine互联接口IP规划

设备	接口	IP地址/VLAN	设备	接口	IP地址/VLAN
Leaf1	HGE2/0/49	172.16.24.1/30	Spine1	HGE3/0/1	172.16.24.2/30
	HGE2/0/50	172.16.24.5/30		HGE3/0/2	172.16.24.6/30
	HGE2/0/52	172.16.24.9/30		HGE3/0/3	172.16.24.10/30
	HGE2/0/52	172.16.24.13/30		HGE3/0/4	172.16.24.14/30
Leaf2	HGE2/0/49	172.16.25.1/30	Spine2	HGE3/0/1	172.16.25.2/30
	HGE2/0/50	172.16.25.5/30		HGE3/0/2	172.16.25.6/30
	HGE2/0/51	172.16.25.9/30		HGE3/0/3	172.16.25.10/30
	HGE2/0/52	172.16.25.13/30		HGE3/0/4	172.16.25.14/30

· Leaf上服务器接入口的配置相似，配置仅以少量接口为例。

· Spine上存储接入口的配置相似，配置仅以少量接口为例。

· Leaf与Spine之间互联接口的配置相似，配置仅以少量接口为例。

· 本文以一个平面1台Leaf设备示例，实际组网时一个平面可能存在多台Leaf，各Leaf设备的配置相似，此处不再一一列出。

5.3.2 配置思路

1. 采用双平面组网

每个平面采用Leaf-Spine的两层组网形式。

2. 路由配置方案

使用IBGP作为路由互通协议：

· 通过BGP的IPv4地址族进行RDMA业务转发，发布Loopback口的地址（也作为router-id）、Leaf与Spine互联接口的网段、服务器/存储接入口的网段。

· 通过BGP的iNOF地址族传递存储、服务器的iNOF信息，Spine配置为路由反射器。

· 存储和服务器配置网关或路由，保证相互路由可达。

请按照业务需求和组网规模选择合适的路由协议，使用iNOF功能时，必须配置BGP的iNOF地址族用于iNOF信息传递，RDMA业务流量使用的路由协议没有限制。

3. RDMA功能配置

为实现RDMA应用报文的无损传输，我们需要部署PFC功能和ECN功能：

· PFC功能基于优先级队列对报文进行流量控制。RDMA报文携带802.1P优先级5，我们对802.1P优先级为5的报文开启PFC功能。

RDMA报文转发路径的所有端口都需要配置PFC功能。

- 使用netanalysis rocev2 mode命令配置RoCEv2流量NetAnalysis功能的工作模式；

- 使用netanalysis rocev2 statistics命令开启RoCEv2流量的NetAnalysis统计功能；

- 使用netanalysis rocev2 ai-ecn enable命令开启RoCEv2流量的AI ECN功能。

PFC和ECN参数请参考推荐值（国产芯片设备S12500G-AF/S12500CR/S6850-G）。

4. iNOF功能配置

Leaf和Spine均使能iNOF，与存储、服务器互联的接口需要使能lldp和dcbx等功能。

需要在Spine上配置iNOF zone，并按照规划将存储、服务器的ip添加到相应的iNOF zone中以用于访问控制。

5.3.3 配置注意事项

请确认存储及服务器的软件支持SNSD功能并配置正确，否则服务器和存储不能通过iNOF信息自动建立链接，也会导致存储网络的iNOF快速感知功能失效。

本文仅涉及交换机配置，存储以及存储服务器的配置，请以使用产品的资料为准。

静态ECN功能与AIECN功能选择一种配置即可。如果Spine设备与Leaf设备都支持AI ECN功能，则建议配置AI ECN功能。

AI ECN功能受License限制，请在使用本功能前安装有效的License。有关License的详细介绍，请参见“基础配置指导”中的“License管理”。

关于优先级映射的详细介绍，请参见产品配套的“ACL和QoS配置指导”中的“优先级映射”。

5.3.4 配置步骤

1. 配置Leaf1

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Leaf1> system-view

[Leaf1] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Leaf1] vlan 100

[Leaf1-vlan100] quit

# 创建vlan虚接口。

[Leaf1] interface Vlan-interface 100

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Leaf1-Vlan-interface100] ip address 100.1.1.254 24

# 配置vlan虚接口mac地址。

[Leaf1-Vlan-interface100] mac-address 0000-5e00-0001

[Leaf1-Vlan-interface100] quit

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Leaf1-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Leaf1-if-range] undo port trunk permit vlan 1

# 允许vlan 100通过这些trunk接口。

[Leaf1-if-range] port trunk permit vlan 100

# 配置为stp edge-port。

[Leaf1-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Leaf1-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Leaf1-if-range] qos trust dot1p

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 将以太接口切换为三层工作模式。

[Leaf1-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Leaf1-if-range] qos trust dscp

[Leaf1-if-range] quit

# 配置接口IP地址。

[Leaf1] interface HundredGigE 2/0/49

[Leaf1-HundredGigE2/0/49] ip address 172.16.24.1 30

[Leaf1-HundredGigE2/0/49] quit

[Leaf1] interface HundredGigE 2/0/50

[Leaf1-HundredGigE2/0/50] ip address 172.16.24.5 30

[Leaf1-HundredGigE2/0/50] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Leaf1] interface LoopBack 0

# 配置LoopBack 0的ip，作为全局的Router ID

[Leaf1-LoopBack0] ip address 91.1.1.1 32

[Leaf1-LoopBack0] quit

# 配置全局Router ID

[Leaf1] router-id 91.1.1.1

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Leaf1-bgp-default] bgp 65512

# 配置BGP的Router ID

[Leaf1-bgp-default] router-id 91.1.1.1

# 将Spine设备添加为对等体

[Leaf1-bgp-default] peer 172.16.24.2 as-number 65512

[Leaf1-bgp-default] peer 172.16.24.6 as-number 65512

…

# 进入BGP ipv4单播地址族视图

[Leaf1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Leaf1-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由

[Leaf1-bgp-default-ipv4] network 91.1.1.1 255.255.255.255

# 发布业务服务器接入网段的路由

[Leaf1-bgp-default-ipv4] network 100.1.1.0 255.255.255.0

# 发布与Spine互联接口的网段路由

[Leaf1-bgp-default-ipv4] network 172.16.24.0 255.255.255.252

[Leaf1-bgp-default-ipv4] network 172.16.24.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息

[Leaf1-bgp-default-ipv4] peer 172.16.24.2 enable

[Leaf1-bgp-default-ipv4] peer 172.16.24.6 enable

…

[Leaf1-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图

[Leaf1-bgp-default] address-family inof

# 配置Leaf角色为客户机

[Leaf1-bgp-default-inof] role reflect-client

# 允许本地路由器与对等体交换路由信息

[Leaf1-bgp-default-inof] peer 172.16.24.2 enable

[Leaf1-bgp-default-inof] peer 172.16.24.6 enable

…

[Leaf1-bgp-default-inof]quit

[Leaf1-bgp-default]quit

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf1] buffer egress cell queue 5 shared ratio 100

[Leaf1] buffer egress cell queue 6 shared ratio 100

[Leaf1] buffer apply

# 全局使能ECN拥塞标记功能。

[Leaf1] qos wred ecn enable

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Leaf1-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Leaf1-if-range] qos gts queue 6 cir 12500000

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Leaf1-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Leaf1-if-range] qos gts queue 6 cir 50000000

[Leaf1-if-range] quit

对于S12500G-AF/S6850-G系列交换机，支持在接口视图配置WRED的各种参数。端口WRED方式可以只配置RoCE队列，不同接口可以配置不同的参数，使用更为灵活。对于支持该功能的产品和版本，推荐采用端口WRED方式。

(5) 配置AI ECN功能（S6850-G仅R8108Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Leaf1] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Leaf1] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Leaf1] netanalysis rocev2 ai-ecn enable

# 加载AI模型文件。指定的模型文件必须已经被保存在设备的存储空间上，有关AI模型文件，请联系技术支持获取。

[Leaf1] ai-service

[Leaf1-ai-service] model load flash:/ai-ecn.cambricon

# 配置AI ECN功能的模式为分布式模式。

[Leaf1-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Leaf1-ai-service] ai-ecn

[Leaf1-ai-service-ai-ecn] queue 5 enable

[Leaf1-ai-service-ai-ecn] queue 6 enable

[Leaf1-ai-service-ai-ecn] quit

[Leaf1-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Leaf1] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Leaf1] priority-flow-control deadlock precision high

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Leaf1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Leaf1-if-range] priority-flow-control dot1p 5 headroom 2000

[Leaf1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 开启与对端自动协商是否开启PFC功能。

[Leaf1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Leaf1-if-range] priority-flow-control dot1p 5 headroom 3000

[Leaf1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf1-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Leaf1] inof enable

[Leaf1-inof] quit

2. 配置Leaf2

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Leaf2> system-view

[Leaf2] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Leaf2] vlan 200

[Leaf2-vlan200] quit

# 创建vlan虚接口。

[Leaf2] interface Vlan-interface 200

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Leaf2-Vlan-interface200] ip address 200.1.1.254 24

# 配置vlan虚接口mac地址。

[Leaf2-Vlan-interface200] mac-address 0000-5e00-0001

[Leaf2-Vlan-interface200] quit

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Leaf2-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Leaf2-if-range] undo port trunk permit vlan 1

# 允许vlan 200通过这些trunk接口。

[Leaf2-if-range] port trunk permit vlan 200

# 配置为stp edge-port。

[Leaf2-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Leaf2-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Leaf2-if-range] qos trust dot1p

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 将以太接口切换为三层工作模式。

[Leaf2-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Leaf2-if-range] qos trust dscp

[Leaf2-if-range] quit

# 配置接口IP地址。

[Leaf2] interface HundredGigE 2/0/49

[Leaf2-HundredGigE2/0/49] ip address 172.16.25.1 30

[Leaf2-HundredGigE2/0/49] quit

[Leaf2] interface HundredGigE 2/0/50

[Leaf2-HundredGigE2/0/50] ip address 172.16.25.5 30

[Leaf2-HundredGigE2/0/50] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Leaf2] interface LoopBack 0

# 配置LoopBack 0的ip，作为全局的Router ID

[Leaf2-LoopBack0] ip address 91.1.1.2 32

[Leaf2-LoopBack0] quit

# 配置全局Router ID

[Leaf2] router-id 91.1.1.2

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Leaf2-bgp-default] bgp 65513

# 配置BGP的Router ID

[Leaf2-bgp-default] router-id 91.1.1.2

# 将Spine设备添加为对等体

[Leaf2-bgp-default] peer 172.16.25.2 as-number 65513

[Leaf2-bgp-default] peer 172.16.25.6 as-number 65513

…

# 进入BGP ipv4单播地址族视图

[Leaf2-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Leaf2-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由

[Leaf2-bgp-default-ipv4] network 91.1.1.2 255.255.255.255

# 发布业务服务器接入网段的路由

[Leaf2-bgp-default-ipv4] network 200.1.1.0 255.255.255.0

# 发布与Spine互联接口的网段路由

[Leaf2-bgp-default-ipv4] network 172.16.25.0 255.255.255.252

[Leaf2-bgp-default-ipv4] network 172.16.25.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息

[Leaf2-bgp-default-ipv4] peer 172.16.25.2 enable

[Leaf2-bgp-default-ipv4] peer 172.16.25.6 enable

…

[Leaf2-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图

[Leaf2-bgp-default] address-family inof

# 配置Leaf角色为客户机

[Leaf2-bgp-default-inof] role reflect-client

# 允许本地路由器与对等体交换路由信息

[Leaf2-bgp-default-inof] peer 172.16.24.2 enable

[Leaf2-bgp-default-inof] peer 172.16.24.6 enable

…

[Leaf2-bgp-default-inof]quit

[Leaf2-bgp-default]quit

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf2] buffer egress cell queue 5 shared ratio 100

[Leaf2] buffer egress cell queue 6 shared ratio 100

[Leaf2] buffer apply

# 全局使能ECN拥塞标记功能。

[Leaf2] qos wred ecn enable

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Leaf2-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf2-if-range] qos wfq byte-count

[Leaf2-if-range] qos wfq ef group 1 byte-count 60

[Leaf2-if-range] qos wfq cs6 group sp

[Leaf2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Leaf2-if-range] qos gts queue 6 cir 12500000

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 2/0/49 to HundredGigE 2/0/52

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Leaf2-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf2-if-range] qos wfq byte-count

[Leaf2-if-range] qos wfq ef group 1 byte-count 60

[Leaf2-if-range] qos wfq cs6 group sp

[Leaf2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Leaf2-if-range] qos gts queue 6 cir 50000000

[Leaf2-if-range] quit

(5) 配置AI ECN功能（S6850-G仅R8108Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Leaf2] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Leaf2] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Leaf2] netanalysis rocev2 ai-ecn enable

# 加载AI模型文件。指定的模型文件必须已经被保存在设备的存储空间上，有关AI模型文件，请联系技术支持获取。

[Leaf2] ai-service

[Leaf2-ai-service] model load flash:/ai-ecn.cambricon

# 配置AI ECN功能的模式为分布式模式。

[Leaf2-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Leaf2-ai-service] ai-ecn

[Leaf2-ai-service-ai-ecn] queue 5 enable

[Leaf2-ai-service-ai-ecn] queue 6 enable

[Leaf2-ai-service-ai-ecn] quit

[Leaf2-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Leaf2] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Leaf2] priority-flow-control deadlock precision high

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Leaf2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Leaf2-if-range] priority-flow-control dot1p 5 headroom 2000

[Leaf2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 开启与对端自动协商是否开启PFC功能。

[Leaf2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Leaf2-if-range] priority-flow-control dot1p 5 headroom 3000

[Leaf2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf2-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Leaf2] inof enable

[Leaf2-inof] quit

3. 配置Spine1

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Spine1> system-view

[Spine1] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Spine1] vlan 101

[Spine1-vlan101] quit

# 创建vlan虚接口。

[Spine1] interface Vlan-interface 101

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Spine1-Vlan-interface101] ip address 101.1.1.254 24

# 配置vlan虚接口mac地址。

[Spine1-Vlan-interface101] mac-address 0000-5e00-0001

[Spine1-Vlan-interface101] quit

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Spine1-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Spine1-if-range] undo port trunk permit vlan 1

# 允许vlan 101通过这些trunk接口。

[Spine1-if-range] port trunk permit vlan 101

# 配置为stp edge-port。

[Spine1-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Spine1-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Spine1-if-range] qos trust dot1p

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 将以太接口切换为三层工作模式。

[Spine1-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Spine1-if-range] qos trust dscp

[Spine1-if-range] quit

# 配置接口IP地址。

[Spine1] interface HundredGigE 3/0/1

[Spine1-HundredGigE3/0/1] ip address 172.16.24.2 30

[Spine1-HundredGigE3/0/1] quit

[Spine1] interface HundredGigE 3/0/2

[Spine1-HundredGigE3/0/2] ip address 172.16.24.6 30

[Spine1-HundredGigE3/0/2] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Spine1] interface LoopBack 0

# 配置LoopBack 0的IP，作为全局的Router ID

[Spine1-LoopBack0] ip address 92.1.1.1 32

[Spine1-LoopBack0] quit

# 配置全局Router ID

[Spine1] router-id 92.1.1.1

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Spine1-bgp-default] bgp 65512

# 配置BGP的Router ID

[Spine1-bgp-default] router-id 92.1.1.1

# 将Leaf设备添加为对等体

[Spine1-bgp-default] peer 172.16.24.1 as-number 65512

[Spine1-bgp-default] peer 172.16.24.5 as-number 65512

…

# 进入BGP ipv4单播地址族视图

[Spine1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Spine1-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由。

[Spine1-bgp-default-ipv4] network 92.1.1.1 255.255.255.255

# 发布存储网卡接入网段的路由。

[Spine1-bgp-default-ipv4] network 101.1.1.0 255.255.255.0

# 发布与Leaf互联接口的网段路由

[Spine1-bgp-default-ipv4] network 172.16.24.0 255.255.255.252

[Spine1-bgp-default-ipv4] network 172.16.24.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine1-bgp-default-ipv4] peer 172.16.24.1 enable

[Spine1-bgp-default-ipv4] peer 172.16.24.5 enable

[Spine1-bgp-default-ipv4] peer 172.16.24.1 reflect-client

[Spine1-bgp-default-ipv4] peer 172.16.24.5 reflect-client

…

[Spine1-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图。

[Spine1-bgp-default] address-family inof

# 配置Spine角色为反射器。

[Spine1-bgp-default-inof] role reflector

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine1-bgp-default-inof] peer 172.16.24.1 enable

[Spine1-bgp-default-inof] peer 172.16.24.5 enable

[Spine1-bgp-default-inof] peer 172.16.24.1 reflect-client

[Spine1-bgp-default-inof] peer 172.16.24.5 reflect-client

…

[Spine1-bgp-default-inof]quit

[Spine1-bgp-default]quit

使用EBGP作为传递iNOF信息的路由协议时，iNOF地址族不需要配置role reflector，IPv4和iNOF地址族不需要配置peer {ipv4-address | ipv6-address } reflect-client。

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Spine1] buffer egress cell queue 5 shared ratio 100

[Spine1] buffer egress cell queue 6 shared ratio 100

[Spine1] buffer apply

# 全局使能ECN拥塞标记功能。

[Spine1] qos wred ecn enable

# 创建WRED表，并进入WRED表视图

[Spine1] qos wred queue table ECN

# 配置WRED参数。注意：使用WRED表配置WRED参数时，推荐将非无损队列参数中的high-limit配置为可配置的最大值，low-limit配置为最大值减1，使其WRED功能和ECN功能实际不生效

[Spine1-wred-table-queue-ECN] queue 0 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 1 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 2 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 3 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 4 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 6 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 7 low-limit 69631 high-limit 69632

[Spine1-wred-table-queue-ECN] queue 5 low-limit 600 high-limit 2000 [Spine1-wred-table-queue-ECN] discard-probability 20

[Spine1-wred-table-queue-ECN] quit

# 设置内联口ECN参数.注意：仅框式设备需要配置

[Spine1] qos wred apply ECN fabric

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Spine1-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine1-if-range] qos wfq byte-count

[Spine1-if-range] qos wfq ef group 1 byte-count 60

[Spine1-if-range] qos wfq cs6 group sp

[Spine1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Spine1-if-range] qos gts queue 6 cir 12500000

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Spine1-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine1-if-range] qos wfq byte-count

[Spine1-if-range] qos wfq ef group 1 byte-count 60

[Spine1-if-range] qos wfq cs6 group sp

[Spine1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Spine1-if-range] qos gts queue 6 cir 50000000

[Spine1-if-range] quit

(5) 配置AI ECN功能（S12500G-AF仅R8053Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Spine1] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Spine1] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Spine1] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Spine1] ai-service

[Spine1-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Spine1-ai-service] ai-ecn

[Spine1-ai-service-ai-ecn] queue 5 enable

[Spine1-ai-service-ai-ecn] queue 6 enable

[Spine1-ai-service-ai-ecn] quit

[Spine1-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Spine1] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Spine1] priority-flow-control deadlock precision high

# 使能内联口队列5的PFC功能。注意：仅框式设备需要配置

[Spine1] priority-flow-control inner-port enable

# 配置内联口的5队列的PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。注意：仅框式设备需要配置

[Spine1] priority-flow-control inner-port no-drop dot1p 5 ingress-buffer static 4000 ingress-threshold-offset 51 headroom 3000 reserved-buffer 30

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Spine1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Spine1-if-range] priority-flow-control dot1p 5 headroom 2000

[Spine1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine1-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Spine1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 开启与对端自动协商是否开启PFC功能。

[Spine1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Spine1-if-range] priority-flow-control dot1p 5 headroom 3000

[Spine1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine1-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Spine1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine1-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Spine1] inof enable

# 将允许相互访问的iNOF主机加入到相同域中

[Spine1-inof] zone H1toS1

[Spine1-inof-zone-H1toS1] host 100.1.1.1

[Spine1-inof-zone-H1toS1] host 101.1.1.1

[Spine1-inof-zone-H1toS1] host 100.1.1.2

[Spine1-inof-zone-H1toS1] host 101.1.1.2

[Spine1-inof-zone-H1toS1] quit

[Spine1-inof] zone H2toS1

[Spine1-inof-zone-H2toS1] host 100.1.1.3

[Spine1-inof-zone-H2toS1] host 101.1.1.1

[Spine1-inof-zone-H2toS1] host 100.1.1.4

[Spine1-inof-zone-H2toS1] host 101.1.1.2

[Spine1-inof-zone-H2toS1] quit

[Spine1-inof] quit

4. 配置Spine2

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Spine2> system-view

[Spine2] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Spine2] vlan 201

[Spine2-vlan201] quit

# 创建vlan虚接口。

[Spine2] interface Vlan-interface 201

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Spine2-Vlan-interface101] ip address 201.1.1.254 24

# 配置vlan虚接口mac地址。

[Spine2-Vlan-interface101] mac-address 0000-5e00-0001

[Spine2-Vlan-interface101] quit

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Spine2-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Spine2-if-range] undo port trunk permit vlan 1

# 允许vlan 201通过这些trunk接口。

[Spine2-if-range] port trunk permit vlan 201

# 配置为stp edge-port。

[Spine2-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Spine2-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Spine2-if-range] qos trust dot1p

[Spine2-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 将以太接口切换为三层工作模式。

[Spine2-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Spine2-if-range] qos trust dscp

[Spine2-if-range] quit

# 配置接口IP地址。

[Spine2] interface HundredGigE 3/0/1

[Spine2-HundredGigE3/0/1] ip address 172.16.25.2 30

[Spine2-HundredGigE3/0/1] quit

[Spine2] interface HundredGigE 3/0/2

[Spine2-HundredGigE3/0/2] ip address 172.16.25.6 30

[Spine2-HundredGigE3/0/2] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Spine2] interface LoopBack 0

# 配置LoopBack 0的IP，作为全局的Router ID

[Spine2-LoopBack0] ip address 92.1.1.2 32

[Spine2-LoopBack0] quit

# 配置全局Router ID

[Spine2] router-id 92.1.1.2

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Spine2-bgp-default] bgp 65513

# 配置BGP的Router ID

[Spine2-bgp-default] router-id 92.1.1.2

# 将Leaf设备添加为对等体

[Spine2-bgp-default] peer 172.16.25.1 as-number 65513

[Spine2-bgp-default] peer 172.16.25.5 as-number 65513

…

# 进入BGP ipv4单播地址族视图

[Spine2-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Spine2-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由。

[Spine2-bgp-default-ipv4] network 92.1.1.2 255.255.255.255

# 发布存储网卡接入网段的路由。

[Spine2-bgp-default-ipv4] network 201.1.1.0 255.255.255.0

# 发布与Leaf互联接口的网段路由

[Spine2-bgp-default-ipv4] network 172.16.25.0 255.255.255.252

[Spine2-bgp-default-ipv4] network 172.16.25.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine2-bgp-default-ipv4] peer 172.16.25.1 enable

[Spine2-bgp-default-ipv4] peer 172.16.25.5 enable

[Spine2-bgp-default-ipv4] peer 172.16.25.1 reflect-client

[Spine2-bgp-default-ipv4] peer 172.16.25.5 reflect-client

…

[Spine2-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图。

[Spine2-bgp-default] address-family inof

# 配置Spine角色为反射器。

[Spine2-bgp-default-inof] role reflector

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine2-bgp-default-inof] peer 172.16.25.1 enable

[Spine2-bgp-default-inof] peer 172.16.25.5 enable

[Spine2-bgp-default-inof] peer 172.16.25.1 reflect-client

[Spine2-bgp-default-inof] peer 172.16.25.5 reflect-client

…

[Spine2-bgp-default-inof]quit

[Spine2-bgp-default]quit

使用EBGP作为传递iNOF信息的路由协议时，iNOF地址族不需要配置role reflector，IPv4和iNOF地址族不需要配置peer {ipv4-address | ipv6-address } reflect-client。

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Spine2] buffer egress cell queue 5 shared ratio 100

[Spine2] buffer egress cell queue 6 shared ratio 100

[Spine2] buffer apply

# 全局使能ECN拥塞标记功能。

[Spine2] qos wred ecn enable

# 创建WRED表，并进入WRED表视图

[Spine2] qos wred queue table ECN

[Spine2-wred-table-queue-ECN] queue 0 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 1 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 2 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 3 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 4 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 6 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 7 low-limit 69631 high-limit 69632

[Spine2-wred-table-queue-ECN] queue 5 low-limit 600 high-limit 2000 [Spine2-wred-table-queue-ECN] discard-probability 20

[Spine2-wred-table-queue-ECN] quit

# 设置内联口ECN参数.注意：仅框式设备需要配置

[Spine2] qos wred apply ECN fabric

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Spine2-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine2-if-range] qos wfq byte-count

[Spine2-if-range] qos wfq ef group 1 byte-count 60

[Spine2-if-range] qos wfq cs6 group sp

[Spine2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Spine2-if-range] qos gts queue 6 cir 12500000

[Spine2-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Spine2-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Spine2-if-range] qos wfq byte-count

[Spine2-if-range] qos wfq ef group 1 byte-count 60

[Spine2-if-range] qos wfq cs6 group sp

[Spine2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Spine2-if-range] qos gts queue 6 cir 50000000

[Spine2-if-range] quit

(5) 配置AI ECN功能（S12500G-AF仅R8053Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Spine2] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Spine2] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Spine2] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Spine2] ai-service

[Spine2-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Spine2-ai-service] ai-ecn

[Spine2-ai-service-ai-ecn] queue 5 enable

[Spine2-ai-service-ai-ecn] queue 6 enable

[Spine2-ai-service-ai-ecn] quit

[Spine2-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Spine2] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Spine2] priority-flow-control deadlock precision high

# 使能内联口队列5的PFC功能。注意：仅框式设备需要配置

[Spine1] priority-flow-control inner-port enable

[Spine1] priority-flow-control inner-port no-drop dot1p 5 ingress-buffer static 4000 ingress-threshold-offset 51 headroom 3000 reserved-buffer 30

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Spine2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Spine2-if-range] priority-flow-control dot1p 5 headroom 2000

[Spine2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine2-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Spine2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine2-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 开启与对端自动协商是否开启PFC功能。

[Spine2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Spine2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Spine2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Spine2-if-range] priority-flow-control dot1p 5 headroom 3000

[Spine2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Spine2-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Spine2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Spine2-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Spine2] inof enable

# 将允许相互访问的iNOF主机加入到相同域中

[Spine2-inof] zone H1toS1

[Spine2-inof-zone-H1toS1] host 100.1.1.1

[Spine2-inof-zone-H1toS1] host 101.1.1.1

[Spine2-inof-zone-H1toS1] host 100.1.1.2

[Spine2-inof-zone-H1toS1] host 101.1.1.2

[Spine2-inof-zone-H1toS1] quit

[Spine2-inof] zone H2toS1

[Spine2-inof-zone-H2toS1] host 100.1.1.3

[Spine2-inof-zone-H2toS1] host 101.1.1.1

[Spine2-inof-zone-H2toS1] host 100.1.1.4

[Spine2-inof-zone-H2toS1] host 101.1.1.2

[Spine2-inof-zone-H2toS1] quit

[Spine2-inof] quit

5. 查询命令

· 查看接口WRED参数（ECN水线）配置

display qos wred interface

· 查看接口的PFC信息

display priority-flow-control interface

· 查看设备所有接口丢包计数、ECN拥塞标记计数的汇总信息

display packet-drop summary

· 查看接口丢包计数、ECN拥塞标记计数等信息

display packet-drop interface

· 查看iNOF域的相关信息

display inof configuration zone

· 查看iNOF网络中接入主机的信息

display inof information host

5.4 集中式存储典型配置举例（框式-框式）

5.4.1 典型组网

以二层框盒组网为例，集中式存储的RoCE高性能存储网络典型组网如下图所示。

本节以每个平面使用Leaf-Spine的两层组网为例，Leaf和Spine均使用S12500G-AF系列框式交换机。

存储、存储服务器和交换机均支持iNOF（Intelligent Lossless NVMe Over Fabric，智能无损存储网络），从而可以快速感知网络服务器和磁盘设备的加入和离开。

本组网中要求实现RDMA应用报文使用队列5进行无损传输。

本文以一个平面1台Leaf设备示例，实际组网时一个平面可能存在多台Leaf，各Leaf设备的配置相似，此处不再一一列出。

图5-5 集中式存储典型组网

表5-5 服务器/存储接入口IP规划

设备	接口	IP地址/VLAN	设备	接口	IP地址/VLAN
Leaf1	WGE2/0/1	100	Leaf2	WGE2/0/1	200
	…	100		…	200
	WGE2/0/8	100		WGE2/0/8	200
	Vlan-int100	100.1.1.254/24		Vlan-int201	200.1.1.254/24
	LoopBack 0	91.1.1.1/32		LoopBack 0	91.1.1.2/32
Spine1	WGE2/0/1	101	Spine2	WGE2/0/1	201
	…	101		…	201
	WGE2/0/8	101		WGE2/0/8	201
	Vlan-int101	101.1.1.254/24		Vlan-int200	201.1.1.254/24
	LoopBack 0	92.1.1.1/32		LoopBack 0	92.1.1.2/32

表5-6 Leaf-Spine互联接口IP规划

设备	接口	IP地址/VLAN	设备	接口	IP地址/VLAN
Leaf1	HGE3/0/1	172.16.24.1/30	Spine1	HGE3/0/1	172.16.24.2/30
	HGE3/0/2	172.16.24.5/30		HGE3/0/2	172.16.24.6/30
	HGE3/0/3	172.16.24.9/30		HGE3/0/3	172.16.24.10/30
	HGE3/0/4	172.16.24.13/30		HGE3/0/4	172.16.24.14/30
Leaf2	HGE3/0/1	172.16.25.1/30	Spine2	HGE3/0/1	172.16.25.2/30
	HGE3/0/2	172.16.25.5/30		HGE3/0/2	172.16.25.6/30
	HGE3/0/3	172.16.25.9/30		HGE3/0/3	172.16.25.10/30
	HGE3/0/4	172.16.25.13/30		HGE3/0/4	172.16.25.14/30

· Leaf上服务器接入口的配置相似，配置仅以少量接口为例。

· Spine上存储接入口的配置相似，配置仅以少量接口为例。

· Leaf与Spine之间互联接口的配置相似，配置仅以少量接口为例。

· 本文以一个平面1台Leaf设备示例，实际组网时一个平面可能存在多台Leaf，各Leaf设备的配置相似，此处不再一一列出。

5.4.2 配置思路

1. 采用双平面组网

每个平面采用Leaf-Spine的两层组网形式。

2. 路由配置方案

使用IBGP作为路由互通协议：

· 通过BGP的IPv4地址族进行RDMA业务转发，发布Loopback口的地址（也作为router-id）、Leaf与Spine互联接口的网段、服务器/存储接入口的网段。

· 通过BGP的iNOF地址族传递存储、服务器的iNOF信息，Spine配置为路由反射器。

· 存储和服务器配置网关或路由，保证相互路由可达。

请按照业务需求和组网规模选择合适的路由协议，使用iNOF功能时，必须配置BGP的iNOF地址族用于iNOF信息传递，RDMA业务流量使用的路由协议没有限制。

3. RDMA功能配置

为实现RDMA应用报文的无损传输，我们需要部署PFC功能和ECN功能：

· PFC功能基于优先级队列对报文进行流量控制。RDMA报文携带802.1P优先级5，我们对802.1P优先级为5的报文开启PFC功能。

RDMA报文转发路径的所有端口都需要配置PFC功能。

- 使用netanalysis rocev2 mode命令配置RoCEv2流量NetAnalysis功能的工作模式；

- 使用netanalysis rocev2 statistics命令开启RoCEv2流量的NetAnalysis统计功能；

- 使用netanalysis rocev2 ai-ecn enable命令开启RoCEv2流量的AI ECN功能。

PFC和ECN参数请参考推荐值（国产芯片设备S12500G-AF/S12500CR/S6850-G）。

4. iNOF功能配置

Leaf和Spine均使能iNOF，与存储、服务器互联的接口需要使能lldp和dcbx等功能。

需要在Spine上配置iNOF zone，并按照规划将存储、服务器的ip添加到相应的iNOF zone中以用于访问控制。

5.4.3 配置注意事项

请确认存储及服务器的软件支持SNSD功能并配置正确，否则服务器和存储不能通过iNOF信息自动建立链接，也会导致存储网络的iNOF快速感知功能失效。

本文仅涉及交换机配置，存储以及存储服务器的配置，请以使用产品的资料为准。

静态ECN功能与AIECN功能选择一种配置即可。如果Spine设备与Leaf设备都支持AI ECN功能，则建议配置AI ECN功能。

AI ECN功能受License限制，请在使用本功能前安装有效的License。有关License的详细介绍，请参见“基础配置指导”中的“License管理”。

关于优先级映射的详细介绍，请参见产品配套的“ACL和QoS配置指导”中的“优先级映射”。

5.4.4 配置步骤

1. 配置Leaf1

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Leaf1> system-view

[Leaf1] lldp global enable

# 进入优先级映射表配置视图。

[Leaf1] qos map-table dot1p-lp

# 修改优先级映射表。

[Leaf1-maptbl-dot1p-lp] import 0 export 0

[Leaf1-maptbl-dot1p-lp] import 1 export 1

[Leaf1-maptbl-dot1p-lp] import 2 export 2

[Leaf1-maptbl-dot1p-lp] quit

(2) VLAN和接口配置

# 创建VLAN。

[Leaf1] vlan 100

[Leaf1-vlan100] quit

# 创建vlan虚接口。

[Leaf1] interface Vlan-interface 100

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Leaf1-Vlan-interface100] ip address 100.1.1.254 24

# 配置vlan虚接口mac地址。

[Leaf1-Vlan-interface100] mac-address 0000-5e00-0001

[Leaf1-Vlan-interface100] quit

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Leaf1-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Leaf1-if-range] undo port trunk permit vlan 1

# 允许vlan 100通过这些trunk接口。

[Leaf1-if-range] port trunk permit vlan 100

# 配置为stp edge-port。

[Leaf1-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Leaf1-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Leaf1-if-range] qos trust dot1p

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 将以太接口切换为三层工作模式。

[Leaf1-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Leaf1-if-range] qos trust dscp

[Leaf1-if-range] quit

# 配置接口IP地址。

[Leaf1] interface HundredGigE 3/0/1

[Leaf1-HundredGigE3/0/1] ip address 172.16.24.1 30

[Leaf1-HundredGigE3/0/1] quit

[Leaf1] interface HundredGigE 3/0/2

[Leaf1-HundredGigE3/0/2] ip address 172.16.24.5 30

[Leaf1-HundredGigE3/0/2] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Leaf1] interface LoopBack 0

# 配置LoopBack 0的ip，作为全局的Router ID

[Leaf1-LoopBack0] ip address 91.1.1.1 32

[Leaf1-LoopBack0] quit

# 配置全局Router ID

[Leaf1] router-id 91.1.1.1

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Leaf1-bgp-default] bgp 65512

# 配置BGP的Router ID

[Leaf1-bgp-default] router-id 91.1.1.1

# 将Spine设备添加为对等体

[Leaf1-bgp-default] peer 172.16.24.2 as-number 65512

[Leaf1-bgp-default] peer 172.16.24.6 as-number 65512

…

# 进入BGP ipv4单播地址族视图

[Leaf1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Leaf1-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由

[Leaf1-bgp-default-ipv4] network 91.1.1.1 255.255.255.255

# 发布业务服务器接入网段的路由

[Leaf1-bgp-default-ipv4] network 100.1.1.0 255.255.255.0

# 发布与Spine互联接口的网段路由

[Leaf1-bgp-default-ipv4] network 172.16.24.0 255.255.255.252

[Leaf1-bgp-default-ipv4] network 172.16.24.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息

[Leaf1-bgp-default-ipv4] peer 172.16.24.2 enable

[Leaf1-bgp-default-ipv4] peer 172.16.24.6 enable

…

[Leaf1-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图

[Leaf1-bgp-default] address-family inof

# 配置Leaf角色为客户机

[Leaf1-bgp-default-inof] role reflect-client

# 允许本地路由器与对等体交换路由信息

[Leaf1-bgp-default-inof] peer 172.16.24.2 enable

[Leaf1-bgp-default-inof] peer 172.16.24.6 enable

…

[Leaf1-bgp-default-inof]quit

[Leaf1-bgp-default]quit

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf1] buffer egress cell queue 5 shared ratio 100

[Leaf1] buffer egress cell queue 6 shared ratio 100

[Leaf1] buffer apply

# 全局使能ECN拥塞标记功能。

[Leaf1] qos wred ecn enable

# 创建WRED表，并进入WRED表视图

[Leaf1] qos wred queue table ECN

[Leaf1-wred-table-queue-ECN] queue 0 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 1 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 2 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 3 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 4 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 6 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 7 low-limit 69631 high-limit 69632

[Leaf1-wred-table-queue-ECN] queue 5 low-limit 600 high-limit 2000 [Leaf1-wred-table-queue-ECN] discard-probability 20

[Leaf1-wred-table-queue-ECN] quit

# 设置内联口ECN参数.注意：仅框式设备需要配置

[Spine1] qos wred apply ECN fabric

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Leaf1-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Leaf1-if-range] qos gts queue 6 cir 12500000

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Leaf1-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf1-if-range] qos wfq byte-count

[Leaf1-if-range] qos wfq ef group 1 byte-count 60

[Leaf1-if-range] qos wfq cs6 group sp

[Leaf1-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Leaf1-if-range] qos gts queue 6 cir 50000000

[Leaf1-if-range] quit

(5) 配置AI ECN功能（S12500G-AF仅R8053Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Leaf1] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Leaf1] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Leaf1] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Leaf1] ai-service

[Leaf1-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Leaf1-ai-service] ai-ecn

[Leaf1-ai-service-ai-ecn] queue 5 enable

[Leaf1-ai-service-ai-ecn] queue 6 enable

[Leaf1-ai-service-ai-ecn] quit

[Leaf1-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Leaf1] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Leaf1] priority-flow-control deadlock precision high

# 使能内联口队列5的PFC功能。注意：仅框式设备需要配置

[Leaf1] priority-flow-control inner-port enable

[Leaf1] priority-flow-control inner-port no-drop dot1p 5 ingress-buffer static 4000 ingress-threshold-offset 51 headroom 3000 reserved-buffer 30

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Leaf1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Leaf1-if-range] priority-flow-control dot1p 5 headroom 2000

[Leaf1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf1-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 开启与对端自动协商是否开启PFC功能。

[Leaf1-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf1-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf1-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Leaf1-if-range] priority-flow-control dot1p 5 headroom 3000

[Leaf1-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Leaf1-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf1-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Leaf1] inof enable

[Leaf1-inof] quit

2. 配置Leaf2

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Leaf2> system-view

[Leaf2] lldp global enable

# 进入优先级映射表配置视图。

[Leaf2] qos map-table dot1p-lp

# 修改优先级映射表。

[Leaf2-maptbl-dot1p-lp] import 0 export 0

[Leaf2-maptbl-dot1p-lp] import 1 export 1

[Leaf2-maptbl-dot1p-lp] import 2 export 2

[Leaf2-maptbl-dot1p-lp] quit

(2) VLAN和接口配置

# 创建VLAN。

[Leaf2] vlan 200

[Leaf2-vlan200] quit

# 创建vlan虚接口。

[Leaf2] interface Vlan-interface 200

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Leaf2-Vlan-interface200] ip address 200.1.1.254 24

# 配置vlan虚接口mac地址。

[Leaf2-Vlan-interface200] mac-address 0000-5e00-0001

[Leaf2-Vlan-interface200] quit

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Leaf2-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Leaf2-if-range] undo port trunk permit vlan 1

# 允许vlan 200通过这些trunk接口。

[Leaf2-if-range] port trunk permit vlan 200

# 配置为stp edge-port。

[Leaf2-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Leaf2-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Leaf2-if-range] qos trust dot1p

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 将以太接口切换为三层工作模式。

[Leaf2-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Leaf2-if-range] qos trust dscp

[Leaf2-if-range] quit

# 配置接口IP地址。

[Leaf2] interface HundredGigE 3/0/1

[Leaf2-HundredGigE3/0/1] ip address 172.16.25.1 30

[Leaf2-HundredGigE3/0/1] quit

[Leaf2] interface HundredGigE 3/0/4

[Leaf2-HundredGigE3/0/4] ip address 172.16.25.5 30

[Leaf2-HundredGigE3/0/4] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Leaf2] interface LoopBack 0

# 配置LoopBack 0的ip，作为全局的Router ID

[Leaf2-LoopBack0] ip address 91.1.1.2 32

[Leaf2-LoopBack0] quit

# 配置全局Router ID

[Leaf2] router-id 91.1.1.2

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Leaf2-bgp-default] bgp 65513

# 配置BGP的Router ID

[Leaf2-bgp-default] router-id 91.1.1.2

# 将Spine设备添加为对等体

[Leaf2-bgp-default] peer 172.16.25.2 as-number 65513

[Leaf2-bgp-default] peer 172.16.25.6 as-number 65513

…

# 进入BGP ipv4单播地址族视图

[Leaf2-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Leaf2-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由

[Leaf2-bgp-default-ipv4] network 91.1.1.2 255.255.255.255

# 发布业务服务器接入网段的路由

[Leaf2-bgp-default-ipv4] network 200.1.1.0 255.255.255.0

# 发布与Spine互联接口的网段路由

[Leaf2-bgp-default-ipv4] network 172.16.25.0 255.255.255.252

[Leaf2-bgp-default-ipv4] network 172.16.25.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息

[Leaf2-bgp-default-ipv4] peer 172.16.25.2 enable

[Leaf2-bgp-default-ipv4] peer 172.16.25.6 enable

…

[Leaf2-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图

[Leaf2-bgp-default] address-family inof

# 配置Leaf角色为客户机

[Leaf2-bgp-default-inof] role reflect-client

# 允许本地路由器与对等体交换路由信息

[Leaf2-bgp-default-inof] peer 172.16.24.2 enable

[Leaf2-bgp-default-inof] peer 172.16.24.6 enable

…

[Leaf2-bgp-default-inof]quit

[Leaf2-bgp-default]quit

(4) 配置静态ECN功能（本功能与AI ECN功能选择一种配置即可）

# 配置队列5和队列6最多可使用的共享区域的大小为100%。队列5为RDMA应用报文队列，队列6为CNP报文所在队列。

[Leaf2] buffer egress cell queue 5 shared ratio 100

[Leaf2] buffer egress cell queue 6 shared ratio 100

[Leaf2] buffer apply

# 全局使能ECN拥塞标记功能。

[Leaf2] qos wred ecn enable

# 创建WRED表，并进入WRED表视图

[Leaf2] qos wred queue table ECN

[Leaf2-wred-table-queue-ECN] queue 0 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 1 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 2 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 3 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 4 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 6 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 7 low-limit 69631 high-limit 69632

[Leaf2-wred-table-queue-ECN] queue 5 low-limit 600 high-limit 2000 [Leaf2-wred-table-queue-ECN] discard-probability 20

[Leaf2-wred-table-queue-ECN] quit

# 设置内联口ECN参数.注意：仅框式设备需要配置

[Leaf2] qos wred apply ECN fabric

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 配置队列5的WRED平均长度的下限为500，平均长度的上限为1200，丢弃概率为20％。

[Leaf2-if-range] qos wred queue 5 low-limit 500 high-limit 1200 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf2-if-range] qos wfq byte-count

[Leaf2-if-range] qos wfq ef group 1 byte-count 60

[Leaf2-if-range] qos wfq cs6 group sp

[Leaf2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为12500000kbps（建议配置为接口带宽的一半）。

[Leaf2-if-range] qos gts queue 6 cir 12500000

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 配置队列5的WRED平均长度的下限为600，平均长度的上限为2000，丢弃概率为20％。

[Leaf2-if-range] qos wred queue 5 low-limit 600 high-limit 2000 discard-probability 20

# 开启接口的WFQ队列，并按照每次轮询可发送的报文的字节数进行计算，配置队列5具有较高调度权重60，队列6、7采用严格优先级调度。

[Leaf2-if-range] qos wfq byte-count

[Leaf2-if-range] qos wfq ef group 1 byte-count 60

[Leaf2-if-range] qos wfq cs6 group sp

[Leaf2-if-range] qos wfq cs7 group sp

# 对队列6的报文进行流量整形，正常流速为50000000kbps（建议配置为接口带宽的一半）。

[Leaf2-if-range] qos gts queue 6 cir 50000000

[Leaf2-if-range] quit

(5) 配置AI ECN功能（S12500G-AF仅R8053Pxx及以上版本支持，本功能与静态ECN功能选择一种配置即可）

[Leaf2] netanalysis rocev2 mode bidir

This operation will erase all the netanalysis configuration.

Continue?[Y/N]:y

# 开启RoCEv2流量的NetAnalysis统计功能。

[Leaf2] netanalysis rocev2 statistics global

# 开启RoCEv2流量的AI ECN功能。

[Leaf2] netanalysis rocev2 ai-ecn enable

# 配置AI ECN功能的模式为分布式模式。

[Leaf2] ai-service

[Leaf2-ai-service] ai ai-ecn enable mode distributed

# 开启队列5、6的AI ECN功能。

[Leaf2-ai-service] ai-ecn

[Leaf2-ai-service-ai-ecn] queue 5 enable

[Leaf2-ai-service-ai-ecn] queue 6 enable

[Leaf2-ai-service-ai-ecn] quit

[Leaf2-ai-service] quit

(6) 配置PFC功能和PFC死锁检测功能。

# 全局配置5队列的PFC死锁检测周期为10。

[Leaf2] priority-flow-control deadlock cos 5 interval 10

# 全局配置PFC死锁检测的精度为high。

[Leaf2] priority-flow-control deadlock precision high

# 使能内联口队列5的PFC功能。注意：仅框式设备需要配置

[Leaf2] priority-flow-control inner-port enable

[Leaf2] priority-flow-control inner-port no-drop dot1p 5 ingress-buffer static 4000 ingress-threshold-offset 51 headroom 3000 reserved-buffer 30

# 进入批量接口配置视图，配置与业务服务器网卡对接的接口。

[Leaf2] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 开启与对端自动协商是否开启PFC功能。

[Leaf2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为3500，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为2000，PFC预留门限为30。

[Leaf2-if-range] priority-flow-control dot1p 5 headroom 2000

[Leaf2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-buffer static 3500

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf2-if-range] quit

# 进入批量接口配置视图，配置与Spine对接的接口。

[Leaf2] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 开启与对端自动协商是否开启PFC功能。

[Leaf2-if-range] priority-flow-control auto

# 开启指定5队列的PFC功能。

[Leaf2-if-range] priority-flow-control no-drop dot1p 5

# 开启接口的PFC死锁检测功能。

[Leaf2-if-range] priority-flow-control deadlock enable

# 配置PFC的反压帧触发门限为4000，反压帧停止门限与触发门限间的偏移量为51，Headroom缓存门限为3000，PFC预留门限为30。

[Leaf2-if-range] priority-flow-control dot1p 5 headroom 3000

[Leaf2-if-range] priority-flow-control dot1p 5 reserved-buffer 30

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-buffer static 4000

[Leaf2-if-range] priority-flow-control dot1p 5 ingress-threshold-offset 51

[Leaf2-if-range] quit

(7) 配置iNOF功能

# 全局使能iNOF功能，并进入iNOF视图。

[Leaf2] inof enable

[Leaf2-inof] quit

3. 配置Spine1

(1) 全局使能LLDP功能

# 全局使能LLDP功能。

<Spine1> system-view

[Spine1] lldp global enable

(2) VLAN和接口配置

# 创建VLAN。

[Spine1] vlan 101

[Spine1-vlan101] quit

# 创建vlan虚接口。

[Spine1] interface Vlan-interface 101

# 配置vlan虚接口地址，作为业务服务器RDMA网卡接口的网关。

[Spine1-Vlan-interface101] ip address 101.1.1.254 24

# 配置vlan虚接口mac地址。

[Spine1-Vlan-interface101] mac-address 0000-5e00-0001

[Spine1-Vlan-interface101] quit

# 进入批量接口配置视图，配置与存储网卡对接的接口。

[Spine1] interface range Twenty-FiveGigE 2/0/1 to Twenty-FiveGigE 2/0/8

# 将接口的链路类型修改为trunk。

[Spine1-if-range] port link-type trunk

# 禁止vlan 1通过这些trunk接口。

[Spine1-if-range] undo port trunk permit vlan 1

# 允许vlan 101通过这些trunk接口。

[Spine1-if-range] port trunk permit vlan 101

# 配置为stp edge-port。

[Spine1-if-range] stp edged-port

# 允许lldp发布dot1-tlv的tlv类型。

[Spine1-if-range] lldp tlv-enable dot1-tlv dcbx

# 端口信任802.1p优先级。

[Spine1-if-range] qos trust dot1p

[Spine1-if-range] quit

# 进入批量接口配置视图，配置与Leaf对接的接口。

[Spine1] interface range HundredGigE 3/0/1 to HundredGigE 3/0/4

# 将以太接口切换为三层工作模式。

[Spine1-if-range] port link-mode route

The configuration of the interface will be restored to the default. Continue? [Y

/N]:y

# 端口信任DSCP优先级。

[Spine1-if-range] qos trust dscp

[Spine1-if-range] quit

# 配置接口IP地址。

[Spine1] interface HundredGigE 3/0/1

[Spine1-HundredGigE3/0/1] ip address 172.16.24.2 30

[Spine1-HundredGigE3/0/1] quit

[Spine1] interface HundredGigE 3/0/2

[Spine1-HundredGigE3/0/2] ip address 172.16.24.6 30

[Spine1-HundredGigE3/0/2] quit

其它接口配置方法类似，后略。

(3) 配置BGP路由协议。

# 创建接口LoopBack 0。

[Spine1] interface LoopBack 0

# 配置LoopBack 0的IP，作为全局的Router ID

[Spine1-LoopBack0] ip address 92.1.1.1 32

[Spine1-LoopBack0] quit

# 配置全局Router ID

[Spine1] router-id 92.1.1.1

# 启动BGP实例default，指定该BGP实例的本地AS号，并进入BGP实例视图

[Spine1-bgp-default] bgp 65512

# 配置BGP的Router ID

[Spine1-bgp-default] router-id 92.1.1.1

# 将Leaf设备添加为对等体

[Spine1-bgp-default] peer 172.16.24.1 as-number 65512

[Spine1-bgp-default] peer 172.16.24.5 as-number 65512

…

# 进入BGP ipv4单播地址族视图

[Spine1-bgp-default] address-family ipv4 unicast

# 配置进行BGP负载分担的路由条数为16

[Spine1-bgp-default-ipv4] balance 16

# 发布Loopback0接口地址的路由。

[Spine1-bgp-default-ipv4] network 92.1.1.1 255.255.255.255

# 发布存储网卡接入网段的路由。

[Spine1-bgp-default-ipv4] network 101.1.1.0 255.255.255.0

# 发布与Leaf互联接口的网段路由

[Spine1-bgp-default-ipv4] network 172.16.24.0 255.255.255.252

[Spine1-bgp-default-ipv4] network 172.16.24.4 255.255.255.252

…

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine1-bgp-default-ipv4] peer 172.16.24.1 enable

[Spine1-bgp-default-ipv4] peer 172.16.24.5 enable

[Spine1-bgp-default-ipv4] peer 172.16.24.1 reflect-client

[Spine1-bgp-default-ipv4] peer 172.16.24.5 reflect-client

…

[Spine1-bgp-default-ipv4] quit

# 进入BGP iNOF地址族视图。

[Spine1-bgp-default] address-family inof

# 配置Spine角色为反射器。

[Spine1-bgp-default-inof] role reflector

# 允许本地路由器与对等体交换路由信息，配置对等体为路由反射器的客户机。

[Spine1-bgp-default-inof] peer 172.16.24.1 enable

[Spine1-bgp-default-inof] peer 172.16.24.5 enable

[Spine1-bgp-default-inof] peer 172.16.24.1 reflect-client

[Spine1-bgp-default-inof] peer 172.16.24.5 reflect-client

…

[Spine1-bgp-default-inof]quit

[Spine1-bgp-default]quit