06-SRv6故障处理手册
本章节下载: 06-SRv6故障处理手册 (271.11 KB)
在如图1-1所示的SRv6骨干网络中,IGP采用IS-IS协议,同时配置了BFD for IGP,即所有宣告到IGP的接口都通过BFD进行故障检测,BFD会话探测到链路故障则联动IGP邻居Down,从而触发IGP快速收敛。BFD会话检测时间倍数为3,两端设备的BFD发送和接收时间间隔均为10ms。因此,BFD通知IGP故障不超过30ms,链路故障后IGP应该在BFD通知IGP故障后迅速完成收敛。在链路故障期间,则通过TI-LFA FRR备份路径转发流量。
当PE1与P1之间的链路发生故障时,实际测试发现业务流量的倒换时间较长,导致故障发生后业务大量丢包。
图1-1 链路故障倒换时间超标TI-LFA FRR不生效导致业务丢包的组网示意图
本类故障的常见原因主要包括:
· BFD for IGP未在PE 1上生效。
· 网络拓扑中不存在满足TI-LFA FRR条件的备份路径,PE 1上未生成TI-LFA FRR。
· TI-LFA FRR相关功能配置不正确。
本类故障的诊断流程如图1-2所示。
图1-2 链路故障倒换时间超标TI-LFA FRR不生效导致业务丢包的故障诊断流程图
(1) 检查BFD for IGP会话是否UP。
在PE 1和P 1上执行display bfd session命令检查IS-IS邻居之间BFD会话状态,PE 1和P 1的直连接口GE0/0/1应该建立起BFD会话,Session state字段显示的状态为Up。以PE 1为例,显示如下:
<PE1> display bfd session
Total sessions: 1 Up sessions: 1 Init mode: Active
IPv6 session working in control packet mode:
Local discr: 33793 Remote discr: 33793
Source IP: FE80::881E:46FF:FEB8:406
Destination IP: FE80::881E:49FF:FE25:506
Session state: Up Interface: GE0/0/1
Hold time: 116ms
如果PE 1和P 1的直连接口GE0/0/1不存在BFD会话或者BFD会话Session state字段显示为Down,则表示BFD会话不正常。请在PE 1和P 1上互联的接口视图下执行isis ipv6 bfd enable命令或者在PE 1和P 1上IS-IS IPv6地址族视图下执行bfd all-interfaces enable开启BFD for IGP功能。
再执行display bfd session verbose命令查看详细的BFD会话参数信息,其中Min Tx interval、Min Rx interval和Actual Tx interval分别表示最小发送时间间隔、最小接收时间间隔和实际发送时间间隔,取值均为10ms,Detection time表示实际检测间隔,取值为30ms。
以PE 1为例,显示如下:
<PE1> display bfd session verbose
Total sessions: 1 Up sessions: 1 Init mode: Active
IPv6 session working in control packet mode:
Local discr: 33793 Remote discr: 33793
Source IP: FE80::881E:46FF:FEB8:406
Destination IP: FE80::881E:49FF:FE25:506
Destination port: 3784 Session state: Up
Interface: GigabitEthernet0/0/1
Min Tx interval: 10ms Actual Tx interval: 10ms
Min Rx interval: 10ms Detection time: 30ms
Rx count: 973957 Tx count: 974426
Connection type: Direct Up duration: 13:46:28
Hold time: 140ms Auth mode: None
Detection mode: Async Slot: 0
Protocol: ISIS6_BR_L2
Version: 1
Diag info: No Diagnostic
Template name: a
Hardware mode: Disable
如果两端最小发送时间间隔、最小接收时间间隔或检测间隔设置不正确可能导致BFD检测周期过长,影响IGP收敛速度。通常情况下,PE 1和P 1上,在BFD会话引用的BFD模板视图执行bfd min-receive-interval命令、bfd min-transmit-interval命令和bfd detect-multiplier命令修改BFD会话的参数,保证参数正常。
如果BFD会话和参数均正常,问题仍存在,请继续执行以下步骤排查故障。
(2) 检查TI-LFA FRR路径是否正常生成。
在PE 1上执行display isis route ipv6 verbose命令查看去往PE 3的IPv6目的地址路由是否存在TI-LFA FRR备份路径。如果存在TI-LFA FRR备份路径,则显示信息中将存在TI-LFA字段和备份路径的详细信息。
<PE1> display isis route ipv6 3::3 128 verbose
Route information for IS-IS(1)
------------------------------
Level-2 IPv6 forwarding table
-----------------------------
IPv6 dest : 3::3/128
Flag : R/-/- Cost : 20
Admin tag : - Src count : 1
Algorithm : 0
Priority : Medium
Nexthop : FE80::881E:49FF:FE25:506
NexthopFlag : -
Interface : GE0/0/1 Delay Flag : N/A
TI-LFA:
Interface : GE0/0/2
BkNextHop : FE80::881E:2DFF:FE19:107
LsIndex : 0x80000001
Backup label stack(top->bottom): {600:1:2:3:0:1::}
Nib ID : 0x24000007
FirstFlushTime: 15h35m19s LatestUpdateTime: 15h35m19s
Flags: D-Direct, R-Added to Rib, L-Advertised in LSPs, U-Up/Down Bit Set
如果不存在TI-LFA FRR备份路径,请先检查网络拓扑,确保拓扑中PE1与P1之间的链路发生故障后仍至少存在一条备份路径,即未发生故障时存在一条主路由和至少一条备份路由。
如果网络拓扑中不存在备份路径则请重新规划网络连接。
如果网络拓扑中存在备份路径但TI-LFA FRR备份路径未正常生成,请继续执行以下步骤排查故障。
(3) 检查TI-LFA FRR相关配置是否正确。
在PE 1上执行display current-configuration命令查看IS-IS中配置的TI-LFA FRR功能,TI-LFA FRR相关配置如下。
#
isis 1
#
address-family ipv6 unicast
fast-reroute lfa
fast-reroute ti-lfa
segment-routing ipv6 locator a
#
#
segment-routing ipv6
#
locator a ipv6-prefix 100:1:2:3:: 64 static 16 args 16
#
需要注意的是:
¡ IS-IS IPv6地址族视图下执行fast-reroute ti-lfa命令开启TI-LFA FRR功能前,需要在IS-IS IPv6单播地址族视图执行fast-reroute lfa命令开启快速重路由功能。
¡ 在备份路径的所有接口上不能存在isis ipv6 fast-reroute ti-lfa disable命令禁止IPv6 IS-IS的接口参与TI-LFA计算。如果存在则执行undo isis ipv6 fast-reroute ti-lfa disable命令删除。
¡ 在SRv6网络中开启TI-LFA FRR功能计算备份路径,需要所有转发设备开启SRv6功能,配置SRv6 Locator,并在IGP中引用和发布SRv6 Locator,否则接口未分配SRv6 SID,无法计算生成TI-LFA FRR备份路径。
如果TI-LFA FRR相关配置正确,TI-LFA FRR备份路径仍未正常生成,请继续执行以下步骤。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· 无
在如图1-3所示的SRv6骨干网络中,CE 2双归属到PE 3和PE 4。正常情况下,VPN流量通过PE 1和PE 3之间的SRv6 TE Policy或SRv6 BE方式转发。当尾节点PE 3故障后,通过BFD/SBFD for SRv6 Locator快速触发流量倒换,VPN流量切换到PE 4上转发。BFD/SBFD的检测时间倍数为3,两端设备的发送和接收时间间隔均为50ms。因此,BFD/SBFD故障检测触发倒换不超过150ms,尾节点故障VPN FRR的倒换应该在BFD/SBFD故障检测触发倒换后迅速完成。
实际测试发现,尾节点故障VPN FRR的倒换时间过长,导致故障发生后业务大量丢包。
本类故障的常见原因主要包括:
· BFD/SBFD for SRv6 Locator未生效。
· BFD/SBFD for SRv6 Locator的配置参数不正确。
· VPN FRR保护未配置。
本类故障的诊断流程如图1-4所示。
·
(1) 检查PE 1和PE 3之间的BFD/SBFD会话是否正常建立。
PE 1上可以通过BFD for SRv6 Locator或者SBFD for SRv6 Locator来检测PE 3发布的SRv6 Locator网段地址的可达性,从而触发VPN FRR的快速切换,两种检测方式均可达到目的。
¡ 检查BFD for SRv6 Locator会话时,则在PE 1上执行display bfd session命令,显示信息中应该存在BFD会话项,查找其中Destination IP字段为远端PE 3上SRv6 Locator网段地址的BFD会话项,其中Session state显示为Up表示该BFD会话正常建立。
[PE1] display bfd session
Total sessions: 1 Up sessions: 1 Init mode: Active
IPv6 static session working in control packet mode:
Local discr: 101 Remote discr: 102
Source IP: 100:1::
Destination IP: 200:1::
Session state: Up Interface: N/A
Hold time: 116ms
如果不存在BFD for SRv6 Locator的会话项或者Session state显示为Down,则需要在PE 1和对端PE 3上系统视图下执行bfd static命令,分别建立静态BFD会话,并且指定peer-ipv6参数为对端SRv6 Locator网段地址。另外还需要在静态BFD会话视图下分别执行discriminator命令来指定静态BFD会话的本地标识符和远端标识符,保证PE 1上的远端标识符等于PE 3上的本地标识符,PE 3上的远端标识符等于PE 1上的本地标识符。PE 1参考配置如下:
#
bfd static aaa peer-ipv6 200:1:: source-ipv6 100:1::
discriminator local 101
discriminator remote 102
#
¡ 检查SBFD for SRv6 Locator会话时,则在PE 1上执行display sbfd session initiator命令,显示信息中应该存在SBFD会话项,查找其中Destination IP字段为远端PE 3上SRv6 Locator网段地址的SBFD会话项,其中Session state显示为Up表示该SBFD会话正常建立。
[PE1] display sbfd session initiator
Total sessions: 2 Up sessions: 2
SBFD Session (IPv6):
Local discr: 33793 Remote discr: 1000002
Source IP: 100:1::
Destination IP: 300:1::
Session state: Up Hold time: 123ms
Local discr: 33794 Remote discr: 1000001
Source IP: 100:1::
Destination IP: 200:1::
Session state: Up Hold time: 124ms
如果不存在SBFD for SRv6 Locator的会话项或者Session state显示为Down,则需要在PE 1上的SRv6视图下执行locator-sbfd enable命令,建立SBFD for SRv6 Locator的会话。另外还需要在PE 1上执行sbfd destination ipv6 remote-discriminator命令配置被检测SRv6 Locator网段和远端标识符的映射关系,在对端PE 3设备上执行sbfd local-discriminator命令设置Reflector端的本地标识符,并保证PE 1和对端PE 3设备上的标识符一致。PE 1参考配置如下:
#
segment-routing ipv6
locator-sbfd enable template a
#
sbfd source-ipv6 100:1::
sbfd destination ipv6 200:1:: remote-discriminator 1000001
#
如果PE 1和PE 3之间的BFD/SBFD会话正常建立,问题仍存在,请继续执行以下步骤排查故障。
(2) 检查PE 1和PE 3之间的BFD/SBFD会话参数是否正确。
¡ 检查BFD for SRv6 Locator会话参数,则在PE 1和PE 3上执行display bfd session verbose命令,找到上一步中对应的BFD会话项,其中Min Tx interval、Min Rx interval和Actual Tx interval分别表示最小发送时间间隔、最小接收时间间隔和实际发送时间间隔,取值均为50ms,Detection time表示实际检测间隔,取值为150ms。以PE 1为例,显示如下:
[PE1] display bfd session verbose
Total sessions: 1 Up sessions: 1 Init mode: Active
IPv6 static session working in control packet mode:
Session name: aaa
Local discr: 101 Remote discr: 102
Source IP: 100:1::
Destination IP: 200:1::
Destination port: 4784 Session state: Up
Interface: N/A
Min Tx interval: 50ms Actual Tx interval: 50ms
Min Rx interval: 50ms Detection time: 150ms
Rx count: 80068 Tx count: 73230
Connection type: Indirect Up duration: 01:01:13
Hold time: 144ms Auth mode: None
Detection mode: Async Slot: 0
Protocol: STATIC_IPv6
Version: 1
Diag info: No Diagnostic
Hardware mode: Disable
如果两端最小发送时间间隔、最小接收时间间隔或检测间隔设置不正确可能导致BFD检测周期过长,影响VPN FRR流量切换速度。通常情况下,PE 1和PE 3上,在BFD静态会话下执行bfd multi-hop min-transmit-interval命令、bfd multi-hop min-receive-interval命令和bfd multi-hop detect-multiplier命令修改静态BFD会话的参数,保证参数配置合理。
#
bfd static aaa peer-ipv6 200:1:: source-ipv6 100:1::
discriminator local 101
discriminator remote 102
bfd multi-hop min-transmit-interval 50
bfd multi-hop min-receive-interval 50
bfd multi-hop detect-multiplier 3
#
¡ 检查SBFD for SRv6 Locator会话参数,则在PE 1上执行display sbfd session initiator verbose命令,找到上一步中对应的SBFD会话项,其中Min Tx interval、和Actual Tx interval分别表示最小发送时间间隔和实际发送时间间隔,取值均为50ms,Detection time表示实际检测间隔,取值为150ms。以PE 1为例,显示如下:
[PE1] display sbfd session initiator verbose
Total sessions: 2 Up sessions: 2
SBFD Session (IPv6):
Local discr: 33793 Remote discr: 1000002
Source IP: 100:1::
Destination IP: 300:1::
Session state: Up Hold time: 110ms
Min Tx interval: 50ms Actual Tx interval: 50ms
Detection time: 150ms Up duration: 00:36:13
Rx count: 45661 Tx count: 46210
Slot: 0
Protocol: IPFRR/BGP4+
Diag info: No Diagnostic
Template name: a
Hardware mode: Disable
Local discr: 33794 Remote discr: 1000001
Source IP: 100:1::
Destination IP: 200:1::
Session state: Up Hold time: 123ms
Min Tx interval: 50ms Actual Tx interval: 50ms
Detection time: 150ms Up duration: 00:36:13
Rx count: 49346 Tx count: 49357
Slot: 0
Protocol: IPFRR/BGP4+
Diag info: No Diagnostic
Template name: a
Hardware mode: Disable
如果两端最小发送时间间隔或检测间隔设置不正确可能导致SBFD检测周期过长,影响VPN FRR流量切换速度。通常情况下,在PE 1上执行locator-sbfd enable命令时通过引用BFD模板来修改SBFD会话的参数,保证参数配置合理:
#
segment-routing ipv6
locator-sbfd enable template a
#
#
bfd template a
bfd min-transmit-interval 50
bfd min-receive-interval 50
bfd detect-multiplier 3
#
如果BFD/SBFD参数正常,问题仍存在,请继续执行以下步骤排查故障。
(3) 检查PE 1上是否启用了VPN FRR功能,并正常生成FRR备份路由。
在PE 1上执行display bgp routing-table ipv4 vpn-instance命令查看是否PE 3发布的VPN私网路由22.22.22.22/32是否正常接收。显示信息中应该存在两条有效的VPN路由22.22.22.22/32,即该路由存在“*”标记,“*”标记表示该路由有效,同时一条路由还有“>”标记,表示该路由最佳。最优且有效的VPN路由从PE 3发布,NextHop下一跳为PE 3,有效但非最优路由作为VPN FRR的备份路由从PE 4发布,NextHop下一跳为PE 4。
[PE1] display bgp routing-table ipv4 vpn-instance vpn1
Total number of routes: 10
BGP local router ID is 1.1.1.1
Status codes: * - valid, > - best, d - dampened, h - history,
s - suppressed, S - stale, i - internal, e - external
a - additional-path
Origin: i - IGP, e - EGP, ? - incomplete
Network NextHop MED LocPrf PrefVal Path/Ogn
* > 10.1.1.0/24 10.1.1.2 0 32768 ?
* e 10.1.1.1 0 0 200?
* > 10.1.1.2/32 127.0.0.1 0 32768 ?
* >e 11.11.11.11/32 10.1.1.1 0 0 200?
* >i 20.1.1.0/24 2::2 0 100 0 ?
* i 3::3 0 100 0 300?
* >i 22.22.22.22/32 2::2 0 100 0 300?
* i 3::3 0 100 0 300?
* >i 30.1.1.0/24 3::3 0 100 0 ?
* i 2::2 0 100 0 300?
如果不存在VPN FRR的备份路由,则检查VPN FRR功能是否正常开启。在BGP-VPN IPv4单播地址族视图下执行pic命令开启VPN FRR功能,配置内容如下:
#
bgp 100
#
ip vpn-instance vpn1
#
address-family ipv4 unicast
pic
#
如果PE 1上启用了VPN FRR功能,并正常生成FRR备份路由,问题仍存在,请继续执行以下步骤排查故障。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· 无
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!