01-gRPC故障处理手册
本章节下载: 01-gRPC故障处理手册 (174.13 KB)
gRPC Dial-out模式向采集器上送的订阅报文中,某些数据源的采样周期与用户配置的采样周期不一致。
本类故障的常见原因主要包括:
· 部分采样路径无法达到配置的采样周期精度,以自身的最小采样周期进行采样。
· 设备CPU繁忙。
· 数据源对应的采样路径为ifmgr/interfaces、路由类或统计类路径,由于采样数据量庞大,设备在用户配置的采样周期内无法完成采样。
例如route/ipv4routes,当路由表项达到100k时,采样数据量大,设备无法在一个较小的采样周期完成采集工作。
本类故障的诊断流程如图1-1所示。
图1-1 gRPC采样周期不准确的故障诊断流程图
(1) 通过display system internal telemetry命令查看采样路径是否使用最小采样周期。
例如,以下显示结果中,采样路径route/ipv4routes配置的采样周期(Sampling interval,100毫秒)小于生效的采样周期(Effective sampling interval,5秒),说明该采样路径实际使用最小采样周期(5秒)。为了使命令行配置与生效情况一致,建议扩大采样周期,使其不低于最小采样周期。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] display system internal telemetry
Current-time: 2021-12-25T15:51:45.530
--------------------Subscription s----------------------
Subscription mode: non-gNMI
DSCP value: 0
Source address or interface: Not configured
Telemetry data model: 2-layer
Encoding: JSON
Protocol: GRPC
Sensor group: s
Sampling interval: 100 milliseconds
Sampling type Effective sampling interval Sensor path
Periodic 5 seconds route/ipv4routes
Destination group: d
...
[Sysname-probe] quit
(2) 确认设备是否处于CPU繁忙状态。
通过display cpu-usage命令查看CPU利用率。
[Sysname] display cpu-usage
Slot 0 CPU 0 CPU usage:
70% in last 5 seconds
62% in last 1 minute
60% in last 5 minutes
...
如果主设备/全局主用主控板的CPU利用率超过60%,将会影响Telemetry功能的采样效率,导致设备不能在配置的采样周期内完成数据采样。用户可以选择:
¡ 等待CPU利用率降到60%以下。
¡ 减少配置的采样路径数量,以降低CPU利用率。
(3) 确认是否存在大数据量上报的采样路径。
进入Telemetry视图,通过display this命令查看配置。
[Sysname] telemetry
[Sysname-telemetry] display this
#
telemetry
sensor-group s
sensor path route/ipv4routes
destination-group d
ipv4-address 192.168.79.155 port 50051
subscription s
sensor-group s sample-interval 5
destination-group d
#
当存在ifmgr/interfaces、路由类或统计类采样路径时,在网管侧查看设备上送给采集器的相邻的两个订阅报文之间的时间差是否为命令行配置的采样周期的整数倍。
· 统计类采样路径通常会包含statistics节点,例如ifmgr/statistics。
· 路由类采样路径通常会包含route节点,例如route/ipv4routes。
假设,设备上为采样路径route/ipv4routes配置的采样周期为5秒,上送给采集器的两个订阅报文之间的时间差为两个Timestamp(单位为毫秒)字段的差 = ( 1641482427751 – 1641482417751 ) / 1000 = 10秒,是5秒的整数倍。
Producer-Name: H3C
...
Sensor-Path: route/ipv4routes
Json-Data: {"Notification":{"Timestamp":"1641482417751",...
Producer-Name: H3C
...
Sensor-Path: route/ipv4routes
Json-Data: {"Notification":{"Timestamp":"1641482427751",...
这就说明,该采样路径的采集数据量过大,需要使用多个采样周期才能上送数据。为了使命令行配置与生效情况一致,建议扩大采样周期,使其不低于数据上报所需时间。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!