• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

14-Telemetry

目录

01-gRPC故障处理手册

本章节下载 01-gRPC故障处理手册  (174.13 KB)

01-gRPC故障处理手册

1 网络管理类故障处理

1.1  gRPC故障处理

1.1.1  gRPC采样周期不准确

1. 故障描述

gRPC Dial-out模式向采集器上送的订阅报文中,某些数据源的采样周期与用户配置的采样周期不一致。

2. 常见原因

本类故障的常见原因主要包括:

·     部分采样路径无法达到配置的采样周期精度,以自身的最小采样周期进行采样。

·     设备CPU繁忙。

·     数据源对应的采样路径为ifmgr/interfaces、路由类或统计类路径,由于采样数据量庞大,设备在用户配置的采样周期内无法完成采样。

例如route/ipv4routes,当路由表项达到100k时,采样数据量大,设备无法在一个较小的采样周期完成采集工作。

3. 故障分析

本类故障的诊断流程如图1-1所示。

图1-1 gRPC采样周期不准确的故障诊断流程图

 

4. 处理步骤

(1)     通过display system internal telemetry命令查看采样路径是否使用最小采样周期。

例如,以下显示结果中,采样路径route/ipv4routes配置的采样周期(Sampling interval,100毫秒)小于生效的采样周期(Effective sampling interval,5秒),说明该采样路径实际使用最小采样周期(5秒)。为了使命令行配置与生效情况一致,建议扩大采样周期,使其不低于最小采样周期。

<Sysname> system-view

[Sysname] probe

[Sysname-probe] display system internal telemetry

Current-time: 2021-12-25T15:51:45.530

--------------------Subscription s----------------------

Subscription mode: non-gNMI

DSCP value: 0

Source address or interface: Not configured

Telemetry data model:  2-layer

Encoding: JSON

Protocol: GRPC

Sensor group: s

  Sampling interval: 100 milliseconds

  Sampling type         Effective sampling interval   Sensor path

  Periodic              5 seconds                     route/ipv4routes

Destination group: d

...

[Sysname-probe] quit

(2)     确认设备是否处于CPU繁忙状态。

通过display cpu-usage命令查看CPU利用率。

[Sysname] display cpu-usage

Slot 0 CPU 0 CPU usage:

       70% in last 5 seconds

       62% in last 1 minute

       60% in last 5 minutes

...

如果主设备/全局主用主控板的CPU利用率超过60%,将会影响Telemetry功能的采样效率,导致设备不能在配置的采样周期内完成数据采样。用户可以选择:

¡     等待CPU利用率降到60%以下。

¡     减少配置的采样路径数量,以降低CPU利用率。

(3)     确认是否存在大数据量上报的采样路径。

进入Telemetry视图,通过display this命令查看配置。

[Sysname] telemetry

[Sysname-telemetry] display this

#

telemetry

 sensor-group s

  sensor path route/ipv4routes

 destination-group d

  ipv4-address 192.168.79.155 port 50051

 subscription s

  sensor-group s sample-interval 5

  destination-group d

#

当存在ifmgr/interfaces、路由类或统计类采样路径时,在网管侧查看设备上送给采集器的相邻的两个订阅报文之间的时间差是否为命令行配置的采样周期的整数倍。

说明

·     统计类采样路径通常会包含statistics节点,例如ifmgr/statistics。

·     路由类采样路径通常会包含route节点,例如route/ipv4routes。

 

假设,设备上为采样路径route/ipv4routes配置的采样周期为5秒,上送给采集器的两个订阅报文之间的时间差为两个Timestamp(单位为毫秒)字段的差 = ( 1641482427751 – 1641482417751 ) / 1000 = 10秒,是5秒的整数倍。

Producer-Name: H3C

...

Sensor-Path: route/ipv4routes

Json-Data: {"Notification":{"Timestamp":"1641482417751",...

 

Producer-Name: H3C

...

Sensor-Path: route/ipv4routes

Json-Data: {"Notification":{"Timestamp":"1641482427751",...

这就说明,该采样路径的采集数据量过大,需要使用多个采样周期才能上送数据。为了使命令行配置与生效情况一致,建议扩大采样周期,使其不低于数据上报所需时间。

(4)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

相关日志

 

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们