• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

13-网络管理和监控配置指导

目录

29-KPI数据采集配置

本章节下载 29-KPI数据采集配置  (359.99 KB)

29-KPI数据采集配置


1 KPI数据采集

1.1  KPI数据采集简介

设备的KPI(Key Performance Indicator,关键性能指标)用来表示某一时刻设备运行状态的一系列性能值。设备运行过程中自动采集KPI数据并将KPI数据存储在Flash介质中。

KPI数据采集功能可以周期性采集各种类型的设备性能指标,实时记录大量性能指标数据,用户可根据采集到的KPI信息了解设备运行状态、业务故障时间点、业务故障类型和疑似故障原因,通过这些信息快速定位故障。

1.1.1  KPI数据采集的基本概念

KPI数据采集功能收集到的数据量巨大,且采集的数据种类丰富,例如,采集到设备上某单板的CPU利用率为50%,该数据属于描述设备容量类的性能参数,同时,该参数还属于设备资源管理的业务模块,归属于某块单板,其具体指标为50%,为了方便描述所有类型的数据,对数据进行分类和检索,KPI采集到的数据以结构化信息来呈现,并且从以下四个维度来定义数据信息:

·     指标(Indicator):KPI数据采集功能采集的性能参数和状态,例如CPU利用率、内存利用率、FIB转发表项利用率、ARP表项资源利用率、各类板卡故障、电源故障、单板温度异常数据等等。

·     对象(Object):指标所属的设备、单板或子卡等物理实体,为了表示这些物理实体,定义了一类数据来标识对象。随着KPI采集功能可以采集到的指标越来越多,对象的种类也会越来越丰富,根据对象的类型不同,取值也各不相同,目前支持以下取值类型:

¡     device:标识设备。该对象的指标用来表示设备整体的情况。

¡     chassis.x/slot.y:标识单板。该对象的指标用于标识某个单板性能和状态,取值为chassis.x/slot.y,其中x取值为0,y表示单板所在的槽位号。(独立运行模式)其中x表示设备在IRF中的成员编号,y表示单板的槽位号。(IRF模式)

¡     chassis.x/slot.y/subslot.z:标识子卡,该对象的指标用于标识该子卡的性能和状态,取值为chassis.x/slot.y/subslot.z,其中x取值为0,y表示单板所在的槽位号,z表示子卡编号。(独立运行模式)其中x表示设备在IRF中的成员编号,y表示单板的槽位号,z表示子卡编号。(IRF模式)

¡     interface-typeinterface-number:标识接口,该对象的指标用于标识某个物理接口的运行状态指标,对象取值为接口类型和接口编号。

·     业务模块(Module):指标所属的业务功能模块,例如CPU利用率和内存利用率属于设备资源模块(模块名称为DEV-RES),FIB转发表项利用率和ARP表项资源利用率属于转发资源模块(模块名称为FWD-RES)。

·     KPI类(Class):某一类指标的集合。一些KPI数据指标可以用来衡量设备某方面的运行状态,可以将这些指标划分为一个KPI类,系统中预定义了一些KPI类,例如网络性能类(Net-performace),端口状态类(Port-state)。

1.1.2  KPI数据采集的工作机制

KPI数据采集的工作机制如图1-1所示:

图1-1 KPI数据采集的工作机制示意图

 

(2)     数据采集:设备开启对指定业务模块的KPI数据采集功能后,KPI进程按一定时间周期采集该业务模块的数据指标。KPI进程将采集到的数据指标临时保存在设备内存中。缺省情况下,KPI数据指标采集周期为300秒,可以自定义修改指标的采集周期。

(3)     数据存储:KPI进程每隔一定周期将采集到的数据指标存储到Flash存储介质上。当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小超出一定阈值时,KPI进程将主动老化早期的KPI数据,删除最早的KPI数据。

1.1.3  KPI数据采集功能支持的数据信息

表1-1 KPI数据采集功能支持的数据信息

KPI类

业务模块

(Module)

对象

(Object)

指标名称

指标说明

 

Device-state

(设备状态类)

DEV

单板

Device_restarts

设备反复重启次数

IRF

设备

IRF_splits

框式堆叠的分裂次数

 

IRF

设备

IRF_dual-active_count

框式堆叠出现双主次数

 

DEV

单板

LPU_failures

接口板故障次数

 

DEV

单板

MPU_state

主控板状态,取值为:

·     0:不在位

·     1:正常

·     2:故障

 

DEV

单板

MPU_failures

主控板故障次数

 

DEV

单板

SFU_state

交换网板状态,取值为:

·     0:不在位

·     1:正常

·     2:故障

 

DEV

单板

SFU_failures

交换网板故障次数

 

DEV

子卡

Subslot_failure

子卡故障次数

 

FWD

设备

Inc_H_S_entries

软硬件表项不一致数量(Inconsistent hardware and software entries)

 

FAN

设备

Fan_state

风扇状态,取值为:

·     0:正常

·     1:故障

 

POWER

设备

Power_state

电源状态,取值为:

·     0:正常

·     1:故障

 

POE

设备

PoE_state

PoE供电状态,取值为:

·     0:正常

·     1:故障

 

TEMP

设备

Card_temperature

单板温度,取值为:

·     0:正常

·     1:故障

 

FS

设备

File_exceptions

文件系统异常,保存失败次数

 

DEV

设备

Process_abnormal_reboot

进程异常重启次数

 

DEV

设备

Process_normal_reboot

进程正常重启次数

 

Device-resource

(设备容量类)

FWD-RES

单板

ARP_entry_usage

ARP表项利用率(used/total)

 

FWD-RES

单板

ARP_threshold_ratio

ARP表项使用的数量和ARP表项使用阈值的比值(used/threshold)

 

FWD-RES

单板

MAC entry usage

MAC表项利用率(used/total)

 

FWD-RES

单板

MAC_threshold_ratio

MAC表项使用的数量和MAC表项使用阈值的比值(used/threshold)

 

FWD-RES

单板

FIB_entry_usage

FIB转发表项利用率(used/total)

 

FWD-RES

单板

FIB_threshold_ratio

FIB转发表项使用的数量和FIB转发表项使用阈值的比值(used/threshold)

 

FWD-RES

单板

ND entry usage

ND转发表项利用率(used/total)

 

FWD-RES

单板

ND_threshold_ratio

ND转发表项使用的数量和ND转发表项使用阈值的比值(used/threshold)

 

FWD-RES

单板

IPv4L2multicast_usage

IPv4二层组播表项利用率(used/total)

 

FWD-RES

单板

IPv4L2multicast_ratio

IPv4二层组播表项使用程度,已使用的表项和阈值比值(used/threshold)

 

FWD-RES

单板

IPv6L2multicast_usage

IPv6二层组播表项利用率(used/total)

 

FWD-RES

单板

IPv6L2multicast_ratio

IPv6二层组播表项使用程度,已使用的表项和阈值比值(used/threshold)

 

FWD-RES

单板

IPv4L3multicast_usage

IPv4三层组播表项利用率(used/total)

 

FWD-RES

单板

IPv4L3multicast_ratio

IPv4三层组播表项资源使用程度,已使用的表项和阈值比值(used/threshold)

 

FWD-RES

单板

IPv6L3multicast_usage

IPv6三层组播表项利用率(used/total)

 

FWD-RES

单板

IPv6L3multicast_ratio

IPv6三层组播表项使用程度,已使用的表项和阈值比值(used/threshold)

 

ACL-RES

单板

ACL_usage

ACL资源利用率(used/total)

 

ACL-RES

单板

ACL_threshold_ratio

ACL资源使用程度(used/threshold),已使用的表项和阈值比值

 

STOR-RES

单板

Storage_usage

存储空间利用率(used/total)

 

STOR-RES

单板

Storage_threshold_ratio

存储空间使用程度(used/threshold),已使用的资源和阈值比值

 

DEV-RES

单板

CPU_usage

CPU利用率(used/total)

 

DEV-RES

单板

CPU_threshold_ratio

CPU使用程度(used/threshold),已使用的资源和阈值比值

 

DEV-RES

单板

Memory_usage

内存利用率(used/total)

 

DEV-RES

单板

Memory_threshold_ratio

内存使用程度(used/threshold),已使用的资源和阈值比值

 

Net-performance

(网络性能类)

LOOP-DCT

设备

L2 loop_state

二层环路状态,取值为:

·     0:正常

·     1:故障

 

IF-CI

接口

Port_congestion

端口拥塞导致的丢包数

 

IF-ERROR

接口

Port_error

端口错包导致的丢包数

 

CPCAR

设备

CPCAR_loss

控制平面配置流量监管进行限速导致的丢包数量

 

STP-SWT

设备

STP_switchovers

STP切换次数

 

LACP-SWT

设备

LACP_switchovers

链路聚合切换次数

 

IRF-SWT

设备

IRF_switchovers

堆叠切换次数

 

M-LAG-SWT

设备

M-LAG_switchovers

M-LAG切换次数

 

RRPP-SWT

设备

RRPP_switchovers

RRPP切换次数

 

VRRP-SWT

设备

VRRP_switchovers

VRRP切换次数

 

IF-USAGE

设备

Port_BW_usage

所有端口的带宽利用率

 

Port-state

(端口状态类)

PORT-ST

设备

Down_ports

处于down状态的物理接口数量

 

PORT-ST

设备

Port_flappings

端口震荡次数

 

Net-connection

(网络链接类)

RPNCS

设备

ISIS_peer_status

ISIS协议邻居连接状态,取值为

·     0:正常

·     1:故障

 

RPNCS

设备

OSPF_peer_status

OSPF协议邻居连接状态,取值为

·     0:正常

·     1:故障

 

RPNCS

设备

OSPv3_peer_status

OSPFv3协议邻居连接状态,取值为

·     0:正常

·     1:故障

 

RPNCS

设备

BGP_peer_status

BGP协议邻居连接状态,取值为

·     0:正常

·     1:故障

 

MCRCS

设备

Multicast_connection_status

组播路由连接状态,取值为

·     0:正常

·     1:故障

 

DHCPCS

设备

DHCPv4_server_state

DHCPv4 sever状态,取值为

·     0:正常

·     1:故障

 

DHCPCS

设备

DHCPv6_server_state

DHCPv6 sever状态,取值为

·     0:正常

·     1:故障

 

DHCPCS

设备

DHCPv4_server_switching

DHCPv4 sever切换次数

 

DHCPCS

设备

DHCPv6_server switching

DHCPv6 sever切换次数

 

DHCPCS

设备

DHCPv4_entry failures

DHCPv4表项建立失败的次数

 

DHCPCS

设备

DHCPv6_entry failures

DHCPv6表项建立失败的次数

 

Net-security

(网络安全类)

AAA

设备

1X_AuthN_status

1x认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在802.1X认证攻击

 

AAA

设备

1X_Usr&Pwd_status

1x用户名密码状态,取值为

·     0:表示用户名密码正确

·     1:表示用户名密码错误

 

AAA

设备

MAC_AuthN_status

MAC地址认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在攻击

 

AAA

设备

MAC_Usr&Pwd_status

MAC地址认证用户名密码状态,取值为

·     0:表示用户名密码正确

·     1:表示用户名密码错误

 

AAA

设备

Portsec_AuthN_status

端口安全认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在攻击

 

AAA

设备

Portsec_Usr&Pwd_status

端口安全用户名密码状态,取值为

·     0:表示用户名密码正确

·     1:表示用户名密码错误

 

AAA

设备

StaticUser_AuthN_status

静态用户认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在攻击

 

AAA

设备

StaticUser_Usr&Pwd_status

静态用户名密码状态,取值为

·     0:表示用户名密码正确

·     1:表示用户名密码错误

 

ATTACK

设备

All-type_attacks

所有类型的攻击次数

 

TCP

设备

TCP_attacks

TCP攻击次数

 

ARP-ATK

设备

ARP_attacks

ARP攻击次数

 

ND-ATK

设备

ND_attacks

ND攻击次数

 

AAA

设备

Illegal_user_detections

非法用户检测次数

 

 

1.2  配置限制和指导

缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能。

由于KPI数据采集的指标类型多、数据量会逐渐增加,为防止持续的采集过程对正常的业务造成影响,当设备内存或CPU利用率达到告警阈值时,KPI数据采集功能会处于抑制状态,此时KPI进程将暂停采集数据,建议关闭一些非CPU、非内存利用率相关指标的采集功能,仅保留DEV-RES的KPI采集功能。关于设备内存或CPU利用率的告警阈值的详细信息,请参见“基础配置指导”中的“设备管理”。

1.3  配置任务简介

KPI数据采集功能的配置任务如下:

·     (可选)配置KPI数据的存储功能

·     (可选)配置KPI数据的老化功能

·     (可选)将备用主控板里的KPI采集的指标数据复制到主用主控板

·     (可选)关闭指定业务模块的KPI数据采集功能

·     (可选)配置指定模块的KPI数据采集周期

1.3.1  配置KPI数据的存储功能

内存中KPI采集的数据文件每隔一定时间周期保存到存储介质。通过本功能可以修改KPI数据文件存储的目录和保存到存储介质的周期。

1. 在系统视图下配置KPI数据的存储功能

表1-2 在系统视图下配置KPI数据的存储功能

操作

命令

说明

进入系统视图

system-view

-

配置将内存中KPI采集的数据文件保存到存储介质的周期

kpi file save-interval interval

缺省情况下,内存中KPI采集的数据文件每隔1440分钟将保存到存储介质

配置存储KPI数据文件的目录

kpi file directory dir-name

缺省情况下,存储KPI数据文件的目录是flash:/kpi

 

1.3.2  配置KPI数据的老化功能

当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小过大时,KPI进程将主动老化早期的KPI数据。通过本功能可以修改触发KPI数据文件老化操作的剩余存储介质容量的阈值以及触发KPI数据文件老化操作的KPI数据文件阈值。

1. 在系统视图下配置KPI数据的老化功能

表1-3 在系统视图下配置KPI数据的老化功能

操作

命令

说明

进入系统视图

system-view

-

配置触发KPI数据文件老化操作的剩余存储介质容量的阈值

kpi file aging threshold remain-disk-size size

缺省情况下,存储介质的剩余容量的阈值为128Mbyte

配置触发KPI数据文件老化操作的KPI数据文件阈值

kpi file aging threshold total-file-size size

缺省情况下,KPI数据文件阈值与设备为128Mbyte

 

1.3.3  将备用主控板里的KPI采集的指标数据复制到主用主控板

设备发生主备倒换后,当前运行的主控板上无法获取倒换前的主控板上KPI采集的数据,必须使用本功能把原故障的主用主控板上的KPI数据复制到当前的主用主控板上。

提示

如果主备倒换前管理员执行了kpi file directory命令,修改了存储KPI数据文件的目录,原主控板上将存在新旧两个KPI数据文件的目录。发生主备倒换后,配置本功能系统将会把原主控板里的最新的KPI采集的指标数据复制到主用主控板的同名目录中,原主控板中旧存储目录下KPI数据文件将无法复制到新的主用主控板中。

 

1. 在系统视图下将备用主控板里的KPI采集的指标数据复制到主用主控板

表1-4 在系统视图下将备用主控板里的KPI采集的指标数据复制到主用主控板

操作

命令

说明

进入系统视图

system-view

-

将备用主控板里的KPI采集的指标数据复制到主用主控板

kpi copy-file to active-mpu

-

 

1.3.4  关闭指定业务模块的KPI数据采集功能

KPI数据采集的指标类型多、数据量大,为防止对业务造成影响,当设备内存或CPU利用率较高时,可以配置本功能停止对某些业务模块指标的信息采集。

1. 在Probe视图下关闭指定业务模块的KPI数据采集功能

表1-5 在Probe视图下关闭指定业务模块的KPI数据采集功能

操作

命令

说明

进入系统视图

system-view

-

进入Probe视图

probe

-

关闭指定业务模块的KPI数据采集功能

undo kpi system internal collect module [ module-name ] enable

缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能

 

1.3.5  配置指定模块的KPI数据采集周期

配置可以修改指定业务模块的KPI数据采集周期。

1. 在Probe视图下配置指定模块的KPI数据采集周期

表1-6 在Probe视图下配置指定模块的KPI数据采集周期

操作

命令

说明

进入系统视图

system-view

-

进入Probe视图

probe

-

关闭指定业务模块的KPI数据采集功能

kpi system internal module module-name collect-interval collect-interval

缺省情况下,KPI数据采集功能的采集周期为300秒

 

1.3.6  KPI数据采集显示和维护

在完成上述配置后,在任意视图下执行display命令可以显示KPI采集数据的情况,通过查看显示信息验证配置的效果。

表1-7 KPI数据采集显示和维护

操作

命令

显示远程设备KPI采集的特定模块和对象的指标数据

display external-kpi data [ device-ip ip-address [ module module-name [ object object-name ] ] ]

显示KPI采集的业务模块的信息

display kpi module-info [ module-name ] [ verbose ]

显示指定时间内KPI采集的特定模块和对象的指标数据

display kpi data module module-name object object-name from time1 date1 to time2 date2 [ file file-path ]

 

 

 


2 智能监控和预测

2.1  智能监控和预测简介

智能监控和预测(EAI,Embedded Artificial Intelligence)是一种基于智能算法的设备KPI指标监控和预测技术。它能够根据KPI数据采集功能采集到的历史指标值对指标进行实时监控和智能预测,帮助网络管理员分析设备上关键指标的变化趋势,提前预防可能出现的故障。

2.1.1  智能监控功能

设备根据KPI采集到的历史指标值,动态地为表2-1中的指标生成合理的告警门限和告警恢复门限。

·     当KPI数据采集功能采集到的指标值超出上述指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;

·     当KPI数据采集功能采集到的指标值从超出告警门限恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。

2.1.2  智能预测功能

开启本功能后,根据KPI采集的历史指标数据信息,设备动态计算并预测该指标30天后的数值。

·     当智能预测的指标值超出指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;

·     当智能预测的指标数据值从超出告警门限范围恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。

2.1.3  支持智能监控和预测的KPI指标

表2-1 支持智能监控和预测功能的指标

KPI类

业务模块

对象

指标名称

指标说明

Device-resource

(设备容量类)

FWD-RES

单板

ARP_entry_usage

ARP表项利用率(used/total)

FWD-RES

单板

MAC_entry_usage

MAC表项利用率(used/total)

FWD-RES

单板

FIB_entry_usage

FIB转发表项利用率(used/total)

FWD-RES

单板

ND_entry_usage

ND转发表项利用率(used/total)

FWD-RES

单板

IPv4L2multicast_usage

IPv4二层组播表项利用率(used/total)

FWD-RES

单板

IPv6L2multicast_usage

IPv6二层组播表项利用率(used/total)

FWD-RES

单板

IPv4L3multicast_usage

IPv4三层组播表项利用率(used/total)

FWD-RES

单板

IPv6L3multicast_usage

IPv6三层组播表项利用率(used/total)

ACL-RES

单板

ACL_usage

ACL资源利用率(used/total)

STOR-RES

单板

Storage_usage

存储空间利用率(used/total)

DEV-RES

单板

CPU_usage

CPU利用率(used/total)

DEV-RES

单板

Memory_usage

内存利用率(used/total)

 

2.2  智能监控和预测配置准备

请确保表2-1中相关的业务模块的KPI数据采集功能处于开启状态。

2.3  配置任务简介

智能监控和预测的配置任务如下:

·     开启智能监控功能

·     智能监控和预测视图下开启智能监控功能

操作

命令

说明

进入系统视图

system-view

-

进入智能监控和预测视图

eai artificial intelligence

-

开启智能监控功能

eai monitoring enable

缺省情况下,智能监控功能处于关闭状态

 

·     开启智能预测功能

2.3.1  开启智能监控功能

1. 智能监控和预测视图下开启智能监控功能

表2-2 智能监控和预测视图下开启智能监控功能

操作

命令

说明

进入系统视图

system-view

-

进入智能监控和预测视图

eai artificial intelligence

-

开启智能监控功能

eai monitoring enable

缺省情况下,智能监控功能处于关闭状态

 

2.3.2  开启智能预测功能

1. 智能监控和预测视图下开启智能预测功能

表2-3 智能监控和预测视图下开启智能预测功能

操作

命令

说明

进入系统视图

system-view

-

进入智能监控和预测视图

eai artificial intelligence

-

开启智能预测功能

eai prediction enable

缺省情况下,智能预测功能处于关闭状态

 

2.3.3  智能监控和预测显示和维护

在完成上述配置后,在任意视图下执行display命令可以显示配置后智能监控和预测的情况,通过查看显示信息验证配置的效果。

表2-4 智能监控和预测显示和维护

操作

命令

显示智能监控的指标数据

display eai monitoring

显示智能预测数据和KPI采集的历史数据

display eai prediction

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们