29-KPI数据采集配置
本章节下载: 29-KPI数据采集配置 (359.99 KB)
设备的KPI(Key Performance Indicator,关键性能指标)用来表示某一时刻设备运行状态的一系列性能值。设备运行过程中自动采集KPI数据并将KPI数据存储在Flash介质中。
KPI数据采集功能可以周期性采集各种类型的设备性能指标,实时记录大量性能指标数据,用户可根据采集到的KPI信息了解设备运行状态、业务故障时间点、业务故障类型和疑似故障原因,通过这些信息快速定位故障。
KPI数据采集功能收集到的数据量巨大,且采集的数据种类丰富,例如,采集到设备上某单板的CPU利用率为50%,该数据属于描述设备容量类的性能参数,同时,该参数还属于设备资源管理的业务模块,归属于某块单板,其具体指标为50%,为了方便描述所有类型的数据,对数据进行分类和检索,KPI采集到的数据以结构化信息来呈现,并且从以下四个维度来定义数据信息:
· 指标(Indicator):KPI数据采集功能采集的性能参数和状态,例如CPU利用率、内存利用率、FIB转发表项利用率、ARP表项资源利用率、各类板卡故障、电源故障、单板温度异常数据等等。
· 对象(Object):指标所属的设备、单板或子卡等物理实体,为了表示这些物理实体,定义了一类数据来标识对象。随着KPI采集功能可以采集到的指标越来越多,对象的种类也会越来越丰富,根据对象的类型不同,取值也各不相同,目前支持以下取值类型:
¡ device:标识设备。该对象的指标用来表示设备整体的情况。
¡ chassis.x/slot.y:标识单板。该对象的指标用于标识某个单板性能和状态,取值为chassis.x/slot.y,其中x取值为0,y表示单板所在的槽位号。(独立运行模式)其中x表示设备在IRF中的成员编号,y表示单板的槽位号。(IRF模式)
¡ chassis.x/slot.y/subslot.z:标识子卡,该对象的指标用于标识该子卡的性能和状态,取值为chassis.x/slot.y/subslot.z,其中x取值为0,y表示单板所在的槽位号,z表示子卡编号。(独立运行模式)其中x表示设备在IRF中的成员编号,y表示单板的槽位号,z表示子卡编号。(IRF模式)
¡ interface-typeinterface-number:标识接口,该对象的指标用于标识某个物理接口的运行状态指标,对象取值为接口类型和接口编号。
· 业务模块(Module):指标所属的业务功能模块,例如CPU利用率和内存利用率属于设备资源模块(模块名称为DEV-RES),FIB转发表项利用率和ARP表项资源利用率属于转发资源模块(模块名称为FWD-RES)。
· KPI类(Class):某一类指标的集合。一些KPI数据指标可以用来衡量设备某方面的运行状态,可以将这些指标划分为一个KPI类,系统中预定义了一些KPI类,例如网络性能类(Net-performace),端口状态类(Port-state)。
KPI数据采集的工作机制如图1-1所示:
图1-1 KPI数据采集的工作机制示意图
(2) 数据采集:设备开启对指定业务模块的KPI数据采集功能后,KPI进程按一定时间周期采集该业务模块的数据指标。KPI进程将采集到的数据指标临时保存在设备内存中。缺省情况下,KPI数据指标采集周期为300秒,可以自定义修改指标的采集周期。
(3) 数据存储:KPI进程每隔一定周期将采集到的数据指标存储到Flash存储介质上。当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小超出一定阈值时,KPI进程将主动老化早期的KPI数据,删除最早的KPI数据。
表1-1 KPI数据采集功能支持的数据信息
KPI类 |
业务模块 (Module) |
对象 (Object) |
指标名称 |
指标说明 |
|
Device-state (设备状态类) |
DEV |
单板 |
Device_restarts |
设备反复重启次数 |
|
IRF |
设备 |
IRF_splits |
框式堆叠的分裂次数 |
|
|
IRF |
设备 |
IRF_dual-active_count |
框式堆叠出现双主次数 |
|
|
DEV |
单板 |
LPU_failures |
接口板故障次数 |
|
|
DEV |
单板 |
MPU_state |
主控板状态,取值为: · 0:不在位 · 1:正常 · 2:故障 |
|
|
DEV |
单板 |
MPU_failures |
主控板故障次数 |
|
|
DEV |
单板 |
SFU_state |
交换网板状态,取值为: · 0:不在位 · 1:正常 · 2:故障 |
|
|
DEV |
单板 |
SFU_failures |
交换网板故障次数 |
|
|
DEV |
子卡 |
Subslot_failure |
子卡故障次数 |
|
|
FWD |
设备 |
Inc_H_S_entries |
软硬件表项不一致数量(Inconsistent hardware and software entries) |
|
|
FAN |
设备 |
Fan_state |
风扇状态,取值为: · 0:正常 · 1:故障 |
|
|
POWER |
设备 |
Power_state |
电源状态,取值为: · 0:正常 · 1:故障 |
|
|
POE |
设备 |
PoE_state |
PoE供电状态,取值为: · 0:正常 · 1:故障 |
|
|
TEMP |
设备 |
Card_temperature |
单板温度,取值为: · 0:正常 · 1:故障 |
|
|
FS |
设备 |
File_exceptions |
文件系统异常,保存失败次数 |
|
|
DEV |
设备 |
Process_abnormal_reboot |
进程异常重启次数 |
|
|
DEV |
设备 |
Process_normal_reboot |
进程正常重启次数 |
|
|
Device-resource (设备容量类) |
FWD-RES |
单板 |
ARP_entry_usage |
ARP表项利用率(used/total) |
|
FWD-RES |
单板 |
ARP_threshold_ratio |
ARP表项使用的数量和ARP表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
MAC entry usage |
MAC表项利用率(used/total) |
|
|
FWD-RES |
单板 |
MAC_threshold_ratio |
MAC表项使用的数量和MAC表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
FIB_entry_usage |
FIB转发表项利用率(used/total) |
|
|
FWD-RES |
单板 |
FIB_threshold_ratio |
FIB转发表项使用的数量和FIB转发表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
ND entry usage |
ND转发表项利用率(used/total) |
|
|
FWD-RES |
单板 |
ND_threshold_ratio |
ND转发表项使用的数量和ND转发表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv4L2multicast_usage |
IPv4二层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv4L2multicast_ratio |
IPv4二层组播表项使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv6L2multicast_usage |
IPv6二层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv6L2multicast_ratio |
IPv6二层组播表项使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv4L3multicast_usage |
IPv4三层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv4L3multicast_ratio |
IPv4三层组播表项资源使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv6L3multicast_usage |
IPv6三层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv6L3multicast_ratio |
IPv6三层组播表项使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
ACL-RES |
单板 |
ACL_usage |
ACL资源利用率(used/total) |
|
|
ACL-RES |
单板 |
ACL_threshold_ratio |
ACL资源使用程度(used/threshold),已使用的表项和阈值比值 |
|
|
STOR-RES |
单板 |
Storage_usage |
存储空间利用率(used/total) |
|
|
STOR-RES |
单板 |
Storage_threshold_ratio |
存储空间使用程度(used/threshold),已使用的资源和阈值比值 |
|
|
DEV-RES |
单板 |
CPU_usage |
CPU利用率(used/total) |
|
|
DEV-RES |
单板 |
CPU_threshold_ratio |
CPU使用程度(used/threshold),已使用的资源和阈值比值 |
|
|
DEV-RES |
单板 |
Memory_usage |
内存利用率(used/total) |
|
|
DEV-RES |
单板 |
Memory_threshold_ratio |
内存使用程度(used/threshold),已使用的资源和阈值比值 |
|
|
Net-performance (网络性能类) |
LOOP-DCT |
设备 |
L2 loop_state |
二层环路状态,取值为: · 0:正常 · 1:故障 |
|
IF-CI |
接口 |
Port_congestion |
端口拥塞导致的丢包数 |
|
|
IF-ERROR |
接口 |
Port_error |
端口错包导致的丢包数 |
|
|
CPCAR |
设备 |
CPCAR_loss |
控制平面配置流量监管进行限速导致的丢包数量 |
|
|
STP-SWT |
设备 |
STP_switchovers |
STP切换次数 |
|
|
LACP-SWT |
设备 |
LACP_switchovers |
链路聚合切换次数 |
|
|
IRF-SWT |
设备 |
IRF_switchovers |
堆叠切换次数 |
|
|
M-LAG-SWT |
设备 |
M-LAG_switchovers |
M-LAG切换次数 |
|
|
RRPP-SWT |
设备 |
RRPP_switchovers |
RRPP切换次数 |
|
|
VRRP-SWT |
设备 |
VRRP_switchovers |
VRRP切换次数 |
|
|
IF-USAGE |
设备 |
Port_BW_usage |
所有端口的带宽利用率 |
|
|
Port-state (端口状态类) |
PORT-ST |
设备 |
Down_ports |
处于down状态的物理接口数量 |
|
PORT-ST |
设备 |
Port_flappings |
端口震荡次数 |
|
|
Net-connection (网络链接类) |
RPNCS |
设备 |
ISIS_peer_status |
ISIS协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
RPNCS |
设备 |
OSPF_peer_status |
OSPF协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
|
RPNCS |
设备 |
OSPv3_peer_status |
OSPFv3协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
|
RPNCS |
设备 |
BGP_peer_status |
BGP协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
|
MCRCS |
设备 |
Multicast_connection_status |
组播路由连接状态,取值为 · 0:正常 · 1:故障 |
|
|
DHCPCS |
设备 |
DHCPv4_server_state |
DHCPv4 sever状态,取值为 · 0:正常 · 1:故障 |
|
|
DHCPCS |
设备 |
DHCPv6_server_state |
DHCPv6 sever状态,取值为 · 0:正常 · 1:故障 |
|
|
DHCPCS |
设备 |
DHCPv4_server_switching |
DHCPv4 sever切换次数 |
|
|
DHCPCS |
设备 |
DHCPv6_server switching |
DHCPv6 sever切换次数 |
|
|
DHCPCS |
设备 |
DHCPv4_entry failures |
DHCPv4表项建立失败的次数 |
|
|
DHCPCS |
设备 |
DHCPv6_entry failures |
DHCPv6表项建立失败的次数 |
|
|
Net-security (网络安全类) |
AAA |
设备 |
1X_AuthN_status |
1x认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在802.1X认证攻击 |
|
AAA |
设备 |
1X_Usr&Pwd_status |
1x用户名密码状态,取值为 · 0:表示用户名密码正确 · 1:表示用户名密码错误 |
|
|
AAA |
设备 |
MAC_AuthN_status |
MAC地址认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在攻击 |
|
|
AAA |
设备 |
MAC_Usr&Pwd_status |
MAC地址认证用户名密码状态,取值为 · 0:表示用户名密码正确 · 1:表示用户名密码错误 |
|
|
AAA |
设备 |
Portsec_AuthN_status |
端口安全认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在攻击 |
|
|
AAA |
设备 |
Portsec_Usr&Pwd_status |
端口安全用户名密码状态,取值为 · 0:表示用户名密码正确 · 1:表示用户名密码错误 |
|
|
AAA |
设备 |
StaticUser_AuthN_status |
静态用户认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在攻击 |
|
|
AAA |
设备 |
StaticUser_Usr&Pwd_status |
静态用户名密码状态,取值为 · 0:表示用户名密码正确 · 1:表示用户名密码错误 |
|
|
ATTACK |
设备 |
All-type_attacks |
所有类型的攻击次数 |
|
|
TCP |
设备 |
TCP_attacks |
TCP攻击次数 |
|
|
ARP-ATK |
设备 |
ARP_attacks |
ARP攻击次数 |
|
|
ND-ATK |
设备 |
ND_attacks |
ND攻击次数 |
|
|
AAA |
设备 |
Illegal_user_detections |
非法用户检测次数 |
|
缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能。
由于KPI数据采集的指标类型多、数据量会逐渐增加,为防止持续的采集过程对正常的业务造成影响,当设备内存或CPU利用率达到告警阈值时,KPI数据采集功能会处于抑制状态,此时KPI进程将暂停采集数据,建议关闭一些非CPU、非内存利用率相关指标的采集功能,仅保留DEV-RES的KPI采集功能。关于设备内存或CPU利用率的告警阈值的详细信息,请参见“基础配置指导”中的“设备管理”。
KPI数据采集功能的配置任务如下:
· (可选)配置KPI数据的存储功能
· (可选)配置KPI数据的老化功能
· (可选)将备用主控板里的KPI采集的指标数据复制到主用主控板
· (可选)关闭指定业务模块的KPI数据采集功能
· (可选)配置指定模块的KPI数据采集周期
内存中KPI采集的数据文件每隔一定时间周期保存到存储介质。通过本功能可以修改KPI数据文件存储的目录和保存到存储介质的周期。
表1-2 在系统视图下配置KPI数据的存储功能
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
配置将内存中KPI采集的数据文件保存到存储介质的周期 |
kpi file save-interval interval |
缺省情况下,内存中KPI采集的数据文件每隔1440分钟将保存到存储介质 |
配置存储KPI数据文件的目录 |
kpi file directory dir-name |
缺省情况下,存储KPI数据文件的目录是flash:/kpi |
当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小过大时,KPI进程将主动老化早期的KPI数据。通过本功能可以修改触发KPI数据文件老化操作的剩余存储介质容量的阈值以及触发KPI数据文件老化操作的KPI数据文件阈值。
表1-3 在系统视图下配置KPI数据的老化功能
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
配置触发KPI数据文件老化操作的剩余存储介质容量的阈值 |
kpi file aging threshold remain-disk-size size |
缺省情况下,存储介质的剩余容量的阈值为128Mbyte |
配置触发KPI数据文件老化操作的KPI数据文件阈值 |
kpi file aging threshold total-file-size size |
缺省情况下,KPI数据文件阈值与设备为128Mbyte |
设备发生主备倒换后,当前运行的主控板上无法获取倒换前的主控板上KPI采集的数据,必须使用本功能把原故障的主用主控板上的KPI数据复制到当前的主用主控板上。
如果主备倒换前管理员执行了kpi file directory命令,修改了存储KPI数据文件的目录,原主控板上将存在新旧两个KPI数据文件的目录。发生主备倒换后,配置本功能系统将会把原主控板里的最新的KPI采集的指标数据复制到主用主控板的同名目录中,原主控板中旧存储目录下KPI数据文件将无法复制到新的主用主控板中。
表1-4 在系统视图下将备用主控板里的KPI采集的指标数据复制到主用主控板
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
将备用主控板里的KPI采集的指标数据复制到主用主控板 |
kpi copy-file to active-mpu |
- |
KPI数据采集的指标类型多、数据量大,为防止对业务造成影响,当设备内存或CPU利用率较高时,可以配置本功能停止对某些业务模块指标的信息采集。
表1-5 在Probe视图下关闭指定业务模块的KPI数据采集功能
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
进入Probe视图 |
probe |
- |
关闭指定业务模块的KPI数据采集功能 |
undo kpi system internal collect module [ module-name ] enable |
缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能 |
配置可以修改指定业务模块的KPI数据采集周期。
表1-6 在Probe视图下配置指定模块的KPI数据采集周期
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
进入Probe视图 |
probe |
- |
关闭指定业务模块的KPI数据采集功能 |
kpi system internal module module-name collect-interval collect-interval |
缺省情况下,KPI数据采集功能的采集周期为300秒 |
在完成上述配置后,在任意视图下执行display命令可以显示KPI采集数据的情况,通过查看显示信息验证配置的效果。
表1-7 KPI数据采集显示和维护
操作 |
命令 |
显示远程设备KPI采集的特定模块和对象的指标数据 |
display external-kpi data [ device-ip ip-address [ module module-name [ object object-name ] ] ] |
显示KPI采集的业务模块的信息 |
display kpi module-info [ module-name ] [ verbose ] |
显示指定时间内KPI采集的特定模块和对象的指标数据 |
display kpi data module module-name object object-name from time1 date1 to time2 date2 [ file file-path ] |
智能监控和预测(EAI,Embedded Artificial Intelligence)是一种基于智能算法的设备KPI指标监控和预测技术。它能够根据KPI数据采集功能采集到的历史指标值对指标进行实时监控和智能预测,帮助网络管理员分析设备上关键指标的变化趋势,提前预防可能出现的故障。
设备根据KPI采集到的历史指标值,动态地为表2-1中的指标生成合理的告警门限和告警恢复门限。
· 当KPI数据采集功能采集到的指标值超出上述指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;
· 当KPI数据采集功能采集到的指标值从超出告警门限恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。
开启本功能后,根据KPI采集的历史指标数据信息,设备动态计算并预测该指标30天后的数值。
· 当智能预测的指标值超出指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;
· 当智能预测的指标数据值从超出告警门限范围恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。
KPI类 |
业务模块 |
对象 |
指标名称 |
指标说明 |
Device-resource (设备容量类) |
FWD-RES |
单板 |
ARP_entry_usage |
ARP表项利用率(used/total) |
FWD-RES |
单板 |
MAC_entry_usage |
MAC表项利用率(used/total) |
|
FWD-RES |
单板 |
FIB_entry_usage |
FIB转发表项利用率(used/total) |
|
FWD-RES |
单板 |
ND_entry_usage |
ND转发表项利用率(used/total) |
|
FWD-RES |
单板 |
IPv4L2multicast_usage |
IPv4二层组播表项利用率(used/total) |
|
FWD-RES |
单板 |
IPv6L2multicast_usage |
IPv6二层组播表项利用率(used/total) |
|
FWD-RES |
单板 |
IPv4L3multicast_usage |
IPv4三层组播表项利用率(used/total) |
|
FWD-RES |
单板 |
IPv6L3multicast_usage |
IPv6三层组播表项利用率(used/total) |
|
ACL-RES |
单板 |
ACL_usage |
ACL资源利用率(used/total) |
|
STOR-RES |
单板 |
Storage_usage |
存储空间利用率(used/total) |
|
DEV-RES |
单板 |
CPU_usage |
CPU利用率(used/total) |
|
DEV-RES |
单板 |
Memory_usage |
内存利用率(used/total) |
请确保表2-1中相关的业务模块的KPI数据采集功能处于开启状态。
智能监控和预测的配置任务如下:
· 开启智能监控功能
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
进入智能监控和预测视图 |
eai artificial intelligence |
- |
开启智能监控功能 |
eai monitoring enable |
缺省情况下,智能监控功能处于关闭状态 |
表2-3 智能监控和预测视图下开启智能预测功能
操作 |
命令 |
说明 |
进入系统视图 |
system-view |
- |
进入智能监控和预测视图 |
eai artificial intelligence |
- |
开启智能预测功能 |
eai prediction enable |
缺省情况下,智能预测功能处于关闭状态 |
在完成上述配置后,在任意视图下执行display命令可以显示配置后智能监控和预测的情况,通过查看显示信息验证配置的效果。
表2-4 智能监控和预测显示和维护
操作 |
命令 |
显示智能监控的指标数据 |
display eai monitoring |
显示智能预测数据和KPI采集的历史数据 |
display eai prediction |
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!