• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C服务器 HDM告警日志信息参考手册-6W109

手册下载

H3C服务器 HDM告警日志信息参考手册-6W109-整本手册(CHM&PDF&Excel).rar  (1.11 MB)

  • 发布时间:2024/1/20 6:32:15
  • 浏览量:
  • 下载量:

H3C HDM告警日志信息参考手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2020-2024新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。

 


 

1 简介··· 1

1.1 使用场景·· 1

1.2 获取方式·· 1

1.3 告警级别·· 1

1.4 内容说明·· 2

1.5 适用产品·· 2

2 事件告警··· 4

2.1 Temperature· 4

2.1.1 Dropped below the lower minor threshold· 4

2.1.2 Dropped below the lower major threshold· 5

2.1.3 Dropped below the lower critical threshold· 5

2.1.4 Exceeded the upper minor threshold· 6

2.1.5 Exceeded the upper major threshold· 7

2.1.6 Exceeded the upper critical threshold· 8

2.1.7 Abnormal Temperature· 9

2.2 Voltage· 9

2.2.1 State Asserted· 9

2.2.2 Dropped below the lower major threshold· 10

2.2.3 Exceeded the upper major threshold· 10

2.3 Current 11

2.3.1 State Asserted· 11

2.3.2 Exceeded the upper minor threshold· 11

2.3.3 Exceeded the upper major threshold· 12

2.3.4 Exceeded the upper critical threshold· 12

2.4 Fan· 13

2.4.1 Transition to Running· 13

2.4.2 Fully Redundant 13

2.4.3 Non-redundant:Sufficient Resources from Redundant 14

2.4.4 Transition to Off Line· 14

2.4.5 Non-redundant:Insufficient Resources· 15

2.4.6 Transition to Degraded· 15

2.4.7 Install Error 16

2.5 Cooling Device· 16

2.5.1 Liquid Cooler is not present 16

2.5.2 Liquid Cooler is leakage· 17

2.5.3 Liquid Cooler is leakage· 17

2.6 Physical Security· 18

2.6.1 General Chassis Intrusion· 18

2.6.2 LAN Leash Lost 18

2.7 Processor 19

2.7.1 IERR· 19

2.7.2 State Asserted· 20

2.7.3 CPU Critical Temperature· 20

2.7.4 Thermal Trip· 21

2.7.5 FRB1/BIST failure. 21

2.7.6 Processor Presence detected· 22

2.7.7 Processor Automatically Throttled· 22

2.7.8 Machine Check Exception· 23

2.7.9 triggered an uncorrectable error 23

2.7.10 Machine Check Error 24

2.7.11 Machine Check Error ---CPU core errors· 24

2.7.12 triggered a correctable error 25

2.7.13 Correctable Machine Check Error 25

2.7.14 Correctable Machine Check Error---CPU UPI errors· 26

2.7.15 Correctable Machine Check Error ---IOH UPI errors· 26

2.7.16 Correctable Machine Check Error ---IOH core errors· 27

2.7.17 Correctable Machine Check Error---VT-d errors· 27

2.7.18 Correctable Machine Check Error ---CPU core errors· 28

2.7.19 Correctable Machine Check Error ---Cbo error 28

2.7.20 Configuration Error---System is operating in KTI Link Slow Speed Mode· 29

2.8 Power Supply· 29

2.8.1 Fully Redundant 29

2.8.2 Fully Redundant 30

2.8.3 Presence detected· 30

2.8.4 Redundancy Lost 31

2.8.5 Power Supply Failure detected· 31

2.8.6 Power Supply Predictive Failure---PSU Self Check Failed· 32

2.8.7 Power Supply Predictive Failure· 32

2.8.8 Power Supply input lost (AC/DC) 33

2.8.9 Power Supply input lost or out-of-range· 33

2.8.10 Power Supply input out-of-range - but present 34

2.8.11 Configuration error ---Vendor mismatch· 34

2.8.12 Configuration error---Power supply rating mismatch· 35

2.8.13 Exceeded the upper minor threshold· 35

2.8.14 Power Supply Inactive/standby state· 36

2.8.15 Interlock Power Down· 36

2.8.16 Power Supply Pwok abnormal 37

2.8.17 Power limit is exceeded over correction time limit 37

2.8.18 Power limit is exceeded over correction time limit 38

2.9 Memory· 38

2.9.1 Correctable ECC or other correctable memory error 38

2.9.2 CPU triggered a correctable error 39

2.9.3 Uncorrectable ECC or other uncorrectable memory error 39

2.9.4 triggered an uncorrectable error 40

2.9.5 Parity· 41

2.9.6 Parity---Memory Training Faulty Part Tracking Uncorrectable Error 42

2.9.7 Parity---Memory Receive Enable Training Error 43

2.9.8 Parity---Memory Write Leveling Training Error 44

2.9.9 Parity---Memory Write DqDqs Training Error 45

2.9.10 Parity---Memory Sense Amp Training Error 46

2.9.11 Parity---Warning Command Clock Training Error 47

2.9.12 Parity---An uncorrectable error occurs during the memory test phase· 47

2.9.13 Parity---Memory Training Error 48

2.9.14 Parity---The number of correctable memory errors reached the error logging threshold· 49

2.9.15 Parity---An error occurred on the DIMM slot 50

2.9.16 Parity---CMD eye width is too small 51

2.9.17 Parity---The command is not in the FNv table· 51

2.9.18 Parity---CTL is not consistent with clock in timing, and the channel is isolated· 52

2.9.19 Parity---Memory write flyby failed· 53

2.9.20 Parity---Timing error occurred during signal line adjustment for memory write leveling training· 54

2.9.21 Parity---Memory read DqDqs training failed· 55

2.9.22 Parity---Memory receive enable training failed· 56

2.9.23 Parity---Memory write leveling training failed· 57

2.9.24 Parity---Memory write DqDqs training failed· 58

2.9.25 Parity---An error occurrs during memory test, and the rank is disabled· 59

2.9.26 Parity---Failed to find the RxVref for data eye training· 60

2.9.27 Parity---LRDIMM RCVEN training failed· 61

2.9.28 Parity---RCVEN CYCLE training failed· 62

2.9.29 Parity---Read delay training failed· 63

2.9.30 Parity---Memory write leveling training failed· 64

2.9.31 Parity---Coarse write leveling training failed· 65

2.9.32 Parity---Write delay training failed· 66

2.9.33 Parity---QxCA_CLK_NO_EYE training failed· 67

2.9.34 Parity---mapped out because failed critical mask test at cold boot 67

2.9.35 Parity---Invalid SPD contents· 68

2.9.36 Memory Device Disabled· 68

2.9.37 Memory Device Disabled---The DIMM is disabled· 69

2.9.38 Memory Device Disabled---the rank is disabled· 69

2.9.39 Memory Device Disabled---Pmem Media disabled· 70

2.9.40 Correctable ECC or other memory error limit reached· 71

2.9.41 Presence detected· 71

2.9.42 Configuration error---RDIMMs are installed on the server that supports only UDIMMs· 72

2.9.43 Configuration error---UDIMMs are installed on the server that supports only RDIMMs· 72

2.9.44 Configuration error---SODIMMs are installed on the server that supports only RDIMMs· 73

2.9.45 Configuration error---The number of ranks per channel can be only 1, 2, or 4· 73

2.9.46 Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported· 74

2.9.47 Configuration error---The number of ranks in the channel exceeds 8· 75

2.9.48 Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server 75

2.9.49 Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V  76

2.9.50 Configuration error---The CPU is not compatible with 3DS DIMMs· 76

2.9.51 Configuration error---NVDIMMs with stepping lower than 0x10 are not supported· 77

2.9.52 Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs· 77

2.9.53 Configuration error---The CPU is not compatible with the DIMMs· 78

2.9.54 Configuration error---The frequency of the DIMM is not supported on the server 78

2.9.55 Configuration error---NVDIMMs are not compatible with the CPU· 79

2.9.56 Configuration error---DCPMMs are not supported· 79

2.9.57 Configuration error---Memory LockStep Disable Error 80

2.9.58 Configuration error---Memory Mirror Disable Error 80

2.9.59 Configuration error---Failed to enable the full mirror mode· 81

2.9.60 Configuration error---The memory interleaving configuration cannot meet the requirements of the server 81

2.9.61 Configuration error---The memory interleaving configuration cannot meet the requirements of the server 82

2.9.62 Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent 82

2.9.63 Configuration error---Memory Rank Sparing Error 83

2.9.64 Configuration error---Failed to enable patrol scrubbing· 83

2.9.65 Configuration error---The number of ranks in the black slot is greater than that in the white slot, or the DIMM is installed in the black slot with the white slot empty· 84

2.9.66 Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel 85

2.9.67 Configuration error---The DDR-T memory module is installed in the white slot 85

2.9.68 Configuration error---2LM IMC memory Mismatch· 86

2.9.69 Configuration error---ODT configuration errorThe channel is isolated· 86

2.9.70 Configuration error---Failed to enable ADDDC· 87

2.9.71 Configuration error---Failed to enable SDDC· 87

2.9.72 Configuration error---DCPMM firmware version not supported· 88

2.9.73 Configuration error---DCPMM firmware version not supported· 88

2.9.74 Configuration error---NVMCTRL_MEDIA_NOTREADY· 89

2.9.75 Configuration error---The DDR-T memory modules of the unexpected model are installed· 89

2.9.76 Configuration error---Failed to set the VDD voltage of the DIMM·· 90

2.9.77 Configuration error---Too many RIR rules· 90

2.9.78 Configuration error---The DIMMs for the CPU exceeded the limit 91

2.10 Drive Slot 91

2.10.1 Drive Presence· 91

2.10.2 Drive Fault 92

2.10.3 Predictive Failure· 93

2.10.4 Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold  94

2.10.5 Consistency Check / Parity Check in progress. System Source Monitor: Relieve resource alarm about Hard Disk Usage· 95

2.10.6 In Critical Array· 96

2.10.7 In Failed Array· 97

2.10.8 Rebuild/Remap in progress· 97

2.10.9 The disk triggered an media error 98

2.10.10 The disk triggered an uncorrectable error 98

2.10.11 The disk is missing· 99

2.11 System Firmware Progress· 99

2.11.1 System Firmware Error (POST Error)---CPU matching failure· 99

2.11.2 System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected· 100

2.11.3 System Firmware Error (POST Error)---Load microcode failed· 100

2.11.4 System Firmware Error (POST Error)---No system memory or invalid memory configuration· 101

2.11.5 System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image is unsigned or Certificate is invalid· 101

2.11.6 System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate not found in Authorized database(db) 102

2.11.7 System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate is found in Forbidden database(dbx) 102

2.11.8 System Firmware Error (POST Error)---Memory Population Rule Error 103

2.11.9 System firmware error (POST error)---DIMM installation or compatibility error occurred· 103

2.11.10 System firmware error (POST error)---No Memory Usable· 104

2.11.11 System firmware error (POST error)---No DDR Memory Error 105

2.11.12 System firmware error (POST error)---DIMM Compatible Error(LRDIMM and RDIMM are installed) 105

2.11.13 System Firmware Error (POST Error)---No DIMMs present 106

2.11.14 System Firmware Error (POST Error)---No DDR memory in the system·· 107

2.11.15 System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation· 107

2.11.16 System Firmware Error (POST Error)---Different DIMM types detected· 108

2.11.17 System Firmware Error (POST Error)---DIMM population error 108

2.11.18 System Firmware Error (POST Error)---A maximum of two quad-rank DIMMs can be populated per channel 109

2.11.19 System Firmware Error (POST Error)---The third DIMM slot with green release tabs does not support UDIMMs or SODIMMs· 109

2.11.20 System Firmware Error (POST Error)---DIMM voltage error 110

2.11.21 System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed· 110

2.11.22 System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed· 111

2.11.23 System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed· 111

2.11.24 System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed  112

2.11.25 System Firmware Error (POST Error)---Memory Unrecognized Initialization Error 112

2.11.26 System Firmware Hang---Unspecified· 113

2.11.27 System firmware hang-----No DDR Memory Error 113

2.11.28 System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed) 114

2.11.29 System firmware hang---Memory Unrecognized Initialization Error 114

2.11.30 System Firmware Progress---Current Memory Ras Mode· 115

2.11.31 System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket 115

2.11.32 System Firmware Error (POST Error)---No DIMMs installed for CPU· 116

2.12 Event Logging Disabled· 116

2.12.1 Log Area Reset/Cleared· 116

2.12.2 SEL Full 117

2.12.3 SEL Almost Full 117

2.13 Watchdog1· 118

2.13.1 BIOS Watchdog Reset 118

2.13.2 OS Watchdog NMI/Diagnostic Interrupt 118

2.13.3 OS Watchdog pre-timeout Interrupt-non-NMI 119

2.14 System Event 119

2.14.1 Timestamp Clock Synch---event is $1 of pair---SEL Timestamp Clock updated· 119

2.14.2 Timestamp clock synch---BMC Time SYNC succeed· 120

2.15 Critical Interrupt 120

2.15.1 Transition to Non-Critical from OK· 120

2.15.2 PCI: PCIE Hot Plug PCIe Pull Out 121

2.15.3 PCI: PCIE Hot Plug PCIe Insert 121

2.15.4 PCI SERR· 122

2.15.5 Bus Uncorrectable Error 123

2.15.6 Bus Fatal Error 124

2.16 Button / Switch· 125

2.16.1 Power Button pressed---Physical button---Button pressed· 125

2.16.2 Power Button pressed---Physical button---Button released· 125

2.16.3 Power Button pressed---Virtual button---Power cycle command· 126

2.16.4 Power Button pressed---Virtual button---Power off command· 126

2.16.5 Power Button pressed---Virtual button---Power on command· 126

2.16.6 Power Button pressed---Virtual button---Soft off command· 127

2.16.7 Reset Button pressed---Virtual button---Reset command· 127

2.16.8 FRU service request button---Physical button---Uid button pressed· 128

2.17 Module / Board· 128

2.17.1 Transition to Critical from less severe· 128

2.17.2 Transition to Non-recoverable from less severe· 129

2.17.3 Monitor---Board found PSU output can't be enabled· 130

2.18 Add-in Card· 130

2.18.1 Transition to OK· 130

2.18.2 Transition to Critical from less severe· 131

2.19 Chassis· 132

2.19.1 Transition to OK· 132

2.19.2 State asserted· 132

2.19.3 Transition to Critical from less severe· 133

2.19.4 Transition to Non-recoverable from less severe· 133

2.20 System Boot / Restart Initiated· 134

2.20.1 Initiated by power up· 134

2.20.2 Initiated by hard reset 135

2.20.3 Initiated by warm reset 136

2.20.4 System restart---due to fan error:power off 136

2.20.5 System Restart 137

2.20.6 System Restart---due to fan error:power reset 137

2.20.7 System Restart---due to fan error:power cycle· 138

2.21 Boot Error 138

2.21.1 No bootable media· 138

2.22 OS_BOOT· 139

2.22.1 C: boot completed· 139

2.22.2 PXE boot completed· 139

2.23 OS Stop / Shutdown· 140

2.23.1 Run-time Critical Stop· 140

2.23.2 OS Graceful Stop· 140

2.23.3 OS Graceful Shutdown· 141

2.24 Slot / Connector 141

2.24.1 Device disabled: PCIe module information not obtained· 141

2.24.2 triggered an uncorrectable error 142

2.24.3 triggered a correctable error 143

2.24.4 Slot/Connector Device installed/attached· 143

2.24.5 Transition to on line· 144

2.24.6 Transition to off line· 144

2.24.7 Transition to Non-Critical from OK· 144

2.25 System ACPI Power State· 145

2.25.1 S0 / G0 "working" 145

2.25.2 S5 / G2 "soft-off" 145

2.25.3 LPC Reset occurred· 146

2.26 Watchdog2· 146

2.26.1 Watchdog overflowAction:Timer expired· 146

2.26.2 Watchdog overflowAction:Hard Reset 147

2.26.3 Watchdog overflowAction:Power Down· 148

2.26.4 Watchdog overflowAction:Power Cycle· 149

2.26.5 Watchdog overflowAction:Timer interrupt 150

2.27 Management Subsystem Health· 151

2.27.1 Management controller off-line. 151

2.27.2 Management controller off-line---BMC reset 151

2.27.3 Management controller off-line---HDM cold reboot 152

2.27.4 Management controller off-line---BMC WDT timeout event happened· 152

2.27.5 Management controller off-line---BMC service restart 153

2.27.6 Management controller unavailable· 153

2.27.7 Management controller unavailable---Adapter $1 is in a fault condition· 154

2.27.8 Sensor access degraded or unavailable--- Adapter $1 has  no response for 2 minutes in $2 slot 154

2.27.9 Sensor access degraded or unavailable--- Adapter $1 has  no response for 5 minutes in $2 slot 155

2.27.10 Sensor failure---Adapter $1 has no response for 4 minutes in $2 slot 155

2.27.11 Sensor failure---Adapter $1 has no response for 10 minutes in $2 slot 156

2.28 Battery· 156

2.28.1 Battery low (predictive failure) 156

2.28.2 Battery failed· 157

2.28.3 Battery presence detected· 157

2.29 ME Status· 158

2.29.1 Management controller unavailable· 158

2.30 OEM Record· 158

2.30.1 System Source Monitor:Mem usage exceeds the threshold· 158

2.30.2 System Source Monitor:Relieve resource alarm about Mem Usage· 159

2.30.3 System Source Monitor:Cpu usage exceeds the threshold· 159

2.30.4 System Source Monitor:Relieve resource alarm about Cpu Usage· 160

2.30.5 Memory is not certified· 160

3 CPU起始编号说明··· 161

4 附录··· 162

 


1 简介

本文档主要介绍HDM告警日志的相关信息。

1.1  使用场景

当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同模块出现的故障产生告警,同时生成事件日志信息。用户获取到日志信息后,再通过日志信息中的相应字段在本文档中搜索定位到该日志信息,即可了解该日志信息的详细内容和处理建议,从而方便维护服务器的正常运行。

1.2  获取方式

·     通过HDM Web页面获取:登录到HDM Web页面,单击[远程运维/日志]菜单项,选择“一键收集”页签,进入一键收集页面,根据需要下载日志。

·     通过告警邮件获取:若用户已完成告警邮件的相关配置,可通过告警邮件获取设备告警信息。

·     通过第三方平台获取若用户已完成SNMP的相关配置,实现了HDM与第三方管理平台对接,则可通过第三方管理平台获取设备告警信息。

·     通过Redfish事件订阅服务器获取:若用户已完成远程订阅服务器的配置,当触发告警时,Redfish会将接收到的告警信息上传到远程订阅服务器。

·     通过IPMI命令获取:通过IPMItool以命令行的方式访问HDMIPMI接口,输入获取SEL日志的命令,可以获取事件日志信息。

1.3  告警级别

服务器系统的告警包含服务器系统所有部件产生的告警,当产生告警时,需要根据告警信息来定位告警产生的具体原因,告警信息按严重性分为四个等级。

·     正常(Info):

服务器正常运行产生的事件日志,不影响服务器正常运行,无需处理。

·     轻微(Minor):

当前未对系统产生大影响,但可能存在一定风险和隐患,可对相关事件进行观察,必要时采取相应的措施,防止故障升级。

·     严重(Major):

已对系统产生较大的影响,有可能中断系统或业务模块(计算、存储、通信、用户数据安全性)的正常运行,导致业务中断。

·     紧急(Critical):

因出现系统处理单元能力严重下降、系统可用资源明显减少、业务处理能力严重下降、业务模块大面积中断、存储设备不可用等现象,导致(或极可能导致)服务器失效、系统宕机、业务数据丢失等情况出现的,需要立即进行处理的告警。

1.4  内容说明

本文以表格的形式对告警日志信息进行介绍,各项的含义请参见1-1

表1-1 告警日志信息说明

表项

说明

举例

事件码

唯一标识一条告警日志信息,用16进制数来表示

0x02900002

可以通过事件码的最后一位的奇偶性来判断是告警触发还是告警解除。

·     偶数:告警触发

·     奇数:告警解除

日志内容

显示日志信息的具体内容。

如出现多条内容一样的日志,可以通过上报的传感器类型来区分

Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2

参数解释

对日志中出现的参数进行解释,参数名称用“$数字”表示,如$1XXXX

·     $1:电压传感器的当前读数

·     $2:电压传感器的严重高压告警阈值

日志等级

日志等级

严重

举例

日志真实举例内容

Exceeded the upper major threshold.---Current reading:2.58---Threshold reading:2.56

对系统的影响

解释告警事件对系统的影响

电压过高会影响设备各器件性能,出现运行不稳定的情况

日志产生原因

解释日志产生的原因

板内电压异常

处理建议

建议用户应采取哪些处理措施,对于建议措施无法解决的问题,请联系技术支持

1.     检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作

2.     登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

1.5  适用产品

本手册适用于以下产品:

·     H3C UniServer R5500 INTEL 液冷机型

·     H3C UniServer R4300 G5

·     H3C UniServer R4330 G5

·     H3C UniServer R4330 G5 H3

·     H3C UniServer R4700 G5

·     H3C UniServer R4700LC G5

·     H3C UniServer R4900 G5

·     H3C UniServer R4900LC G5

·     H3C UniServer R4930 G5

·     H3C UniServer R4930 G5 H3

·     H3C UniServer R4930LC G5 H3

·     H3C UniServer R4950 G5

·     H3C UniServer R5300 G5

·     H3C UniServer R5500 G5

·     H3C UniServer R6900 G5

·     H3C UniServer B5700 G5

·     H3C UniServer R2700 G3

·     H3C UniServer R2900 G3

·     H3C UniServer R4100 G3

·     H3C UniServer R4300 G3

·     H3C UniServer R4400 G3

·     H3C UniServer R4500 G3

·     H3C UniServer R4700 G3

·     H3C UniServer R4900 G3

·     H3C UniServer R4950 G3

·     H3C UniServer R5300 G3

·     H3C UniServer R6700 G3

·     H3C UniServer R6900 G3

·     H3C UniServer R8900 G3

·     H3C UniServer B5700 G3

·     H3C UniServer B5800 G3

·     H3C UniServer B7800 G3

·     H3C UniServer E3200 G3

 


2 事件告警

2.1  Temperature

2.1.1  Dropped below the lower minor threshold

事件码

0x01000002

日志内容

Dropped below the lower minor threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:温度传感器的当前读数

·     $2:温度传感器的轻微级别低温告警阈值

日志等级

轻微(Minor

举例

Dropped below the lower minor threshold.---Current reading:2---Threshold reading:10

对系统的影响

温度过低会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有上升,告警一直存在,会导致温度进一步降低产生严重级别的告警。因此,产生低温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过低

处理建议

1.     请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作

2.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过高,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

2.1.2  Dropped below the lower major threshold

事件码

0x01200002

日志内容

Dropped below the lower major threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:温度传感器的当前读数

·     $2:温度传感器的严重级别低温告警阈值

日志等级

严重(Major

举例

Dropped below the lower major threshold.---Current reading:2---Threshold reading:5

对系统的影响

温度过低会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有上升,告警一直存在,会导致温度进一步降低产生紧急级别的告警。因此,产生低温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过低

处理建议

1.     请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作

2.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过高,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

2.1.3  Dropped below the lower critical threshold

事件码

0x01400002

日志内容

Dropped below the lower critical threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:温度传感器的当前读数

·     $2:温度传感器的紧急级别低温告警阈值

日志等级

紧急(Critical

举例

Dropped below the lower critical threshold.---Current reading:2---Threshold reading:3

对系统的影响

设备运行在超低温环境下,会降低设备器件性能,影响设备寿命,影响业务,产生宕机

日志产生原因

环境温度过低

处理建议

1.     请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作

2.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过高,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

2.1.4  Exceeded the upper minor threshold

事件码

0x01700002

日志内容

Exceeded the upper minor threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:温度传感器的当前读数

·     $2:温度传感器的轻微级别的高温告警阈值

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold.---Current reading:100---Threshold reading:80

对系统的影响

温度过高会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有降低,告警一直存在,会导致温度进一步升高产生严重级别的告警。因此,产生高温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过高、进风口、出风口堵塞、风扇转速过低等

处理建议

1.     请确认机房温度是否过高,如果是,请调整机房温度,如果否;请执行下一步操作

2.     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

4.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

5.     若问题仍然存在,请联系技术支持

 

2.1.5  Exceeded the upper major threshold

事件码

0x01900002

日志内容

Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:温度传感器的当前读数

·     $2:温度传感器的严重级别高温告警阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold.---Current reading:100---Threshold reading:85

对系统的影响

温度过高会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有降低,告警一直存在,会导致温度进一步升高产生紧急级别的告警。因此,产生高温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过高、进风口、出风口堵塞、风扇转速过低等

处理建议

1.     请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作

2.     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

4.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

5.     若问题仍然存在,请联系技术支持

 

2.1.6  Exceeded the upper critical threshold

事件码

0x01b00002

日志内容

Exceeded the upper critical threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:温度传感器的当前读数

·     $2:温度传感器的紧急级别高温告警阈值

日志等级

紧急(Critical

举例

Exceeded the upper critical threshold.---Current reading:100---Threshold reading:90

对系统的影响

设备运行在超高温环境下,会降低设备器件性能,影响设备寿命,增加能耗,影响业务,产生宕机

日志产生原因

环境温度过高、进风口、出风口堵塞、风扇转速过低等

处理建议

1.     请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作

2.     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

4.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

5.     若问题仍然存在,请联系技术支持

 

2.1.7  Abnormal Temperature

事件码

0x011000de

日志内容

Abnormal Temperature---GPU Card Temperature Error---Register location:$1--- GPU location:$2

参数解释

·     $1:状态寄存器

·     $2GPU槽位号

日志等级

严重(Major

举例

Abnormal Temperature---GPU Card Temperature Error---Register location:0x6--- GPU location:11

对系统的影响

 

日志产生原因

 

处理建议

1.     请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作

2.     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

4.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

5.     若问题仍然存在,请联系技术支持

 

2.2  Voltage

2.2.1  State Asserted

事件码

0x02100006

日志内容

State Asserted

参数解释

日志等级

紧急(Critical

举例

State Asserted

对系统的影响

电压过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

主板上存在部件的电压过压,故障触发部件请参见HDM Web页面“事件日志”页面的传感器名称

处理建议

1.     断电重启服务器查看告警是否解除

2.     若问题仍然存在,请联系技术支持

 

2.2.2  Dropped below the lower major threshold

事件码

0x02200002

日志内容

Dropped below the lower major threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:电压传感器的当前读数

·     $2:电压传感器的严重级别低压告警阈值

日志等级

严重(Major

举例

Dropped below the lower major threshold.---Current reading:2.58---Threshold reading:2.60

对系统的影响

电压过低会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

板内电压异常

处理建议

1.     检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作

2.     登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作

3.     断电重启服务器查看告警是否解除,如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.2.3  Exceeded the upper major threshold

事件码

0x02900002

日志内容

Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1:电压传感器的当前读数

·     $2:电压传感器的严重级别高压告警阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold.---Current reading:2.58---Threshold reading:2.56

对系统的影响

电压过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

板内电压异常

处理建议

1.     检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作

2.     登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作

3.     断电重启服务器查看告警是否解除,如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.3  Current

2.3.1  State Asserted

事件码

0x03100006

日志内容

State Asserted

参数解释

日志等级

紧急(Critical

举例

State Asserted

对系统的影响

可能会造成系统下电关机

日志产生原因

主板上存在组件的电流过流

处理建议

1.     通过HDM Web告警页面检查电源模块与主板是否存在异常告警

2.     确保供电系统能正常供电、电压正常

3.     若问题仍然存在,请联系技术支持

 

2.3.2  Exceeded the upper minor threshold

事件码

0x03700002

日志内容

Exceeded the upper minor threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1当前读数

·     $2阈值

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold.---Current reading:20---Threshold reading:18

对系统的影响

电流过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

对应部件电流异常

处理建议

1.     检查阈值设置是否合理

2.     根据服务器额定功率判断工作负荷是否过高

3.     若问题仍然存在,请联系技术支持

 

2.3.3  Exceeded the upper major threshold

事件码

0x03900002

日志内容

Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1当前读数

·     $2阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold.---Current reading:25---Threshold reading:22

对系统的影响

电流过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

对应部件电流异常

处理建议

1.     检查阈值设置是否合理

2.     根据服务器额定功率判断工作负荷是否过高

3.     若问题仍然存在,请联系技术支持

 

2.3.4  Exceeded the upper critical threshold

事件码

0x03b00002

日志内容

Exceeded the upper critical threshold.---Current reading:$1---Threshold reading:$2

参数解释

·     $1当前读数

·     $2阈值

日志等级

紧急(Critical

举例

Exceeded the upper critical threshold.---Current reading:30---Threshold reading:25

对系统的影响

可能导致部件损坏,进而引起宕机

日志产生原因

板内电流异常

处理建议

1.     检查阈值设置是否合理

2.     根据服务器额定功率判断工作负荷是否过高

3.     若问题仍然存在,请联系技术支持

 

2.4  Fan

2.4.1  Transition to Running

事件码

0x04000014

日志内容

Transition to Running

参数解释

日志等级

正常(Info

举例

Transition to Running

对系统的影响

对系统无影响

日志产生原因

风扇在位状态解除正常运行

处理建议

1.     检查风扇是否在位

2.     重新安装风扇

3.     若问题仍然存在,请联系技术支持

 

2.4.2  Fully Redundant

事件码

0x04000017

日志内容

Fully Redundant

参数解释

日志等级

严重 (Major)

举例

Fully Redundant

对系统的影响

根据冗余丢失的情况,严重时可能影响服务器整机正常散热

日志产生原因

风扇未满配、有风扇发生故障或被移除,导致风扇冗余异常

处理建议

1.     如果风扇被移除,建议重新安装风扇

2.     请重新插拔风扇,确保风扇接触良好

3.     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

4.     若问题仍然存在,请联系技术支持

 

2.4.3  Non-redundant:Sufficient Resources from Redundant

事件码

0x04300016

日志内容

Non-redundant:Sufficient Resources from Redundant

参数解释

日志等级

严重(Major

举例

Non-redundant:Sufficient Resources from Redundant

对系统的影响

不影响系统散热

日志产生原因

风扇失效或者不在位

处理建议

1.     如果风扇被移除,建议重新安装风扇

2.     请重新插拔风扇,确保风扇接触良好

3.     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

4.     若问题仍然存在,请联系技术支持

 

2.4.4  Transition to Off Line

事件码

0x04400014

日志内容

Transition to Off Line

参数解释

日志等级

正常(Info

举例

Transition to Off Line

对系统的影响

影响系统散热功能,降低主板器件性能

日志产生原因

风扇模块被拔出、风扇模块与主板接触不良

处理建议

1.     如果风扇被移除,建议重新安装风扇

2.     请重新插拔风扇,确保风扇接触良好

3.     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

4.     若问题仍然存在,请联系技术支持

 

2.4.5  Non-redundant:Insufficient Resources

事件码

0x04500016

日志内容

Non-redundant:Insufficient Resources

参数解释

日志等级

严重 (Major)

举例

Non-redundant:Insufficient Resources

对系统的影响

影响系统散热功能,导致系统过热,主机下电关机

日志产生原因

风扇失效或者不在位

处理建议

1.     如果风扇被移除,建议重新安装风扇

2.     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

3.     请重新插拔风扇,确保风扇接触良好

4.     若问题仍然存在,请联系技术支持

 

2.4.6  Transition to Degraded

事件码

0x04600014

日志内容

Transition to Degraded

参数解释

日志等级

严重(Major

举例

Transition to Degraded

对系统的影响

影响系统散热功能,降低主板器件性能

日志产生原因

风扇转速异常

处理建议

1.     通过HDM Web页面查看风扇转速确认风扇故障原因,如果转速偏低可能是风扇老化导致,如果转速接近零可能是风扇被异物堵住或风扇故障。

2.     如果风扇被异物堵塞,建议清理风扇

3.     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

4.     如果风扇老化,建议更换风扇

5.     若问题仍然存在,请联系技术支持

 

2.4.7  Install Error

事件码

0x04800014

日志内容

Install Error

参数解释

日志等级

轻微(Minor

举例

Install Error

对系统的影响

系统可能无法开机

日志产生原因

风扇安装错误

处理建议

1.     检查风扇是否按照产品要求的部件安装准则来安装。安装准则请参见产品用户指南

2.     若问题仍然存在,请联系技术支持

 

2.5  Cooling Device

2.5.1  Liquid Cooler is not present

事件码

0x0a5000de

日志内容

Liquid Cooler is not present

参数解释

日志等级

轻微(Minor

举例

Liquid Cooler is not present

对系统的影响

可能会造成散热不正常,影响系统性能

日志产生原因

液冷服务器专有,液冷模块安装错误

处理建议

1.     请验证液冷模块是否正常在位

2.     请验证漏液传感器是否安装到位

3.     请更换液冷模块

4.     若问题仍然存在,请联系技术支持

 

2.5.2  Liquid Cooler is leakage

事件码

0x0a6000de

日志内容

Liquid Cooler is leakage

参数解释

日志等级

紧急(Critical

举例

Liquid Cooler is leakage

对系统的影响

可能会造成系统宕机

日志产生原因

液冷服务器专有,液冷模块发生漏液

处理建议

1.     请验证液冷模块是否正常运行或存在漏液

2.     请更换液冷模块

3.     若问题仍然存在,请联系技术支持

 

2.5.3  Liquid Cooler is leakage

事件码

0x0a7000de

日志内容

Liquid Cooler is leakage

参数解释

日志等级

紧急(Critical

举例

Liquid Cooler is leakage

对系统的影响

可能会造成系统宕机

日志产生原因

液冷服务器专有,液冷模块发生漏液

处理建议

1.     请验证液冷模块是否正常运行或存在漏液

2.     请更换液冷模块

3.     若问题仍然存在,请联系技术支持

 

2.6  Physical Security

2.6.1  General Chassis Intrusion

事件码

0x050000de

日志内容

General Chassis Intrusion

参数解释

日志等级

轻微(Minor

举例

General Chassis Intrusion

对系统的影响

无影响

日志产生原因

机箱盖被打开

处理建议

1.     检查是否有人为打开机箱的操作

2.     检查机箱盖是否正确安装,必要时可打开机盖再关闭,确认日志是否消失

3.     检查开箱告警模块与挂耳连接是否正常

4.     若问题仍然存在,请联系技术支持

 

2.6.2  LAN Leash Lost

事件码

0x054000de

日志内容

LAN Leash Lost

参数解释

日志等级

正常(Info

举例

LAN Leash Lost

对系统的影响

无影响

日志产生原因

BMCNCSI通道检测网络物理层断开

处理建议

1.     确认OS内是否对网卡进行禁用,若是则无需处理

2.     若系统在开关机阶段上报此日志,可忽略

3.     检查共享网口网线是否正常连接

4.     若无需使用共享网口,请关闭共享网口

5.     若问题仍然存在,请联系技术支持

 

2.7  Processor

2.7.1  IERR

事件码

0x070000de

日志内容

·     Intel

$1 $2 err---Socket $3

·     AMD

GMI/xGMI err---Socket$1 Die$2 LinkID$3

参数解释

·     Intel

¡     $1信号类型,包括:MSMICATERR

¡     $2:错误类型,包括:IERRMCERR

¡     $3:产生错误的CPU

·     AMD

¡     $1CPU

¡     $2Di

¡     $3Lin

日志等级

紧急(Critical

举例

·     Intel

CATERR IERR err---Socket 1

·     AMD

GMI/xGMI err---Socket1 Die1 LinkID1

对系统的影响

会造成系统宕机,之后系统默认会自动重启

日志产生原因

CPU内部错误,比如PCUPackage Control Unit)发生了不可纠正错误时,会产生此告警

处理建议

1.     升级最新的BIOSHDM固件版本,如问题还在,请执行下一步

2.     结合和该日志同时上报的具体部件事件日志进行处理

3.     若问题仍然存在,请联系技术支持

 

2.7.2  State Asserted

事件码

0x07100006

日志内容

State Asserted

参数解释

日志等级

严重(Major

举例

State Asserted

对系统的影响

可能会造成系统宕机

日志产生原因

部分CPU过热

处理建议

1.     登录HDM Web页面,检查风扇状态是否正常

2.     插拔或者更换转速告警的风扇模块

3.     查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载

4.     检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内

5.     检查入风口/出风口是否堵塞,移除阻塞物

6.     将服务器下电,CPU检查散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电

7.     若问题仍然存在,请联系技术支持

 

2.7.3  CPU Critical Temperature

事件码

0x071000de

日志内容

CPU Critical Temperature.

参数解释

日志等级

紧急(Critical

举例

CPU Critical Temperature

对系统的影响

可能会造成系统宕机

日志产生原因

CPU过热时,触发该事件

处理建议

1.     登录HDM Web页面,检查风扇状态是否正常

2.     插拔或者更换转速告警的风扇模块

3.     查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载

4.     检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内

5.     检查入风口/出风口是否堵塞,移除阻塞物

6.     将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电

7.     若问题仍然存在,请联系技术支持

 

2.7.4  Thermal Trip

事件码

0x071000de

日志内容

Thermal Trip

参数解释

日志等级

紧急(Critical

举例

Thermal Trip

对系统的影响

可能会造成系统宕机

日志产生原因

CPU过热时,触发该事件,可能会关机下电

处理建议

1.     登录HDM Web页面,检查风扇状态是否正常

2.     插拔或者更换转速告警的风扇模块

3.     查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载

4.     检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内

5.     检查入风口/出风口是否堵塞,移除阻塞物

6.     将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电

7.     若问题仍然存在,请联系技术支持

 

2.7.5  FRB1/BIST failure.

事件码

0x072000de

日志内容

FRB1/BIST failure.

参数解释

日志等级

轻微(Minor

举例

FRB1/BIST failure

对系统的影响

可能导致操作系统无法正常启动、硬件降额使用

日志产生原因

在系统启动时,当CPU自检错误时产生此告警

处理建议

1.     执行关机并重启操作

2.     如果问题仍然存在,表示CPU部分core自检失败,请更换CPU

3.     若问题仍然存在,请联系技术支持

 

2.7.6  Processor Presence detected

事件码

0x077000df

日志内容

Processor Presence detected

参数解释

日志等级

正常(Info)/紧急(Critical

举例

Processor Presence detected

对系统的影响

若主CPU不在位会导致系统无法启动

日志产生原因

当主CPU不在位或者安装有误时会触发该事件解除日志

处理建议

1.     检查主CPU是否安装正确

2.     如主CPU故障,请更换CPU

3.     若问题仍然存在,请联系技术支持

 

2.7.7  Processor Automatically Throttled

事件码

0x07a000de

日志内容

Processor Automatically Throttled---due to fan error

参数解释

日志等级

轻微(Minor

举例

Processor Automatically Throttled---due to fan error

对系统的影响

CPU降频导致系统性能下降

日志产生原因

风扇故障导致CPU降频

处理建议

1.     检查风扇调速模式与当前业务模型是否匹配

2.     检查环境温度是否过高,入风口或出风口是否被堵住

3.     检查风扇是否被异物阻塞,或风扇故障

4.     查看风扇状态,如风扇故障,更换掉故障的风扇

5.     若问题仍然存在,请联系技术支持

 

2.7.8  Machine Check Exception

事件码

0x07b000de

日志内容

Machine Check Exception---$1---$2---Location: Socket:$3

参数解释

·     $1:错误类型

·     $2:产生错误的时间,这一次启动或上一次启动

·     $3CPU编号

日志等级

紧急(Critical

举例

Machine Check Exception---SMN---Last Boot Error---Location: Socket:1

对系统的影响

可能导致系统停止响应

日志产生原因

当发生uncorrectable error时,会产生该告警

处理建议

1.     升级最新的BIOSHDM固件版本,如问题还在,请执行下一步

2.     查看其他事件日志,检查是否有更明确的事件日志上报,以明确故障的具体位置

3.     重启服务器,检查问题是否存在

4.     交叉验证CPU、内存以确认问题是否解决

5.     若问题仍然存在,请联系技术支持

 

2.7.9  triggered an uncorrectable error

事件码

0x07b000de

日志内容

CPU $1 triggered an uncorrectable error.

参数解释

$1CPU编号

日志等级

紧急(Critical

举例

CPU 1 triggered an uncorrectable error.

对系统的影响

可能导致系统停止响应

日志产生原因

触发IERR或者MCERR错误,BMC诊断结果为CPU uncorrectable error

处理建议

1.     升级最新的BIOSHDM固件版本,如问题还在,请执行下一步

2.     查看其他错误告警日志分析,检查是否能明确对应的内存、PCIe或者CPU

3.     将服务器安全下电, 请更换一个正常运行的内存、PCIe或者CPU,查看告警是否消失

4.     更换主板,查看告警是否消失

5.     若问题仍然存在,请联系技术支持

 

2.7.10  Machine Check Error

事件码

0x07b100de

日志内容

Machine Check Error ---Location: Processor:$1 ---IIO Stack number:$2 ---$3---$4

参数解释

·     $1CPU编号

·     $2IIO Stack numberIIO端口号)

·     $3:产生错误的时间,这一次启动或上一次启动

·     $4:错误类型

日志等级

紧急(Critical

举例

Machine Check Exception---Location: Processor:1 ---IIO Stack number:1 --Last Boot---ITC Error:ECC uncorrectable error in the ITC dat_dword RF

对系统的影响

可能导致系统停止响应

日志产生原因

系统在运行过程中检测到CPU内部不可纠正错误信息,比如VT-d errors, ITC errors, OTC errors, DMA errors, IRP errorrs, Ring errors

此错误同时会触发其他异常日志

处理建议

1.     根据其他故障告警日志以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.11  Machine Check Error ---CPU core errors

事件码

0x07b150de

日志内容

Machine Check Error ---CPU core errors --- ErrorType:$1---Location: Processor:$2  core MCA bank: $(3)

参数解释

·     $1:错误类型

·     $2CPU编号

·     $3:错误类型

日志等级

紧急(Critical

举例

Machine Check Exception---CPU core errors--ErrorType:Unknow--Fatal Error--Last Boot---Location: Processor:1 core MCA bank: instruction fetch unit

对系统的影响

可能导致系统停止响应

日志产生原因

系统在运行过程中检测到CPU内部不可纠正错误信息,比如CPU core errors

此错误同时会触发其他异常日志

处理建议

1.     根据其他故障告警日志以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.12  triggered a correctable error

事件码

0x07c000de

日志内容

CPU $1 triggered a correctable error.

参数解释

$1CPU编号

日志等级

轻微(Minor

举例

CPU 1 triggered a correctable error.

对系统的影响

对系统无影响

日志产生原因

触发IERR或者MCERR错误,BMC诊断结果为CPU uncorrectable error

处理建议

1.     升级最新的BIOSHDM固件版本,如问题还在,请执行下一步

2.     根据同时上报的具体部件事件日志处理

3.     更换CPU或者内存、PCIe设备,查看告警是否消失

4.     更换主板,查看告警是否消失

5.     若问题仍然存在,请联系技术支持

 

2.7.13  Correctable Machine Check Error

事件码

0x07c100de

日志内容

Correctable Machine Check Error ---location: Processor:$1 ---IIO Stack number:$2 ---$3---$4

参数解释

·     $1CPU编号

·     $2IIO Stack number

·     $3Last Boot/Current Boot

·     $4:错误类型

日志等级

轻微(Minor

举例

Correctable Machine Check Error---Location: Processor:1 ---IIO Stack number:1 --Last Boot---DMA Error:Descriptor Count Error

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如VT-d errors, ITC errors, OTC errors, DMA errors, IRP errorrs, Ring errors

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.14  Correctable Machine Check Error---CPU UPI errors

事件码

0x07c110de

日志内容

Correctable Machine Check Error ---CPU UPI errors ---Location: Processorr:$1  UPI port number:$2

参数解释

·     $1CPU编号

·     $2UPI端口

日志等级

轻微(Minor

举例

Correctable Machine Check Error---CPU UPI errors---Location: Processor:2 UPI port number:0x1

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如CPU UPI errors

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.15  Correctable Machine Check Error ---IOH UPI errors

事件码

0x07c120de

日志内容

Correctable Machine Check Error ---IOH UPI errors ---Location: Processor:$1  UPI port number:$2 ---Coherent interface (IRP) local group error code:$3

参数解释

·     $1CPU编号

·     $2UPI端口

·     $3:错误码

日志等级

轻微(Minor

举例

Correctable Machine Check Error---IOH UPI errors---Location: Processor:1 UPI port number:0x1---Coherent interface (IRP) local group error code:0x6

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如IOH UPI errors

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.16  Correctable Machine Check Error ---IOH core errors

事件码

0x07c130de

日志内容

Correctable Machine Check Error ---IOH core errors ---Location:Processor:$1  ---IIO core local group error code:$(2)

参数解释

·     $1CPU编号

·     $2:错误码

日志等级

轻微(Minor

举例

Correctable Machine Check Error---IOH core errors---Location: Processor:2---IIO core local group error code:0x6

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如IOH core errors

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.17  Correctable Machine Check Error---VT-d errors

事件码

0x07c140de

日志内容

Correctable Machine Check Error---VT-d errors ---Location: Processor:$1---VT-d local group error code:$(2)

参数解释

·     $1CPU编号

·     $2:错误码

日志等级

轻微(Minor

举例

Correctable Machine Check Error---VT-d errors---Location: Processor:2---VT-d local group error code:0x6

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如VT-d errors

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.18  Correctable Machine Check Error ---CPU core errors

事件码

0x07c150de

日志内容

Correctable Machine Check Error ---CPU core errors ---ErrorType:$1 ---Location: Processor:$2  core MCA bank: $(3)

参数解释

·     $1:错误类型

·     $2CPU编号

·     $3:错误类型

日志等级

轻微(Minor

举例

Correctable Machine Check Error---CPU core errors--ErrorType:Unknow--Current Boot---Location: Processor:2 core MCA bank: mid level cache

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如CPU core errors

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.19  Correctable Machine Check Error ---Cbo error

事件码

0x07c160de

日志内容

Correctable Machine Check Error ---Cbo error--location: CPU core ID:$1  thread ID:$2 caching agent MCA bank: Cbo$(3)

参数解释

·     $1CORE编号

·     $2thread编号

·     $3Cbo编号

日志等级

轻微(Minor

举例

Correctable Machine Check Error---Cbo error---Location: CPU core ID:0x0 thread ID:0x0 caching agent MCA bank: Cbo0

对系统的影响

对系统无影响

日志产生原因

系统在运行过程中检测到CPU内部可纠正错误信息,比如Cbo error

这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用

处理建议

1.     检查是否有其他故障告警以进一步处理

2.     若问题仍然存在,请联系技术支持

 

2.7.20  Configuration Error---System is operating in KTI Link Slow Speed Mode

事件码

0x075d7010

日志内容

Configuration Error---System is operating in KTI Link Slow Speed Mode- Location:CPU:$1

参数解释

$1CPU编号

日志等级

轻微(Minor

举例

Configuration Error---System is operating in KTI Link Slow Speed Mode- Location:CPU:1

对系统的影响

对系统无影响

日志产生原因

系统处于KTIKeizer Technology Interconnect)低速模式

处理建议

1.     确认CPU安装是否符合服务器用户指南中的安装准则,如果否,请重新正确安装CPU,如果是,请执行下一步

2.     若问题仍然存在,请联系技术支持

 

2.8  Power Supply

2.8.1  Fully Redundant

事件码

0x08000016

日志内容

Fully Redundant

参数解释

日志等级

正常(Info

举例

Fully Redundant

对系统的影响

对系统无影响

日志产生原因

电源冗余

处理建议

无需处理

 

2.8.2  Fully Redundant

事件码

0x08000017

日志内容

Fully Redundant

参数解释

日志等级

严重(Major

举例

Fully Redundant

对系统的影响

电源冗余失效,降低设备供电可靠性

日志产生原因

电源冗余失效

处理建议

1.     检查电源模块供电环境是否正常

2.     检查是否有电源模块被移除

3.     检查是否有电源模块和电源线缆接触不良

4.     检查是否存在电源相关故障告警日志,判断是否为电源故障

5.     若问题仍然存在,请联系技术支持

 

2.8.3  Presence detected

事件码

0x080000df

日志内容

Presence detected

参数解释

日志等级

正常(Info

举例

Presence detected

对系统的影响

对系统无影响

日志产生原因

0x080000de:当检测到电源模块插入时,该事件触发,表示电源模块从不在位变为在位状态。

0x080000df:当检测到电源模块拔出时,该事件解除,表示电源模块从在位状态变为不在位状态

处理建议

1.     检查是否进行了拔出电源模块的操作

2.     检查电源模块是否安装正确

3.     若问题仍然存在,请联系技术支持

 

2.8.4  Redundancy Lost

事件码

0x08100016

日志内容

Redundancy Lost

参数解释

日志等级

严重(Major

举例

Redundancy Lost

对系统的影响

电源冗余失效,降低设备供电可靠性

日志产生原因

电源冗余失效

处理建议

1.     检查电源模块供电环境是否正常

2.     检查是否有电源模块被移除

3.     检查是否有电源模块和电源线缆接触不良

4.     检查是否存在电源相关故障告警日志,判断是否为电源故障

5.     若问题仍然存在,请联系技术支持

 

2.8.5  Power Supply Failure detected

事件码

0x081000de

日志内容

Power Supply Failure detected

参数解释

日志等级

严重(Major

举例

Power Supply Failure detected

对系统的影响

影响系统供电,可能导致系统异常下电

日志产生原因

检测到电源故障

处理建议

1.     检查电源模块的风扇是否停转

2.     重新拔插电源模块

3.     检查电源模块输入电压是否正常

4.     更换对应的电源模块

5.     若问题仍然存在,请联系技术支持

 

2.8.6  Power Supply Predictive Failure---PSU Self Check Failed

事件码

0x082000de

日志内容

Power Supply Predictive Failure---PSU Self Check Failed---Id: $1

参数解释

$1PSU编号

日志等级

轻微(Minor

举例

Power Supply Predictive Failure---PSU Self Check Failed---Id: 1

对系统的影响

电源模块可能会出现故障,影响系统供电

日志产生原因

电源自检失败告警

处理建议

1.     检查电源模块的状态指示灯是否正常

2.     检查电源模块的风扇是否停转

3.     检查电源是否为服务器兼容的电源模块,以判断是否更换

4.     若问题仍然存在,请联系技术支持

 

2.8.7  Power Supply Predictive Failure

事件码

0x082000de

日志内容

Power Supply Predictive Failure

参数解释

日志等级

轻微(Minor

举例

Power Supply Predictive Failure

对系统的影响

电源模块可能会出现故障,影响系统供电

日志产生原因

检测到电源模块预故障

处理建议

1.     检查电源模块的状态指示灯是否正常

2.     检查电源模块的风扇是否停转

3.     检查电源输入电压是否正常

4.     若问题仍然存在,请联系技术支持

 

2.8.8  Power Supply input lost (AC/DC)

事件码

0x083000de

日志内容

Power Supply input lost (AC/DC)

参数解释

日志等级

严重(Major

举例

Power Supply input lost (AC/DC)

对系统的影响

可能导致服务器异常下电

日志产生原因

电源的AC电源线缆被拔出或者AC输入异常

处理建议

1.     确认所有电源线未损坏且连接正确

2.     确认所有电源模块都已正确安装

3.     检查电源模块的风扇是否停转

4.     确认电源输入正常

5.     若问题仍然存在,请联系技术支持

 

2.8.9  Power Supply input lost or out-of-range

事件码

0x084000de

日志内容

Power Supply input lost or out-of-range

参数解释

日志等级

严重(Major

举例

Power Supply input out-of-range

对系统的影响

可能导致服务器异常下电

日志产生原因

电源输入电压超出额定范围

处理建议

1.     检查是否有人为断电的操作

2.     检查电源模块输入电压是否正常

3.     检查电源线和电源模块是否安装正确

4.     重新拔插电源模块,确保电源接触良好

5.     检查电源模块的风扇是否停转

6.     若问题仍然存在,请联系技术支持

 

2.8.10  Power Supply input out-of-range - but present

事件码

0x085000de

日志内容

Power Supply input out-of-range - but present

参数解释

日志等级

严重(Major

举例

Power Supply input out-of-range - but present

对系统的影响

电源输入异常,超过支持的范围,可能会导致服务器下电

日志产生原因

电源模块的输入电压过高

处理建议

1.     检查电源模块输入电压是否正常

2.     检查电源线和电源模块是否安装正确

3.     重新拔插电源模块,确保电源接触良好

4.     检查电源模块的风扇是否停转

5.     若问题仍然存在,请联系技术支持

 

2.8.11  Configuration error ---Vendor mismatch

事件码

0x086000de

日志内容

Configuration error ---Vendor mismatch

参数解释

日志等级

轻微(Minor

举例

Configuration error ---Vendor mismatch

对系统的影响

非原厂认证部件,存在未知风险

日志产生原因

安装了非原厂认证的电源模块

处理建议

1.     请安装H3C服务器兼容的电源模块

2.     若问题仍然存在,请联系技术支持

 

2.8.12  Configuration error---Power supply rating mismatch

事件码

0x086000de

日志内容

Configuration error---Power supply rating mismatch:PSU$1,POUT$2

参数解释

·     $1PSU编号

·     $2:电源输出功率

日志等级

轻微(Minor

举例

Configuration error---Power supply rating mismatch:PSU1,POUT2000

对系统的影响

可能会导致供电不稳定,系统异常下电

日志产生原因

安装了原厂认证的电源,但是两个电源之间的型号不匹配

处理建议

1.     如果电源的额定功率一致,则依次插拔电源并检查故障是否消除

2.     如果电源的额定功率不一致,则更换功率一致的电源

3.     若问题仍然存在,请联系技术支持

 

2.8.13  Exceeded the upper minor threshold

事件码

0x08700002

日志内容

Exceeded the upper minor threshold. ---Current reading:$1---Threshold reading:$2

参数解释

·     $1当前读数

·     $2:总功率告警阈值

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold.---Current reading:2030---Threshold reading:493

对系统的影响

功率超过最大值,会导致系统下电

日志产生原因

功率超过阈值

处理建议

1.     通过HDM Web页面检查阈值设置是否合理

2.     通过HDM Web页面检查服务器总功率是否过高

3.     检查电源总功率是否满足业务需求

4.     若问题仍然存在,请联系技术支持

 

2.8.14  Power Supply Inactive/standby state

事件码

0x087000df

日志内容

Power Supply Inactive/standby state

参数解释

日志等级

正常(Info

举例

Power Supply Inactive/standby state

对系统的影响

无影响

日志产生原因

电源退出冷备模式,当设置了备用电源的功能,如果当前设备的运行功率过高,备用电源会自动退出冷备份模式,给设备进行供电

处理建议

1.     通过HDM Web页面检查服务器总功率是否过高

2.     若问题仍然存在,请联系技术支持

 

2.8.15  Interlock Power Down

事件码

0x093000de

日志内容

Interlock Power Down

日志含义

电压波动导致AC瞬断,触发关机

参数解释

日志等级

紧急(Critical

举例

Interlock Power Down

对系统的影响

可能会引起系统宕机

日志产生的原因

现网电网波动引起AC瞬断

处理建议

1.     检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境;如果是,请执行下一步操作

2.     长按电源按钮直至UID灯不再闪烁以解除故障

3.     若问题仍然存在,请联系技术支持

 

2.8.16  Power Supply Pwok abnormal

事件码

0x08a000de

日志内容

Power Supply Pwok abnormal

参数解释

日志等级

严重(Major

举例

Power Supply Pwok abnormal

对系统的影响

可能影响系统正常供电,最终引起宕机

日志产生原因

电源输出电压正常,主板监控的Pwok电源信号异常且健康灯点亮

处理建议

1.     检查电源模块是否输入正常

2.     检查主板是否正常。

3.     确认电源模块与主板的连接是否正确。

4.     若问题仍然存在,请联系技术支持

 

2.8.17  Power limit is exceeded over correction time limit

事件码

0x095000de

日志内容

Power limit is exceeded over correction time limit---Current Power: $1W.

参数解释

$1:设置的功率阈值

日志等级

轻微(Minor

举例

Power limit is exceeded over correction time limit---Current Power: 2000W.

对系统的影响

功率封顶失效会执行预定策略

日志产生原因

功率封顶功能,当功率超过一定时间后触发该告警

处理建议

1.     建议调整功率封顶阈值或调整服务器工作负载

2.     若问题仍然存在,请联系技术支持

 

2.8.18  Power limit is exceeded over correction time limit

事件码

0x095010de

日志内容

Power limit is exceeded over correction time limit---GPU Current Power: $1W.

参数解释

$1:设置的功率阈值

日志等级

轻微(Minor

举例

Power limit is exceeded over correction time limit---GPU Current Power: 2000W.

对系统的影响

功率封顶失效会执行预定策略

日志产生原因

功率封顶功能,当功率超过一定时间后触发该告警

处理建议

1.     建议调整功率封顶阈值或调整GPU工作负载

2.     若问题仍然存在,请联系技术支持

 

2.9  Memory

2.9.1  Correctable ECC or other correctable memory error

事件码

0x0c0000de

日志内容

Correctable ECC or other correctable memory error--$1-Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6

参数解释

·     $1:产生错误启动时间,Current Boot ErrorLast Boot Error

·     $2CPU编号

·     $3:内存控制器编号

·     $4:通道编号

·     $5:内存编号

·     $6内存丝印

日志等级

轻微(Minor

举例

Correctable ECC or other correctable memory error---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1

对系统的影响

对系统无影响

日志产生原因

内存的可纠正错误

处理建议

无需处理

 

2.9.2  CPU triggered a correctable error

事件码

0x0c0000de

日志内容

CPU $1 $2 triggered a correctable error

参数解释

·     $1CPU编号

·     $2:内存编号

日志等级

轻微(Minor

举例

CPU 1 A0 triggered a correctable error

对系统的影响

对系统无影响

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为内存Correctable Error

处理建议

无需处理

 

2.9.3  Uncorrectable ECC or other uncorrectable memory error

事件码

0x0c1000de

日志内容

Uncorrectable ECC or other uncorrectable memory error--$1-Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6

参数解释

·     $1:产生错误启动时间,Current Boot ErrorLast Boot Error

·     $2CPU编号

·     $3:内存控制器编号

·     $4:通道编号

·     $5:内存编号

·     $6内存丝印

日志等级

严重(Major

举例

Uncorrectable ECC or other uncorrectable memory error---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1

对系统的影响

可能导致系统停止响应(除非内存在某些RAS模式,例如mirrorMCA recovery

日志产生原因

发生了一个不可纠正的(多位bit跳变)ECC错误

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.4  triggered an uncorrectable error

事件码

0x0c1000de

日志内容

CPU$1 $2 triggered an uncorrectable error

参数解释

·     $1CPU编号

·     $2:内存编号

日志等级

严重(Major

举例

CPU1 A0 triggered an uncorrectable error

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

触发IERR或者MCERR错误,BMC诊断结果为内存Uncorrectable Error

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.5  Parity

事件码

0x0c2000de

日志内容

Parity---$1---Location: Location:CPU:$2 MEM CTRL:$3  CH:$4 DIMM:$5 $6

参数解释

·     $1:产生错误启动时间,Current Boot ErrorLast Boot Error

·     $2CPU编号

·     $3:对应MEM CTRL

·     $4:通道编号

·     $5:内存编号

·     $6:内存丝印编号

日志等级

轻微(Minor

举例

Parity---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A0

对系统的影响

对系统无影响

日志产生原因

该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.6  Parity---Memory Training Faulty Part Tracking Uncorrectable Error

事件码

0x0c201310

日志内容

Parity---Memory Training Faulty Part Tracking Uncorrectable Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Training Faulty Part Tracking Uncorrectable Error-Location:CPU:2 CH:1 DIMM:B1 Rank:0

对系统的影响

对系统无影响

日志产生原因

内存奇偶校验错误,UCE发生故障,引发Faulty Parts Tracking故障

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.7  Parity---Memory Receive Enable Training Error

事件码

0x0c204140

日志内容

Parity---Memory Receive Enable Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Receive Enable Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存Faulty Parts Tracking故障,内存的Receive Enable信号无法训练出对应的时序

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.8  Parity---Memory Write Leveling Training Error

事件码

0x0c205150

日志内容

Parity---Memory Write Leveling Training Error-Location:CPU:&1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Write Leveling Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存Faulty Parts Tracking故障时,内存的Write Leveling信号无法训练出对应的时序

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.9  Parity---Memory Write DqDqs Training Error

事件码

0x0c206160

日志内容

Parity---Memory Write DqDqs Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Write DqDqs Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存写入DqDqs训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.10  Parity---Memory Sense Amp Training Error

事件码

0x0c2072f0

日志内容

Parity---Memory Sense Amp Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Sense Amp Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存Sense Amp TrainingRX方向的电压异常)故障

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.11  Parity---Warning Command Clock Training Error

事件码

0x0c208260

日志内容

Parity---Warning Command Clock Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Warning Command Clock Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存命令的时钟周期训练故障

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.12  Parity---An uncorrectable error occurs during the memory test phase

事件码

0x0c20b1c0

日志内容

Parity---An uncorrectable error occurs during the memory test phase-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---An uncorrectable error occurs during the memory test phase-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

memory test产生UCE

处理建议

1.     更换内存

2.     若问题仍然存在,请联系技术支持

 

2.9.13  Parity---Memory Training Error

事件码

0x0c20c290

日志内容

Parity---Memory Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

BIOS POST阶段内存训练过程中发现内存错误

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.14  Parity---The number of correctable memory errors reached the error logging threshold

事件码

0x0c21f010

日志内容

Parity---The number of correctable memory errors reached the error logging threshold-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---The number of correctable memory errors reached the error logging threshold-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存内存奇偶校验错误,可更正内存错误数已达到错误记录阈值

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.15  Parity---An error occurred on the DIMM slot

事件码

0x0c21f020

日志内容

Parity---An error occurred on the DIMM slot-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---An error occurred on the DIMM slot-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存奇偶校验错误,内存插槽上发生错误

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.16  Parity---CMD eye width is too small

事件码

0x0c226010

日志内容

Parity---CMD eye width is too small-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---CMD eye width is too small-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

CMD眼宽太小

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.17  Parity---The command is not in the FNv table

事件码

0x0c228000

日志内容

Parity---The command is not in the FNv table-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---The command is not in the FNv table-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

发送的命令不在FNv table

处理建议

1.     升级BIOSDCPMM控制器固件至最新版本

2.     若问题仍然存在,请联系技术支持

 

2.9.18  Parity---CTL is not consistent with clock in timing, and the channel is isolated

事件码

0x0c229020

日志内容

Parity---CTL is not consistent with clock in timing, and the channel is isolated-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---CTL is not consistent with clock in timing, and the channel is isolated-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存奇偶检验错误,CTLClock之间时序不满足,通道被隔离

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.19  Parity---Memory write flyby failed

事件码

0x0c231000

日志内容

Parity---Memory write flyby failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory write flyby failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存奇偶校验错误,Flyby布局结构下内存写入失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.20  Parity---Timing error occurred during signal line adjustment for memory write leveling training

事件码

0x0c231010

日志内容

Parity---Timing error occurred during signal line adjustment for memory write leveling training-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Timing error occurred during signal line adjustment for memory write leveling training-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

Write Leveling调整信号线时序异常

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.21  Parity---Memory read DqDqs training failed

事件码

0x0c231130

日志内容

Parity---Memory read DqDqs training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory read DqDqs training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存读取DqDqs训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.22  Parity---Memory receive enable training failed

事件码

0x0c231140

日志内容

Parity---Memory receive enable training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微

举例

Parity---Memory receive enable training failed-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存Faulty Parts Tracking故障,内存的Receive Enable信号无法训练出对应的时序

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.23  Parity---Memory write leveling training failed

事件码

0x0c231150

日志内容

Parity---Memory write leveling training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory write leveling training failed-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存奇偶校验错误,内存写入均衡训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.24  Parity---Memory write DqDqs training failed

事件码

0x0c231160

日志内容

Parity---Memory write DqDqs training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory write DqDqs training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存写入DqDqs训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.25  Parity---An error occurrs during memory test, and the rank is disabled

事件码

0x0c2311c0

日志内容

Parity---An error occurrs during memory test, and the rank is disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---An error occurrs during memory test, and the rank is disabled-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

在内存测试期间发生错误,该rank已禁用

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.26  Parity---Failed to find the RxVref for data eye training

事件码

0x0c231250

日志内容

Parity---Failed to find the RxVref for data eye training-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---Failed to find the RxVref for data eye training-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存奇偶校验错误,LRDIMM RCVEN训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.27  Parity---LRDIMM RCVEN training failed

事件码

0x0c231260

日志内容

Parity---LRDIMM RCVEN training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---LRDIMM RCVEN training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

LRDIMM RCVEN训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.28  Parity---RCVEN CYCLE training failed

事件码

0x0c231270

日志内容

Parity---RCVEN CYCLE training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微(Minor

举例

Parity---RCVEN CYCLE training failed-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存奇偶校验错误,RCVEN循环训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.29  Parity---Read delay training failed

事件码

0x0c231280

日志内容

Parity---Read delay training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Parity---Read delay training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

读取延迟训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.30  Parity---Memory write leveling training failed

事件码

0x0c231290

日志内容

Parity---Memory write leveling training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Parity---Memory write leveling training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志说明

内存奇偶校验错误,内存写入均衡训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.31  Parity---Coarse write leveling training failed

事件码

0x0c2312a0

日志内容

Parity---Coarse write leveling training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Parity---Coarse write leveling training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志说明

内存奇偶校验错误,Coarse write leveling信号训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.32  Parity---Write delay training failed

事件码

0x0c2312b0

日志内容

Parity---Write delay training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微  ( Minor )

举例

Parity---Write delay training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

写入延迟训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.33  Parity---QxCA_CLK_NO_EYE training failed

事件码

0x0c2312c0

日志内容

Parity---QxCA_CLK_NO_EYE training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Parity---QxCA_CLK_NO_EYE training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志说明

内存奇偶校验错误,QxCA_CLK_NO_EYE信号训练失败

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.34  Parity---mapped out because failed critical mask test at cold boot

事件码

0x0c28c020

日志内容

Parity---mapped out because failed critical mask test at cold boot-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Parity---mapped out because failed critical mask test at cold boot-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

冷启动过程中该内存关键掩码检测失败被标记映射为缺陷区域

处理建议

1.     更换内存

2.     若问题仍然存在,请联系技术支持

 

2.9.35  Parity---Invalid SPD contents

事件码

0x0c2ed090

日志内容

Parity---Invalid SPD contents-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Parity---Invalid SPD contents-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

无效的SPD内容

处理建议

1.     检查当前环境温度或者湿度是否较高

2.     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

3.     若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板

4.     若问题仍然存在,建议更换内存

5.     若问题仍然存在,请联系技术支持

 

2.9.36  Memory Device Disabled

事件码

0x0c4000de

日志内容

Memory Device Disabled---Location:CPU:$1 Channel:$2 Dimm:$3 $4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4:内存丝印

日志等级

严重 ( Major )

举例

Memory Device Disabled---Location:Socket:1 Channel:1 Dimm:1 A1

对系统的影响

内存被禁用,导致系统性能降低

日志产生原因

系统启动过程中检测到内存故障

处理建议

1.     检查BIOS配置是否主动禁用内存。若禁用,请在BIOS页面中启用内存

2.     BIOS在配置中内存已启动,但问题仍然存在,请检查内存所在通道,确保无故障

3.     若问题仍然存在,请联系技术支持

 

2.9.37  Memory Device Disabled---The DIMM is disabled

事件码

0x0c40a040

日志内容

Memory Device Disabled---The DIMM is disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

严重 ( Major )

举例

Memory Device Disabled---The DIMM is disabled- Location:CPU:1 CH:1 DIMM:0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存被禁用

处理建议

1.     检查BIOS配置是否主动禁用内存。若禁用,请在BIOS页面中启用内存

2.     BIOS在配置中内存已启动,但问题仍然存在,请检查内存所在通道,确保无故障

3.     若问题仍然存在,请联系技术支持

 

2.9.38  Memory Device Disabled---the rank is disabled

事件码

0x0c40a030

日志内容

Memory Device Disabled---The rank is disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存丝印

·     $4Rank编号

日志等级

严重 ( Major )

举例

Memory Device Disabled---The rank is disabled-Location:CPU:2 CH:1 DIMM:B1 Rank:1

对系统的影响

可能导致系统性能降低,不影响系统正常使用

日志产生原因

内存某个Rank被禁用,但不影响其余Rank使用

处理建议

1.     检查BIOS配置是否主动禁用内存。若禁用,请在BIOS页面中启用内存

2.     BIOS在配置中内存已启动,但问题仍然存在,请检查内存所在通道,确保无故障

3.     若问题仍然存在,请联系技术支持

 

2.9.39  Memory Device Disabled---Pmem Media disabled

事件码

0x0c484030

日志内容

Memory Device Disabled---Pmem Media disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

严重 ( Major )

举例

Memory Device Disabled---Pmem Media disabled-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低,若PMem中存在系统关键组件,将无法正常使用该系统

日志说明

PMem初始化过程检测到错误,此时存储介质被禁用无法访问PMem中的数据,但带内与PMem可正常通信和管理

处理建议

1.     更换故障的内存

2.     若问题仍然存在,请联系技术支持

 

2.9.40  Correctable ECC or other memory error limit reached

事件码

0x0c5000de

日志内容

Correctable ECC or other memory error limit reached--$1-Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6

参数解释

·     $1:产生错误启动时间,Current Boot ErrorLast Boot Error

·     $2CPU编号

·     $3:内存控制器编号

·     $4:通道编号

·     $5:内存编号

·     $6内存丝印

日志等级

轻微 ( Minor )

举例

Correctable ECC or other memory error limit reached---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1

对系统的影响

可能导致重启或者停止响应

日志产生原因

内存没有安装正确或者内存内部发生故障。内存的可纠正错误达到了设定的阈值,当设置对应的Memory RAS Mode后会执行对应RAS特性,不会引起系统崩溃。内存修复模式下,仍超过阈值

处理建议

1.     重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物,环境温度湿度正常

2.     BIOS中检查内存的漏斗门限是否过低。若过低,请在BIOS中调整漏斗门限值

3.     若问题仍然存在,请联系技术支持

 

2.9.41  Presence detected

事件码

0x0c6000de/0x0c6000df

日志内容

Presence detected

参数解释

日志等级

正常 (Info)/轻微(Minor)

举例

Presence detected

对系统的影响

内存在位时,对系统无影响;内存不在位时,可能降低系统性能

日志产生原因

0x0c6000de:对应的传感器检测到需要监控的内存模块在位

0x0c6000df:对应的传感器检测到需要监控的内存模块不在位

处理建议

1.     BIOS页面中检查服务器是否处于最小启动模式。如果处于服务器最小启动模式,设备可能会被BIOS隔离,导致HDM无法识别

2.     重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物

3.     若问题仍然存在,请联系技术支持

 

2.9.42  Configuration error---RDIMMs are installed on the server that supports only UDIMMs

事件码

0x0c701010

日志内容

Configuration error---RDIMMs are installed on the server that supports only UDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---RDIMMs are installed on the server that supports only UDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

在仅支持UDIMMCPU平台上插入了RDIMM

处理建议

1.     检查内存类型,通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认是服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.43  Configuration error---UDIMMs are installed on the server that supports only RDIMMs

事件码

0x0c702010

日志内容

Configuration error---UDIMMs are installed on the server that supports only RDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---UDIMMs are installed on the server that supports only RDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

在仅支持RDIMM的服务器上插入了UDIMM

处理建议

1.     检查内存类型,通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认是服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.44  Configuration error---SODIMMs are installed on the server that supports only RDIMMs

事件码

0x0c703010

日志内容

Configuration error---SODIMMs are installed on the server that supports only RDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---SODIMMs are installed on the server that supports only RDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

在只支持RDIMM的平台上插入了SODIMM

处理建议

1.     检查内存类型,通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认是服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.45  Configuration error---The number of ranks per channel can be only 1, 2, or 4

事件码

0x0c707020

日志内容

Configuration error---The number of ranks per channel can be only 1, 2, or 4-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The number of ranks per channel can be only 1, 2, or 4-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存的Rank数不满足CPU平台要求,当前CPU平台支持的内存Rank数为124

处理建议

1.     通过内存标签确认内存的Rank数,若不满足,请更换内存

2.     若满足当前CPU平台支持的内存Rank数,但若问题仍然存在,请联系技术支持

 

2.9.46  Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported

事件码

0x0c707040

日志内容

Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生的原因

不支持该类型内存:

·     内存的设计(COLRowBank),不符合JEDEC标准设计

·     LRDIMM不在服务器支持列表内

处理建议

1.     请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认是服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.47  Configuration error---The number of ranks in the channel exceeds 8

事件码

0x0c707050

日志内容

Configuration error---The number of ranks in the channel exceeds 8-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The number of ranks in the channel exceeds 8-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

通道内所有内存的总Rank数超过最大支持的Rank数(8个)

处理建议

1.     检查报错信息中的通道,确认内存Rank的数目是否超过最大支持的Rank数。若超出,请更换内存

2.     若检查确认未超出,但问题仍然存在,请联系技术支持

 

2.9.48  Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server

事件码

0x0c707090

日志内容

Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

服务器的内存ECC支持情况不一致

处理建议

1.     根据报错内存槽位确认内存类型,在HDM中查看内存ECC支持情况。若与服务器的内存ECC支持情况不一致,请更换内存

2.     若与服务器的内存ECC支持情况一致,但问题仍然存在,请联系技术支持

 

2.9.49  Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V

事件码

0x0c7070a0

日志内容

Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

当前电压不满足内存的支持电压

·     DDR4内存支持的电压为12V

·     DDR5内存支持的电压为11V

处理建议

1.     更换适配该电压的内存

2.     若问题仍然存在,请联系技术支持

 

2.9.50  Configuration error---The CPU is not compatible with 3DS DIMMs

事件码

0x0c707100

日志内容

Configuration error---The CPU is not compatible with 3DS DIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The CPU is not compatible with 3DS DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

当前CPU不支持3DS封装的内存

处理建议

1.     更换内存

2.     若问题仍然存在,请联系技术支持

 

2.9.51  Configuration error---NVDIMMs with stepping lower than 0x10 are not supported

事件码

0x0c707110

日志内容

Configuration error---NVDIMMs with stepping lower than 0x10 are not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---NVDIMMs with stepping lower than 0x10 are not supported-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

 配置错误,不支持步进低于16NVDIMM

处理建议

1.     BIOS页面中查看内存是否满足CPU支持规格,若不满足,请更换内存

2.     若满足,但问题仍然存在,请联系技术支持

 

2.9.52  Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs

事件码

0x0c707120

日志内容

Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志说明

当前CPU不支持16GRank内存

处理建议

1.     检查对应的报错内存是否为16GRank内存。若是,请更换内存

2.     若报错内存非16GRank内存,但问题仍然存在,请联系技术支持

 

2.9.53  Configuration error---The CPU is not compatible with the DIMMs

事件码

0x0c707140

日志内容

Configuration error---The CPU is not compatible with the DIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The CPU is not compatible with the DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

CPUDIMM不兼容

处理建议

1.     请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认为服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.54  Configuration error---The frequency of the DIMM is not supported on the server

事件码

0x0c707150

日志内容

Configuration error---The frequency of the DIMM is not supported on the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The frequency of the DIMM is not supported on the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

当前服务器不支持该内存频率

处理建议

1.     请通过服务器兼容的部件查询工具确认服务器是否支持当前内存频率。若不支持,请更换为服务器兼容的内存

2.     若确认为服务器支持的内存,但问题仍然存在,请检查BIOS页面中是否开启了Enforce POR选项。若未开启,请将该选项开启

3.     Enforce POR选项已开启,但问题仍然存在,请联系技术支持

 

2.9.55  Configuration error---NVDIMMs are not compatible with the CPU

事件码

0x0c7071a0

日志内容

Configuration error---NVDIMMs are not compatible with the CPU-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---NVDIMMs are not compatible with the CPU-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志说明

当前CPU不支持的DCPMM

处理建议

1.     请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认为服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.56  Configuration error---DCPMMs are not supported

事件码

0x0c7071d0

日志内容

Configuration error---DCPMMs are not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---DCPMMs are not supported-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能造成系统性能降低

日志说明

CPU不支持的DCPMM

处理建议

1.     请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若确认为服务器支持的内存,但问题仍然存在,请联系技术支持

 

2.9.57  Configuration error---Memory LockStep Disable Error

事件码

0x0c709090

日志内容

Configuration error---Memory LockStep Disable Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Memory LockStep Disable Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

 可能造成系统性能降低

日志说明

内存配置无法使用LockStep模式,降级为Independent

处理建议

1.     请根据产品用户指南确认内存安装方法是否满足LockStep模式要求。若不满足,请请按照模式要求重新安装内存

2.     若确认内存满足要求,但问题仍然存在,请联系技术支持

 

2.9.58  Configuration error---Memory Mirror Disable Error

事件码

0x0c70a0c0

日志内容

Configuration error---Memory Mirror Disable Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Memory Mirror Disable Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志说明

BIOS未识别的内存错误。用户配置Mirror模式,但安装方法不满足

处理建议

1.     请根据产品用户指南确认内存安装方法是否正确。若不正确,请重新安装

2.     若内存安装方法正确,但问题仍然存在,请联系技术支持

 

2.9.59  Configuration error---Failed to enable the full mirror mode

事件码

0x0c70c010

日志内容

Configuration error---Failed to enable the full mirror mode

参数解释

日志等级

轻微 ( Minor )

举例

Configuration error---Failed to enable the full mirror mode

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存Full Mirror RAS Mode开启失败,Mirror配置降级

处理建议

1.     请根据产品用户指南确认内存安装方法是否满足Mirror模式要求。若不满足,请按照模式要求重新安装内存

2.     若确认内存满足要求,但问题仍然存在,请联系技术支持

 

2.9.60  Configuration error---The memory interleaving configuration cannot meet the requirements of the server

事件码

0x0c70e030

日志内容

Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存配置错误,内存交织配置不满足服务器的要求

处理建议

1.     检查BIOS setup页面中的内存交织配置情况(NUMAInterleave等)。若不满足要求,请重新进行内存的配置

2.     若满足配置要求,但问题仍存在,建议升级BIOS固件到最新版本

3.     若问题仍然存在,请联系技术支持

 

2.9.61  Configuration error---The memory interleaving configuration cannot meet the requirements of the server

事件码

0x0c70e080

日志内容

Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存配置错误,内存交织配置不满足服务器的要求

处理建议

1.     检查BIOS setup页面中的内存交织配置(NUMAInterleave等)。若不满足要求,请重新进行内存的配置

2.     若满足配置要求,但问题仍存在,建议升级BIOS固件到最新版本

3.     若问题仍然存在,请联系技术支持

 

2.9.62  Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent

事件码

0x0c710010

日志内容

Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

无法启用Rank Sparing模式,内存RAS模式已降级为独立模式

处理建议

1.     请根据产品用户指南确认内存安装方法是否满足Rank Sparing模式要求。若不满足,请按照模式要求重新安装内存

2.     若确认内存满足要求,但问题仍然存在,请联系技术支持

 

2.9.63  Configuration error---Memory Rank Sparing Error

事件码

0x0c710100

日志内容

Configuration error---Memory Rank Sparing Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Memory Rank Sparing Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能造成系统性能降低

日志说明

内存Rank Sparing配置未生效

处理建议

1.     检查BIOS页面中是否已开启Rank Sparing功能。若未开启,请开启该功能。

2.     若已开启,但问题仍存在,请根据产品用户指南确认内存安装方法是否满足Rank Sparing模式要求。若不满足,请按照模式要求重新安装内存

3.     若满足安装要求,但问题仍然存在,请联系技术支持

 

2.9.64  Configuration error---Failed to enable patrol scrubbing

事件码

0x0c711000

日志内容

Configuration error---Failed to enable patrol scrubbing-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---Failed to enable patrol scrubbing-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

无法启用内存巡检

处理建议

1.     请参考RAS技术白皮书检查CPU规格支持的RAS特性。若不支持,请关闭Patrol Scrub功能;若支持,请正确配置内存

2.     若问题仍然存在,请联系技术支持

 

2.9.65  Configuration error---The number of ranks in the black slot is greater than that in the white slot, or the DIMM is installed in the black slot with the white slot empty

事件码

0x0c717010

日志内容

Configuration error---The number of ranks in the black slot is greater than that in the white slot, or the DIMM is installed in the black slot with the white slot empty-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The number of ranks in the black slot is greater than that in the white slot, or the DIMM is installed in the black slot with the white slot empty-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存安装方法错误:

·     通道下不满足大Rank内存在前(白槽)的原则

·     不满足白槽优先配置内存的原则

处理建议

1.     请参考产品用户指南中内存安装准则及相关要求安装内存

2.     若问题仍然存在,请联系技术支持

 

2.9.66  Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel

事件码

0x0c717030

日志内容

Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

两个DCPMM内存在同一个通道下,不满足内存安装要求

处理建议

1.     请参考产品用户指南中内存安装准则及相关要求安装内存

2.     若问题仍然存在,请联系技术支持

 

2.9.67  Configuration error---The DDR-T memory module is installed in the white slot

事件码

0x0c717050

日志内容

Configuration error---The DDR-T memory module is installed in the white slot-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The DDR-T memory module is installed in the white slot-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

DCPMM在白槽位置,不满足内存安装要求

处理建议

1.     请参考产品用户指南中内存安装准则及相关要求安装内存

2.     若问题仍然存在,请联系技术支持

 

2.9.68  Configuration error---2LM IMC memory Mismatch

事件码

0x0c7170c0

日志内容

Configuration error---2LM IMC memory Mismatch-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---2LM IMC memory Mismatch-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志说明

内存不满足在2LM模式下单IMCIntegrated Memory Controller集成内存控制器)的配置要求

处理建议

1.     确认内存配置是否符合规则:2LM模式下要求单个IMC内至少配置一根DDR和一根可用容量大于0DCPMM。若不符合,请按照规则进行配置

2.     若符合内存配置规则,但问题仍然存在,请联系技术支持

 

2.9.69  Configuration error---ODT configuration errorThe channel is isolated

事件码

0x0c729030

日志内容

Configuration error---ODT configuration error The channel is isolated-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---ODT configuration errorThe channel is isolated-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存ODT配置错误,通道被隔离

处理建议

1.     重新安装内存,清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染

2.     若问题仍然存在,请更换内存

3.     若问题仍然存在,请联系技术支持

 

2.9.70  Configuration error---Failed to enable ADDDC

事件码

0x0c73a010

日志内容

Configuration error---Failed to enable ADDDC

参数解释

日志等级

轻微 ( Minor )

举例

Configuration error---Failed to enable ADDDC

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

ADDDC开启失败

处理建议

1.     BIOS页面中检查内存配置是否满足ADDDC配置要求。若不满足,请重新按照要求进行内存的配置

2.     若满足配置要求,但问题仍然存在,请联系技术支持

 

2.9.71  Configuration error---Failed to enable SDDC

事件码

0x0c73b020

日志内容

Configuration error---Failed to enable SDDC

参数解释

日志等级

轻微 ( Minor )

举例

Configuration error---Failed to enable SDDC

对系统的影响

造成系统性能降低

日志说明

内存配置错误,SDDC开启失败

处理建议

1.     BIOS页面中检查内存配置是否满足SDDC配置要求。若不满足,请重新按照要求进行内存的配置

2.     若满足配置要求,但问题仍然存在,请联系技术支持

 

2.9.72  Configuration error---DCPMM firmware version not supported

事件码

0x0c73c000

日志内容

Configuration error---DCPMM firmware version not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---DCPMM firmware version not supported-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

造成系统性能降低

日志说明

内存配置错误,不支持DCPMM的固件版本

处理建议

1.     升级DCPMM的固件到最新版本

2.     若问题仍然存在,请联系技术支持

 

2.9.73  Configuration error---DCPMM firmware version not supported

事件码

0x0c73c010

日志内容

Configuration error---DCPMM firmware version not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微

举例

Configuration error---DCPMM firmware version not supported-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

造成系统性能降低

日志说明

内存配置错误,不支持DCPMM的固件版本

处理建议

1.     升级DCPMM的固件到最新版本

2.     若问题仍然存在,请联系技术支持

 

2.9.74  Configuration error---NVMCTRL_MEDIA_NOTREADY

事件码

0x0c784020

日志内容

Configuration error---NVMCTRL_MEDIA_NOTREADY-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---NVMCTRL_MEDIA_NOTREADY-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

DCPMM固件媒介未就绪

处理建议

1.     升级DCPMM固件到最新版本

2.     若问题仍然存在,请更换内存

3.     若问题仍然存在,请联系技术支持

 

2.9.75  Configuration error---The DDR-T memory modules of the unexpected model are installed

事件码

0x0c7ed0c0

日志内容

Configuration error---The DDR-T memory modules of the unexpected model are installed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The DDR-T memory modules of the unexpected model are installed-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志说明

内存配置错误,安装了服务器不兼容的DCPMM内存

处理建议

1.     请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存

2.     若支持,但问题仍然存在,请联系技术支持

 

2.9.76  Configuration error---Failed to set the VDD voltage of the DIMM

事件码

0x0c7f0010

日志内容

Configuration error---Failed to set the VDD voltage of the DIMM

参数解释

日志等级

轻微 ( Minor )

举例

Configuration error---Failed to set the VDD voltage of the DIMM

对系统的影响

可能导致系统重启或者停止响应

日志说明

内存配置错误,无法设置DIMMVDD电压

处理建议

1.     请更换内存

2.     若问题仍然存在,请更换主板

3.     若问题仍然存在,请联系技术支持

 

2.9.77  Configuration error---Too many RIR rules

事件码

0x0c7f9010

日志内容

Configuration error---Too many RIR rules

参数解释

日志等级

轻微 ( Minor )

举例

Configuration error---Too many RIR rules

对系统的影响

可能导致系统重启或者停止响应

日志说明

内存配置错误,RIR规则太多

处理建议

1.     升级BIOS到最新版本

2.     请参考产品用户指南,确认内存和CPU均按要求安装

3.     BIOS页面中检查内存InterleavingNUMA的配置是否符合要求

4.     若问题仍然存在,请联系技术支持

 

2.9.78  Configuration error---The DIMMs for the CPU exceeded the limit

事件码

0x0c7fa010

日志内容

Configuration error---The DIMMs for the CPU exceeded the limit-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

参数解释

·     $1CPU编号

·     $2:通道编号

·     $3:内存编号

·     $4Rank编号

日志等级

轻微 ( Minor )

举例

Configuration error---The DIMMs for the CPU exceeded the limit-Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志说明

内存配置错误,CPU的内存超出限制

处理建议

1.     检查CPU支持的内存规格,若不符合规格,请更换内存

2.     若符合规格,但问题仍然存在,请联系技术支持

 

2.10  Drive Slot

2.10.1  Drive Presence

事件码

0x0d0000df

日志内容

Drive Presence --- $1: $2, HDD Slot: $3

参数解释

·     $1Bay Slot或者JBODBay Slot对应HDD Bay场景,JBOD对应整机柜场景

·     $2

¡     $1Bay Slot时,表示HDD Bay的槽位号,取值范围为:12569101314

¡     $1JBOD时,表示整机柜上硬盘的槽位号,取值范围为:18

·     $3

¡     $1Bay Slot时,表示HDD Bay上硬盘的丝印号,取值范围为:039

¡     $1JBOD时,表示整机柜上硬盘的槽位号,取值范围为:022

日志等级

正常 ( Info )

举例

l     Drive Presence

l     Drive Presence --- Bay Slot: 1, HDD Slot: 2

对系统的影响

硬盘在位变化

日志产生原因

 硬盘在位变化

处理建议

无需处理

 

2.10.2  Drive Fault

事件码

0x0d1000de

日志内容

Drive Fault --- $1: $2, HDD Slot: $3

参数解释

·     $1Bay Slot或者JBODBay Slot对应HDD Bay场景,JBOD对应整机柜场景

·     $2

¡     $1Bay Slot时,表示HDD Bay的槽位号,取值范围为:12569101314

¡     $1JBOD时,表示整机柜上硬盘的槽位号,取值范围为:18

·     $3

¡     $1Bay Slot时,表示HDD Bay上硬盘的丝印号,取值范围为:039

¡     $1JBOD时,表示整机柜上硬盘的槽位号,取值范围为:022

日志等级

严重(Major)

举例

Drive Fault --- Bay Slot: 1, HDD Slot: 2

对系统的影响

指示的硬盘发生故障,可能会造成数据丢失

日志产生原因

 硬盘故障

处理建议

1.     登录HDM Web页面查看硬盘信息,如果该槽位的硬盘不显示,首先确认硬盘安装是否到位

2.     插拔该硬盘确认硬盘是否能重新被识别。如插拔后仍不能被识别,则更换硬盘

3.     查看该硬盘状态是否为Unconfig Bad状态,尝试更改硬盘状态为Unconfig Good

4.     如果硬盘能识别且状态正常,继续查看对应硬盘信息中的丝印号与实际安装是否一致。如果不一致,请排查线缆连接是否正确

5.     如果多个槽位硬盘信息不显示,请排查数据线缆或列阵卡是否有问题;如果多个槽位硬盘在位不显示,请排查信号线缆或硬盘背板是否有问题

6.     检查硬盘灯是否正常,指示灯为橙色时说明硬盘故障;同时检查OS内对应硬盘能否正常识别及访问。若有问题请更换故障部件;若无问题则执行下一步

7.     检查所在存储控制卡是否处于异常状态。若有问题请更换故障部件;若无问题则执行下一步

8.     若问题仍然存在,请联系技术支持

 

2.10.3  Predictive Failure

事件码

0x0d2000de

日志内容

Predictive Failure---Bay Slot: $1, HDD Slot: $2

参数解释

·     $1HDD Bay的槽位号,取值范围包括:12569101314

·     $2HDD Bay上硬盘的丝印号,取值范围为:039

日志等级

轻微 ( Minor )

举例

Predictive Failure---Bay Slot: 1, HDD Slot: 2

对系统的影响

硬盘可靠性降低,可能对操作系统存储性能、业务正常运行等造成影响

日志产生原因

RAID卡上报硬盘预告警的故障。包括:存储介质的预留块告警、硬盘磨损寿命告警、Prefail告警,以及坏道告警。

处理建议

1.     登录到HDM Web页面并检查硬盘是否处于正常状态

2.     若有问题,请更换硬盘

3.     若问题仍然存在,请联系技术支持

 

2.10.4  Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold

事件码

0x0d4000de

日志内容

·     Linux

Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold---OS:Linux/Unix,See disk details about Logical disk name, Threshold $1: ---Current usage $2

·     Windows

Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold---OS:Windows, Logical disk $1:---Current usage $2

参数解释

·     Linux

¡     $1:磁盘空间阈值

¡     $2:磁盘空间当前使用率

·     Windows

¡     $1:盘符

¡     $2:磁盘空间当前使用率

日志等级

正常 ( Info )

举例

·     Linux

Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold --OS:Linux/Unix,See disk details about Logical disk name, Threshold 75%: ---Current usage 80%

·     Windows

Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold ---OS:Windows, Logical disk d: ---Current usage 80%

对系统的影响

如果使用率过高,会导致性能下降、任务堆积、系统稳定性下降、数据丢失或损坏

日志说明

HDM系统信息页面可进行CPU、内存、磁盘空间使用率等阈值的设置,FIST SMS获取系统资源的使用信息,通过IPMI命令发送给HDMHDM进行阈值判断以触发该事件日志

处理建议

1.     使用HDM的系统资源监控功能检查硬盘使用率是否正常,如不正常请联系技术支持

2.     如果硬盘使用率确实过高,请备份数据并扩容硬盘

 

2.10.5  Consistency Check / Parity Check in progress. System Source Monitor: Relieve resource alarm about Hard Disk Usage

事件码

0x0d4000df

日志内容

·     Linux

Consistency Check / Parity Check in progress. System Source Monitor: System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Linux/Unix,See disk details about Logical disk name, Threshold $1: ---Current usage $2

·     Windows

Consistency Check / Parity Check in progress. System Source Monitor: System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Windows, Logical disk $1:---Current usage $2

参数解释

·     Linux

¡     $1:磁盘空间阈值

¡     $2:磁盘空间当前使用率

·     Windows

¡     $1:盘符

¡     $2:磁盘空间当前使用率

日志等级

正常 ( Info )

举例

·     Linux

Consistency Check / Parity Check in progress. System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Linux/Unix,See disk details about Logical disk name, Threshold 80%: ---Current usage 75%

·     Windows

Consistency Check / Parity Check in progress. System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Windows, Logical disk d: ---Current usage 80%

对系统的影响

可能导致性能下降、导致系统崩溃、数据损坏、安全问题

日志说明

系统资源使用状况低于系统资源阈值时触发此日志,此日志为0x0d4000de事件的解除日志。

HDM系统信息页面可进行CPU、内存、磁盘空间使用率等阈值的设置,FIST SMS获取系统资源的使用信息,通过IPMI命令发送给HDMHDM进行阈值判断以触发该事件日志

处理建议

 

2.10.6  In Critical Array

事件码

0x0d5000de

日志内容

In Critical Array---$1:$2$3 :$4

参数解释

·     $1Bay Slot或者PCIe slot

·     $2:当$1Bay Slot时,表示HDD Bay的槽位号,取值范围为:12569101314,表示逻辑盘所属存储卡所在的槽位号

·     $3:“HDD Slot”或者“---LDDevno

·     $4 $3为“,HDD Slot”时,表示HDD Bay上硬盘的丝印号,取值范围为:039$3为“---LDDevno 时,表示逻辑盘序号

日志等级

严重 ( Major )

举例

In Critical Array---PCIe slot:1---LDDevno :2

对系统的影响

阵列降级,对数据可靠性将有影响

日志产生原因

由于硬盘被拔出或硬盘发生故障,导致该盘所在的逻辑盘降级。

处理建议

1.     检查硬盘是否被拔出,如被拔出则重新插回硬盘,重构RAID阵列

2.     登录HDM Web页面,在“存储”页面查看硬盘信息,如对应槽位硬盘不能识别,请重新插拔硬盘并确认该硬盘是否识别。插拔后仍不能识别请更换硬盘

3.     登录HDM Web页面,在“存储”页面查看硬盘信息,确认对应槽位硬盘状态是否为故障。如果是Unconfig Bad状态,首先尝试更改硬盘状态为Unconfig Good

4.     硬盘正确识别后,重构RAID阵列,检查告警是否解除

5.     若问题仍然存在,请联系技术支持

 

2.10.7  In Failed Array

事件码

0x0d6000de

日志内容

In Failed Array---$1:$2$3 :$4

参数解释

·     $1故障发生的位置,包括:Bay Slot或者PCIe slot

·     $2:当$1Bay Slot时,表示HDD Bay的槽位号;当$1PCIe slot时,表示逻辑盘所属存储卡所在的槽位号

·     $3:“HDD Slot”或者“---LDDevno

·     $4 $3为“,HDD Slot”时,表示Bay上硬盘的丝印号;$3为“---LDDevno 时,表示逻辑盘序号

日志等级

严重 ( Major )

举例

In Failed Array---PCIe slot:1---LDDevno :2

对系统的影响

阵列失效,离线会造成数据丢失

日志产生原因

由于硬盘被拔出或硬盘发生故障,导致该盘所在的逻辑盘完全损坏。

处理建议

1.     确认硬盘是否被拔出,如被拔出则重新插回硬盘,检查告警是否解除

2.     如果硬盘安装正确,登录HDM Web页面,在“存储”页面查看硬盘信息,如对应槽位硬盘不能识别,请重新插拔硬盘并确认该硬盘是否识别。插拔后仍不能被识别,请更换硬盘

3.     如果硬盘安装正确,登录HDM Web页面,在“存储”页面查看硬盘信息,查看该硬盘状态是否为故障。如果是Unconfig Bad状态,首先尝试更改硬盘状态为Unconfig Good

4.     硬盘正确识别后,检查逻辑阵列状态,如果逻辑阵列状态仍为故障,请删除原阵列并重新创建逻辑阵列

5.     若问题仍然存在,请联系技术支持

 

2.10.8  Rebuild/Remap in progress

事件码

0x0d7000de

日志内容

Rebuild/Remap in progress---Bay Slot: $1, HDD Slot: $2

参数解释

·     $1HDD Bay的槽位号,取值范围为:12569101314

·     $2HDD Bay上硬盘的丝印号,取值范围为:039

日志等级

正常 ( Info )

举例

Rebuild/Remap in progress---Bay Slot: 1, HDD Slot: 2

对系统的影响

无影响

日志产生原因

插入硬盘后,RAID重建过程中提示该信息。

处理建议

6.     无需处理

 

2.10.9  The disk triggered an media error

事件码

0x0da000de

日志内容

The disk triggered an media error--$1

参数解释

$1:指硬盘位置信息

日志等级

正常 ( Info )

举例

The disk triggered an media error--Front 1

对系统的影响

存储介质发生media error故障,会造成数据丢失

日志产生原因

硬盘media error计数值超过当前设置的阈值

处理建议

1.     更新硬盘固件,检查告警是否消失

2.     若告警还在,请更换硬盘

3.     若问题仍然存在,请联系技术支持

 

2.10.10  The disk triggered an uncorrectable error

事件码

0x0db000de

日志内容

The disk triggered an uncorrectable error--$1

参数解释

$1:指硬盘位置信息

日志等级

轻微 ( Minor )

举例

The disk triggered an uncorrectable error--Front 1

对系统的影响

存储介质发生不可纠正故障,可能会造成数据丢失

日志产生原因

硬盘uncorrectable计数值超过当前设置的阈值

处理建议

1.     更新硬盘固件,检查告警是否消失

2.     若告警还在,请更换硬盘

3.     若问题仍然存在,请联系技术支持

 

2.10.11  The disk is missing

事件码

0x0dc000de

日志内容

The disk is missing

参数解释

日志等级

严重(Major)

举例

The disk is missing

对系统的影响

用于指示对应硬盘被拔离或解除松动,影响系统的存储系统可靠性

日志产生原因

存储未识别到该硬盘、线缆连接错误所产生的告警

处理建议

1.     登录HDM Web页面,检查硬盘是否被正常识别

2.     检查硬盘数据、电源和信号线缆是否连接正确

3.     重新插拔硬盘检查是否能识别

4.     若仍不能识别,请更换硬盘,查看告警是否消失

5.     检查所在存储控制卡是否处于异常状态。若有问题请更换故障部件;若无问题则执行下一步

6.     若问题仍然存在,请联系技术支持

 

2.11  System Firmware Progress

2.11.1  System Firmware Error (POST Error)---CPU matching failure

事件码

0x0f0000de

日志内容

System Firmware Error (POST Error)---CPU matching failure

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---CPU matching failure

对系统的影响

可能导致系统无法正常启动

日志产生原因

BIOSPOST阶段检测到CPU频率、微码、UPI等信息不匹配

处理建议

1.     检查告警CPU是否符合服务器用户指南的安装准则,如果否,请参考安装准则重新安装CPU;如果是,请执行下一步操作

2.     检查各CPU型号是否一致,如果否,请更换CPU确保CPU型号一致;如果是,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

2.11.2  System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected

事件码

0x0f0000de

日志内容

System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected

对系统的影响

系统无法正常启动

日志产生原因

BIOSPOST阶段检测到ROM损坏

处理建议

1.     重新升级BIOS固件版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

2.     强制覆盖升级BIOS固件版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

2.11.3  System Firmware Error (POST Error)---Load microcode failed

事件码

0x0f0000de

日志内容

System Firmware Error (POST Error)---Load microcode failed

参数解释

日志等级

轻微(Minor

举例

System Firmware Error (POST Error)---Load microcode failed

对系统的影响

可能导致系统无法正常启动

日志产生原因

CPU微码加载失败,导致BIOSPOST阶段发现错误,但系统未挂死

处理建议

1.     断电重启服务器,检查告警是否解除,如果否,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,检查告警是否解除,如果否,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

2.11.4  System Firmware Error (POST Error)---No system memory or invalid memory configuration

事件码

0x0f0000de

日志内容

System Firmware Error (POST Error)---No system memory or invalid memory configuration

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No system memory or invalid memory configuration

对系统的影响

系统无法正常启动

日志产生原因

BIOS启动过程中没有检测到内存或内存插法不符合安装准则

处理建议

1.     检查内存插法是否符合服务器用户指南里的安装准则,如果否,请参考安装准则重新安装内存;如果是,请执行下一步操作

2.     若问题仍然存在,请联系技术支持

 

2.11.5  System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image is unsigned or Certificate is invalid

事件码

0x0f0000de

日志内容

System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image is unsigned or Certificate is invalid

参数解释

日志等级

严重(Major

举例

System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image is unsigned or Certificate is invalid

对系统的影响

可能导致系统无法正常启动

日志产生原因

BIOSPOST阶段检测到ROM损坏

处理建议

1.     检查BIOS启动模式是否符合Secure boot要求,如果否,请修改BIOS启动模式为UEFI模式;如果是,请执行下一步操作

2.     检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作

3.     强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.11.6  System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate not found in Authorized database(db)

事件码

0x0f0000de

日志内容

System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate not found in Authorized database(db)

参数解释

日志等级

严重(Major

举例

System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate not found in Authorized database(db)

对系统的影响

可能导致系统无法正常启动

日志产生原因

BIOSPOST阶段检测到ROM损坏

处理建议

1.     检查BIOS启动模式是否符合Secure boot要求,如果否,请修改启动BIOS模式为UEFI模式;如果是,请执行下一步操作

2.     检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作

3.     强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.11.7  System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate is found in Forbidden database(dbx)

事件码

0x0f0000de

日志内容

System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate is found in Forbidden database(dbx)

参数解释

日志等级

严重(Major

举例

System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate is found in Forbidden database(dbx)

对系统的影响

可能导致系统无法正常启动

日志产生原因

BIOSPOST阶段检测到ROM损坏

处理建议

1.     检查BIOS启动模式是否符合Secure boot要求,如果否,请修改启动BIOS模式为UEFI模式;如果是,请执行下一步操作

2.     检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作

3.     强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.11.8  System Firmware Error (POST Error)---Memory Population Rule Error

事件码

0x0f002170

日志内容

System Firmware Error (POST Error)---Memory Population Rule Error

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---Memory Population Rule Error

对系统的影响

可能造成系统无法正常启动或者系统性能降低

日志产生原因

内存条插法错误导致Faulty Parts Tracking故障

处理建议

1.     检查内存插法是否符合服务器用户指南里的安装准则,如果否,请参考安装准则重新安装内存;如果是,请执行下一步操作

2.     若问题仍然存在,请联系技术支持

 

2.11.9  System firmware error (POST error)---DIMM installation or compatibility error occurred

事件码

0x0f003070

日志内容

System firmware error (POST error)---DIMM installation or compatibility error occurred

参数解释

日志等级

严重(Major

举例

System firmware error (POST error)---DIMM installation or compatibility error occurred

对系统的影响

可能造成系统无法正常启动或者系统性能降低

日志产生原因

内存插法错误

处理建议

1.     登录HDM Web页面,进入“内存”页面,确认是否存在故障内存,如果是,请更换故障内存;如果否,请执行下一步操作

2.     检查内存插法是否符合服务器用户指南里的安装准则,如果否,请参考安装准则重新安装内存;如果是,请执行下一步操作

3.     确认每颗CPU至少有一根可正常使用的内存,如果否,请合理安装内存;如果是,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.11.10  System firmware error (POST error)---No Memory Usable

事件码

0x0f003e80

日志内容

System firmware error (POST error)---No Memory Usable

参数解释

日志等级

严重(Major

举例

System firmware error (POST error)---No Memory Usable

对系统的影响

系统无法正常启动

日志产生原因

没有可用内存

处理建议

1.     检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作

4.     重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作

5.     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

6.     若问题仍然存在,请联系技术支持

 

2.11.11  System firmware error (POST error)---No DDR Memory Error

事件码

0x0f0082a0

日志内容

System firmware error (POST error)---No DDR Memory Error

参数解释

日志等级

严重(Major

举例

System firmware error (POST error)---No DDR Memory Error

对系统的影响

系统无法正常启动

日志产生原因

没有可用的DDR内存

处理建议

1.     检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作

4.     重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作

5.     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

6.     若问题仍然存在,请联系技术支持

 

2.11.12  System firmware error (POST error)---DIMM Compatible Error(LRDIMM and RDIMM are installed)

事件码

0x0f00bed0

日志内容

System firmware error (POST error)---DIMM Compatible Error(LRDIMM and RDIMM are installed)

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---DIMM Compatible Error(LRDIMM and RDIMM are installed)

对系统的影响

系统无法正常启动

日志产生原因

LRDIMM RDIMM两种不同类型的内存混插

处理建议

1.     通过服务器兼容的部件查询工具或部件兼容的服务器查询工具确认服务器兼容的内存类型

2.     请参考服务器用户指南中的内存安装准则重新安装类型兼容的内存条

3.     若问题仍然存在,请联系技术支持

 

2.11.13  System Firmware Error (POST Error)---No DIMMs present

事件码

0x0f02a010

日志内容

System Firmware Error (POST Error)---No DIMMs present

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No DIMMs present

对系统的影响

系统无法正常启动

日志产生原因

G5服务器无可用内存

处理建议

1.     检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作

4.     重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作

5.     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

6.     若问题仍然存在,请联系技术支持

 

2.11.14  System Firmware Error (POST Error)---No DDR memory in the system

事件码

0x0f02a040

日志内容

System Firmware Error (POST Error)---No DDR memory in the system

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No DDR memory in the system

对系统的影响

系统无法正常启动

日志产生原因

G5服务器没有可用的DDR内存

处理建议

1.     检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作

4.     重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作

5.     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

6.     若问题仍然存在,请联系技术支持

 

2.11.15  System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation

事件码

0x0f0e8020

日志内容

System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation

对系统的影响

可能导系统性能降低

日志产生原因

没有可用于内存映射操作的内存

处理建议

1.     登录HDM Web页面,进入“内存”页面确认系统有正常内存可用,如果否,请执行下一步操作

2.     若问题仍然存在,请联系技术支持

 

2.11.16  System Firmware Error (POST Error)---Different DIMM types detected

事件码

0x0f0ed010

日志内容

System Firmware Error (POST Error)---Different DIMM types detected

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---Different DIMM types detected

对系统的影响

可能导致系统无法正常启动

日志产生原因

检测到不同的DIMM类型

处理建议

1.     登录HDM Web页面,进入“事件日志”页面,确认出现问题的内存槽位

2.     请通过兼容性系列查询工具检查该内存是否符合服务器兼容性要求。若不符合兼容性要求,请更换内存

¡     通过服务器兼容的部件查询工具部件兼容的服务器查询工具查询内存与服务器是否兼容

¡     通过OS兼容性查询工具查询内存与服务器安装的操作系统是否兼容

3.     通过内存配置工具确认服务器上安装的内存符合内存配置规则

4.     参考服务器用户指南内存安装准则,重新安装内存

5.     若问题仍然存在,请联系技术支持

 

2.11.17  System Firmware Error (POST Error)---DIMM population error

事件码

0x0f0ed020

日志内容

System Firmware Error (POST Error)---DIMM population error

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---DIMM population error

对系统的影响

系统可能无法正常启动

日志产生原因

内存兼容性错误

处理建议

1.     登录HDM Web页面,进入“事件日志”页面,确认出现问题的内存槽位

2.     参考服务器用户指南内存安装准则,重新安装内存

3.     若问题仍然存在,请联系技术支持

 

2.11.18  System Firmware Error (POST Error)---A maximum of two quad-rank DIMMs can be populated per channel

事件码

0x0f0ed030

日志内容

System Firmware Error (POST Error)---A maximum of two quad-rank DIMMs can be populated per channel

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---A maximum of two quad-rank DIMMs can be populated per channel

对系统的影响

系统可能无法正常启动

日志产生原因

系统固件错误(POST错误),每个通道最多可以安装两个四列DIMM

处理建议

1.     参考服务器用户指南内存安装准则,重新安装内存

2.     若问题仍然存在,请联系技术支持

 

2.11.19  System Firmware Error (POST Error)---The third DIMM slot with green release tabs does not support UDIMMs or SODIMMs

事件码

0x0f0ed040

日志内容

System Firmware Error (POST Error)---The third DIMM slot with green release tabs does not support UDIMMs or SODIMMs

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---The third DIMM slot with green release tabs does not support UDIMMs or SODIMMs

对系统的影响

系统可能无法正常启动

日志产生原因

系统固件错误(POST错误),第三个DIMM插槽不兼容UDIMMSODIMM内存

处理建议

1.     通过服务器兼容的部件查询工具部件兼容的服务器查询工具查询服务器兼容的内存类型,更换UDIMMSODIMM内存为服务器兼容的内存类型

2.     若问题仍然存在,请联系技术支持

 

2.11.20  System Firmware Error (POST Error)---DIMM voltage error

事件码

0x0f0ed050

日志内容

System Firmware Error (POST Error)---DIMM voltage error

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---DIMM voltage error

对系统的影响

系统可能无法正常启动

日志产生原因

系统固件错误(POST错误)DIMM电压故障

处理建议

1.     登录HDM Web页面,进入“事件日志”页面确认异常内存的槽位,将其与正常内存交叉验证。如果故障仍然存在,说明内存插槽故障,请更换主板;如果故障解除,说明内存故障,请更换内存

2.     若问题仍然存在,请联系技术支持

 

2.11.21  System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed

事件码

0x0f0ed060

日志内容

System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed

对系统的影响

系统无法正常启动

日志产生原因

系统固件错误(POST错误)DDR3DDR4 DIMM不能混合使用

处理建议

1.     更换DDR3 DIMMDDR4 DIMM,确保服务器上安装的内存类型一致

2.     若问题仍然存在,请联系技术支持

 

2.11.22  System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed

事件码

0x0f0ed070

日志内容

System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed

对系统的影响

系统可能无法正常启动

日志产生原因

系统固件错误(POST错误)256字节和512字节SPD设备不能混合使用

处理建议

1.     更换256字节SPD设备512字节SPD设备,确保服务器上安装的设备类型一致

2.     若问题仍然存在,请联系技术支持

 

2.11.23  System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed

事件码

0x0f0ed080

日志内容

System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed

对系统的影响

系统可能无法正常启动

日志产生原因

系统固件错误(POST错误),不能混合使用3DS和非3DS LRDIMM

处理建议

1.     更换3DS LRDIMM或非3DS LRDIMM,确保服务器上安装的内存类型一致

2.     若问题仍然存在,请联系技术支持

 

2.11.24  System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed

事件码

0x0f0ed0b0

日志内容

System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed

对系统的影响

系统可能无法正常启动

日志产生原因

系统固件错误(POST错误),DDR-T内存模块和UDIMM不能混合使用

处理建议

1.     更换DDR-T内存或者UDIMM内存,确保服务器上安装的内存类型一致

2.     若问题仍然存在,请联系技术支持

 

2.11.25  System Firmware Error (POST Error)---Memory Unrecognized Initialization Error

事件码

0x0f0ffff0

日志内容

System Firmware Error (POST Error)---Memory Unrecognized Initialization Error

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---Memory Unrecognized Initialization Error

对系统的影响

系统可能无法正常启动

日志产生原因

部分内存初始化错误

处理建议

1.     根据同时上报的对应部件的事件日志处理

2.     若问题仍然存在,请联系技术支持

 

2.11.26  System Firmware Hang---Unspecified

事件码

0x0f1000de

日志内容

System Firmware Hang---Unspecified

参数解释

日志等级

紧急(Critical

举例

System Firmware Hang---Unspecified

对系统的影响

系统无法正常运行

日志产生原因

BIOS启动过程中挂死

处理建议

1.     请根据同时上报的对应部件的其他事件日志处理

2.     若问题仍然存在,请联系技术支持

 

2.11.27  System firmware hang-----No DDR Memory Error

事件码

0x0f103e80

日志内容

System firmware hang-----No DDR Memory Error

参数解释

日志等级

紧急(Critical

举例

System firmware hang-----No DDR Memory Error

对系统的影响

系统无法正常运行

日志产生原因

服务器没有可用的DDR内存导致操作系统挂死

处理建议

1.     检查是否有安装内存,如果否,请根据服务器用户指南里的安装准则安装内存;如果是,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     重新拔插电源线缆,确保服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作

4.     重新插拔内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装完成后检查告警是否解除,如果否,请执行下一步操作

5.     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

6.     若问题仍然存在,请联系技术支持

 

2.11.28  System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed)

事件码

0x0f10bed0

日志内容

System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed)

参数解释

日志等级

紧急(Critical

举例

System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed)

对系统的影响

系统无法正常运行

日志产生原因

LRDIMM RDIMM两种不同类型的内存混插

处理建议

1.     通过服务器兼容的部件查询工具或部件兼容的服务器查询工具确认服务器兼容的内存类型

2.     请参考服务器用户指南中的内存安装准则重新安装类型兼容的内存

3.     若问题仍然存在,请联系技术支持

 

2.11.29  System firmware hang---Memory Unrecognized Initialization Error

事件码

0x0f1ffff0

日志内容

System firmware hang---Memory Unrecognized Initialization Error

参数解释

日志等级

紧急(Critical

举例

System firmware hang---Memory Unrecognized Initialization Error

对系统的影响

系统无法正常运行

日志产生原因

内存初始化错误,主CPU的内存条出现错误,导致主CPU下无可用内存,出现系统hang住。

处理建议

1.     根据同时上报的对应部件的事件日志处理

2.     若问题仍然存在,请联系技术支持

 

2.11.30  System Firmware Progress---Current Memory Ras Mode

事件码

0x0f20eff0

日志内容

System Firmware Progress---Current Memory Ras Mode

参数解释

日志等级

正常(Info

举例

System Firmware Progress---Current Memory Ras Mode

对系统的影响

无影响

日志产生原因

当前内存处于RAS模式

处理建议

1.     无需处理

 

2.11.31  System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket

事件码

0x0f017130

日志内容

System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket

参数解释

日志等级

轻微(Minor

举例

System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket

对系统的影响

可能导致系统性能降低

日志产生原因

内存插法错误

处理建议

1.     通过服务器兼容的部件查询工具或部件兼容的服务器查询工具确认服务器兼容的内存类型

2.     请参见服务器用户指南的安装准则重新安装内存

3.     若问题仍然存在,请联系技术支持

 

2.11.32  System Firmware Error (POST Error)---No DIMMs installed for CPU

事件码

0x0f017180

日志内容

System Firmware Error (POST Error)---No DIMMs installed for CPU

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No DIMMs installed for CPU

对系统的影响

系统无法正常运行

日志产生原因

服务器未安装内存

处理建议

1.     检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作

2.     BIOSHDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作

3.     重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作

4.     重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作

5.     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

6.     若问题仍然存在,请联系技术支持

 

2.12  Event Logging Disabled

2.12.1  Log Area Reset/Cleared

事件码

0x102000de

日志内容

Log Area Reset/Cleared

参数解释

日志等级

正常(Info

举例

Log Area Reset/Cleared

对系统的影响

日志产生原因

清除所有事件日志后触发该事件日志

处理建议

无需处理

 

2.12.2  SEL Full

事件码

0x104000de

日志内容

SEL Full

参数解释

日志等级

轻微(Minor

举例

SEL Full

对系统的影响

无法继续记录事件日志

日志产生原因

当日志已满时,其他事件不会写入日志。早期的事件可能被覆盖并丢失。用户禁用事件日志可能触发该事件日志

处理建议

登录HDM Web页面,进入事件日志页面,单击<清除所有事件日志>按钮,清理日志文件

 

2.12.3  SEL Almost Full

事件码

0x105000de

日志内容

SEL Almost Full

参数解释

日志等级

轻微(Minor

举例

SEL Almost Full

对系统的影响

日志产生原因

当日志即将存满会触发该事件日志

处理建议

登录HDM Web页面,进入事件日志页面,单击<清除所有事件日志>按钮,清理日志文件

 

2.13  Watchdog1

2.13.1  BIOS Watchdog Reset

事件码

0x110000de

日志内容

BIOS Watchdog Reset

参数解释

日志等级

严重(Major

举例

BIOS Watchdog Reset

对系统的影响

系统重启

日志产生原因

BIOS看门狗复位有如下两个原因:

·     BIOS启动时间超过阈值

·     BIOS启动过程中未响应

处理建议

1.     确认BIOS是否正常工作

2.     确认外围模块和BIOS配置正确

3.     确认BIOS调试模式已禁用

4.     若问题仍然存在,请联系技术支持

 

2.13.2  OS Watchdog NMI/Diagnostic Interrupt

事件码

0x115000de

日志内容

OS Watchdog NMI/Diagnostic Interrupt

参数解释

日志等级

严重(Major

举例

OS Watchdog NMI/Diagnostic Interrupt

对系统的影响

若非手动触发时,可能导致系统无法正常启动

日志产生原因

启用OS看门狗后,触发了NMINon Maskable Interrupt,不可屏蔽中断)生成的

处理建议

1.     检测业务软件是否存在异常

2.     BIOS中关闭对应的看门狗功能,进入BIOS Setup设置OS Watchdog Timer选项为Disabled

3.     若问题仍然存在,请联系技术支持

 

2.13.3  OS Watchdog pre-timeout Interrupt-non-NMI

事件码

0x117000de

日志内容

OS Watchdog pre-timeout Interrupt-non-NMI

参数解释

日志等级

严重(Major

举例

OS Watchdog pre-timeout Interrupt-non-NMI

对系统的影响

可能导致系统无法正常启动

日志产生原因

OS看门狗预超时产生非NMI中断,OS长时间启动不起来

处理建议

1.     请排查启动项是否存在异常,如果是,则请修复操作系统启动环境;如果否,则执行下一步

2.     若问题仍然存在,请联系技术支持

 

2.14  System Event

2.14.1  Timestamp Clock Synch---event is $1 of pair---SEL Timestamp Clock updated

事件码

0x125000de

日志内容

Timestamp Clock Synch---event is $1 of pair---SEL Timestamp Clock updated

参数解释

$1first/secondfirst代表是时间同步前的事件,second代表是时间同步后的事件

日志等级

正常(Info

举例

Timestamp Clock Synch---event is first of pair---SEL Timestamp Clock updated

对系统的影响

日志产生原因

服务器上电时,HDM会跟主机侧进行时间同步,时间同步前触发first事件,同步后触发second事件

处理建议

无需处理

 

2.14.2  Timestamp clock synch---BMC Time SYNC succeed

事件码

0x125000de

日志内容

Timestamp Clock Synch---BMC Time SYNC succeed.

参数解释

日志等级

正常(Info

举例

Timestamp Clock Synch---BMC Time SYNC succeed.

对系统的影响

日志产生原因

BMC同步ME时间成功

处理建议

无需处理

 

2.15  Critical Interrupt

2.15.1  Transition to Non-Critical from OK

事件码

0x1300000e

日志内容

Transition to Non-Critical from OK--- Single-bit ECC error---PCIe slot:$1

参数解释

$1:槽位号

日志等级

严重(Major

举例

Transition to Non-Critical from OK--- Single-bit ECC error---PCIe slot: 2

对系统的影响

给定PCIE设备访问发生错误,不影响系统正常运行

日志产生原因

指定slotPCIe卡故障

处理建议

此日志在PCIe硬件检测到故障后上报。请查看相关事件日志消息并更换有故障的PCIe设备或联系技术支持

 

2.15.2  PCI: PCIE Hot Plug PCIe Pull Out

事件码

0x13000010

日志内容

PCI: PCIE Hot Plug PCIe Pull Out---Slot number $1

参数解释

$1:槽位号

日志等级

正常(Info

举例

PCI: PCIE Hot Plug PCIe Pull Out---Slot number 34

对系统的影响

日志产生原因

R8900 G3专有,在支持热插拔Riser上拔出了一张PCIe

处理建议

1.     检查是否有拔卡动作

2.     如果没有拔卡动作,请检查指定槽位上的卡是否松动

3.     若问题仍然存在,请联系技术支持

 

2.15.3  PCI: PCIE Hot Plug PCIe Insert

事件码

0x13100010

日志内容

PCI: PCIE Hot Plug PCIe Insert---Slot number $1

参数解释

$1:槽位号

日志等级

正常(Info

举例

PCI: PCIE Hot Plug PCIe Insert---Slot number 34

对系统的影响

日志产生原因

R8900 G3专有,在支持热插拔Riser上插入了一张PCIe

处理建议

1.     检查是否有插卡动作

2.     如果没有插卡动作,请检查指定槽位上的卡是否松动

3.     若问题仍然存在,请联系技术支持

 

 

2.15.4  PCI SERR

事件码

0x135000de

日志内容

PCI SERR ------Slot $1---PCIE Name: $2

参数解释

·     $1:指明故障PCIe设备slot

·     $2:指明故障PCIe设备名称

日志等级

严重(Major

举例

PCI SERR ------Slot 5---PCIE Name: EF-I20

对系统的影响

可能会造成系统宕机

日志产生原因

PCIe设备内部故障,产生严重的错误

处理建议

1.     若同一段时间存在多条同类错误,检查Riser与主板连接情况

2.     重启服务器,检查日志是否依然上报

3.     根据slot号确定发生错误的PCIe设备

4.     如果发生错误的是PCIe外设,请执行以下操作:

¡     检查PCIe设备是否正确插入

¡     检查PCIe设备金手指是否有污染

¡     PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽

¡     如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序

¡     如果错误位于PCIe插槽,请检查Riser卡金手指是否有污染

¡     如问题依然存在,请更换备件

5.     如果发生错误的是板载设备,请执行以下操作:

¡     更新固件和驱动程序以及BIOS版本

¡     更换主板

6.     若问题仍然存在,请联系技术支持

 

2.15.5  Bus Uncorrectable Error

事件码

0x138000de

日志内容

Bus Uncorrectable Error ---Slot $1---PCIE Name:$2

参数解释

·     $1:指明故障PCIe设备slot

·     $2:指明故障PCIe设备名称

日志等级

严重(Major

举例

Bus Uncorrectable Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

PCIe设备内部故障,产生不可纠正的错误

处理建议

1.     若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况

2.     重启服务器,检查日志是否依然上报

3.     根据slot号确定发生错误的PCIe设备

4.     如果发生错误的是PCIe外设,请执行以下操作:

¡     检查PCIe设备是否正确插入

¡     检查PCIe设备金手指是否有污染

¡     PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽

¡     如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序

¡     如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染

¡     如问题依然存在,请更换备件

5.     如果发生错误的是板载设备,请执行以下操作:

¡     更新固件和驱动程序以及BIOS版本

¡     更换主板

6.     若问题仍然存在,请检查PCIe设备所在链路部件

7.     若多个GPU模组报错,或者网卡笼上的多张网卡报错,请更换SW板或者主板

8.     若问题仍然存在,请联系技术支持

 

2.15.6  Bus Fatal Error

事件码

0x13a000de

日志内容

Bus Fatal Error ------Slot $1---PCIE Name: $2

参数解释

·     $1:指明故障PCIe设备slot

·     $2:指明故障PCIe设备名称

日志等级

严重(Major

举例

Bus Fatal Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

PCIe设备内部故障,产生致命的错误

处理建议

1.     若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况

2.     重启服务器,检查日志是否依然上报

3.     根据slot号确定发生错误的PCIe设备

4.     如果发生错误的是PCIe外设,请执行以下操作:

¡     检查PCIe设备是否正确插入

¡     检查PCIe设备金手指是否有污染

¡     PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽

¡     如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序

¡     如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染

¡     如问题依然存在,请更换备件

5.     如果发生错误的是板载设备,请执行以下操作:

¡     更新固件和驱动程序以及BIOS版本

¡     更换主板

6.     若问题仍然存在,请检查PCIe设备所在链路部件

7.     若多个GPU模组报错,或者网卡笼上的多张网卡报错,请更换SW板或者主板

8.     若问题仍然存在,请联系技术支持

 

2.16  Button / Switch

2.16.1  Power Button pressed---Physical button---Button pressed

事件码

0x140000de

日志内容

Power Button pressed---Physical button---Button pressed

参数解释

日志等级

正常(Info

举例

Power Button pressed---Physical button---Button pressed

对系统的影响

对系统执行上下电操作

日志产生原因

当按下设备前面板的实体电源按钮时,会产生该事件

处理建议

无需处理

 

2.16.2  Power Button pressed---Physical button---Button released

事件码

0x140000de

日志内容

Power Button pressed---Physical button---Button released

参数解释

日志等级

正常(Info

举例

Power Button pressed---Physical button---Button released

对系统的影响

对系统执行上下电操作

日志产生原因

当松开设备前面板的实体电源按钮时,会产生该事件

处理建议

无需处理

 

2.16.3  Power Button pressed---Virtual button---Power cycle command

事件码

0x140000de

日志内容

Power Button pressed---Virtual button---Power cycle command

参数解释

日志等级

正常(Info

举例

Power Button pressed---Virtual button---Power cycle command

对系统的影响

主机重启

日志产生原因

当在HDM Web页面或KVM窗口中单击关机并重新开机(Force System Cycle)时,会产生该事件

处理建议

无需处理

 

2.16.4  Power Button pressed---Virtual button---Power off command

事件码

0x140000de

日志内容

Power Button pressed---Virtual button---Power off command

参数解释

日志等级

正常(Info

举例

Power Button pressed---Virtual button---Power off command

对系统的影响

主机关机

日志产生原因

按下设备前面板的实体电源按钮,执行强制关机、正常关机、关机并重新开机命令

处理建议

无需处理

 

2.16.5  Power Button pressed---Virtual button---Power on command

事件码

0x140000de

日志内容

Power Button pressed---Virtual button---Power on command

参数解释

日志等级

正常(Info

举例

Power Button pressed---Virtual button---Power on command

对系统的影响

主机开机

日志产生原因

按下设备前面板的实体电源按钮,执行强制关机、正常关机、关机并重新开机命令

处理建议

无需处理

 

2.16.6  Power Button pressed---Virtual button---Soft off command

事件码

0x140000de

日志内容

Power Button pressed---Virtual button---Soft off command

参数解释

日志等级

正常(Info

举例

Power Button pressed---Virtual button---Soft off command

对系统的影响

主机关机

日志产生原因

按下设备前面板的实体电源按钮,执行强制关机、正常关机、关机并重新开机命令

处理建议

无需处理

 

2.16.7  Reset Button pressed---Virtual button---Reset command

事件码

0x142000de

日志内容

Reset Button pressed---Virtual button---Reset command

参数解释

日志等级

正常(Info

举例

Reset Button pressed---Virtual button---Reset command

对系统的影响

主机重启

日志产生原因

以下场景会触发本日志:

用户下发reset命令;

发生IERR事件;

处理建议

1.     检查操作日志确认是否下发了reset命令,若是则无需处理

2.     检查是否同时产生了IERR故障日志,若是则请按照对应故障日志处理方式解决

3.     若问题仍然存在,请联系技术支持

 

2.16.8  FRU service request button---Physical button---Uid button pressed

事件码

0x144000de

日志内容

FRU service request button---Physical button---Uid button pressed

参数解释

日志等级

正常(Info

举例

FRU service request button---Physical button---Uid button pressed

对系统的影响

无影响

日志产生原因

按下UID按钮时会产生该事件日志

处理建议

无需处理

 

2.17  Module / Board

2.17.1  Transition to Critical from less severe

事件码

0x1520000e

日志内容

Transition to Critical from less severe

参数解释

日志等级

严重(Major

举例

Transition to Critical from less severe

对系统的影响

给定PCIe BUS0设备访问发生错误。严重时,会扩散到初级系统级故障

日志产生原因

PCIe BUS0设备内部故障,产生不可纠正的错误

处理建议

1.     检查系统供电是否正常

2.     交叉检查是否存在部件异常

3.     若问题仍然存在,请联系技术支持

 

2.17.2  Transition to Non-recoverable from less severe

事件码

0x1530000e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure on $1($2).

参数解释

·     $1故障部件,如Motherboard(主板)、PDB(电源板)、CMOD(计算模块)、Riser卡等

·     $2:故障具体位置,如P5VP5V_STBYCPU1_PVCSACPU2_PVCCIO

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severve---System detected a power supply failure on Motherboard(P5V).

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

1.     对于电源上下电情况,可忽略此日志

2.     重新插拔电源线,确认服务器能否正常上电并开机。

¡     如果服务器能够正常上电,可能由于其上检测信号被误干扰,可以继续正常使用。

¡     如果无法重新上电,需要根据SDS日志的分析记录确定具体故障,并更换故障部件的备件

¡     若参数为CPUx_DIMM_ABC_P2V5_VPPCPUx_DIMM_DEF_P2V5_VPPCPUx_DIMM_ABC_P0V6_VPP等,则存在内存供电异常。交换内存所在CPU左右两侧的内存,若报错跟随内存交换变化,请单独测试故障侧内存,确认故障内存并进行更换,若报错不跟随内存变化,说明主板对内存供电异常,请更换主板。详细参数信息请查看《H3C HDM告警日志信息参考》附录下4-1

3.     如故障在运行期间再次出现,请更换故障部件的备件

4.     若问题仍然存在,请联系技术支持

 

2.17.3  Monitor---Board found PSU output can't be enabled

事件码

0x1570000e

日志内容

Monitor---Board found PSU output can't be enabled($1)

参数解释

$1:故障模块

日志等级

严重(Major

举例

Monitor---Board found PSU output can't be enabled(PSU2)

对系统的影响

可能会导致系统下电

日志产生原因

电源无法正常向主板供电时,触发此告警

处理建议

1.     检查电源模块的状态指示灯是否处于正常状态,如果否,请更换电源模块;如果是,将告警槽位的电源模块与正常槽位交叉验证,查看告警是否解除

¡     如果是槽位故障,请联系技术支持更换主板

¡     如果是电源模块问题,请确认电源模块是否正确安装,如果否,请正确安装电源模块;如果是,请更换电源模块

2.     若问题仍然存在,联系技术支持

 

 

2.18  Add-in Card

2.18.1  Transition to OK

事件码

0x1700000e

日志内容

Transition to OK---PCIe slot: $1---LDDevno:$2

参数解释

·     $1:逻辑盘所属存储卡所在的槽位号

·     $2逻辑盘序号

日志等级

正常(Info

举例

Transition to OK---PCIe slot:1---LDDevno:0

对系统的影响

日志产生原因

RAID卡管理的逻辑盘从异常恢复为正常时,记录该日志

处理建议

无需处理

 

2.18.2  Transition to Critical from less severe

事件码

0x1720000e

日志内容

Transition to Critical from less severe---PCIe slot: $1---LDDevno:$2

参数解释

·     $1:逻辑盘所属存储卡所在的槽位号

·     $2逻辑盘序号

日志等级

严重(Major

举例

Transition to Critical from less severe---PCIe slot: 1---LDDevno:0

对系统的影响

会引起系统下电

日志产生原因

RAID卡管理的逻辑盘降级或故障时记录该日志背板电源故障

处理建议

1.     登录到HDM并确认逻辑盘是否已降级或出现故障

2.     如果逻辑盘降级,请执行以下操作:

a.     检查逻辑盘中的所有成员盘是否正常工作

b.     重新安装成员盘,确认硬盘是否可以正确识别

c.     登录BIOS页面确认所有成员盘的状态是否配置正常

d.     查看硬盘错误日志

e.     更换故障的硬盘

f.     若问题仍然存在,请联系技术支持

3.     如果逻辑盘出现故障,请执行以下操作:

a.     确认对应硬盘未被拆卸

b.     重新安装成员盘并重新创建RAID阵列

c.     更换故障硬盘,之后重启服务器

d.     若问题仍然存在,请联系技术支持

 

2.19  Chassis

2.19.1  Transition to OK

事件码

0x1800000e

日志内容

Transition to OK

参数解释

日志等级

正常(Info

举例

Transition to OK

对系统的影响

无影响

日志产生原因

机箱状态恢复为正常

处理建议

触发事件码0x1800000e:无需处理

解除事件码0x1800000f请根据其他日志检查故障原因,并检查是否存在其他部件故障;若问题仍然存在,请联系技术支持

 

2.19.2  State asserted

事件码

0x18100006

日志内容

State asserted

参数解释

日志等级

严重(Major

举例

State asserted

对系统的影响

根据上报的具体部件影响确定对系统的影响(视具体情况而定)

日志产生原因

系统检测到故障,请根据同时上报的具体部件事件日志处理

处理建议

根据同时上报的具体部件事件日志处理;若不存在其他相关事件日志或处理后问题仍然存在,请联系技术支持

 

2.19.3  Transition to Critical from less severe

事件码

0x1820000e

日志内容

Transition to Critical from less severe

参数解释

日志等级

严重(Major

举例

Transition to Critical from less severe

对系统的影响

严重时,会扩散到主机系统级的故障

日志产生原因

机箱状态从轻微故障转变为严重

处理建议

1.     检查供电是否正常

2.     结合其他日志,检查是否存在部件异常

3.     若问题仍然存在,请联系技术支持

 

2.19.4  Transition to Non-recoverable from less severe

事件码

0x1830000e

日志内容

Transition to Non-recoverable from less severe

参数解释

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe

对系统的影响

会引起系统下电

日志产生原因

机箱状态从轻微故障转变为不可恢复状态

处理建议

1.     检查供电是否正常

2.     结合其他日志,检查是否存在部件异常

3.     若问题仍然存在,请联系技术支持

 

2.20  System Boot / Restart Initiated

2.20.1  Initiated by power up

事件码

0x1d0000de

日志内容

Initiated by power up---$1 reset by $2

参数解释

·     $1:重启主体,可能参数:

¡     BIOS

¡     BMC

¡     System

·     $2:重启方式,可能参数:

¡     power up

¡     power recycle

¡     power reset

日志等级

正常(Info

举例

Initiated by power up---BIOS reset by power up

对系统的影响

日志产生原因

系统开机触发,该事件日志的后缀部分仅在支持BIOS_Boot_Up传感器的服务器上显示

处理建议

1.     请通过其他日志确认事件日志触发原因和处理建议

2.     若问题仍然存在,请联系技术支持

 

2.20.2  Initiated by hard reset

事件码

0x1d1000de

日志内容

Initiated by hard reset---$1 reset by $2

参数解释

·     $1:重启主体,可能参数:

¡     BIOS

¡     BMC

¡     System

·     $2:重启方式,可能参数:

¡     power up

¡     power recycle

¡     power reset

日志等级

正常(Info

举例

Initiated by hard reset---BIOS reset by power reset

对系统的影响

日志产生原因

系统硬重启时触发,该事件日志的后缀部分仅在支持BIOS_Boot_Up传感器的服务器上显示

处理建议

1.     请通过其他日志确认事件日志触发原因和处理建议

2.     若问题仍然存在,请联系技术支持

 

2.20.3  Initiated by warm reset

事件码

0x1d2000de

日志内容

Initiated by warm reset---$1 reset by $2

参数解释

·     $1:重启主体,可能参数:

¡     BIOS

¡     BMC

¡     System

·     $2:重启方式,可能参数:

¡     power up

¡     power recycle

¡     power reset

日志等级

正常(Info

举例

Initiated by warm reset---BIOS reset by power reset

对系统的影响

日志产生原因

系统热重启时触发,该事件日志的后缀部分仅在支持BIOS_Boot_Up传感器的机型显示

处理建议

1.     请通过其他日志确认事件日志触发原因和处理建议

2.     若问题仍然存在,请联系技术支持

 

2.20.4  System restart---due to fan error:power off

事件码

0x1d7000de

日志内容

System restart---due to fan error:power off

参数解释

日志等级

正常(Info

举例

System Restart---due to fan error:power off

对系统的影响

日志产生原因

当两个及以上关键位置的风扇不在位或异常时,会执行预设的关机动作

处理建议

1.     确认服务器入风口或出风口是否被堵塞,如果是,移除堵塞物;如果否,请执行下一步操作

2.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.20.5  System Restart

事件码

0x1d7000de

日志内容

System Restart---$1

参数解释

·     $1:系统重启原因,可能参数:

¡     Unknown cause(未知原因)

¡     Chassis control commandIPMI电源控制命令或单击HDM Web页面虚拟电源按钮

¡     Reset via pushbutton(按下电源按钮开机或关机

¡     Power-up via power pushbutton(按下电源按钮开机)

¡     Watchdog expirationWatchdog超时)

¡     AC lost(失去电源输入)

日志等级

正常(Info

举例

System Restart---Reset via pushbutton

对系统的影响

日志产生原因

服务器重启

处理建议

无需处理

 

2.20.6  System Restart---due to fan error:power reset

事件码

0x1d7000de

日志内容

System Restart---due to fan error:power reset

参数解释

日志等级

正常(Info

举例

System Restart---due to fan error:power reset

对系统的影响

日志产生原因

当两个及以上关键位置的风扇不在位或异常时,系统会执行预设的重启动作

处理建议

1.     确认服务器入风口或出风口是否被堵塞,如果是,移除堵塞物;如果否,请执行下一步操作

2.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

2.20.7  System Restart---due to fan error:power cycle

事件码

0x1d7000de

日志内容

System Restart---due to fan error:power cycle

参数解释

日志等级

正常(Info

举例

System Restart---due to fan error:power cycle

对系统的影响

日志产生原因

当两个及以上关键位置的风扇不在位或异常时,会执行预设的重启动作

处理建议

1.     确认服务器入风口或出风口是否被堵塞,如果是,移除堵塞物;如果否,请执行下一步操作

2.     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

3.     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

4.     若问题仍然存在,请联系技术支持

 

 

2.21  Boot Error

2.21.1  No bootable media

事件码

0x1e0000de

日志内容

No bootable media

参数解释

日志等级

正常(Info

举例

No bootable media

对系统的影响

日志产生原因

状态描述,标识无启动介质,通常无影响

处理建议

1.     接入可启动设备

2.     若问题仍然存在,请联系技术支持

 

2.22  OS_BOOT

2.22.1  C: boot completed

事件码

0x1f1000de

日志内容

C: boot completed

参数解释

日志等级

正常(Info

举例

C: boot completed

对系统的影响

日志产生原因

当从硬盘上引导操作系统时,就会产生该事件,该事件的产生和特定的系统有关,大部分Windows系统会产生该事件

处理建议

无需处理

 

2.22.2  PXE boot completed

事件码

0x1f2000de

日志内容

PXE boot completed

参数解释

日志等级

正常(Info

举例

PXE boot completed

对系统的影响

日志产生原因

当从PXE引导操作系统时,就会产生该事件,该事件的产生和特定的系统有关,大部分Windows系统会产生该事件

处理建议

无需处理

 

2.23  OS Stop / Shutdown

2.23.1  Run-time Critical Stop

事件码

0x201000de

日志内容

Run-time Critical Stop--$1

参数解释

$1:操作系统宕机原因

日志等级

紧急(Critical

举例

Run-time Critical Stop--System Shut Down Cause by DFC Critical Warning

对系统的影响

系统宕机

日志产生原因

操作系统运行过程中发生紧急错误导致宕机,参数"操作系统宕机原因"为可选参数

处理建议

1.     检查安装的系统版本、驱动版本、固件版本及软件是否存在Bug或兼容性问题

2.     若存在Bug或兼容性问题,请更新版本

3.     否则请检查安装的部件是否属于服务器支持的范围,可以参见官网的OS兼容性列表

4.     若问题仍然存在,请联系技术支持

 

2.23.2  OS Graceful Stop

事件码

0x202000de

日志内容

OS Graceful Stop

参数解释

日志等级

正常(Info

举例

OS Graceful Stop

对系统的影响

系统关机

日志产生原因

Windows系统强制关机

处理建议

无需处理

 

2.23.3  OS Graceful Shutdown

事件码

0x203000de

日志内容

OS Graceful Shutdown

参数解释

日志等级

正常(Info

举例

OS Graceful Shutdown

对系统的影响

系统关机

日志产生原因

Windows系统正常关机

处理建议

无需处理

 

2.24  Slot / Connector

2.24.1  Device disabled: PCIe module information not obtained

事件码

0x21000012

日志内容

Device disabled: PCIe module information not obtained---Slot $1

参数解释

$1:故障PCIe设备连接的slot

日志等级

轻微(Minor

举例

Device Disabled: PCIe module information not obtained---Slot 1

对系统的影响

PCIe卡无法识别,可能降低系统性能

日志产生原因

PCIe设备故障,无法获取相关信息,会产生该事件

处理建议

1.     检查服务器是否处于最小启动模式,判断是否处于最小启动模式配置下请参见《故障处理手册》;如果是则无需处理,否则请检查下一项

2.     检查BIOS配置中是否已禁用对应Port口;如果是则无需处理,否则请检查下一项

3.     检查该PCIe设备是否满足兼容性需求;如果是则无需处理,否则请检查下一项

4.     检查该PCIe设备是否安装到位;如果是则无需处理,否则请检查下一项

5.     交叉检查该PCIe设备是否故障;如果是则无需处理,否则请检查下一项

6.     若问题仍存在,请联系技术支持

 

2.24.2  triggered an uncorrectable error

事件码

0x210000de

日志内容

$1 triggered an uncorrectable error

参数解释

$1PCIe设备类型

日志等级

严重(Major

举例

NIC triggered an uncorrectable error

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

触发IERR或者MCERR错误,诊断结果为PCIe uncorrectable error

处理建议

1.     根据slot号判断发生错误的PCIe设备

2.     如果是安装的PCIe设备,请执行以下操作:

¡     更新PCIe设备固件和驱动程序至最新版本

¡     检查是否满足安装准则且安装到位

¡     交叉检查该故障是否跟随设备或插槽

3.     如果是板载设备,请执行以下操作:

¡     更新BIOS固件和驱动程序至最新版本

¡     更换主板

4.     若问题仍存在,请联系技术支持

 

2.24.3  triggered a correctable error

事件码

0x211000de

日志内容

$1 triggered a correctable error

参数解释

$1PCIe设备类型

日志等级

轻微(Minor

举例

NIC triggered a correctable error

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

触发IERR或者MCERR错误,诊断结果为PCIe correctable error

处理建议

1.     若仅为偶发事件,则可以忽略

2.     若持续产生该告警,请根据slot号确定发生错误的PCIe设备

3.     确认到PCIe设备后,如果是安装的PCIe设备,请执行以下操作:

¡     更新PCIe设备固件和驱动程序

¡     检查设备是否正确插入

¡     交叉检查该故障是否跟随设备或插槽

4.     如果是板载设备,请执行以下操作:

¡     更新BIOS固件和驱动程序

¡     更换主板

5.     若问题仍存在,请联系技术支持

 

2.24.4  Slot/Connector Device installed/attached

事件码

0x212000de

日志内容

Slot/Connector Device installed/attached

参数解释

日志等级

正常(Info

举例

Slot/Connector Device installed/attached

对系统的影响

日志产生原因

用户进行安装操作时会产生该事件日志

处理建议

无需处理

 

2.24.5  Transition to on line

事件码

0x21300014

日志内容

Transition to on line

参数解释

日志等级

正常(Info

举例

Transition to on line

对系统的影响

无影响

日志产生原因

共享网口插入网线时,会产生该事件

处理建议

无需处理

 

2.24.6  Transition to off line

事件码

0x21300015

日志内容

Transition to off line

参数解释

日志等级

正常(Info

举例

Transition to off line

对系统的影响

无影响

日志产生原因

共享网口网线断开,会产生该事件

处理建议

请确认是否进行过网线断开的操作,若实际未断开,则请联系技术支持

 

2.24.7  Transition to Non-Critical from OK

事件码

0x2110000e

日志内容

Transition to Non-Critical from OK---Slot $1

参数解释

$1:网卡的slot

日志等级

严重Major

举例

Transition to Non-Critical from OK---Slot 6

对系统的影响

可能导致PCIe卡故障引起系统性能下降

日志产生原因

网卡连接异常断开时,会产生该事件

处理建议

1.     检查当前网卡是否存在故障

2.     检查相关链路(如I2CMCTP)是否正常

3.     若问题仍存在,请联系技术支持

 

2.25  System ACPI Power State

2.25.1  S0 / G0 "working"

事件码

0x220000de

日志内容

S0 / G0 "working"

参数解释

日志等级

正常(Info

举例

S0 / G0 "working"

对系统的影响

日志产生原因

S0 / G0表示系统处于正常工作状态,其中G(0-2)表示全局状态(G-States),S(0-5)表示睡眠状态(S-States

G0工作状态:在这一状态下可运行应用程序

S0睡眠状态:正常工作状态

处理建议

无需处理

 

2.25.2  S5 / G2 "soft-off"

事件码

0x225000de

日志内容

S5 / G2 "soft-off"

参数解释

日志等级

正常(Info

举例

S5 / G2 "soft-off"

对系统的影响

日志产生原因

S5 / G2 表示软关机状态,此时不可运行应用程序和操作系统,除了主要的电源供电单元,基本上会关闭整个系统。功耗约等于零,如需重启系统,唤醒延迟时间比较长

处理建议

无需处理

 

2.25.3  LPC Reset occurred

事件码

0x22d000de

日志内容

LPC Reset occurred

参数解释

日志等级

正常(Info

举例

LPC Reset occurred

对系统的影响

对系统无影响

日志产生原因

Intel机型的服务器产生复位操作时,触发该事件日志

处理建议

无需处理

 

2.26  Watchdog2

2.26.1  Watchdog overflowAction:Timer expired

事件码

0x230000de

日志内容

Watchdog overflow.Action:Timer expired - status only (no action and no interrupt)---interrupt type:$1---timer use at expiration:$2

参数解释

·     $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

·     $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

正常(Info

举例

Watchdog overflow.Action:Timer expired - status only (no action and no interrupt)---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

看门狗超时溢出时,如果超时动作设为“无动作”,则产生此告警,产生此告警的前提是BIOS下启动看门狗

处理建议

1.     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

2.     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

3.     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

4.     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

5.     若问题仍然存在,请联系技术支持

 

2.26.2  Watchdog overflowAction:Hard Reset

事件码

0x231000de

日志内容

Watchdog overflow.Action:Hard Reset---interrupt type:$1---timer use at expiration:$2

参数解释

·     $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

·     $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

严重(Major

举例

Watchdog overflow.Action:Hard Reset---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为“重启”,则产生此告警

处理建议

1.     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

2.     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

3.     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

4.     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

5.     若问题仍然存在,请联系技术支持

 

2.26.3  Watchdog overflowAction:Power Down

事件码

0x232000de

日志内容

Watchdog overflow.Action:Power Down---interrupt type:$1---timer use at expiration:$2

参数解释

·     $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

·     $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

严重(Major

举例

Watchdog overflow.Action:Power Down---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为“关机”,则产生此告警,系统被强制下电,此时业务将被中断,未保存数据将丢失

处理建议

1.     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

2.     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

3.     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

4.     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

5.     若问题仍然存在,请联系技术支持

 

2.26.4  Watchdog overflowAction:Power Cycle

事件码

0x233000de

日志内容

Watchdog overflow.Action:Power Cycle---interrupt type:$1---timer use at expiration:$2

参数解释

·     $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

·     $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

严重(Major

举例

Watchdog overflow.Action:Power Cycle---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为“掉电重启”,则产生此告警

处理建议

1.     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

2.     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

3.     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

4.     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

5.     若问题仍然存在,请联系技术支持

 

2.26.5  Watchdog overflowAction:Timer interrupt

事件码

0x238000de

日志内容

Watchdog overflow.Action:Timer interrupt---interrupt type:$1---timer use at expiration:$2

参数解释

·     $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

·     $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

轻微(Minor

举例

Watchdog overflow.Action:Timer interrupt---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为timer interrupt,则产生此告警

处理建议

1.     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

2.     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

3.     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

4.     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

5.     若问题仍然存在,请联系技术支持

 

2.27  Management Subsystem Health

2.27.1  Management controller off-line.

事件码

0x282000de

日志内容

Management controller off-line.

参数解释

日志等级

正常 ( Info )

举例

Management controller off-line.

对系统的影响

日志说明

HDM脱机,可能的原因比如执行HDM关机操作或者AC掉电

处理建议

1.     如果HDM下电操作由用户触发,则可通过操作日志检查冷重启动作是否为用户主动下发

2.     若由用户主动下发,则等待HDM重启

3.     若确认无冷重启动作或HDM重启后还出现脱机现象,检查下是否有AC lost事件以及电源模块是否掉电或故障

4.     若出现AC lost事件或电源模块掉电或故障,请更换电源模块

5.     若问题仍然存在,请联系技术支持

 

2.27.2  Management controller off-line---BMC reset

事件码

0x282000de

日志内容

Management controller off-line---BMC reset.

参数解释

日志等级

正常 ( Info )

举例

Management controller off-line---BMC reset.

对系统的影响

日志说明

通常由用户对HDM进行重启操作触发,可通过操作日志确认热重启动作是否是用户主动下发

处理建议

1.     检查操作日志确认热重启动作是否是用户主动下发

2.     若由用户主动下发,则等待HDM重启

3.     若确认未下发热重启指令,请再检查是否有主板异常、电源异常事件

4.     若问题仍然存在,请联系技术支持

 

2.27.3  Management controller off-line---HDM cold reboot

事件码

0x282000de

日志内容

Management controller off-line---HDM cold reboot.

参数解释

日志等级

正常 ( Info )

举例

Management controller off-line---HDM cold reboot.

对系统的影响

日志说明

通常由用户对HDM进行下电操作触发,可通过操作日志确认冷重启动作是否为用户主动下发

处理建议

1.     检查操作日志确认冷重启动作是否用户主动下发

2.     若由用户主动下发,则等待HDM重启

3.     若确认无下发冷重启指令,检查是否有AC lost事件,以及是否有电源线断开或故障

4.     若有AC lost事件或电源模块掉电或故障,请更换电源模块

5.     若电源线断开或故障请更换电源线,确保通电

6.     若问题仍然存在,请联系技术支持

 

2.27.4  Management controller off-line---BMC WDT timeout event happened

事件码

0x282000de

日志内容

Management controller off-line---BMC WDT timeout event happened.

参数解释

日志等级

正常 ( Info )

举例

Management controller off-line---BMC WDT timeout event happened.

对系统的影响

日志说明

看门狗引起的超时重启

处理建议

1.     检查事件日志上下文,确认超时原因

2.     升级HDM最新版本,检查日志是否不再上报

3.     若问题仍然存在,请联系技术支持

 

2.27.5  Management controller off-line---BMC service restart

事件码

0x282000de

日志内容

Management controller off-line---BMC service restart.

参数解释

日志等级

正常 ( Info )

举例

Management controller off-line---BMC service restart.

对系统的影响

日志说明

HDM主动重启服务

处理建议

1.     检查HDM是否发生了重启,功能是否正常,是否处于升级状态。若是偶发性事件且能自愈,则无需处理。

2.     若问题仍然存在,请联系技术支持

 

2.27.6  Management controller unavailable

事件码

0x283000de

日志内容

Management controller unavailable

参数解释

日志等级

严重 ( Major )

举例

Management controller unavailable

对系统的影响

日志说明

管理控制器不可用,可能原因比如HDM控制器、ME控制器当前不可用,影响带外监控

处理建议

1.     请等待12分钟后重新刷新页面检查是否恢复

2.     若不恢复则更换主板

3.     若问题仍然存在,请联系技术支持

 

2.27.7  Management controller unavailable---Adapter $1 is in a fault condition

事件码

0x283000de

日志内容

Management controller unavailable---Adapter $1 is in a fault condition

参数解释

$1:存储控制卡型号

日志等级

严重 ( Major )

举例

Management controller unavailable---Adapter RAID-P460-B4 is in a fault condition

对系统的影响

可能会造成系统宕机,与系统安装位置相关

日志说明

PMC存储控制卡状态异常

处理建议

1.     重启HDM,进入“事件日志”页面检查告警是否解除

2.     若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除

3.     若问题仍然存在,请联系技术支持

 

2.27.8  Sensor access degraded or unavailable--- Adapter $1 has  no response for 2 minutes in $2 slot

事件码

0x280000de

日志内容

Sensor access degraded or unavailable--- Adapter $1 has no response for 2 minutes in $2 slot

参数解释

$1:存储控制卡型号

$2:告警的存储控制卡所在的槽位号

日志等级

轻微 ( Minor )

举例

Sensor access degraded or unavailable--- Adapter RAID-P460-B4 has no response for 2 minutes in 1 slot

对系统的影响

带外识别异常,若带内也异常可能会造成系统宕机

日志说明

HDM超过2分钟没有识别到槽位$2中的PMC存储控制卡

处理建议

1.     重启HDM,进入“事件日志”页面检查告警是否解除

2.     若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除

3.     若问题仍然存在,请联系技术支持

 

2.27.9  Sensor access degraded or unavailable--- Adapter $1 has  no response for 5 minutes in $2 slot

事件码

0x280000de

日志内容

Sensor access degraded or unavailable--- Adapter $1 has no response for 5 minutes in $2 slot

参数解释

$1:存储控制卡型号

$2:告警的存储控制卡所在的槽位号

日志等级

轻微 ( Minor )

举例

Sensor access degraded or unavailable--- Adapter HBA-LAI-9300-8i-A1-X has no response for 5 minutes in 1 slot

对系统的影响

带外识别异常,若带内也异常可能会造成系统宕机

日志说明

HDM超过5分钟没有识别到槽位$2中的LSI存储控制卡

处理建议

1.     重启HDM,进入“事件日志”页面检查告警是否解除

2.     若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除

3.     若问题仍然存在,请联系技术支持

 

2.27.10  Sensor failure---Adapter $1 has no response for 4 minutes in $2 slot

事件码

0x284000de

日志内容

Management controller unavailable---Adapter $1 has no response for 4 minutes in $2 slot

参数解释

$1:存储控制卡型号

$2:告警的存储控制卡所在的槽位号

日志等级

严重 ( Major )

举例

Management controller unavailable---Adapter RAID-P460-B4 has no response  for 4 minutes in 1 slot

对系统的影响

带外识别异常,若带内也异常可能会造成系统宕机

日志说明

HDM超过4分钟没有识别到槽位$2中的PMC存储控制卡

处理建议

1.     重启HDM,进入“事件日志”页面检查告警是否解除

2.     若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除

3.     若问题仍然存在,请联系技术支持

 

2.27.11  Sensor failure---Adapter $1 has no response for 10 minutes in $2 slot

事件码

0x284000de

日志内容

Management controller unavailable---Adapter $1 has no response for 10 minutes in $2 slot

参数解释

$1:告警的存储控制卡所在的槽位号

日志等级

严重( Major )

举例

Management controller unavailable---Adapter HBA-LAI-9300-8i-A1-X has no response  for 10 minutes in 1 slot

对系统的影响

带外识别异常,若带内也异常可能会造成系统宕机

日志说明

HDM超过10分钟没有识别到槽位$2中的LSI存储控制卡

处理建议

1.     重启HDM,进入“事件日志”页面检查告警是否解除

2.     若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除

3.     若问题仍然存在,请联系技术支持

 

2.28  Battery

2.28.1  Battery low (predictive failure)

事件码

0x290000de

日志内容

Battery low (predictive failure)---PCIe slot:$1

参数解释

$1:告警的超级电容所属存储卡所在的槽位号

日志等级

轻微 ( Minor )

举例

Battery low (predictive failure)---PCIe slot:1

对系统的影响

RAID卡可靠性下降,可能引起系统性能下降

日志产生原因

RAID卡电池(超级电容)电量不足、过温、过压或过流时会产生此日志,该状态下RAID卡可靠性下降

处理建议

1.     设备上电后会自动为电容充电,一段时间后登录HDM,查看RAID卡的超级电容状态,检查告警是否消失

2.     排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器

3.     若问题仍存在,请联系技术支持

 

2.28.2  Battery failed

事件码

0x291000de

日志内容

Battery failed---PCIe slot:$1

参数解释

$1:告警的超级电容所属存储卡所在的槽位号

日志等级

轻微 ( Minor )

举例

Battery failed---PCIe slot:1

对系统的影响

RAID卡可靠性下降,可能引起系统性能下降

日志产生原因

RAID卡的掉电保护模块出现内部错误时,产生此告警,可能原因如下:

·     电池或超级电容电量耗尽,生命周期结束

·     掉电保护模块初始化失败

·     掉电保护模块子系统故障

·     掉电保护模块充电失败

·     电池或超级电容故障

处理建议

1.     登录HDM,查看RAID卡的超级电容状态

2.     排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器

3.     若问题仍存在,请联系技术支持

 

2.28.3  Battery presence detected

事件码

0x292000df

日志内容

Battery presence detected---PCIe slot:$1

参数解释

$1:告警的超级电容所属存储卡所在的槽位号

日志等级

正常 ( Info )

举例

Battery presence detected---PCIe slot:1

对系统的影响

RAID卡可靠性下降,可能引起系统性能下降

日志产生原因

RAID卡电池或超级电容不在位

处理建议

1.     登录HDM,查看RAID卡的超级电容状态。若显示不在位,请开箱检查电池或超级电容是否安装,线缆连接是否正确

2.     排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器

3.     若问题仍存在,请联系技术支持

 

 

2.29  ME Status

2.29.1  Management controller unavailable

事件码

0xb03000de

日志内容

Management controller unavailable

参数解释

日志等级

轻微 ( Minor )

举例

Management controller unavailable

对系统的影响

无影响

日志说明

ME自检失败

处理建议

1.     检查ME的固件版本信息是否为最新版本,如果是,则执行第3步;如果否,请执行下一步操作

2.     将服务器BIOS升级到最新版本,重启后检查告警是否解除,如果告警已解除,则无需其它处理;如果告警未解除,请执行下一步

3.     若问题仍然存在,请联系技术支持

 

2.30  OEM Record

2.30.1  System Source Monitor:Mem usage exceeds the threshold

事件码

0xe01000de

日志内容

System Source Monitor:Mem usage exceeds the threshold---Current usage $1 Threshold $2

参数解释

·     $1内存占用率

·     $2阈值

日志等级

正常 ( Info )

举例

System Source Monitor:Mem usage exceeds the threshold---Current usage 100%, Threshold 80%

对系统的影响

可能造成系统卡顿

日志说明

内存使用率超过阈值,该告警由FIST SMS触发

处理建议

1.     检查内存使用率阈值的设置是否合理,如不合理,请调整内存使用率阈值;如合理,请执行下一步操作

2.     检查当前业务的内存使用情况,适当调整业务运行以降低内存使用率或扩充内存大小

3.     若问题仍然存在,请联系技术支持

 

2.30.2  System Source Monitor:Relieve resource alarm about Mem Usage

事件码

0xe01000df

日志内容

System Source Monitor:Relieve resource alarm about Mem Usage---Current usage $1 Threshold $2

参数解释

·     $1内存占用率

·     $2阈值

日志等级

正常 ( Info )

举例

System Source Monitor:Relieve resource alarm about Mem Usage---Current usage 80%, Threshold 100%

对系统的影响

无影响

日志说明

内存使用率恢复到低于阈值,该告警由FIST SMS触发,表示超过阈值的告警解除

处理建议

无需处理

 

2.30.3  System Source Monitor:Cpu usage exceeds the threshold

事件码

0xe02000de

日志内容

System Source Monitor:Cpu usage exceeds the threshold---Current usage $1 Threshold $2

参数解释

·     $1当前CPU使用

·     $2阈值

日志等级

正常 ( Info )

举例

System Source Monitor:Cpu usage exceeds the threshold---Current usage 100%, Threshold 80%

对系统的影响

系统性能降低

日志说明

CPU使用率高于阈值,该告警由FIST SMS触发

处理建议

1.     检查CPU使用率阈值的设置是否合理,如不合理,请调整CPU使用率阈值,如合理,请执行下一步操作

2.     检查当前业务的CPU使用情况,适当调整业务运行以降低CPU使用率

3.     若问题仍然存在,请联系技术支持

 

2.30.4  System Source Monitor:Relieve resource alarm about Cpu Usage

事件码

0xe02000df

日志内容

System Source Monitor:Relieve resource alarm about Cpu Usage---Current usage $1 Threshold $2

参数解释

·     $1当前CPU使用

·     $2阈值

日志等级

正常 ( Info )

举例

System Source Monitor:Relieve resource alarm about Cpu Usage---Current usage 80%, Threshold 100%

对系统的影响

无影响

日志说明

CPU使用率恢复到低于阈值,该告警由FIST SMS触发,表示超过阈值的告警解除

处理建议

无需处理

 

2.30.5  Memory is not certified

事件码

0xe11000de

日志内容

Memory is not certified---Location:CPU:$1 CH:$2 DIMM:$3 $4

参数解释

·     $1CPU编号

·     $2Channel编号

·     $3DIMM编号

·     $4内存丝印

日志等级

轻微 ( Minor )

举例

Memory is not certified---Location:CPU:1 CH:1 DIMM:0 A1

对系统的影响

无影响

日志说明

BIOS重启后,HDM会对内存条进行防伪校验,未经过H3C认证的内存条会上报此故障

处理建议

1.     HDM内存信息页面查看内存状态是否为已认证,如果是,请执行第3步;如果否,请执行下一步操作

2.     检查是否正确安装了经过H3C认证的内存条,使用未经过H3C认证的内存可能存在稳定性隐患

3.     若问题仍然存在,请联系技术支持

 

3 CPU起始编号说明

表3-1 CPU起始编号说明

服务器名称

CPU起始编号

·     H3C UniServer R4300 G5

·     H3C UniServer R4330 G5

·     H3C UniServer R4700 G5

·     H3C UniServer R4900 G5

·     H3C UniServer R4900LC G5

·     H3C UniServer R4930 G5

·     H3C UniServer R4950 G5

·     H3C UniServer R5300 G5

·     H3C UniServer R5500 G5

·     H3C UniServer R6900 G5

·     H3C UniServer B5700 G5

·     H3C UniServer R2700 G3

·     H3C UniServer R2900 G3

·     H3C UniServer R4300 G3

·     H3C UniServer R4400 G3

·     H3C UniServer R4500 G3

·     H3C UniServer R4700 G3

·     H3C UniServer R4900 G3

·     H3C UniServer R5300 G3

·     H3C UniServer R6700 G3

·     H3C UniServer R6900 G3

·     H3C UniServer R8900 G3

·     H3C UniServer B5700 G3

·     H3C UniServer B5800 G3

·     H3C UniServer B7800 G3

·     H3C UniServer E3200 G3

CPU 1

·     H3C UniServer R4950 G3Hygon

·     H3C UniServer R4950 G3Naples

·     H3C UniServer R4950 G3Rome

CPU 0

H3C UniServer R4100 G3

服务器出厂时只配置一个CPU,不涉及编号问题


4 附录

表4-1 0x1530000e参数$2与所属机型信息

 

G3

G5

Intel机型

H3C UniServer R6900 G3

·     CPUX_PVDDQ_DDR4_DEF

·     CPUX_PVDDQ_DDR4_ABC

·     CPUX_P2V5_VPP_DEF

·     CPUX_P2V5_VPP_ABC

·     CPUX_P0V6_VTT_DEF

·     CPUX_P0V6_VTT_ABC

H3C UniServer R6900 G5/ 5500K_ S4703/S2703

·     CPUX_DIMM_DEF_PVPP

·     CPUX_DIMM_ABC_PVPP

·     CPUX_DIMM_DEF_PVTT

·     CPUX_DIMM_ABC_PVTT

·     CPUX_DIMM_DEF_PVDDQ

·     CPUX_DIMM_ABC_PVDDQ

H3C UniServer G3系列机型:

·     CPUX_DIMM_DEF_P2V5_VPP

·     CPUX_DIMM_ABC_P2V5_VPP

·     CPUX_DIMM_DEF_P0V6_VTT

·     CPUX_DIMM_ABC_P0V6_VTT

·     CPUX_DIMM_DEF_PVDDQ

·     CPUX_DIMM_ABC_PVDDQ

H3C UniServer R4700/R4300/R5500_intel/B5700/X10000 G5

·     CPUX_DIMM_EFGH_PVPP

·     CPUX_DIMM_ABCD_PVPP

·     CPUX_DIMM_EFGH_PVTT

·     CPUX_DIMM_ABCD_PVTT

·     CPUX_DIMM_EFGH_PVDDQ

·     CPUX_DIMM_ABCD_PVDDQ

AMD机型

·     PX_VDD_VPP_EFGH

·     PX_VDD_VPP_ABCD

·     PX_VDD_VTT_EFGH

·     PX_VDD_VTT_ABCD

·     PX_VDDIO_MEM_EFGH

·     PX_VDDIO_MEM_ABCD

AMD/Hygon机型

H3C UniServer R4950/R4930/R4330/R5500_hygon/S4753 G5

·     PVPP_CPUX_DIMM_DEF

·     PVPP_CPUX_DIMM_ABC

·     PVTT_CPUX_DIMM_DEF

·     PVTT_CPUX_DIMM_ABC

·     PVDDQ_CPUX_DIMM_DEF

·     PVDDQ_CPUX_DIMM_ABC

 

新华三官网
联系我们