• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C服务器 HDM2告警日志信息参考手册-6W103

手册下载

H3C服务器 HDM2告警日志信息参考手册-6W103-整本手册(CHM&PDF&Excel).rar  (1.25 MB)

  • 发布时间:2024/5/17 21:50:34
  • 浏览量:
  • 下载量:

H3C HDM2告警日志信息参考手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2023-2024新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 简介··· 1

1.1 使用场景·· 1

1.2 获取方式·· 1

1.3 告警级别·· 1

1.4 内容说明·· 2

1.5 适用产品·· 2

2 事件告警··· 1

2.1 Temperature· 1

2.1.1 Dropped below the lower minor threshold· 1

2.1.2 Dropped below the lower major threshold· 1

2.1.3 Dropped below the lower critical threshold· 2

2.1.4 Exceeded the upper minor threshold· 2

2.1.5 Exceeded the upper major threshold· 3

2.1.6 Exceeded the upper critical threshold· 4

2.2 Voltage· 4

2.2.1 Dropped below the lower minor threshold· 4

2.2.2 Dropped below the lower major threshold· 5

2.2.3 Dropped below the lower major threshold· 5

2.2.4 Dropped below the lower critical threshold· 6

2.2.5 Exceeded the upper minor threshold· 6

2.2.6 Exceeded the upper major threshold· 7

2.2.7 Exceeded the upper major threshold· 7

2.2.8 Exceeded the upper critical threshold· 8

2.2.9 Transition to Non-recoverable from less severe· 8

2.2.10 Transition to Non-recoverable from less severe· 9

2.2.11 Transition to Non-recoverable from less severe· 9

2.2.12 Transition to Non-recoverable from less severe· 10

2.2.13 Transition to Non-recoverable from less severe· 11

2.2.14 Transition to Non-recoverable from less severe· 11

2.2.15 Transition to Non-recoverable from less severe· 12

2.2.16 Transition to Non-recoverable from less severe· 12

2.2.17 Transition to Non-recoverable from less severe· 13

2.2.18 Transition to Non-recoverable from less severe· 13

2.2.19 Transition to Non-recoverable from less severe· 14

2.2.20 Transition to Non-recoverable from less severe· 14

2.2.21 Transition to Non-recoverable from less severe· 15

2.2.22 Transition to Non-recoverable from less severe· 15

2.2.23 Transition to Non-recoverable from less severe· 16

2.2.24 Transition to Non-recoverable from less severe· 16

2.2.25 Transition to Non-recoverable from less severe· 17

2.2.26 Transition to Non-recoverable from less severe· 17

2.2.27 Transition to Non-recoverable from less severe· 18

2.2.28 Transition to Non-recoverable from less severe· 18

2.2.29 Transition to Non-recoverable from less severe· 19

2.2.30 Transition to Non-recoverable from less severe· 19

2.2.31 Transition to Non-recoverable from less severe· 20

2.2.32 Transition to Non-recoverable from less severe· 20

2.2.33 Transition to Non-recoverable from less severe· 21

2.2.34 Transition to Non-recoverable from less severe· 21

2.2.35 Transition to Non-recoverable from less severe· 22

2.2.36 Transition to Non-recoverable from less severe· 22

2.2.37 Transition to Non-recoverable from less severe· 23

2.2.38 Transition to Non-recoverable from less severe· 23

2.2.39 Transition to Non-recoverable from less severe· 24

2.2.40 Transition to Non-recoverable from less severe· 24

2.2.41 Transition to Non-recoverable from less severe· 25

2.2.42 Transition to Non-recoverable from less severe· 25

2.2.43 Transition to Non-recoverable from less severe· 26

2.2.44 Transition to Non-recoverable from less severe· 26

2.2.45 Transition to Non-recoverable from less severe· 27

2.2.46 Transition to Non-recoverable from less severe· 27

2.2.47 Transition to Non-recoverable from less severe· 28

2.2.48 Transition to Non-recoverable from less severe· 28

2.2.49 Transition to Non-recoverable from less severe· 29

2.2.50 Transition to Non-recoverable from less severe· 29

2.2.51 Transition to Non-recoverable from less severe· 30

2.2.52 Transition to Non-recoverable from less severe· 30

2.2.53 Transition to Non-recoverable from less severe· 31

2.2.54 Transition to Non-recoverable from less severe· 31

2.2.55 Transition to Non-recoverable from less severe· 32

2.2.56 Transition to Non-recoverable from less severe· 32

2.2.57 Transition to Non-recoverable from less severe· 33

2.2.58 Transition to Non-recoverable from less severe· 33

2.2.59 Transition to Non-recoverable from less severe· 34

2.2.60 Transition to Non-recoverable from less severe· 34

2.2.61 Transition to Non-recoverable from less severe· 35

2.2.62 Transition to Non-recoverable from less severe· 35

2.2.63 Transition to Non-recoverable from less severe· 36

2.2.64 Transition to Non-recoverable from less severe· 36

2.2.65 Transition to Non-recoverable from less severe· 37

2.2.66 Transition to Non-recoverable from less severe· 37

2.2.67 Transition to Non-recoverable from less severe· 38

2.2.68 Transition to Non-recoverable from less severe· 38

2.2.69 Transition to Non-recoverable from less severe· 39

2.2.70 Transition to Non-recoverable from less severe· 39

2.2.71 Transition to Non-recoverable from less severe· 40

2.2.72 Transition to Non-recoverable from less severe· 40

2.2.73 Transition to Non-recoverable from less severe· 41

2.2.74 Transition to Non-recoverable from less severe· 41

2.2.75 Transition to Non-recoverable from less severe· 42

2.2.76 Transition to Non-recoverable from less severe· 42

2.2.77 Transition to Non-recoverable from less severe· 43

2.2.78 Transition to Non-recoverable from less severe· 43

2.2.79 Transition to Non-recoverable from less severe· 44

2.2.80 Transition to Non-recoverable from less severe· 44

2.2.81 Transition to Non-recoverable from less severe· 45

2.2.82 Transition to Non-recoverable from less severe· 45

2.2.83 Transition to Non-recoverable from less severe· 46

2.2.84 Transition to Non-recoverable from less severe· 46

2.2.85 Transition to Non-recoverable from less severe· 47

2.2.86 Transition to Non-recoverable from less severe· 48

2.2.87 Transition to Non-recoverable from less severe· 48

2.2.88 Transition to Non-recoverable from less severe· 49

2.2.89 Transition to Non-recoverable from less severe· 49

2.3 Current 50

2.3.1 Transition to Critical from less severe· 50

2.3.2 Exceeded the upper minor threshold· 50

2.3.3 Exceeded the upper major threshold· 51

2.3.4 Exceeded the upper major threshold· 51

2.3.5 Exceeded the upper critical threshold· 52

2.4 Fan· 52

2.4.1 Predictive Failure deasserted· 52

2.4.2 Predictive Failure asserted· 53

2.4.3 Transition to Running· 53

2.4.4 Transition to Off Line· 54

2.4.5 Transition to Degraded· 54

2.4.6 Fully Redundant 55

2.4.7 Non-redundant:Sufficient Resources from Redundant 55

2.4.8 Non-redundant:Insufficient Resources· 56

2.5 Physical Security· 56

2.5.1 General Chassis Intrusion· 56

2.5.2 LAN Leash Lost 57

2.6 Processor 57

2.6.1 IERR· 57

2.6.2 MCERR· 58

2.6.3 Thermal Trip· 58

2.6.4 FRB1/BIST failure· 59

2.6.5 FRB2/Hang in POST failure· 59

2.6.6 FRB3/Processor Startup/Initialization failure· 60

2.6.7 Configuration Error 60

2.6.8 Processor Presence detected· 61

2.6.9 Processor Automatically Throttled· 61

2.6.10 Processor Automatically Throttled· 62

2.6.11 Processor Automatically Throttled· 62

2.6.12 Machine Check Exception· 63

2.6.13 Triggered a uncorrectable error 63

2.6.14 Triggered a correctable error 64

2.6.15 Machine Check Exception· 64

2.6.16 Correctable Machine Check Error 65

2.6.17 Correctable Machine Check Error 65

2.6.18 Correctable Machine Check Error 66

2.6.19 Machine Check Exception· 66

2.6.20 Correctable Machine Check Error 67

2.7 Power Supply· 67

2.7.1 Presence detected· 67

2.7.2 Power Supply Failure detected· 68

2.7.3 Power Supply Predictive Failure· 68

2.7.4 Power Supply input lost (AC/DC) 69

2.7.5 Power Supply input lost or out-of-range· 69

2.7.6 Power Supply input out-of-range - but present 70

2.7.7 Configuration error ---Vendor mismatch· 70

2.7.8 Configuration error---Power Supply rating mismatch· 71

2.7.9 Configuration error---Power supply rating mismatch· 71

2.7.10 Power Supply Inactive/standby state· 72

2.7.11 PSU failure detected by CPLD·· 72

2.7.12 Redundancy Lost 73

2.8 Power Unit 73

2.8.1 Power limit is exceeded over correction time limit 73

2.9 Cooling Device· 74

2.9.1 Transition to OK· 74

2.9.2 Transition to Non-recoverable---Liquid leakage occurred· 74

2.9.3 Transition to Non-recoverable from less severe· 75

2.9.4 Transition to Non-Critical from OK--- Liquid leakage detection cable is disconnected· 75

2.10 Other Units-based Sensor 76

2.10.1 Exceeded the upper minor threshold· 76

2.11 Memory· 76

2.11.1 Correctable ECC or other correctable memory error 76

2.11.2 Correctable ECC or other correctable memory error 77

2.11.3 Correctable ECC or other correctable memory error 77

2.11.4 Correctable ECC or other correctable memory error 78

2.11.5 CPU triggered a correctable error 78

2.11.6 Uncorrectable ECC or other uncorrectable memory error 79

2.11.7 Uncorrectable ECC or other uncorrectable memory error 80

2.11.8 Uncorrectable ECC or other uncorrectable memory error 81

2.11.9 Triggered an uncorrectable error 82

2.11.10 Uncorrectable ECC or other uncorrectable memory error 83

2.11.11 Parity· 84

2.11.12 Parity· 84

2.11.13 Parity· 85

2.11.14 Parity---An uncorrectable error occurs during the memory test phase· 85

2.11.15 Parity---The memory interleaving configuration cannot meet the requirements of the server 86

2.11.16 Parity---The memory interleaving configuration cannot meet the requirements of the server 86

2.11.17 Parity---The memory interleaving configuration cannot meet the requirements of the server 87

2.11.18 Parity---CMD eye width is too small 87

2.11.19 Parity---CmdPiGroup: No Eye width· 88

2.11.20 Parity---The command is not in the FNv table· 88

2.11.21 Parity---Memory read DqDqs training failed· 89

2.11.22 Parity---Memory Receive Enable Training Error 89

2.11.23 Parity---Memory write DqDqs training failed· 90

2.11.24 Parity---An error occurrs during memory test, and the rank is disabled· 90

2.11.25 Parity---LRDIMM RCVEN training failed· 91

2.11.26 Parity---Read delay training failed· 91

2.11.27 Parity---Write delay training failed· 92

2.11.28 Parity---Mapped out because failed critical mask test at cold boot 92

2.11.29 Parity---Invalid SPD contents· 93

2.11.30 Parity---The DCPMM memory modules of the unexpected model are installed· 93

2.11.31 Parity---Failed to set the VDD voltage of the DIMM·· 94

2.11.32 Parity---Delay exceeded· 94

2.11.33 Parity---Timing error occurred during signal line adjustment for memory write leveling training  95

2.11.34 Parity---CS is not consistent with clock in timing, and the channel is isolated· 95

2.11.35 Parity---CA is not consistent with clock in timing, and the channel is isolated· 96

2.11.36 Parity---LRDIMM external coarse training failed· 96

2.11.37 Parity---LRDIMM external fine training failed· 97

2.11.38 Parity---LRDIMM internal coarse training failed· 97

2.11.39 Parity---LRDIMM internal fine training failed· 98

2.11.40 Memory Device Disabled---The Rank is disabled· 98

2.11.41 Memory Device Disabled---The DIMM is disabled· 99

2.11.42 Memory Device Disabled· 99

2.11.43 Memory Device Disabled· 100

2.11.44 Correctable ECC or other memory error limit reached· 101

2.11.45 Correctable ECC or other memory error limit reached· 102

2.11.46 Presence detected· 102

2.11.47 Memory patrol scrub CE occured· 103

2.11.48 Memory patrol scrub UCE occurred and degraded to CE· 104

2.11.49 Memory patrol scrub CE occurred· 104

2.11.50 Memory patrol scrub UCE occurred· 105

2.11.51 Configuration error---RDIMMs are installed on the server that supports only UDIMMs· 105

2.11.52 Configuration error---UDIMMs are installed on the server that supports only RDIMMs· 106

2.11.53 Configuration error---SODIMMs are installed on the server that supports only RDIMMs· 106

2.11.54 Configuration error---The number of ranks per channel can be only 1, 2, or 4· 107

2.11.55 Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported· 108

2.11.56 Configuration error---The number of ranks in the channel exceeds 8· 109

2.11.57 Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server 109

2.11.58 Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V· 110

2.11.59 Configuration error---The CPU is not compatible with 3DS DIMMs· 111

2.11.60 Configuration error---NVDIMMs with stepping lower than 0x10 are not supported· 111

2.11.61 Configuration error---The CPU is not compatible with the DIMMs· 112

2.11.62 Configuration error---The frequency of the DIMM is not supported on the server 112

2.11.63 Configuration error---24Gb or higher Capacity DRAMs not supported with this CPU· 113

2.11.64 Configuration error---The CPU is not compatible with LRDIMMs· 113

2.11.65 Configuration error--- DCPMM + HBM config is not supported. Disable DCPMM populated channel 114

2.11.66 Configuration error--- Failed to enable the lockstep mode The memory RAS mode has degraded to independent 114

2.11.67 Configuration error---Failed to enable the full mirror mode· 115

2.11.68 Configuration error---Failed to enable the partial mirror mode The memory RAS mode degraded to independent 115

2.11.69 Configuration error---The memory interleaving configuration cannot meet the requirements of the server 116

2.11.70 Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent 116

2.11.71 Configuration error---Failed to enable patrol scrubbing· 117

2.11.72 Configuration Error---The white slot has more ranks than the black slot in a channel or the black slot is used but the white slot in the channel is empty· 118

2.11.73 Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel 119

2.11.74 Configuration error---The DDR-T memory module is installed in the white slot 119

2.11.75 Configuration error---ODT configuration errorThe channel is isolated· 120

2.11.76 Configuration error---REQ is not consistent with clock in timing· 120

2.11.77 Configuration error---Failed to enable ADDDC· 121

2.11.78 Configuration error---NVMCTRL_MEDIA_NOTREADY· 121

2.12 Drive Slot 122

2.12.1 Drive Presence· 122

2.12.2 Drive Fault 122

2.12.3 Drive Fault 123

2.12.4 Drive Fault---The disk is missing· 123

2.12.5 Predictive Failure· 124

2.12.6 Predictive Failure· 124

2.12.7 In Critical Array· 125

2.12.8 In Failed Array· 126

2.12.9 Rebuild/Remap in progress· 126

2.12.10 The disk triggered an media error 127

2.12.11 The disk triggered an uncorrectable error 127

2.12.12 The disk is missing· 128

2.13 System Firmware Progress· 128

2.13.1 System Firmware Error (POST Error)---Run sense AMP HW FSM failed· 128

2.13.2 System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket 129

2.13.3 System Firmware Error (POST Error)---No Dimm on socket$1· 129

2.13.4 System Firmware Error (POST Error)---No memory found· 130

2.13.5 System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation· 130

2.13.6 System Firmware Error (POST Error)---DIMM population error 131

2.13.7 System Firmware Error (POST Error)---Some CPU links failed to train. UPI topology changed across reset 131

2.13.8 System Firmware Error (POST Error)---CPU stepping mismatch detected· 132

2.13.9 System Firmware Error (POST Error)---KTI Topology Change Logged· 132

2.13.10 System Firmware Error (POST Error)---CPU matching failure---CPU stepping is detected· 133

2.13.11 System Firmware Error (POST Error)---CPU matching failure---CPU frequency is detected· 133

2.13.12 System Firmware Error (POST Error)---CPU matching failure---CPU Microcode is detected· 134

2.13.13 System Firmware Error (POST Error)---CPU matching failure---UPI Topology is detected· 134

2.13.14 System Firmware Error(POST Error)---Unrecoverable video controller failure· 135

2.13.15 System Firmware Hang· 135

2.13.16 System software triggered an uncorrectable error 136

2.13.17 System software triggered a correctable error 136

2.13.18 System Firmware Progress---Video initialization---Detection unsuccessful 137

2.13.19 System Firmware Progress---Secondary processor(s) initialization---Detection unsuccessful 137

2.14 Event Logging Disabled· 138

2.14.1 Log Area Reset/Cleared· 138

2.14.2 SEL Full 138

2.14.3 SEL Almost Full 139

2.15 System Event 139

2.15.1 System Reconfigured---BIOS load default. CMOS cleared· 139

2.15.2 Limit Exceeded--CPU usage exceeds the threshold· 140

2.15.3 Limit Exceeded---Mem usage exceeds the threshold· 140

2.15.4 Limit Exceeded---Network usage exceeds the threshold· 141

2.15.5 Limit Exceeded---Hard disk usage exceeds the threshold· 141

2.15.6 Timestamp clock synch---BMC Time SYNC succeed· 142

2.15.7 Timestamp clock synch· 142

2.16 Critical Interrupt 143

2.16.1 Transition to Non-Critical from OK· 143

2.16.2 PCI PERR· 144

2.16.3 PCI SERR· 145

2.16.4 Bus Correctable Error 146

2.16.5 Bus Correctable Error 146

2.16.6 Bus Uncorrectable Error 147

2.16.7 Bus Uncorrectable Error 148

2.16.8 Bus Fatal Error 149

2.16.9 Bus Degraded· 150

2.16.10 $1 triggered an uncorrectable error 151

2.16.11 $1 triggered a correctable error 152

2.17 Button / Switch· 152

2.17.1 Power Button pressed· 152

2.17.2 Reset Button pressed· 153

2.18 Module / Board· 153

2.18.1 Transition to Non-Critical from OK($1) 153

2.18.2 Transition to Critical from less severe· 154

2.18.3 Transition to Non- Recoverable from less severe· 154

2.18.4 Transition to Non-Critical from OK---System is operating in KTI Link Slow Speed Mode· 155

2.18.5 Transition to Non-Critical from OK---Requested Link Speed is not supported. Defaulting to 12.8GT  155

2.18.6 Transition to Non-Critical from OK---One or more per Link option mismatch detected. Forcing to common setting  156

2.18.7 Transition to Non-Critical from OK---Some CPU has more than one link connecting to other CPU. Disable one of the Dual-Link· 156

2.18.8 Transition to Non-Critical from OK---KTI Adaptation is in progress, or High Speed adaptation is failed  157

2.18.9 System board triggered an uncorrectable error 157

2.18.10 System board triggered a correctable error 158

2.19 Add-in Card· 158

2.19.1 Transition to OK· 158

2.19.2 Transition to Critical from less severe· 159

2.19.3 Transition to Critical from less severe· 160

2.19.4 Transition to Non-recoverable  from less severe· 161

2.20 ChipSet 161

2.20.1 Transition to Critical from less severe· 161

2.21 Cable / Interconnect 162

2.21.1 Configuration Error - Incorrect cable connected / Incorrect interconnection· 162

2.21.2 Configuration Error - Incorrect cable connected / Incorrect interconnection· 162

2.21.3 Configuration Error - Incorrect cable connected / Incorrect interconnection· 163

2.22 System Boot / Restart Initiated· 163

2.22.1 Initiated by power up· 163

2.22.2 Initiated by hard reset 164

2.22.3 Initiated by warm reset 164

2.22.4 System restart 165

2.23 Boot Error 165

2.23.1 No bootable media· 165

2.24 OS_BOOT· 166

2.24.1 C: boot completed· 166

2.24.2 Boot completed - boot device not specified· 166

2.25 OS Stop / Shutdown· 167

2.25.1 Run-time Critical Stop· 167

2.25.2 OS Graceful Stop· 167

2.25.3 OS Graceful Shutdown· 168

2.26 Slot / Connector 168

2.26.1 Device disabled: PCIe module information not obtained· 168

2.26.2 Fault Status asserted· 169

2.26.3 Transition to Non-Critical from OK· 169

2.27 System ACPI Power State· 170

2.27.1 S0 / G0 "working" 170

2.27.2 S0 / G0 "working" 170

2.27.3 S5 / G2 "soft-off" 171

2.27.4 S5 / G2 "soft-off" 171

2.27.5 S4 / S5 soft-off, particular S4 / S5 state cannot be determined· 172

2.27.6 LPC Reset occurred· 172

2.28 Watchdog2· 173

2.28.1 Watchdog overflowAction:Timer expired· 173

2.28.2 Watchdog overflowAction:Hard Reset 174

2.28.3 Watchdog overflowAction:Power Down· 175

2.28.4 Watchdog overflowAction:Power Cycle· 176

2.29 Entity Presence· 177

2.29.1 Entity Present---License is about to expire· 177

2.29.2 Entity Disabled---License has expired· 177

2.30 Management Subsystem Health· 178

2.30.1 Controller access degraded or unavailable· 178

2.30.2 Controller access degraded or unavailable· 178

2.31 Battery· 179

2.31.1 Battery low (predictive failure) 179

2.31.2 Battery failed· 180

2.31.3 Battery presence detected· 180

2.32 Version Change· 181

2.32.1 Hardware incompatibility detected with associated Entity---Memory is not certified· 181


1 简介

本文档主要介绍HDM2告警日志的相关信息。

注:HDM2HDM的升级版本,为描述方便,以下内容HDM均表示HDM2

1.1  使用场景

当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同模块出现的故障产生告警,同时生成事件日志信息。用户获取到日志信息后,再通过日志信息中的相应字段在本文档中搜索定位到该日志信息,即可了解该日志信息的详细内容和处理建议,从而方便维护服务器的正常运行。

1.2  获取方式

·     通过HDM Web页面获取:登录到HDM Web页面,单击[远程运维/日志]菜单项,选择“一键收集”页签,进入一键收集页面,根据需要下载日志。

·     通过告警邮件获取:若用户已完成告警邮件的相关配置,可通过告警邮件获取设备告警信息。

·     通过第三方平台获取若用户已完成SNMPSMTPSYSLOG的相关配置,实现了HDM与第三方管理平台对接,则可通过第三方管理平台获取设备告警信息。

·     通过Redfish事件订阅服务器获取:若用户已完成远程订阅服务器的配置,当触发告警时,Redfish会将接收到的告警信息上传到远程订阅服务器。

·     通过IPMI命令获取:通过IPMItool以命令行的方式访问HDMIPMI接口,输入获取SEL日志的命令,可以获取事件日志信息。

1.3  告警级别

服务器系统的告警包含服务器系统所有部件产生的告警,当产生告警时,需要根据告警信息来定位告警产生的具体原因,告警信息按严重性分为四个等级。

·     正常(Info):

服务器正常运行产生的事件日志,不影响服务器正常运行,无需处理。

·     轻微(Minor):

当前未对系统产生大影响,但可能存在一定风险和隐患,可对相关事件进行观察,必要时采取相应的措施,防止故障升级。

·     严重(Major):

已对系统产生较大的影响,有可能中断系统或业务模块(计算、存储、通信、用户数据安全性)的正常运行,导致业务中断。

·     紧急(Critical):

因出现系统处理单元能力严重下降、系统可用资源明显减少、业务处理能力严重下降、业务模块大面积中断、存储设备不可用等现象,导致(或极可能导致)服务器失效、系统宕机、业务数据丢失等情况出现的,需要立即进行处理的告警。

1.4  内容说明

本文以表格的形式对告警日志信息进行介绍,各项的含义请参见1-1

表1-1 告警日志信息说明

表项

说明

举例

事件码

唯一标识一条告警日志信息,用16进制数来表示

0x02900002

可以通过事件码的最后一位的奇偶性来判断是告警触发还是告警解除。

·     偶数:告警触发

·     奇数:告警解除

日志内容

显示日志信息的具体内容。

如出现多条内容一样的日志,可以通过上报的传感器类型来区分

Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2

参数解释

对日志中出现的参数进行解释,参数名称用“$数字”表示,如$1XXXX

·     $1:电压传感器的当前读数

·     $2:电压传感器的严重高压告警阈值

日志等级

日志等级

严重

举例

日志真实举例内容

Exceeded the upper major threshold.---Current reading:2.58---Threshold reading:2.56

对系统的影响

解释告警事件对系统的影响

电压过高会影响设备各器件性能,出现运行不稳定的情况

日志产生原因

解释日志产生的原因

板内电压异常

处理建议

建议用户应采取哪些处理措施,对于建议措施无法解决的问题,请联系技术支持

1.     检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作

2.     登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作

3.     若问题仍然存在,请联系技术支持

 

1.5  适用产品

本手册适用于以下产品:

·     H3C UniServer R3950 G6

·     H3C UniServer R4300 G6

·     H3C UniServer R4500 G6

·     H3C UniServer R4700 G6

·     H3C UniServer R4700LE G6

·     H3C UniServer R4900 G6

·     H3C UniServer R4900 G6 Ultra

·     H3C UniServer R4900 LE G6 Ultra

·     H3C UniServer R4950 G6

·     H3C UniServer R5300 G6

·     H3C UniServer R5350 G6

·     H3C UniServer R5500 G6

·     H3C UniServer B5700 G6

·     H3C UniServer R6700 G6

·     H3C UniServer R6900 G6

 

 


2 事件告警

2.1  Temperature

2.1.1  Dropped below the lower minor threshold

事件码

0x01000002

日志内容

Dropped below the lower minor threshold---Current reading:$1---Threshold reading:$2

日志含义

温度传感器检测到当前温度低于轻微级别的低温告警阈值

参数解释

$1:温度传感器的当前读数

$2:温度传感器的轻微级别低温告警阈值()

日志等级

轻微(Minor

举例

Dropped below the lower minor threshold---Current reading:8--Threshold reading:10

对系统的影响

温度过低会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有上升,告警一直存在,会导致温度进一步降低产生严重级别的告警。因此,产生低温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过低

处理建议

·     请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.1.2  Dropped below the lower major threshold

事件码

0x01200002

日志内容

Dropped below the lower major threshold---Current reading:$1---Threshold reading:$2

日志含义

温度传感器检测到当前温度低于严重级别的低温告警阈值

参数解释

$1:温度传感器的当前读数

$2:温度传感器的严重级别低温告警阈值()

日志等级

严重(Major

举例

Dropped below the lower major threshold---Current reading:4--Threshold reading:5

对系统的影响

温度过低会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有上升,告警一直存在,会导致温度进一步降低产生紧急级别的告警。因此,产生低温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过低

处理建议

·     请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.1.3  Dropped below the lower critical threshold

事件码

0x01400002

日志内容

Dropped below the lower critical threshold---Current reading:$1---Threshold reading:$2

日志含义

温度传感器检测到当前温度低于紧急级别的低温告警阈值

参数解释

$1:温度传感器的当前读数

$2:温度传感器的紧急级别低温告警阈值()

日志等级

紧急(Critical

举例

Dropped below the lower critical threshold---Current reading:0--Threshold reading:1

对系统的影响

设备运行在超低温环境下,会降低设备器件性能,影响设备寿命,影响业务,产生宕机

日志产生原因

环境温度过低

处理建议

·     请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.1.4  Exceeded the upper minor threshold

事件码

0x01700002

日志内容

Exceeded the upper minor threshold---Current reading:$1---Threshold reading:$2

日志含义

温度传感器检测到当前温度高于轻微级别的高温告警阈值

参数解释

$1:温度传感器的当前读数

$2:温度传感器的轻微级别高温告警阈值()

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold---Current reading:85---Threshold reading:80

对系统的影响

温度过高会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有降低,告警一直存在,会导致温度进一步升高产生严重级别的告警。因此,产生高温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过高、进风口、出风口堵塞、风扇转速过低等

处理建议

·     请确认机房温度是否过高,如果是,请调整机房温度,如果否;请执行下一步操作

·     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

·     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

·     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.1.5  Exceeded the upper major threshold

事件码

0x01900002

日志内容

Exceeded the upper major threshold---Current reading:$1---Threshold reading:$2

日志含义

温度传感器检测到当前温度高于严重级别的高温告警阈值

参数解释

$1:温度传感器的当前读数

$2:温度传感器的严重级别高温告警阈值()

日志等级

严重(Major

举例

Exceeded the upper major threshold---Current reading:90---Threshold reading:88

对系统的影响

温度过高会影响设备各器件性能,出现运行不稳定的情况。

如果温度没有降低,告警一直存在,会导致温度进一步升高产生紧急级别的告警。因此,产生高温告警应尽早发现可能存在的问题,避免问题升级。

日志产生原因

环境温度过高、进风口、出风口堵塞、风扇转速过低等

处理建议

·     请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作

·     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

·     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

·     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.1.6  Exceeded the upper critical threshold

事件码

0x01b00002

日志内容

Exceeded the upper critical threshold---Current reading:$1---Threshold reading:$2

日志含义

温度传感器检测到当前温度高于紧急级别的高温告警阈值

参数解释

$1:温度传感器的当前读数

$2:温度传感器的紧急级别高温告警阈值()

日志等级

紧急(Critical

举例

Exceeded the upper critical threshold---Current reading:95---Threshold reading:90

对系统的影响

设备运行在超高温环境下,会降低设备器件性能,影响设备寿命,增加能耗,影响业务,产生宕机

日志产生原因

环境温度过高、进风口、出风口堵塞、风扇转速过低

处理建议

·     请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作

·     确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作

·     登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作

·     登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.2  Voltage

2.2.1  Dropped below the lower minor threshold

事件码

0x02000002

日志内容

Dropped below the lower minor threshold---Current reading:$1---Threshold reading:$2

日志含义

电压传感器检测到当前电压低于轻微级别的低压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的轻微级别低压告警阈值

日志等级

轻微(Minor

举例

Dropped below the lower minor threshold---Current reading:8--Threshold reading:10

对系统的影响

电压过低会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

板内电压异常

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.2  Dropped below the lower major threshold

事件码

0x02200002

日志内容

Dropped below the lower major threshold---Current reading:$1---Threshold reading:$2

日志含义

电压传感器检测到当前电压低于严重级别的低压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的严重级别低压告警阈值

日志等级

严重(Major

举例

Dropped below the lower major threshold---Current reading:4--Threshold reading:5

对系统的影响

电压过低会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

板内电压异常

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.3  Dropped below the lower major threshold

事件码

0x02220002

日志内容

Dropped below the lower major threshold---Current reading:$1---Threshold reading:$2

日志含义

内存PMIC电压读数低于严重级别的低压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的严重级别低压告警阈值

日志等级

严重(Major

举例

Dropped below the lower major threshold---Current reading:1.10---Threshold reading:2

对系统的影响

影响内存性能,可能导致系统性能降低

日志产生原因

当内存PMIC电压读数低于低压严重告警阈值时,产生此告警。

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换内存

·     若问题仍然存在,请联系技术支持

 

2.2.4  Dropped below the lower critical threshold

事件码

0x02400002

日志内容

Dropped below the lower critical threshold---Current reading:$1---Threshold reading:$2

日志含义

电压传感器检测到当前电压低于紧急级别的低压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的紧急级别低压告警阈值

日志等级

紧急(Critical

举例

Dropped below the lower critical threshold---Current reading:0--Threshold reading:1

对系统的影响

设备运行在超低压环境下,影响系统供电;或使单板下电, 导致系统宕机

日志产生原因

板内电压异常

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.5  Exceeded the upper minor threshold

事件码

0x02700002

日志内容

Exceeded the upper minor threshold---Current reading:$1---Threshold reading:$2

日志含义

电压传感器检测到当前电压高于轻微级别的高压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的轻微级别高压告警阈值

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold---Current reading:85---Threshold reading:80

对系统的影响

电压过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

板内电压异常

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.6  Exceeded the upper major threshold

事件码

0x02900002

日志内容

Exceeded the upper major threshold---Current reading:$1---Threshold reading:$2

日志含义

电压传感器检测到当前电压高于严重级别的高压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的严重级别高压告警阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold---Current reading:90---Threshold reading:88

对系统的影响

电压过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

板内电压异常

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.7  Exceeded the upper major threshold

事件码

0x02920002

日志内容

Exceeded the upper major threshold---Current reading:$1---Threshold reading:$2

日志含义

内存PMIC电压读数高于严重级别的高压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的严重级别高压告警阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold---Current reading:1.10---Threshold reading:1

对系统的影响

影响内存性能,可能导致系统性能降低

日志产生原因

内存PMIC电压高于当前的电压严重告警阈值时,产生此告警

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换内存

·     若问题仍然存在,请联系技术支持

 

2.2.8  Exceeded the upper critical threshold

事件码

0x02b00002

日志内容

Exceeded the upper critical threshold---Current reading:$1---Threshold reading:$2

日志含义

电压传感器检测到当前电压高于紧急级别的高压告警阈值

参数解释

$1:电压传感器的当前读数

$2:电压传感器的紧急级别高压告警阈值

日志等级

紧急(Critical

举例

Exceeded the upper critical threshold---Current reading:95---Threshold reading:90

对系统的影响

设备运行在超高压环境下,影响系统供电;或使单板下电,导致系统宕机

日志产生原因

板内电压异常

处理建议

·     请检查该日志是否在上下电过程中上报,如果是则忽略该告警

·     正常运行过程中发生该故障请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.9  Transition to Non-recoverable from less severe

事件码

0x1530200e

日志内容

Transition to Non-recoverable from less severe

日志含义

HDD Bay电源故障

参数解释

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe

对系统的影响

造成HDD Bay功能异常,影响系统的可靠性

日志产生原因

HDD Bay电压异常

处理建议

·     重新插拔HDD Bay节点,确保节点彻底AC下电后,重新上电开机

·     如果重新上电开机后,现象依旧,请更换HDD Bay备件

·     若问题仍然存在,联系技术支持

 

2.2.10  Transition to Non-recoverable from less severe

事件码

0x0230a00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure ($1)

日志含义

电源故障

参数解释

$1AC lost

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure (AC lost)

对系统的影响

整机AC掉电

日志产生原因

CPLD检测到所有PSUACFAIL信号

处理建议

·     建议检查设备的供电网络是否出现过异常,例如电网波动、PDU异常、国标电源线接触不良等

·     若供电网络没有异常,建议检查PSU,如果问题存在,请更换PSU备件

·     若问题仍然存在,请联系技术支持

 

2.2.11  Transition to Non-recoverable from less severe

事件码

0x0230d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure on $1

日志含义

MEZZ电源故障

参数解释

$1Mezz1Mezz2Mezz3

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure on Mezz3

对系统的影响

会导致整机立即下电,进入电源故障状态

挂耳上的指示灯高频闪烁(电源按键灯闪红色;UID按键灯闪蓝色;NIC灯闪绿色;健康灯闪红色)且状态不再受控制,待消除故障重新上电后恢复

日志产生原因

CPLD检测到MEZZPGD信号

处理建议

·     重新插拔电源线,确认机台是否正常上电开机,如果无法重新上电,请更换对应MEZZ备件

·     若问题仍然存在,请联系技术支持

 

2.2.12  Transition to Non-recoverable from less severe

事件码

0x0230200e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure on $1

日志含义

扣板CPU电源故障

参数解释

$1CPU电源故障类型(包括PVCCD_HV_CPU3PVPP_HBM_CPU3PVCCFA_EHV_CPU3PVCCFA_EHV_FIVRA_CPU3PVCCINFAON_CPU3PVNN_MAIN_CPU3PVCCIN_CPU3PVCCD_HV_CPU4PVPP_HBM_CPU4PVCCFA_EHV_CPU4PVCCFA_EHV_FIVRA_CPU4PVCCINFAON_CPU4PVNN_MAIN_CPU4PVCCIN_CPU4

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure (PVCCD_HV_CPU3)

对系统的影响

会导致整机立即下电,进入电源故障状态

挂耳上的指示灯高频闪烁(电源按键灯闪红色;UID按键灯闪蓝色;NIC灯闪绿色;健康灯闪红色)且状态不再受控制,待消除故障重新上电后恢复

日志产生原因

CPU内部电源故障,扣板上对应CPU电源的VR芯片出现过流、过压或欠压等故障

处理建议

·     请检查是否有AC下电,如果有AC下电则请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换扣板

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.13  Transition to Non-recoverable from less severe

事件码

0x0231d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure on $1

日志含义

RAID电源故障

参数解释

$1RAID card

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure on RAID card

对系统的影响

会导致整机立即下电,进入电源故障状态

挂耳上的指示灯高频闪烁(电源按键灯闪红色;UID按键灯闪蓝色;NIC灯闪绿色;健康灯闪红色)且状态不再受控制,待消除故障重新上电后恢复

日志产生原因

CPLD检测到RAID转接卡的PGD信号

处理建议

·     重新插拔电源线,确认机台是否正常上电开机,如果无法重新上电,请更换对应RAID转接板备件

·     若问题仍然存在,请联系技术支持

 

2.2.14  Transition to Non-recoverable from less severe

事件码

0x0231190e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_DIMM_PMIC_ERROR_1-6P1_DIMM_AF_PMIC_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_DIMM_PMIC_ERROR_1-6)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     重新插拔CPU11-6内存

·     检查CPU是否拧紧

·     检查CPU SOCKET中是否有弯针或异物

·     若问题仍然存在,请联系技术支持

 

2.2.15  Transition to Non-recoverable from less severe

事件码

0x02311a0e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_DIMM_PMIC_ERROR_7-12P1_DIMM_GL_PMIC_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_DIMM_PMIC_ERROR_7-12)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     重新插拔CPU17-12内存

·     检查CPU是否拧紧

·     检查CPU SOCKET中是否有弯针或异物

·     若问题仍然存在,请联系技术支持

 

2.2.16  Transition to Non-recoverable from less severe

事件码

0x02311b0e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_DIMM_PMIC_ERROR_1-6P2_DIMM_AF_PMIC_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_DIMM_PMIC_ERROR_1-6)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     重新插拔CPU21-6内存

·     检查CPU是否拧紧

·     检查CPU SOCKET中是否有弯针或异物

·     若问题仍然存在,请联系技术支持

 

2.2.17  Transition to Non-recoverable from less severe

事件码

0x02311c0e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_DIMM_PMIC_ERROR_7-12P2_DIMM_GL_PMIC_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_DIMM_PMIC_ERROR_7-12)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     重新插拔CPU27-12内存

·     检查CPU是否拧紧

·     检查CPU SOCKET中是否有弯针或异物

·     若问题仍然存在,请联系技术支持

 

2.2.18  Transition to Non-recoverable from less severe

事件码

0x0231500e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

OCP网卡电源供电异常

参数解释

$1OCP1 network cardOCP2 network cardOCP3 network card

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(OCP1 network card)

对系统的影响

会引起系统下电

日志产生原因

OCP网卡电源供电异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换对应OCP网卡备件

·     如果问题仍未解决,请更换转接卡

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.19  Transition to Non-recoverable from less severe

事件码

0x0233000e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1BMC_network_PHY_P1V0BMC_network_PHY_P1V8

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(BMC_network_PHY_P1V0)

对系统的影响

会引起系统下电

日志产生原因

BMC插卡电源供电异常

处理建议

·     请检查是否有AC下电,如果有AC下电则请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换对应BMC插卡备件

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.20  Transition to Non-recoverable from less severe

事件码

0x0233a00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1DSD card

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(DSD card)

对系统的影响

会引起系统下电

日志产生原因

DSD卡电源供电异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换对应DSD卡备件

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.21  Transition to Non-recoverable from less severe

事件码

0x0233d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V)

对系统的影响

会引起系统下电

日志产生原因

P12V电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     建议依次检查PSU、风扇、RISER以及硬盘背板、主板

·     明确故障部件后,更换对应部件

·     若问题仍然存在,请联系技术支持

 

2.2.22  Transition to Non-recoverable from less severe

事件码

0x0233e00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P5V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P5V)

对系统的影响

会引起系统下电

日志产生原因

P5V电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换BMC插卡备件

·     如果问题仍未解决,请更换后部背板备件

·     若问题仍然存在,请联系技术支持

 

2.2.23  Transition to Non-recoverable from less severe

事件码

0x0233f00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P5V_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P5V_STBY)

对系统的影响

会引起系统下电

日志产生原因

P5V电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     若问题仍然存在,请联系技术支持

 

2.2.24  Transition to Non-recoverable from less severe

事件码

0x0234000e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_STBY)

对系统的影响

会引起系统下电

日志产生原因

P12V电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换OCP3备件

·     如果问题仍未解决,请更换风扇备件

·     若问题仍然存在,请联系技术支持

 

2.2.25  Transition to Non-recoverable from less severe

事件码

0x0234100e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V Overcurrent

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V Overcurrent)

对系统的影响

会引起系统下电

日志产生原因

P12V信号电流异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换风扇

·     如果问题仍未解决,请更换内存

·     若问题仍然存在,请联系技术支持

 

2.2.26  Transition to Non-recoverable from less severe

事件码

0x0234200e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCD_HV_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCD_HV_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.27  Transition to Non-recoverable from less severe

事件码

0x0234300e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVPP_HBM_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVPP_HBM_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.28  Transition to Non-recoverable from less severe

事件码

0x0234400e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCFA_EHV_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCFA_EHV_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.29  Transition to Non-recoverable from less severe

事件码

0x0234500e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCFA_EHV_FIVRA_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCFA_EHV_FIVRA_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.30  Transition to Non-recoverable from less severe

事件码

0x0234600e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCINFAON_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCINFAON_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.31  Transition to Non-recoverable from less severe

事件码

0x0234700e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVNN_MAIN_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVNN_MAIN_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.32  Transition to Non-recoverable from less severe

事件码

0x0234800e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCIN_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCIN_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.33  Transition to Non-recoverable from less severe

事件码

0x0234900e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCD_HV_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCD_HV_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.34  Transition to Non-recoverable from less severe

事件码

0x0234a00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVPP_HBM_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVPP_HBM_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.35  Transition to Non-recoverable from less severe

事件码

0x0234b00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCFA_EHV_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCFA_EHV_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.36  Transition to Non-recoverable from less severe

事件码

0x0234c00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCFA_EHV_FIVRA_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCFA_EHV_FIVRA_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.37  Transition to Non-recoverable from less severe

事件码

0x0234d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCINFAON_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCINFAON_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.38  Transition to Non-recoverable from less severe

事件码

0x0234e00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVNN_MAIN_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVNN_MAIN_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.39  Transition to Non-recoverable from less severe

事件码

0x0234f00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCIN_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCIN_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板备件

·     如果问题仍未解决,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.2.40  Transition to Non-recoverable from less severe

事件码

0x0235000e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P3V3_STBY_A

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P3V3_STBY_A)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.41  Transition to Non-recoverable from less severe

事件码

0x0235100e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P5V_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P5V_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换BMC插卡

·     若问题仍然存在,请联系技术支持

 

2.2.42  Transition to Non-recoverable from less severe

事件码

0x0235200e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换PSU

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.43  Transition to Non-recoverable from less severe

事件码

0x0235300e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换PSU

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.44  Transition to Non-recoverable from less severe

事件码

0x0235400e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_1V8_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_1V8_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.45  Transition to Non-recoverable from less severe

事件码

0x0235500e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_3V3_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_3V3_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.46  Transition to Non-recoverable from less severe

事件码

0x0235600e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_1V8_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_1V8_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.47  Transition to Non-recoverable from less severe

事件码

0x0235700e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_3V3_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_3V3_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.48  Transition to Non-recoverable from less severe

事件码

0x0235800e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_VDDCR1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_VDDCR1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.49  Transition to Non-recoverable from less severe

事件码

0x0235900e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_VDDCR0

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_VDDCR0)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.50  Transition to Non-recoverable from less severe

事件码

0x0235a00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_VDDCR_SOC

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_VDDCR_SOC)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.51  Transition to Non-recoverable from less severe

事件码

0x0235b00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_VDDIO

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_VDDIO)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.52  Transition to Non-recoverable from less severe

事件码

0x0235c00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU1_1V1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU1_1V1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.53  Transition to Non-recoverable from less severe

事件码

0x0235d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_VDDCR1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_VDDCR1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.54  Transition to Non-recoverable from less severe

事件码

0x0235e00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_VDDCR0

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_VDDCR0)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.55  Transition to Non-recoverable from less severe

事件码

0x0235f00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_VDDCR_SOC

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_VDDCR_SOC)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.56  Transition to Non-recoverable from less severe

事件码

0x0236000e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_VDDIO

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_VDDIO)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.57  Transition to Non-recoverable from less severe

事件码

0x0236100e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU2_1V1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU2_1V1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.58  Transition to Non-recoverable from less severe

事件码

0x0236200e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1OCP1 network card

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(OCP1 network card)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换OCP1网卡

·     若问题仍然存在,请联系技术支持

 

2.2.59  Transition to Non-recoverable from less severe

事件码

0x0236300e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1OCP2 network card

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(OCP2 network card)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换OCP2网卡

·     若问题仍然存在,请联系技术支持

 

2.2.60  Transition to Non-recoverable from less severe

事件码

0x0236400e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1OCP3 network card

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(OCP3 network card)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换OCP3网卡

·     若问题仍然存在,请联系技术支持

 

2.2.61  Transition to Non-recoverable from less severe

事件码

0x0236500e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1AC lost

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(AC lost)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换电源

·     若问题仍然存在,请联系技术支持

 

2.2.62  Transition to Non-recoverable from less severe

事件码

0x0236600e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.63  Transition to Non-recoverable from less severe

事件码

0x0236700e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.64  Transition to Non-recoverable from less severe

事件码

0x0236900e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1RISER_P12V_OCP

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(RISER_P12V_OCP)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换riser

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.65  Transition to Non-recoverable from less severe

事件码

0x0236a00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1CPU_DIMM_P12V_OCP

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU_DIMM_P12V_OCP)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请检查是否有其它关于内存、CPU或主板的告警,如果有,请更换对应部件

·     如果没有对应部件告警,请更换内存

·     如果问题仍未解决,请更换CPU

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.66  Transition to Non-recoverable from less severe

事件码

0x0236b00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V_BP_FRONT

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_BP_FRONT)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换前置背板

·     若问题仍然存在,请联系技术支持

 

2.2.67  Transition to Non-recoverable from less severe

事件码

0x0236c00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V_BP_REAR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_BP_REAR)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换后置背板

·     若问题仍然存在,请联系技术支持

 

2.2.68  Transition to Non-recoverable from less severe

事件码

0x0236d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P5V_BP

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P5V_BP)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换背板

·     若问题仍然存在,请联系技术支持

 

2.2.69  Transition to Non-recoverable from less severe

事件码

0x0236e00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V Overcurrent

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V Overcurrent)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换电风扇

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.70  Transition to Non-recoverable from less severe

事件码

0x0237100e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换riser

·     如果问题仍未解决,请更换背板

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.71  Transition to Non-recoverable from less severe

事件码

0x0237200e

日志内容

Transition to Non-recoverable from less severe($1)

日志含义

CPU过温

参数解释

$1CPU1_THERMTRIPCPU2_THERMTRIP

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe(CPU1_THERMTRIP)

对系统的影响

问题出现前,整机发生卡顿直至卡死,而后整机下电,进入待机状态

日志产生原因

CPU实际温度超过最大规格温度,CPU主动降频,如果主动降频后一定时间内CPU依然过温,则触发Thermtrip信号,CPU停止工作

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换CPUCPU散热器

·     若问题仍然存在,请联系技术支持

 

2.2.72  Transition to Non-recoverable from less severe

事件码

0x0237300e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1REAR_4SFF_EFUSEP12V_BP_REAR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(REAR_4SFF_EFUSE)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换后置4sff背板

·     若问题仍然存在,请联系技术支持

 

2.2.73  Transition to Non-recoverable from less severe

事件码

0x0237400e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1RISER2_GPU_EFUSEP12V_SLOT_2_3

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(RISER2_GPU_EFUSE)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换riser2

·     若问题仍然存在,请联系技术支持

 

2.2.74  Transition to Non-recoverable from less severe

事件码

0x0237500e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1RISER1_GPU_EFUSEP12V_SLOT_0_1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(RISER1_GPU_EFUSE)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换riser1

·     若问题仍然存在,请联系技术支持

 

2.2.75  Transition to Non-recoverable from less severe

事件码

0x0237600e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1) ---SW CpldReg 0x30:$2, 0x31:$3

日志含义

单板供电异常

参数解释

$1SW

$2SW板寄存器0x30的值

$3SW板寄存器0x31的值

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(SW) ---SW CpldReg 0x30:0x01, 0x31:0x40

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换switch

·     若问题仍然存在,请联系技术支持

 

2.2.76  Transition to Non-recoverable from less severe

事件码

0x0237900e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1UART_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(UART_ERROR)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.77  Transition to Non-recoverable from less severe

事件码

0x0237c00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1SWCPLD_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(SWCPLD_ERROR)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换switch

·     若问题仍然存在,请联系技术支持

 

2.2.78  Transition to Non-recoverable from less severe

事件码

0x0237d00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P5V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P5V)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换BMC插卡

·     如果问题仍未解决,请更换后置背板

·     若问题仍然存在,请联系技术支持

 

2.2.79  Transition to Non-recoverable from less severe

事件码

0x0237a00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_STBY)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果问题仍未解决,请更换电源

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.80  Transition to Non-recoverable from less severe

事件码

0x0237b00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1BMCCPLD_ERROR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(BMCCPLD_ERROR)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换BMC插卡

·     若问题仍然存在,请联系技术支持

 

2.2.81  Transition to Non-recoverable from less severe

事件码

0x0237e00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1RISER_P12V_PWR

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(RISER_P12V_PWR)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换riser

·     若问题仍然存在,请联系技术支持

 

2.2.82  Transition to Non-recoverable from less severe

事件码

0x0237f00e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCD_HV_CPU1PVPP_HBM_CPU1PVCCFA_EHV_CPU1PVCCFA_EHV_FIVRA_CPU1PVCCINFAON_CPU1PVNN_MAIN_CPU1PVCCIN_CPU1

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCD_HV_CPU1)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU1

·     若问题仍然存在,请联系技术支持

 

2.2.83  Transition to Non-recoverable from less severe

事件码

0x0238000e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1PVCCD_HV_CPU2PVPP_HBM_CPU2PVCCFA_EHV_CPU2PVCCFA_EHV_FIVRA_CPU2PVCCINFAON_CPU2PVNN_MAIN_CPU2PVCCIN_CPU2

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(PVCCD_HV_CPU2)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     如果问题仍未解决,请更换CPU2

·     若问题仍然存在,请联系技术支持

 

2.2.84  Transition to Non-recoverable from less severe

事件码

0x0238100e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

单板供电异常

参数解释

$1P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V)

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.85  Transition to Non-recoverable from less severe

事件码

0x0238400e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

风扇板电源告警

参数解释

$1FAN_P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(FAN_P12V)

对系统的影响

会导致整机立即下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换风扇板

·     如果问题仍未解决,请更换电源板

·     如果问题仍未解决,请更换风扇

·     若问题仍然存在,请联系技术支持

 

2.2.86  Transition to Non-recoverable from less severe

事件码

0x0238500e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

USB HUB电源告警

参数解释

$1USB_HUB_P1V2_STBY

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(USB_HUB_P1V2_STBY)

对系统的影响

会导致整机立即下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换BMC插卡UP/DOWN USB对应设备

·     如果问题仍未解决,请更换iFIST模块

·     如果问题仍未解决,请更换主板

·     如果问题仍未解决,请更换内置USB

·     若问题仍然存在,请联系技术支持

 

2.2.87  Transition to Non-recoverable from less severe

事件码

0x0238600e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

内存电源告警

参数解释

$1DIMM_P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(DIMM_P12V)

对系统的影响

会导致整机立即下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换DIMM

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.88  Transition to Non-recoverable from less severe

事件码

0x0238700e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

CPU电源告警

参数解释

$1CPU_P12V

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(CPU_P12V)

对系统的影响

会导致整机立即下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换CPU

·     如果问题仍未解决,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.2.89  Transition to Non-recoverable from less severe

事件码

0x0238800e

日志内容

Transition to Non-recoverable from less severe---System detected a power supply failure($1)

日志含义

GPU电源告警

参数解释

$1P12V_BP_REAR_GPU

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe---System detected a power supply failure(P12V_BP_REAR_GPU)

对系统的影响

会导致整机立即下电

日志产生原因

板内电压异常

处理建议

·     请检查是否有AC下电,如果有AC下电请重新插拔电源线,确认机台能否正常上电开机

·     如果没有AC下电,请更换电源板

·     如果问题仍未解决,请更换后置GPU

·     若问题仍然存在,请联系技术支持

 

2.3  Current

2.3.1  Transition to Critical from less severe

事件码

0x0320000e

日志内容

Transition to Critical from less severe

日志含义

服务器过流

参数解释

日志等级

严重(Major

举例

Transition to Critical from less severe

对系统的影响

单板下电,影响系统业务

日志产生原因

对应部件电流异常

处理建议

·     通过HDM Web告警页面检查电源模块与主板是否存在异常告警

·     确保供电系统能正常供电、电压正常

·     若问题仍然存在,请联系技术支持

 

2.3.2  Exceeded the upper minor threshold

事件码

0x03700002

日志内容

Exceeded the upper minor threshold---Current reading:$1---Threshold reading:$2

日志含义

电流传感器检测到当前电流高于轻微级别的电流告警阈值

参数解释

$1:电流传感器的当前读数

$2:电流传感器轻微级别的电流告警阈值

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold---Current reading:85---Threshold reading:80

对系统的影响

电流过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

对应部件电流异常

处理建议

·     更换对应部件

·     若问题仍然存在,请联系技术支持

 

2.3.3  Exceeded the upper major threshold

事件码

0x03900002

日志内容

Exceeded the upper major threshold---Current reading:$1---Threshold reading:$2

日志含义

电流传感器检测到当前电流高于严重级别的电流告警阈值

参数解释

$1:电流传感器的当前读数

$2:电流传感器严重级别的电流告警阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold---Current reading:90---Threshold reading:88

对系统的影响

电流过高会影响设备各器件性能,出现运行不稳定的情况。

日志产生原因

对应部件电流异常

处理建议

·     更换对应部件

·     若问题仍然存在,请联系技术支持

 

2.3.4  Exceeded the upper major threshold

事件码

0x03920002

日志内容

Exceeded the upper major threshold---Current reading:$1---Threshold reading:$2

日志含义

内存PMIC电流读数高于当前设置的严重告警阈值

参数解释

$1:电流传感器的当前读数

$2:电流传感器严重级别的电流告警阈值

日志等级

严重(Major

举例

Exceeded the upper major threshold---Current reading:0.50---Threshold reading:0.20

对系统的影响

影响内存性能,可能导致系统性能降低

日志产生原因

内存PMIC电流读数高于当前设置的严重告警阈值时,产生此告警。

处理建议

·     更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.3.5  Exceeded the upper critical threshold

事件码

0x03b00002

日志内容

Exceeded the upper critical threshold---Current reading:$1---Threshold reading:$2

日志含义

电流传感器检测到当前电流高于紧急级别的电流告警阈值

参数解释

$1:电流传感器的当前读数

$2:电流传感器的紧急级别电流告警阈值

日志等级

紧急(Critical

举例

Exceeded the upper critical threshold---Current reading:95---Threshold reading:90

对系统的影响

 可能导致部件损坏,进而引起宕机

日志产生原因

板内电流异常

处理建议

·     更换对应部件

·     若问题仍然存在,请联系技术支持

 

2.4  Fan

2.4.1  Predictive Failure deasserted

事件码

0x04000008

日志内容

Predictive Failure deasserted

日志含义

电源风扇预故障解除

参数解释

日志等级

正常(Info

举例

Predictive Failure deasserted

对系统的影响

对系统无影响

日志产生原因

电源风扇状态恢复正常

处理建议

无需处理

 

2.4.2  Predictive Failure asserted

事件码

0x04000008

日志内容

Predictive Failure asserted

日志含义

电源风扇预故障发生

参数解释

日志等级

轻微(Minor

举例

Predictive Failure asserted

对系统的影响

会导致电源预故障

日志产生原因

电源风扇状态异常

处理建议

·     请检查电源模块是否有异物导致电源风扇停转,若有请清除异物

·     若问题仍然存在,请重新拔插电源模块

·     若问题仍然存在,请更换对应的电源模块

·     若问题仍然存在,请联系技术支持

 

2.4.3  Transition to Running

事件码

0x04000014

日志内容

Transition to Running

日志含义

对应风扇设备处于运行状态

参数解释

日志等级

正常(Info

举例

Transition to Running

对系统的影响

对系统无影响

日志产生原因

风扇正常运行

处理建议

无需处理

 

2.4.4  Transition to Off Line

事件码

0x04400014

日志内容

Transition to Off Line

日志含义

当检测到服务器指定风扇模块不在位时,会产生该事件

参数解释

日志等级

正常(Info

举例

Transition to Off Line

对系统的影响

影响系统散热功能,降低主板器件性能

日志产生原因

风扇模块被拔出、风扇模块与主板接触不良

处理建议

·     如果风扇被移除,建议重新安装风扇

·     请检查风扇与主板连接器针脚是否正常,若存在异常更换对应部件,否则请重新插拔风扇,确保风扇接触良好

·     若问题仍然存在,建议更换风扇

·     若问题仍然存在,请联系技术支持

 

2.4.5  Transition to Degraded

事件码

0x04600014

日志内容

Transition to Degraded

日志含义

风扇处于降级状态

参数解释

日志等级

严重(Major

举例

Transition to Degraded

对系统的影响

影响系统散热功能,降低主板器件性能

日志产生原因

风扇转速异常

处理建议

·     通过HDM Web页面查看风扇转速确认风扇故障原因,如果转速偏低可能是风扇老化导致,如果转速接近零可能是风扇被异物堵住或风扇故障。

·     如果风扇被异物堵塞,建议清理风扇

·     若问题仍然存在,建议更换风扇

·     若问题仍然存在,请联系技术支持

 

2.4.6  Fully Redundant

事件码

0x04000016

日志内容

Fully Redundant

日志含义

风扇满配

参数解释

日志等级

正常(Info

举例

Fully Redundant

对系统的影响

对系统无影响

日志产生原因

风扇满配

处理建议

无需处理

 

2.4.7  Non-redundant:Sufficient Resources from Redundant

事件码

0x04300016

日志内容

Non-redundant:Sufficient Resources from Redundant

日志含义

风扇冗余丢失,不影响系统散热

参数解释

日志等级

严重(Major

举例

Non-redundant:Sufficient Resources from Redundant

对系统的影响

不影响系统散热

日志产生原因

风扇失效或者不在位

处理建议

·     如果风扇被移除,建议重新安装风扇

·     请重新插拔风扇,确保风扇接触良好

·     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

·     若问题仍然存在,请联系技术支持

 

2.4.8  Non-redundant:Insufficient Resources

事件码

0x04500016

日志内容

Non-redundant:Insufficient Resources

日志含义

风扇冗余丢失,影响系统散热

参数解释

日志等级

紧急(Critical

举例

Non-redundant:Insufficient Resources

对系统的影响

影响系统散热功能,导致系统过热,主机下电关机

日志产生原因

风扇失效或者不在位

处理建议

·     如果风扇被移除,建议重新安装风扇

·     请重新插拔风扇,确保风扇接触良好

·     如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇

·     若问题仍然存在,请联系技术支持

 

2.5  Physical Security

2.5.1  General Chassis Intrusion

事件码

0x050000de

日志内容

General Chassis Intrusion

日志含义

机箱盖打开

参数解释

日志等级

轻微(Minor

举例

General Chassis Intrusion

对系统的影响

无影响

日志产生原因

机箱盖打开

处理建议

·     检查是否有人为打开机箱的操作

·     检查机箱盖是否正确安装,必要时可打开机盖再关闭,确认日志是否消失

·     检查开箱告警模块与挂耳连接是否正常

·     若问题仍然存在,请联系技术支持

 

2.5.2  LAN Leash Lost

事件码

0x054000de

日志内容

LAN Leash Lost

日志含义

共享口网络断开

参数解释

日志等级

正常(Info

举例

LAN Leash Lost

对系统的影响

无影响

日志产生原因

HDMNCSI通道检测网络物理层断开

处理建议

·     确认OS内是否对网卡进行禁用,若是则无需处理

·     若系统在开关机阶段上报此日志,可忽略

·     检查共享网口网线是否正常连接

·     若无需使用共享网口,请关闭共享网口

·     若问题仍然存在,请联系技术支持

 

2.6  Processor

2.6.1  IERR

事件码

0x070000de

日志内容

$1 IERR err---Socket $2

日志含义

CPU内部检测到错误

参数解释

$1:信号类型,包括:MSMICATERR

$2:产生错误的CPU

日志等级

紧急(Critical

举例

CATERR IERR err---Socket 1

对系统的影响

会造成系统宕机,之后系统默认会自动重启

日志产生原因

CPU内部检测到错误,比如PCUPackage Control Unit)发生了不可纠正错误时,会产生此告警

处理建议

·     升级最新的BIOSHDM固件版本,如问题还在,请执行下一步

·     结合和该日志同时上报的具体部件事件日志进行处理

·     若问题仍然存在,请联系技术支持

 

2.6.2  MCERR

事件码

0x070010de

日志内容

$1 MCERR err---Socket $2

日志含义

CPU内部检测到错误

参数解释

$1:信号类型,包括:MSMICATERR

$2:产生错误的CPU编号

日志等级

紧急(Critical

举例

CATERR MCERR err---Socket 1

对系统的影响

可能会引起系统宕机

日志产生原因

CPU内部检测到错误,比如内存发生了不可纠正错误时,会产生此告警

处理建议

·     升级最新的BIOSHDM固件版本,如问题仍然存在,请执行下一步

·     CPU检测到内部错误产生本日志,通过描述信息进一步检查硬件信息和传感器页面是否有错误或被禁用

·     通过上下文日志检查是否存在内存、PCIeUPI故障,根据对应上下文日志的处理建议进行故障排除

 

2.6.3  Thermal Trip

事件码

0x071000de

日志内容

Thermal Trip

日志含义

CPU过温

参数解释

日志等级

紧急(Critical

举例

Thermal Trip

对系统的影响

会引起主机下电

日志产生原因

CPU过热时,触发该事件,会关机下电

处理建议

·     登录HDM Web页面,检查风扇状态是否正常

·     插拔或者更换转速告警的风扇模块

·     检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内

·     检查入风口/出风口是否堵塞,移除阻塞物

·     将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电

·     若是液冷机型,请关注是否存在液冷装置相关告警

·     若问题仍然存在,请联系技术支持

 

2.6.4  FRB1/BIST failure

事件码

0x072000de

日志内容

FRB1/BIST failure.

日志含义

CPU自检错误

参数解释

日志等级

轻微(Minor

举例

FRB1/BIST failure

对系统的影响

可能导致操作系统无法正常启动、硬件降额使用

日志产生原因

在系统启动时,当CPU自检错误时产生此告警

处理建议

·     执行关机并重启操作

·     如果问题仍然存在,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.6.5  FRB2/Hang in POST failure

事件码

0x073000de

日志内容

FRB2/Hang in POST failure

日志含义

 BIOS启动超时

参数解释

日志等级

严重(Major

举例

FRB2/Hang in POST failure

对系统的影响

操作系统无法正常启动

日志产生原因

BIOS启动超时

处理建议

·     更新BIOS固件,确认问题是否仍然存在

·     若问题仍然存在,请联系技术支持

 

2.6.6  FRB3/Processor Startup/Initialization failure

事件码

0x074000de

日志内容

FRB3/Processor Startup/Initialization failure

日志含义

BIOS启动超时

参数解释

日志等级

轻微(Minor

举例

FRB3/Processor Startup/Initialization failure

对系统的影响

操作系统无法正常启动

日志产生原因

BIOS启动超时

处理建议

·     更新BIOS固件,确认问题是否仍然存在

·     若问题仍然存在,请联系技术支持

 

2.6.7  Configuration Error

事件码

0x075000de

日志内容

Configuration Error---$1, ErrorType: $2,Severity: $3, Component: $4, IIO Stack: $5, Location: Socket: $6

Configuration Error--- ErrorType: $2,Severity: $3, Failed Core: $7, Location: Socket: $6

日志含义

CPU配置错误

参数解释

$1:产生错误的时间,可能是Current Boot Error/ Last Boot Error.

$2:错误类型,可能是IIO Internal Error/Spare core Error

$3:故障等级

$4:故障部件

$5I/O栈编号

$6CPU编号

$7core编号

日志等级

轻微(Minor

举例

Configuration Error---Current Boot Error, ErrorType: IIO Internal Error,Severity:Correctable, Component:VTD, IIO Stack: 1, Location: Socket: 1

对系统的影响

操作系统无法正常启动

日志产生原因

主系统CPU在运行过程中检测到内部可纠正错误信息

处理建议

在服务器运行期间检测到可纠正的内部错误,例如IIO内部错误、CPU Core错误等会产生该日志。可纠正的内部错误无需处理

 

2.6.8  Processor Presence detected

事件码

0x077000df

日志内容

Processor Presence detected

日志含义

CPU在位状态变化

参数解释

日志等级

正常(Info/紧急(Critical

举例

Processor Presence detected

对系统的影响

若主CPU不在位会导致系统无法启动

日志产生原因

当主CPU不在位或者安装有误时会触发该事件解除日志

处理建议

·     检查主CPU是否安装正确

·     如主CPU故障,请更换CPU

·     若问题仍然存在,请联系技术支持

 

2.6.9  Processor Automatically Throttled

事件码

0x07a000de

日志内容

Processor Automatically Throttled---due to fan error

日志含义

因风扇故障导致CPU降频

参数解释

日志等级

轻微(Minor

举例

Processor Automatically Throttled---due to fan error

对系统的影响

CPU降频导致系统性能下降

日志产生原因

风扇故障导致CPU降频

处理建议

·     检查风扇调速模式与当前业务模型是否匹配

·     检查环境温度是否过高,入风口或出风口是否被堵住

·     检查风扇是否被异物阻塞,或风扇是否故障

·     查看风扇状态,如果风扇故障,请更换故障风扇

·     若问题仍然存在,请联系技术支持

 

2.6.10  Processor Automatically Throttled

事件码

0x07a010de

日志内容

Processor Automatically Throttled---prochot

日志含义

CPU过温导致降频

参数解释

日志等级

轻微(Minor

举例

Processor Automatically Throttled---prochot

对系统的影响

CPU降频导致系统性能下降

日志产生原因

CPU过温导致降频

处理建议

·     登录HDM Web页面,检查风扇状态是否正常

·     插拔或者更换转速告警的风扇模块

·     检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内

·     检查入风口/出风口是否堵塞,移除阻塞物

·     将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电

·     若是液冷机型,请关注是否存在液冷装置相关告警

·     若问题仍然存在,请联系技术支持

 

2.6.11  Processor Automatically Throttled

事件码

0x07a020de

日志内容

Processor Automatically Throttled---memhot

日志含义

内存过温导致CPU降频

参数解释

日志等级

轻微(Minor

举例

Processor Automatically Throttled---memhot

对系统的影响

CPU降频导致系统性能下降

日志产生原因

内存过温导致CPU降频

处理建议

·     登录HDM Web页面,检查风扇状态是否正常

·     插拔或者更换转速告警的风扇模块

·     检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内

·     检查入风口/出风口是否堵塞,移除阻塞物

·     若是液冷机型,请关注是否存在液冷装置相关告警

·     若问题仍然存在,请联系技术支持

 

2.6.12  Machine Check Exception

事件码

0x07b000de

日志内容

Machine Check Exception---$1---$2---Location: Socket:$3

日志含义

CPU产生 uncorrectable error

参数解释

$1:指明错误类型

$2:指明这一次启动还是上一次启动产生的错误

$3:指明哪个CPU产生了错误

日志等级

紧急(Critical

举例

Machine Check Exception---PIE---Last Boot Error---Location: Socket:1

对系统的影响

可能导致系统停止响应

日志产生原因

仅在AMD机型中,当CPU产生uncorrectable error时,会产生该事件

处理建议

·     检查OS是否有对应故障存在,排除软件问题

·     检查CPU微码,评估是否升级微码

·     升级BIOSHDM到最新版本

·     若问题仍然存在,请联系技术支持

 

2.6.13  Triggered a uncorrectable error

事件码

0x07b201de

日志内容

CPU $1 triggered a uncorrectable error.

日志含义

CPU触发了不可纠正错误

参数解释

$1CPU编号

日志等级

紧急(Critical

举例

CPU 1 triggered a uncorrectable error.

对系统的影响

可能导致系统停止响应

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为CPU uncorrectable error

处理建议

·     升级最新的BIOSHDM固件版本,如问题还在,请执行下一步

·     将服务器安全下电, 请更换CPU,查看告警是否消失

·     若问题仍然存在,请联系技术支持

 

2.6.14  Triggered a correctable error

事件码

0x07c201de

日志内容

CPU $1 triggered a correctable error.

日志含义

CPU触发了可纠正错误

参数解释

$1CPU编号

日志等级

轻微(Minor

举例

CPU 1 triggered a correctable error.

对系统的影响

对系统无影响

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为CPU correctable error

处理建议

无需处理

 

2.6.15  Machine Check Exception

事件码

0x07b100de

日志内容

Machine Check Exception---HBM error---Location: Socket:$1

日志含义

HBM故障

参数解释

$1CPU编号

日志等级

紧急(Critical

举例

Machine Check Exception---HBM error---Location: Socket:1

对系统的影响

可能导致系统停止响应

日志产生原因

HBM故障时,会产生该事件

处理建议

·     检查OS是否有对应故障存在

·     检查CPU微码,升级BIOSHDM到最新版本

·     将服务器安全下电, 请更换一个正常运行的CPU,查看告警是否消失

·     若问题仍然存在,请联系技术支持

 

2.6.16  Correctable Machine Check Error

事件码

0x07c000de

日志内容

Correctable Machine Check Error---$1---$2---Location: Socket:$3

日志含义

仅在AMD机型中,当发生TWIXWAFLSMU等可纠正错误时,会产生该告警

参数解释

$1:指明错误类型

$2:指明这一次启动还是上一次启动产生的错误

$3:指明哪个CPU产生了错误

日志等级

轻微(Minor

举例

Correctable Machine Check Error---PIE---Current Boot Error---Location: Socket:1

对系统的影响

可纠正错误,对系统无影响

日志产生原因

仅在AMD机型中,当发生TWIXWAFLSMU等可纠正错误时,会产生该告警

处理建议

无需处理

 

2.6.17  Correctable Machine Check Error

事件码

0x07c050de

日志内容

Correctable Machine Check Error---$1---Location: Socket:$2

日志含义

CPU产生correctable error

参数解释

$1CPU错误类型,取值有Cache ErrorTLB ErrorBus ErrorMicro-architectural Error

$2CPU编号

日志等级

轻微(Minor

举例

Correctable Machine Check Error---Cache Error---Location: Socket:1

对系统的影响

可纠正错误,对系统无影响

日志产生原因

CPU产生可纠正错误时,会产生该事件

处理建议

无需处理

 

2.6.18  Correctable Machine Check Error

事件码

0x07c100de

日志内容

Correctable Machine Check Error---HBM error---Location: Socket:$1

日志含义

HBM上检测到可纠正错误事件

参数解释

$1CPU编号

日志等级

轻微(Minor

举例

Correctable Machine Check Error---HBM error---Location: Socket:1

对系统的影响

可纠正错误,对系统无影响

日志产生原因

HBM上检测到可纠正错误事件

处理建议

无需处理

 

2.6.19  Machine Check Exception

事件码

0x07b001de

日志内容

Machine Check Exception---$1, Bank: $2,Severity:$3, Error Info:$4, Location: Socket: $5

日志含义

CPU不可纠正MCE故障

参数解释

$1:产生错误的时间,这一次启动或上一次启动                                               

$2:故障bank

$3:故障等级

$4:故障信息

$5CPU编号

日志等级

紧急(Critical

举例

Machine Check Exception---Current Boot Error, Bank: IFU,Severity:FATAL, Error Info:Cache, Location: Socket: 1

对系统的影响

可能导致系统停止响应

日志产生原因

CPU内部故障时,会产生该事件

处理建议

·     检查OS是否有对应故障存在

·     检查CPU微码,升级BIOSHDM到最新版本

·     如果问题依然存在,根据Bank位置初步确定故障范围并检查是否有其他告警日志产生

·     将服务器安全下电,更换一个正常运行的CPU或者外设,查看告警是否消失

·     请更换主板,查看告警是否消失

 

2.6.20  Correctable Machine Check Error

事件码

0x07c001de

日志内容

Correctable Machine Check Error---$1, Bank: $2,Severity:$3, Error Info:$4, Location: Socket: $5

日志含义

CPU可纠正MCE故障

参数解释

$1:产生错误的时间,这一次启动或上一次启动                                               

$2:故障bank

$3:故障等级

$4:故障信息

$5CPU编号

日志等级

轻微(Minor

举例

Correctable Machine Check Error---Current Boot Error, Bank: IFU,Severity:Corrected, Error Info:Cache, Location: Socket: 1

对系统的影响

可纠正错误,对系统无影响

日志产生原因

CPU内部产生可纠正故障时,会触发该事件

处理建议

无需处理

2.7  Power Supply

2.7.1  Presence detected

事件码

0x080000de

日志内容

Presence detected

日志含义

电源在位

参数解释

日志等级

正常(Info

举例

Presence detected

对系统的影响

对系统无影响

日志产生原因

当检测到电源模块插入时,该事件触发,表示电源模块从不在位变为在位状态

当检测到电源模块拔出时,该事件解除,表示电源模块从在位状态变为不在位状态

处理建议

若电源模块被移除,建议重新安装电源

 

2.7.2  Power Supply Failure detected

事件码

0x081000de

日志内容

Power Supply Failure detected

日志含义

电源故障

参数解释

日志等级

严重(Major

举例

Power Supply Failure detected

对系统的影响

影响系统供电,可能导致系统异常下电

日志产生原因

检测到电源故障

处理建议

·     请重新拔插电源模块

·     若问题仍然存在,请更换对应的电源模块

·     若问题仍然存在,请联系技术支持

 

2.7.3  Power Supply Predictive Failure

事件码

0x082000de

日志内容

Power Supply Predictive Failure

日志含义

电源预故障

参数解释

日志等级

严重(Major

举例

Power Supply Predictive Failure

对系统的影响

电源模块可能会出现故障,影响系统供电

日志产生原因

检测到电源模块故障

处理建议

·     请检查电源模块是否有异物导致电源风扇停转,若有请清除异物

·     若问题仍然存在,请重新拔插电源模块

·     若问题仍然存在,请更换对应的电源模块

·     若问题仍然存在,请联系技术支持

 

2.7.4  Power Supply input lost (AC/DC)

事件码

0x083000de

日志内容

Power Supply input lost (AC/DC)

日志含义

电源输入异常

参数解释

日志等级

严重(Major

举例

Power Supply input lost (AC/DC)

对系统的影响

可能导致服务器异常下电

日志产生原因

电源的AC电源线缆被拔出或者AC输入异常

处理建议

·     确认电源输入是否正常

·     确认所有电源线未损坏且连接正确

·     确认所有电源模块都已正确安装

·     若问题仍然存在,请联系技术支持

 

2.7.5  Power Supply input lost or out-of-range

事件码

0x084000de

日志内容

Power Supply input lost or out-of-range

日志含义

电源输入电压超出额定范围

参数解释

日志等级

严重(Major

举例

Power Supply input lost or out-of-range

对系统的影响

可能导致服务器异常下电

日志产生原因

 电源输入电压超出额定范围

处理建议

·     确认电源输入是否正常

·     确认所有电源线未损坏且连接正确

·     确认所有电源模块都已正确安装

·     若问题仍然存在,请联系技术支持

 

2.7.6  Power Supply input out-of-range - but present

事件码

0x085000de

日志内容

Power Supply input out-of-range - but present

日志含义

电源的输入电压过高

参数解释

日志等级

严重(Major

举例

Power Supply input out-of-range - but present

对系统的影响

电源输入异常,超过支持的范围,可能会导致服务器下电

日志产生原因

电源的输入电压过高

处理建议

·     检查电源模块输入电压是否正常

·     检查电源线和电源模块是否安装正确

·     重新拔插电源模块,确保电源接触良好

·     检查电源模块的风扇是否停转

·     若问题仍然存在,请联系技术支持

 

2.7.7  Configuration error ---Vendor mismatch

事件码

0x086000de

日志内容

Configuration error ---Vendor mismatch

日志含义

电源未认证通过

参数解释

日志等级

轻微(Minor

举例

Configuration error ---Vendor mismatch

对系统的影响

非原厂认证部件,存在未知风险

日志产生原因

安装了非原厂认证的电源模块

处理建议

请安装原厂认证的电源模块

 

2.7.8  Configuration error---Power Supply rating mismatch

事件码

0x086030de

日志内容

Configuration error --- Power Supply rating mismatch

日志含义

电源型号不匹配

参数解释

日志等级

轻微(Minor

举例

Configuration error --- Power Supply rating mismatch

对系统的影响

可能会导致供电不稳定,系统异常下电

日志产生原因

安装了原厂认证的电源,但是两个电源之间的型号不匹配

处理建议

·     请确保电源型号一致

·     若问题仍然存在,请联系技术支持

 

2.7.9  Configuration error---Power supply rating mismatch

事件码

0x086200de

日志内容

Configuration error---Power supply rating mismatch:PSU$1,POUT:$2W

日志含义

电源功率不一致

参数解释

$1PSU ID12

$2:电源的输出功率

日志等级

轻微(Minor

举例

Configuration error---Power supply rating mismatch:PSU1,POUT:2000W

对系统的影响

可能会导致供电不稳定,系统异常下电

日志产生原因

已安装电源的额定功率可能不一致

处理建议

·     请确保电源型号一致

·     若问题仍然存在,请联系技术支持

 

2.7.10  Power Supply Inactive/standby state

事件码

0x087000de

日志内容

Power Supply Inactive/standby state

日志含义

电源冷备份

参数解释

日志等级

正常(Info

举例

Power Supply Inactive/standby state

对系统的影响

状态描述,通常无影响

日志产生原因

电源退出冷备模式,当设置了备用电源的功能,如果当前设备的运行功率过高,备用电源会自动退出冷备份模式,给设备进行供电

处理建议

无需处理

 

2.7.11  PSU failure detected by CPLD

事件码

0x088000de

日志内容

PSU failure detected by CPLD

日志含义

电源故障

参数解释

日志等级

紧急(Critical

举例

PSU failure detected by CPLD

对系统的影响

可能会导致供电不稳定,系统异常下电

日志产生原因

服务器发生了AC电源故障

处理建议

·     请检查环境温度是否过高、电源风扇是否异常等环境问题

·     重新拔插电源模块,检查告警是否消失

·     更换对应的电源,检查告警是否消失

 

2.7.12  Redundancy Lost

事件码

0x08100016

日志内容

Redundancy Lost

日志含义

电源冗余丢失

参数解释

日志等级

严重(Major

举例

Redundancy Lost

对系统的影响

电源冗余失效,降低设备供电可靠性

日志产生原因

电源冗余失效

处理建议

·     检查电源模块供电环境是否正常

·     检查是否有电源模块被移除

·     检查是否有电源模块和电源线缆接触不良

·     检查是否存在电源相关故障告警日志,判断是否为电源故障

·     若问题仍然存在,请联系技术支持

 

2.8  Power Unit

2.8.1  Power limit is exceeded over correction time limit

事件码

0x095010de

日志内容

Power limit is exceeded over correction time limit---$1 Current Power: $2W.

日志含义

系统功率超过设定功率封顶值

参数解释

$1:GPU/整机功耗无此参数

$2:当前功率值

日志等级

轻微(Minor

举例

GPUPower limit is exceeded over correction time limit---GPU Current Power: 2000W

整机:Power limit is exceeded over correction time limit---Current Power: 2000W

对系统的影响

 功率封顶失效会执行预定策略

日志产生原因

功率封顶功能,当功率超过一定时间后触发该告警

处理建议

·     建议调整功率封顶阈值或调整GPU工作负载

·     若问题仍然存在,请联系技术支持

 

2.9  Cooling Device

2.9.1  Transition to OK

事件码

0x0a00000e

日志内容

Transition to OK

日志含义

液冷散热模块在位且无故障

参数解释

日志等级

正常(Info

举例

Transition to OK

对系统的影响

无影响

日志产生原因

液冷散热模块在位且无故障

处理建议

无需处理

 

2.9.2  Transition to Non-recoverable---Liquid leakage occurred

事件码

0x0a60000e

日志内容

Transition to Non-recoverable---Liquid leakage occurred

日志含义

液冷散热模块破损或接触异常

参数解释

日志等级

紧急(Critical

举例

Transition to Non-recoverable---Liquid leakage occurred

对系统的影响

对仅支持CPU液冷装置的机型,影响CPU散热;对支持CPUGPU液冷装置的机型,影响CPUGPU散热

日志产生原因

当发生液体泄漏时,会生成该消息

处理建议

·     检查液体冷却装置是否正常工作或是否发生液体泄漏

·     更换液体冷却模块

 

2.9.3  Transition to Non-recoverable from less severe

事件码

0x0a30000e

日志内容

Transition to Non-recoverable from less severe--- Liquid Cooler not present

日志含义

液冷装置不在位

参数解释

日志等级

轻微(Minor

举例

Transition to Non-recoverable from less severe--- Liquid Cooler not present

对系统的影响

对系统的影响    对产生告警的不在位液冷装置所部署的元器件散热性能有部分影响

日志产生原因

某支持多个液冷装置的机器发生一个液冷装置不在位(或对应漏液检测线缆未插)的情况

处理建议

·     检查不在位液冷装置的漏液检测线缆是否松动,若松动请AC下电并重新连接漏液检测线缆

·     若问题仍然存在,请联系技术支持

 

2.9.4  Transition to Non-Critical from OK--- Liquid leakage detection cable is disconnected

事件码

0x0a10000e

日志内容

Transition to Non-Critical from OK--- Liquid leakage detection cable is disconnected

日志含义

无法检测到液冷设备

参数解释

日志等级

严重(Major

举例

Transition to Non-Critical from OK--- Liquid leakage detection cable is disconnected

对系统的影响

无法检测冷却液泄漏情况

日志产生原因

无法检测到液体泄漏传感器

处理建议

·     检查液体冷却装置是否存在

·     检查液体泄漏传感器是否安装正确

·     更换液体冷却模块

 

2.10  Other Units-based Sensor

2.10.1  Exceeded the upper minor threshold

事件码

0x0b700002

日志内容

Exceeded the upper minor threshold---Current reading:$1---Threshold reading:$2

日志含义

功率超过阈值

参数解释

$1: 功率当前值

$2: 功率轻微级别告警阈值

日志等级

轻微(Minor

举例

Exceeded the upper minor threshold---Current reading:20---Threshold reading:18

对系统的影响

功率超过最大值,会导致系统下电

日志产生原因

功率超过阈值

处理建议

·     通过HDM Web页面检查阈值设置是否合理

·     通过HDM Web页面检查服务器总功率是否过高

·     检查电源总功率是否满足业务需求

·     若问题仍然存在,请联系技术支持

 

2.11  Memory

2.11.1  Correctable ECC or other correctable memory error

事件码

0x0c0000de

日志内容

Correctable ECC or other correctable memory error--$1-Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

内存可纠正错误

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印

日志等级

轻微(Minor

举例

Correctable ECC or other correctable memory error---Current Boot Error-Location:CPU:1 CH:1 DIMM:0 A1

对系统的影响

对系统无影响对系统无影响

日志产生原因

内存的可纠正错误

处理建议

无需处理

 

2.11.2  Correctable ECC or other correctable memory error

事件码

0x0c0020de

日志内容

Correctable ECC or other correctable memory error---$1---Location:CPU:$2 CH:$3 DIMM:$4

日志含义

内存可纠正错误

参数解释

$1:错误类型,取值有ECCParityCRCOther

$2CPU编号

$3:通道编号

$4:内存编号

日志等级

轻微(Minor

举例

Correctable ECC or other correctable memory error---CRC---Location:CPU:1 CH:1 DIMM:0

对系统的影响

对系统无影响

日志产生原因

内存的可纠正错误

处理建议

无需处理

 

2.11.3  Correctable ECC or other correctable memory error

事件码

0x0c0050de

日志内容

Correctable ECC or other correctable memory error---$1---Location:CPU:$2 CH:$3 DIMM:$4

日志含义

内存可纠正错误

参数解释

$1Memory错误类型,取值有UnknownNo errorSingle-bit ECCMulti-bit ECCSingle-symbol ChipKill ECCMulti-symbol ChipKill ECCMaster abortTarget abortWatchdog timeoutInvalid addressMirror BrokenMemory SparingPhysical Memory Map-out event

$2CPU编号

$3:通道编号

$4:内存编号

日志等级

轻微(Minor

举例

Correctable ECC or other correctable memory error---Unknown---Location:CPU:1 CH:1 DIMM:0

对系统的影响

对系统无影响

日志产生原因

内存的可纠正错误

处理建议

无需处理

 

2.11.4  Correctable ECC or other correctable memory error

事件码

0x0c0600de

日志内容

Correctable ECC or other correctable memory error---$1---$2---Location:CPU$2 CH:$3 DIMM:$4

日志含义

内存可纠正错误

参数解释

$1:错误类型,取值有ECCParityCRC

$2:指明是哪次启动产生的错误,可能是Current Boot Error/ Last Boot Error

$3CPU编号

$4:通道编号

$5:内存编号

日志等级

轻微(Minor

举例

Correctable ECC or other correctable memory error---ECC---Current Boot Error---Location:CPU1 CH:8 DIMM:0

对系统的影响

对系统无影响

日志产生原因

内存的可纠正错误

处理建议

无需处理

 

2.11.5  CPU triggered a correctable error

事件码

0x0c0500de

日志内容

CPU $1 $2 triggered a correctable error

日志含义

内存可纠正错误

参数解释

$1CPU编号

$2:内存丝印

日志等级

轻微(Minor

举例

CPU 1 A0 triggered a correctable error

对系统的影响

对系统无影响

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为内存correctable error

处理建议

无需处理

 

2.11.6  Uncorrectable ECC or other uncorrectable memory error

事件码

0x0c1000de

日志内容

Uncorrectable ECC or other uncorrectable memory error--$1-Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

内存不可纠正ECC错误

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印

日志等级

严重(Major

举例

Uncorrectable ECC or other uncorrectable memory error---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1

对系统的影响

可能导致系统停止响应(除非内存在某些RAS模式,例如mirrorMCA recovery

日志产生原因

发生了一个不可纠正的(多位bit跳变)ECC错误

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.7  Uncorrectable ECC or other uncorrectable memory error

事件码

0x0c1020de

日志内容

Uncorrectable ECC or other uncorrectable memory error--$1-Location:CPU:$2 CH:$3 DIMM:$4

日志含义

内存不可纠正ECC错误

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

日志等级

严重(Major

举例

Uncorrectable ECC or other uncorrectable memory error---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1

对系统的影响

可能导致系统停止响应

日志产生原因

发生了一个不可纠正的(多位bit跳变)ECC错误

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.8  Uncorrectable ECC or other uncorrectable memory error

事件码

0x0c1050de

日志内容

Uncorrectable ECC or other uncorrectable memory error---$1---$2---Location:CPU:$3 CH:$4 DIMM:$5

日志含义

内存不可纠正错误

参数解释

$1:区分uncorrectable error的两种类型,取值有fatalnon-fatal

$2Memory错误类型,取值有UnknownNo errorSingle-bit ECCMulti-bit ECCSingle-symbol ChipKill ECCMulti-symbol ChipKill ECCMaster abortTarget abortWatchdog timeoutInvalid addressMirror BrokenMemory SparingPhysical Memory Map-out event

$3CPU编号

$4:通道编号

$5:内存编号

日志等级

严重(Major

举例

Uncorrectable ECC or other uncorrectable memory error---fatal---Single-bit ECC---Location: CPU:1 CH:1 DIMM:0

对系统的影响

可能导致系统停止响应

日志产生原因

发生了一个不可纠正的错误

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.9  Triggered an uncorrectable error

事件码

0x0c1500de

日志内容

CPU$1 $2 triggered an uncorrectable error

日志含义

内存不可纠正错误

参数解释

$1CPU编号

$2:内存丝印

日志等级

严重(Major

举例

CPU1 A0 triggered an uncorrectable error

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

触发IERR或者MCERR错误,BMC诊断结果为内存uncorrectable error

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.10  Uncorrectable ECC or other uncorrectable memory error

事件码

0x0c1600de

日志内容

Uncorrectable ECC or other uncorrectable memory error---$1---$2---Location:CPU$3 CH:$4 DIMM:$5

日志含义

内存不可纠正错误

参数解释

$1:错误类型,取值有ECCParityCRC

$2:产生错误启动时间,可能是Current Boot Error/ Last Boot Error

$3CPU编号

$4:通道编号

$5:内存编号

日志等级

严重(Major

举例

Uncorrectable ECC or other uncorrectable memory error---ECC---Last Boot Error---Location:CPU1 CH:8 DIMM:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

发生不可纠正的ECC或其他不可纠正的错误时生成

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.11  Parity

事件码

0x0c2000de

日志内容

Parity ---$1---Location: Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

内存数据奇偶校验失败

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印

日志等级

轻微(Minor

举例

Parity---Current Boot Error-Location:CPU:1 CH:1 DIMM:0 A0

对系统的影响

对系统无影响

日志产生原因

该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常

处理建议

无需处理

 

2.11.12  Parity

事件码

0x0c2020de

日志内容

Parity---Location:CPU:$1 CH:$2 DIMM:$3

日志含义

内存数据奇偶校验失败

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

日志等级

轻微(Minor

举例

Parity---Location:CPU:1 CH:1 DIMM:0

对系统的影响

对系统无影响

日志产生原因

该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常。在SEL中记录了命令/地址奇偶校验错误,并记录访问的DIMM

处理建议

无需处理

 

2.11.13  Parity

事件码

0x0c2050de

日志内容

Parity---Location:CPU:$1 CH:$2 DIMM:$3

日志含义

内存数据奇偶校验失败

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

日志等级

轻微(Minor

举例

Parity---Location:CPU:1 CH:1 DIMM:0

对系统的影响

对系统无影响

日志产生原因

该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常。在SEL中记录了命令/地址奇偶校验错误,并记录访问的DIMM

处理建议

无需处理

 

2.11.14  Parity---An uncorrectable error occurs during the memory test phase

事件码

0x0c20b1c4

日志内容

Parity---An uncorrectable error occurs during the memory test phase---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

memtest阶段产生的UCE

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---An uncorrectable error occurs during the memory test phase---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

memtest阶段产生UCE

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.15  Parity---The memory interleaving configuration cannot meet the requirements of the server

事件码

0x0c20e014

日志内容

Parity---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

SAD规则数超过限制

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

配置错误,内存交错配置不满足服务器的要求

处理建议

请联系技术支持

 

2.11.16  Parity---The memory interleaving configuration cannot meet the requirements of the server

事件码

0x0c20e024

日志内容

Parity---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

TAD规则数超过限制

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低可能导致系统性能降低

日志产生原因

配置错误,内存交错配置不满足服务器的要求

处理建议

请联系技术支持

 

2.11.17  Parity---The memory interleaving configuration cannot meet the requirements of the server

事件码

0x0c20e0e4

日志内容

Parity---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

RIR规则数超过限制

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

配置错误,内存交错配置不满足服务器的要求

处理建议

请联系技术支持

 

2.11.18  Parity---CMD eye width is too small

事件码

0x0c226014

日志内容

Parity---CMD eye width is too small---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

CMD眼宽太小

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---CMD eye width is too small---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

CMD眼宽太小

处理建议

·     根据告警信息确认内存槽位

·     查看内存金手指、内存槽位是否有异物并清洁异物

·     若问题仍然存在,请更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.19  Parity---CmdPiGroup: No Eye width

事件码

0x0c226024

日志内容

Parity---CmdPiGroup: No Eye width---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

CMD眼宽不存在

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---CmdPiGroup: No Eye width---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

CMD眼宽不存在

处理建议

·     根据告警信息确认内存槽位

·     查看内存金手指、内存槽位是否有异物并清洁异物

·     若问题仍然存在,请更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.20  Parity---The command is not in the FNv table

事件码

0x0c228004

日志内容

Parity---The command is not in the FNv table---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

发送的命令不在FNv table

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---The command is not in the FNv table---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

发送的命令不在FNv table

处理建议

请联系技术支持

 

2.11.21  Parity---Memory read DqDqs training failed

事件码

0x0c231134

日志内容

Parity---Memory read DqDqs training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存读取DqDqs训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory read DqDqs training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存读取DqDqs训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.22  Parity---Memory Receive Enable Training Error

事件码

0x0c231144

日志内容

Parity---Memory Receive Enable Training Error---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存的Receive Enable信号无法训练出对应的时序

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory Receive Enable Training Error---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存Faulty Parts Tracking故障,内存的Receive Enable信号无法训练出对应的时序

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.23  Parity---Memory write DqDqs training failed

事件码

0x0c231164

日志内容

Parity---Memory write DqDqs training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存写入DqDqs训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Memory write DqDqs training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存写入DqDqs训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.24  Parity---An error occurrs during memory test, and the rank is disabled

事件码

0x0c2311c4

日志内容

Parity---An error occurrs during memory test, and the rank is disabled---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

在内存测试期间发生错误,该列已禁用

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---An error occurrs during memory test, and the rank is disabled---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

在内存测试期间发生错误,该rank已禁用

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.25  Parity---LRDIMM RCVEN training failed

事件码

0x0c231264

日志内容

Parity---LRDIMM RCVEN training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

LRDIMM RCVEN训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---LRDIMM RCVEN training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

LRDIMM RCVEN训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.26  Parity---Read delay training failed

事件码

0x0c231284

日志内容

Parity---Read delay training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

读取延迟训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Read delay training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

读取延迟训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.27  Parity---Write delay training failed

事件码

0x0c2312b4

日志内容

Parity---Write delay training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

写入延迟训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Write delay training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

写入延迟训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.28  Parity---Mapped out because failed critical mask test at cold boot

事件码

0x0c28c024

日志内容

Parity---Mapped out because failed critical mask test at cold boot---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

由于冷启动时关键掩码测试失败而映射出

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Mapped out because failed critical mask test at cold boot---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

冷启动过程中该内存关键掩码检测失败被标记映射为缺陷区域

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.29  Parity---Invalid SPD contents

事件码

0x0c2ed094

日志内容

Parity---Invalid SPD contents---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

无效的SPD内容

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Invalid SPD contents---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

无效的SPD内容

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.30  Parity---The DCPMM memory modules of the unexpected model are installed

事件码

0x0c2ed0c4

日志内容

Parity---The DCPMM memory modules of the unexpected model are installed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

不支持的DCPMM

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---The DCPMM memory modules of the unexpected model are installed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

插入不支持的DCPMM

处理建议

·     根据告警类型确认DCPMM规格更换DCPMM内存

·     若问题仍然存在,请联系技术支持

 

2.11.31  Parity---Failed to set the VDD voltage of the DIMM

事件码

0x0c2f0014

日志内容

Parity---Failed to set the VDD voltage of the DIMM---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

设置DIMM VDD电压失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---Failed to set the VDD voltage of the DIMM---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

软件数据结构异常

处理建议

·     请更换对应内存

·     若问题仍然存在,请更换主板

·     若问题仍然存在,请联系技术支持

 

2.11.32  Parity---Delay exceeded

事件码

0x0c214024

日志内容

Parity---Delay exceeded---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

程序执行超时

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微

举例

Parity---Delay exceeded---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

程序执行超时

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.33  Parity---Timing error occurred during signal line adjustment for memory write leveling training

事件码

0x0c215014

日志内容

Parity---Timing error occurred during signal line adjustment for memory write leveling training---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

write leveling调整信号线时序异常

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微

举例

Parity---Timing error occurred during signal line adjustment for memory write leveling training---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

write leveling调整信号线时序异常

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.34  Parity---CS is not consistent with clock in timing, and the channel is isolated

事件码

0x0c229044

日志内容

Parity---CS is not consistent with clock in timing, and the channel is isolated---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

片选信号和时钟之间时序不匹配

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---CS is not consistent with clock in timing, and the channel is isolated---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

片选信号和时钟之间时序不匹配

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.35  Parity---CA is not consistent with clock in timing, and the channel is isolated

事件码

0x0c229054

日志内容

Parity---CA is not consistent with clock in timing, and the channel is isolated---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

CAclock之间时序不匹配

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---CA is not consistent with clock in timing, and the channel is isolated---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

CAclock之间时序不匹配

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.36  Parity---LRDIMM external coarse training failed

事件码

0x0c231204

日志内容

Parity---LRDIMM external coarse training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

LRDIMM外部精简训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---LRDIMM external coarse training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

LRDIMM外部精简训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.37  Parity---LRDIMM external fine training failed

事件码

0x0c231214

日志内容

Parity---LRDIMM external fine training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

LRDIMM外部精细训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---LRDIMM external fine training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

LRDIMM外部精细训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.38  Parity---LRDIMM internal coarse training failed

事件码

0x0c231224

日志内容

Parity---LRDIMM internal coarse training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

LRDIMM内部精简训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Parity---LRDIMM internal coarse training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

LRDIMM内部精简训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.39  Parity---LRDIMM internal fine training failed

事件码

0x0c231234

日志内容

Parity---LRDIMM internal fine training failed---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

LRDIMM内部精细训练失败

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

$4:内存丝印

日志等级

轻微(Minor

举例

Parity---LRDIMM internal fine training failed---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

LRDIMM内部精细训练失败

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.40  Memory Device Disabled---The Rank is disabled

事件码

0x0c40a034

日志内容

Memory Device Disabled---The rank is disabled---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

Rank被禁用

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

$4:内存丝印

日志等级

严重(Major

举例

Memory Device Disabled---The rank is disabled---Location:CPU:2 CH:1 DIMM:B1 Rank:1

对系统的影响

可能导致系统性能降低,不影响系统正常使用

日志产生原因

内存某个Rank被禁用,但不影响其余Rank使用

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.41  Memory Device Disabled---The DIMM is disabled

事件码

0x0c40a044

日志内容

Memory Device Disabled---The DIMM is disabled---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存被禁用

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

$4:内存丝印

日志等级

严重(Major

举例

Memory Device Disabled---The DIMM is disabled---Location:CPU:1 CH:1 DIMM:0 Rank:0

对系统的影响

可能导致系统性能降低

日志产生原因

内存被禁用

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.42  Memory Device Disabled

事件码

0x0c4000de

日志内容

Memory Device Disabled--$1---Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

内存被禁用

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印

日志等级

严重(Major

举例

Memory Device Disabled---Current Boot Error---Location:CPU:1 CH:1 DIMM:0 A1

对系统的影响

内存被禁用,导致系统性能降低

日志产生原因

系统启动过程中检测到内存故障

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.43  Memory Device Disabled

事件码

0x0c4020de

日志内容

Memory Device Disabled---Location:CPU:$2 CH:$3 DIMM:$4

日志含义

内存被禁用

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

日志等级

严重(Major

举例

Memory Device Disabled ---Location:CPU:1 CH:1 DIMM:0

对系统的影响

内存被禁用,可能导致系统性能降低

日志产生原因

系统启动过程中检测到内存故障

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.44  Correctable ECC or other memory error limit reached

事件码

0x0c5000de

日志内容

Correctable ECC or other memory error limit reached--$1---Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

内存CE达到设置到门限

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印  

日志等级

轻微(Minor

举例

Correctable ECC or other memory error limit reached---Current Boot Error---Location:CPU:1 CH:1 DIMM:0 A1

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存没有安装正确或者内存内部发生故障。内存的可纠正错误达到了设定的阈值,当设置对应的Memory RAS Mode后会执行对应RAS特性,不会引起系统崩溃。内存修复模式下,仍超过阈值

处理建议

·     重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物,环境温度湿度正常

·     BIOS中检查内存的漏斗门限是否过低。若过低,请在BIOS中调整漏斗门限值

·     若问题仍然存在,请联系技术支持

 

2.11.45  Correctable ECC or other memory error limit reached

事件码

0x0c5020de

日志内容

Correctable ECC or other correctable memory error logging limit reached---$1 $2:$3---Location:CPU:$4 CH:$5 DIMM:$6

日志含义

内存CE达到设置到门限

参数解释

$1MCA/UMC(CE Count Overflow时显示)

$2CE Count Overflow/Memory CE Storm Threshold/Memory CE Accumulation Threshold

$3:阈值

$4CPU编号

$5:通道编号

$6:内存编号

日志等级

轻微(Minor

举例

Correctable ECC or other correctable memory error logging limit reached---MCA CE Count Overflow:8769---Location:CPU:1 CH:5 DIMM:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存没有安装正确或者内存内部发生故障。内存的可纠正错误达到了设定的阈值,不会引起系统崩溃。内存修复模式下,仍超过阈值

处理建议

·     重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物,环境温度湿度正常

·     BIOS中检查内存的漏斗门限是否过低。若过低,请在BIOS中调整漏斗门限值

·     若问题仍然存在,请联系技术支持

 

2.11.46  Presence detected

事件码

0x0c6000de

日志内容

Presence detected

日志含义

内存在位

参数解释

日志等级

正常(Info

举例

Presence detected

对系统的影响

对系统无影响

日志产生原因

检测到内存在位

处理建议

无需处理

 

2.11.47  Memory patrol scrub CE occured

事件码

0x0c3010de

日志内容

Memory patrol scrub CE occured---$1---Location: Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

巡检可纠正错误

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印

日志等级

轻微(Minor

举例

Memory patrol scrub CE occured---Current Boot Error---Location:CPU:1 CH:1 DIMM:0 A0

对系统的影响

读取内存数据时校验失败,不影响系统正常运行

日志产生原因

巡检CE

该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常。在SEL中记录了命令/地址奇偶校验错误,并记录访问的DIMM

处理建议

无需处理

 

2.11.48  Memory patrol scrub UCE occurred and degraded to CE

事件码

0x0c3020de

日志内容

Memory patrol scrub UCE occurred and degraded to CE---$1---Location: Location:CPU:$2 CH:$3 DIMM:$4 $5

日志含义

内存巡检UCE降级CE

参数解释

$1:产生错误启动时间,Current Boot ErrorLast Boot Error

$2CPU编号

$3:通道编号

$4:内存编号

$5:内存丝印

日志等级

轻微(Minor

举例

Memory patrol scrub UCE occurred and degraded to CE---Current Boot Error---Location:CPU:1 CH:1 DIMM:0 A0

对系统的影响

读取内存数据是校验失败,不影响系统正常运行

日志产生原因

巡检UCE降级CE

该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常。在SEL中记录了命令/地址奇偶校验错误,并记录访问的DIMM

处理建议

无需处理

 

2.11.49  Memory patrol scrub CE occurred

事件码

0x0c3050de

日志内容

Memory scrub Failed---$1---Location: CPU:$2 CH:$3 DIMM:$4

日志含义

巡检可纠正错误

参数解释

$1Memory错误类型,取值有Scrub corrected error

$2CPU编号

$3:通道编号

$4:内存编号

日志等级

轻微(Minor

举例

Memory scrub Failed ---Scrub corrected error---Location: CPU:1 CH:1 DIMM:0

对系统的影响

读取内存数据时校验失败,不影响系统正常运行

日志产生原因

巡检发现的内存可纠正错误

处理建议

无需处理

 

2.11.50  Memory patrol scrub UCE occurred

事件码

0x0c3150de

日志内容

Memory scrub Failed---$1---Location: CPU:$2 CH:$3 DIMM:$4

日志含义

巡检不可纠正错误

参数解释

$1Memory错误类型,取值有Scrub uncorrected error

$2CPU编号

$3:通道编号

$4:内存编号

日志等级

严重(Major

举例

Memory scrub Failed --- Scrub uncorrected error ---Location: CPU:1 CH:1 DIMM:0

对系统的影响

可能导致系统停止响应

日志产生原因

巡检时发现了一个不可纠正的错误

处理建议

·     检查当前环境温度或者湿度是否异常

·     清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存

·     若问题仍然存在,建议更换内存

·     若问题仍然存在,请联系技术支持

 

2.11.51  Configuration error---RDIMMs are installed on the server that supports only UDIMMs

事件码

0x0c701014

日志内容

Configuration error---RDIMMs are installed on the server that supports only UDIMMs---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

在仅支持UDIMMCPU平台上插入了RDIMM

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---RDIMMs are installed on the server that supports only UDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

在仅支持UDIMMCPU平台上插入了RDIMM

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.52  Configuration error---UDIMMs are installed on the server that supports only RDIMMs

事件码

0x0c702014

日志内容

Configuration error---UDIMMs are installed on the server that supports only RDIMMs---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

在仅支持RDIMM的服务器上插入了UDIMM

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---UDIMMs are installed on the server that supports only RDIMMs---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

在仅支持RDIMM的服务器上插入了UDIMM

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.53  Configuration error---SODIMMs are installed on the server that supports only RDIMMs

事件码

0x0c703014

日志内容

Configuration error---SODIMMs are installed on the server that supports only RDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

在只支持RDIMM的平台上插入了SODIMM

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---SODIMMs are installed on the server that supports only RDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

在只支持RDIMM的平台上插入了SODIMM

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.54  Configuration error---The number of ranks per channel can be only 1, 2, or 4

事件码

0x0c707024

日志内容

Configuration error---The number of ranks per channel can be only 1, 2, or 4---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存的Rank数不满足CPU平台要求,当前CPU平台支持的内存Rank数为124

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The number of ranks per channel can be only 1, 2, or 4---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存的Rank数不满足CPU平台要求,当前CPU平台支持的内存Rank数为124

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.55  Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported

事件码

0x0c707044

日志内容

Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

不支持该类型内存

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

不支持该类型内存:

内存的设计(COLRowBank),不符合JEDEC标准设计

LRDIMM不在服务器支持列表内

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.56  Configuration error---The number of ranks in the channel exceeds 8

事件码

0x0c707054

日志内容

Configuration error---The number of ranks in the channel exceeds 8---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

通道内所有内存的总Rank数超过最大支持的Rank数(8个)

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The number of ranks in the channel exceeds 8---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

通道内所有内存的总Rank数超过最大支持的Rank数(8个)

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.57  Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server

事件码

0x0c707094

日志内容

Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

服务器的内存ECC支持情况不一致

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

服务器的内存ECC支持情况不一致

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.58  Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V

事件码

0x0c7070a4

日志内容

Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

当前电压不满足内存的支持电压

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

当前电压不满足内存的支持电压

·     DDR4内存支持的电压为12V

·     DDR5内存支持的电压为11V

处理建议

·     请更换主板

·     若问题仍然存在,请联系技术支持

 

2.11.59  Configuration error---The CPU is not compatible with 3DS DIMMs

事件码

0x0c707104

日志内容

Configuration error---The CPU is not compatible with 3DS DIMMs---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

当前CPU不支持3DS封装的内存

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The CPU is not compatible with 3DS DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

当前CPU不支持3DS封装的内存

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.60  Configuration error---NVDIMMs with stepping lower than 0x10 are not supported

事件码

0x0c707114

日志内容

Configuration error---NVDIMMs with stepping lower than 0x10 are not supported---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

配置错误,不支持步进低于16NVDIMM

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---NVDIMMs with stepping lower than 0x10 are not supported---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

配置错误,不支持步进低于16NVDIMM

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.61  Configuration error---The CPU is not compatible with the DIMMs

事件码

0x0c707144

日志内容

Configuration error---The CPU is not compatible with the DIMMs---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

CPUDIMM不兼容

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The CPU is not compatible with the DIMMs---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

CPUDIMM不兼容

处理建议

请联系技术支持

 

2.11.62  Configuration error---The frequency of the DIMM is not supported on the server

事件码

0x0c707154

日志内容

Configuration error---The frequency of the DIMM is not supported on the server---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存条的频率当前平台配置不支持

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The frequency of the DIMM is not supported on the server---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存条的频率当前平台配置不支持

处理建议

·     当前配置的内存频率设置不支持,请确认Setup选项内存频率配置,是否开启Enforce Population POR/Enforce DDR Memory Frequency POR,并且内存条的支持频率是否在支持范围内

·     若问题仍然存在,请联系技术支持

 

2.11.63  Configuration error---24Gb or higher Capacity DRAMs not supported with this CPU

事件码

0x0c7071f4

日志内容

Configuration error---24Gb or higher Capacity DRAMs not supported with this CPU---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

CPU不支持24G及以上容量的内存

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---24Gb or higher Capacity DRAMs not supported with this CPU---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

CPU不支持24G及以上容量的内存

处理建议

·     当前CPU不支持24G及以上容量内存,检查对应的报错内存,更换内存条

·     若问题仍然存在,请联系技术支持

 

2.11.64  Configuration error---The CPU is not compatible with LRDIMMs

事件码

0x0c707214

日志内容

Configuration error---The CPU is not compatible with LRDIMMs---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

当前CPU不支持LRDIMM

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The CPU is not compatible with LRDIMMs---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

当前CPU不支持LRDIMM

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.65  Configuration error--- DCPMM + HBM config is not supported. Disable DCPMM populated channel

事件码

0x0c707224

日志内容

Configuration error--- DCPMM + HBM config is not supported. Disable DCPMM populated channel---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

不支持DCPMMHBM共存,禁用通过内存插法检查的DCPMM通道

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error--- DCPMM + HBM config is not supported. Disable DCPMM populated channel---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

不支持DCPMMHBM共存,禁用通过内存插法检查的DCPMM通道

处理建议

·     请移除DCPMM

·     若问题仍然存在,请联系技术支持

 

2.11.66  Configuration error--- Failed to enable the lockstep mode The memory RAS mode has degraded to independent

事件码

0x0c709014

日志内容

Configuration error--- Failed to enable the lockstep mode The memory RAS mode has degraded to independent ---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存配置无法使能Lockstep模式,降级为independent

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Failed to enable the lockstep mode The memory RAS mode has degraded to independent---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存配置无法使能Lockstep模式,降级为independent

处理建议

·     Lockstep配置降级,请检查内存插法是否满足Lockstep模式

·     若问题仍然存在,请联系技术支持

 

2.11.67  Configuration error---Failed to enable the full mirror mode

事件码

0x0c70c014

日志内容

Configuration error---Failed to enable the full mirror modet---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存Full Mirror RAS Mode开启失败,Mirror配置降级

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Failed to enable the full mirror mode---Location:CPU: 1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存Full Mirror RAS Mode开启失败,Mirror配置降级

处理建议

·     mirror配置降级,请检查内存插法是否满足mirror模式

·     若问题仍然存在,请联系技术支持

 

2.11.68  Configuration error---Failed to enable the partial mirror mode The memory RAS mode degraded to independent

事件码

0x0c70d014

日志内容

Configuration error--- Failed to enable the partial mirror mode The memory RAS mode degraded to independent---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

无法启动partial mirror模式,切换到独立通道模式

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error--- Failed to enable the partial mirror mode The memory RAS mode degraded to independent---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

无法启动partial mirror模式,切换到独立通道模式

处理建议

·     Partial mirror配置降级,请检查内存插法按是否满足要求

·     若问题仍然存在,请联系技术支持

 

2.11.69  Configuration error---The memory interleaving configuration cannot meet the requirements of the server

事件码

0x0c70e034

日志内容

Configuration error---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存配置错误,内存交织配置不满足服务器的要求

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The memory interleaving configuration cannot meet the requirements of the server---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存配置错误,内存交织配置不满足服务器的要求

处理建议

·     检查setup中关于内存交织部分的配置(NUMAinteleave等)

·     若问题仍然存在,请联系技术支持

 

2.11.70  Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent

事件码

0x0c710014

日志内容

Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

无法启用Rank Sparing模式,内存RAS模式已降级为独立模式

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

无法启用Rank Sparing模式,内存RAS模式已降级为独立模式

处理建议

·     Sparing配置降级,请检查内存插法是否满足Sparing模式

·     若问题仍然存在,请联系技术支持

 

2.11.71  Configuration error---Failed to enable patrol scrubbing

事件码

0x0c711004

日志内容

Configuration error---Failed to enable patrol scrubbing---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

无法启用内存巡检

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Failed to enable patrol scrubbing---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

无法启用内存巡检

处理建议

·     patrol scrub使能失败,请检查CPU规格支持的ras特性

·     若问题仍然存在,请联系技术支持

 

2.11.72  Configuration Error---The white slot has more ranks than the black slot in a channel or the black slot is used but the white slot in the channel is empty

事件码

0x0c717014

日志内容

Configuration Error---The white slot has more ranks than the black slot in a channel or the black slot is used but the white slot in the channel is empty---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

channel下不满足大rank内存在前(白槽)的原则

不满足白槽优先有内存的原则

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration Error---The white slot has more ranks than the black slot in a channel or the black slot is used but the white slot in the channel is empty---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

·     channel下不满足大rank内存在前(白槽)的原则

·     不满足白槽优先有内存的原则

处理建议

·     内存插法错误,请参考Intel PDG关于DDR5/DCPMM等资料

·     若问题仍然存在,请联系技术支持

 

2.11.73  Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel

事件码

0x0c717034

日志内容

Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

两个DCPMM内存在同一个通道下,不满足内存安装要求

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

两个DCPMM内存在同一个通道下,不满足内存安装要求

处理建议

·     内存插法错误,请参考intel PDG关于DDR5/DCPMM等资料

·     若问题仍然存在,请联系技术支持

 

2.11.74  Configuration error---The DDR-T memory module is installed in the white slot

事件码

0x0c717054

日志内容

Configuration error---The DDR-T memory module is installed in the white slot---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

DCPMM在白槽位置,不满足内存安装要求

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---The DDR-T memory module is installed in the white slot---Location:CPU:1 CH:1 DIMM:A1 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

DCPMM在白槽位置,不满足内存安装要求

处理建议

·     内存插法错误,请参考intel PDG关于DDR5/DCPMM等资料

·     若问题仍然存在,请联系技术支持

 

2.11.75  Configuration error---ODT configuration errorThe channel is isolated

事件码

0x0c729034

日志内容

Configuration error---ODT configuration error The channel is isolated---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

内存ODT配置错误,通道被隔离

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---ODT configuration errorThe channel is isolated---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

内存ODT配置错误,通道被隔离

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.76  Configuration error---REQ is not consistent with clock in timing

事件码

0x0c729064

日志内容

Configuration error---REQ is not consistent with clock in timing---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

REQ与时钟输入定时不一致

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---REQ is not consistent with clock in timing---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

REQ与时钟输入定时不一致

处理建议

·     请更换对应内存

·     若问题仍然存在,请联系技术支持

 

2.11.77  Configuration error---Failed to enable ADDDC

事件码

0x0c73a014

日志内容

Configuration error---Failed to enable ADDDC---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

ADDDC开启失败

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---Failed to enable ADDDC---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

ADDDC开启失败

处理建议

·     确认单板内存配置是否满足ADDDC要求

·     若问题仍然存在,请联系技术支持

 

2.11.78  Configuration error---NVMCTRL_MEDIA_NOTREADY

事件码

0x0c784024

日志内容

Configuration error---NVMCTRL_MEDIA_NOTREADY---Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4

日志含义

DCPMM固件媒介未就绪

参数解释

$1CPU编号

$2:通道编号

$3:内存丝印

$4Rank编号

日志等级

轻微(Minor

举例

Configuration error---NVMCTRL_MEDIA_NOTREADY---Location:CPU:1 CH:2 DIMM:A0 Rank:0

对系统的影响

可能导致系统重启或者停止响应

日志产生原因

DCPMM固件媒介未就绪

处理建议

·     Setup下确认DCPMM的状态,更新DCPMM固件

·     更换对应内存

·     若问题仍然存在,请联系技术支持

 

 

 

2.12  Drive Slot

2.12.1  Drive Presence

事件码

0x0d0000de

日志内容

Drive Presence

日志含义

硬盘在位变化

参数解释

日志等级

正常(Info

举例

Drive Presence

对系统的影响

硬盘在位变化

日志产生原因

硬盘在位变化

处理建议

无需处理

 

2.12.2  Drive Fault

事件码

0x0d1000de

日志内容

Drive Fault

HDDBay上硬盘:Drive Fault --- Bay Slot: $1, HDD Slot: $2

日志含义

硬盘故障

参数解释

$1:BAY所在槽位号

$2:HDD槽位号

日志等级

严重(Major

举例

Drive Fault

HDDBay上硬盘:Drive Fault --- Bay Slot: 1, HDD Slot: 2

对系统的影响

指示的硬盘发生故障,可能会造成数据丢失

日志产生原因

硬盘故障

处理建议

·     查看该硬盘状态是否为Unconfigured Bad状态,尝试更改硬盘状态为Unconfigured Good

·     检查硬盘灯是否正常,指示灯为橙色时说明硬盘故障;同时检查OS内对应硬盘能否正常识别及访问。若有问题请更换故障部件;若无问题则执行下一步

·     检查所在存储控制卡是否处于异常状态。若有问题请更换故障部件;若无问题则执行下一步

·     若问题仍然存在,请联系技术支持

 

2.12.3  Drive Fault

事件码

0x0d1050de

日志内容

Drive Fault---Percentage drive life used is $1%---Exceed the major threshold $2% $3.

日志含义

硬盘故障

参数解释

$1: 硬盘已使用寿命百分比

$2: 当前设置严重阈值的数值

$3: AICPCIe丝印

日志等级

严重(Major

举例

·     NVMe AIC卡:Drive Fault---Percentage drive life used is 100%---Exceed the major threshold 95%.

·     NVMe AIC卡:Drive Fault---Percentage drive life used is 100%---Exceed the major threshold 95% ---PCIe slot 7.

对系统的影响

硬盘剩余寿命严重低于预期,可能会造成硬盘数据丢失

日志产生原因

固态硬盘寿命严重预告警

处理建议

·     硬盘使用寿命达到严重阈值,请尽快更换硬盘

·     若问题仍然存在,请联系技术支持

 

2.12.4  Drive Fault---The disk is missing

事件码

0x0d1520de

日志内容

Drive Fault---The disk is missing---Bay slot:$1---HDD slot:$2

日志含义

硬盘丢失

参数解释

$1:BAY所在槽位号 

$2:HDD槽位号

日志等级

严重(Major

举例

Drive Fault---The disk is missing---Bay slot:14---HDD slot:37

对系统的影响

用于指示对应硬盘被拔离或接触松动,影响系统的存储系统可靠性

日志产生原因

存储未识别到该硬盘、线缆连接错误所产生的告警

处理建议

·     登录HDM Web页面,检查硬盘是否被正常识别

·     重新插拔硬盘检查是否能识别

·     若仍不能识别,请更换硬盘,查看告警是否消失

·     若问题仍然存在,请联系技术支持

 

2.12.5  Predictive Failure

事件码

0x0d2000de

日志内容

Predictive Failure

日志含义

硬盘预故障

参数解释

日志等级

轻微(Minor

举例

Predictive Failure

对系统的影响

硬盘可靠性降低,可能对操作系统存储性能、业务正常运行等造成影响

日志产生原因

RAID卡或NVMe固态硬盘上报硬盘预告警的故障,如存储介质的预留块告警、硬盘磨损寿命告警、Prefail告警,以及坏道告警

处理建议

·     请更换硬盘

·     若问题仍然存在,请联系技术支持

 

2.12.6  Predictive Failure

事件码

0x0d2050de

日志内容

Predictive Failure---Percentage drive life used is $1%---Exceed the minor threshold $2% $3.

日志含义

硬盘预故障

参数解释

$1: 硬盘已使用寿命百分比

$2: 当前设置轻微阈值的数值

$3: AICPCIe丝印

日志等级

轻微(Minor

举例

·     NVMe AIC卡:Predictive Failure---Percentage drive life used is 93%---Exceed the minor threshold 90%.

·     NVMe AIC卡:Predictive Failure---Percentage drive life used is 93%---Exceed the minor threshold 90%---PCIe slot 7.

对系统的影响

硬盘剩余寿命低于预期,损坏概率增加,对数据安全有影响

日志产生原因

固态硬盘寿命轻微预告警

处理建议

·     硬盘使用寿命达到轻微阈值,请择机更换硬盘

·     若问题仍然存在,请联系技术支持

 

2.12.7  In Critical Array

事件码

0x0d5000de

日志内容

In Critical Array---PCIe slot:$1---LDDevno:$2

日志含义

逻辑盘降级

参数解释

$1:逻辑盘所在PCIe槽位

$2:逻辑盘序号

日志等级

严重(Major

举例

In Critical Array---PCIe slot:1---LDDevno:1

对系统的影响

阵列降级,对数据可靠性将有影响

日志产生原因

由于硬盘被拔出或硬盘发生故障,导致该盘所在的逻辑盘降级

处理建议

·     检查硬盘是否被拔出,如被拔出则重新插回硬盘,重构RAID阵列

·     登录HDM Web页面,在“存储”页面查看硬盘信息,如对应槽位硬盘不能识别,请重新插拔硬盘并确认该硬盘是否识别。插拔后仍不能识别请更换硬盘

·     登录HDM Web页面,在“存储”页面查看硬盘信息,确认对应槽位硬盘状态是否为故障。如果是Unconfigured Bad状态,首先尝试更改硬盘状态为Unconfigured Good

·     硬盘正确识别后,重构RAID阵列,检查告警是否解除

·     若问题仍然存在,请联系技术支持

 

2.12.8  In Failed Array

事件码

0x0d6000de

日志内容

In Failed Array---PCIe slot:$1---LDDevno:$2

日志含义

逻辑盘完全损坏

参数解释

$1:逻辑盘所在PCIe槽位

$2:逻辑盘序号

日志等级

严重(Major

举例

In Failed Array---PCIe slot:1---LDDevno:1

对系统的影响

阵列失效,离线会造成数据丢失

日志产生原因

由于硬盘被拔出或硬盘发生故障,导致该盘所在的逻辑盘完全损坏

处理建议

·     确认硬盘是否被拔出,如被拔出则重新插回硬盘,检查告警是否解除

·     如果硬盘安装正确,登录HDM Web页面,在“存储”页面查看硬盘信息,如对应槽位硬盘不能识别,请重新插拔硬盘并确认该硬盘是否识别。插拔后仍不能被识别,请更换硬盘

·     如果硬盘安装正确,登录HDM Web页面,在“存储”页面查看硬盘信息,查看该硬盘状态是否为故障。如果是Unconfigured Bad状态,首先尝试更改硬盘状态为Unconfigured Good

·     硬盘正确识别后,检查逻辑阵列状态,如果逻辑阵列状态仍为故障,请删除原阵列并重新创建逻辑阵列

·     若问题仍然存在,请联系技术支持

 

2.12.9  Rebuild/Remap in progress

事件码

0x0d7000de

日志内容

Rebuild/Remap in progress

日志含义

存储介质离线,处于恢复重建中

参数解释

日志等级

正常(Info

举例

Rebuild/Remap in progress

对系统的影响

日志产生原因

插入硬盘后,RAID重建过程中提示该信息

处理建议

无需处理

 

2.12.10  The disk triggered an media error

事件码

0x0da000de

日志内容

The disk triggered an media error--$1

日志含义

触发了meida error

参数解释

$1:指硬盘位置信息

日志等级

正常(Info

举例

The disk triggered an media error--Front 1

对系统的影响

存储介质发生media error故障,会造成数据丢失

日志产生原因

当硬盘media error计数值超过当前设置的阈值所产生的告警

处理建议

·     更新硬盘固件,检查告警是否消失

·     若告警还在,请更换硬盘

·     若问题仍然存在,请联系技术支持

 

2.12.11  The disk triggered an uncorrectable error

事件码

0x0db000de

日志内容

The disk triggered an uncorrectable error--$1

日志含义

硬盘不可纠正故障

参数解释

$1:指硬盘位置信息

日志等级

轻微(Minor

举例

The disk triggered an uncorrectable error--Front 1

对系统的影响

存储介质发生不可纠正故障,会造成数据丢失

日志产生原因

当硬盘uncorrectable计数值超过当前设置的阈值所产生的告警

处理建议

·     更新硬盘固件,检查告警是否消失

·     若告警还在,请更换硬盘

·     若问题仍然存在,请联系技术支持

 

2.12.12  The disk is missing

事件码

0x0dc000de

日志内容

The disk is missing

日志含义

硬盘丢失

参数解释

日志等级

严重(Major

举例

The disk is missing

对系统的影响

用于指示对应硬盘被拔离或接触松动,影响系统的存储系统可靠性

日志产生原因

存储未识别到该硬盘、线缆连接错误所产生的告警

处理建议

·     登录HDM Web页面,检查硬盘是否被正常识别

·     检查硬盘数据、电源和信号线缆是否连接正确

·     重新插拔硬盘检查是否能识别

·     若仍不能识别,请更换硬盘,查看告警是否消失

·     若问题仍然存在,请联系技术支持

 

 

 

2.13  System Firmware Progress

2.13.1  System Firmware Error (POST Error)---Run sense AMP HW FSM failed

事件码

0x0f0fe044

日志内容

System Firmware Error (POST Error)---Run sense AMP HW FSM failed

日志含义

内存初始化错误

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---Run sense AMP HW FSM failed

对系统的影响

可能导致系统无法正常启动

日志产生原因

内存配置错误

处理建议

·     更新BIOS固件

·     检查CPUDIMM之间的内存配置方式

·     减小交织的配置(内存交织和NUMA)

 

2.13.2  System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket

事件码

0x0f017134

日志内容

System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM population rules--- Locationcpu $1

日志含义

内存插法错误

参数解释

$1: CPU序号

日志等级

严重(Major

举例

System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM population rules--- Locationcpu 1

对系统的影响

可能导致系统性能降低

日志产生原因

内存插法错误

处理建议

请参考对应产品用户指南的内存插法

 

2.13.3  System Firmware Error (POST Error)---No Dimm on socket$1

事件码

0x0f017184

日志内容

System Firmware Error (POST Error)---No Dimm on socket$1

日志含义

CPU上未插内存

参数解释

$1CPU编号

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No Dimm on socket1

对系统的影响

CPU1未插内存系统无法启动,其他CPU未插则影响系统性能

日志产生原因

对应CPU未安装内存

处理建议

·     检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作

·     重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作

·     更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.13.4  System Firmware Error (POST Error)---No memory found

事件码

0x0f0e8014

日志内容

System Firmware Error (POST Error)---No memory found

日志含义

没有可用内存

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No memory found

对系统的影响

系统无法正常启动

日志产生原因

没有可用的内存

处理建议

确认系统有正常内存可用

 

2.13.5  System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation

事件码

0x0f0e8024

日志内容

System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation

日志含义

没有可用于内存映射操作的内存

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation

对系统的影响

可能导致系统性能降低

日志产生原因

没有可用于内存映射操作的内存

处理建议

·     登录HDM Web页面,进入“内存”页面确认系统有正常内存可用,如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.13.6  System Firmware Error (POST Error)---DIMM population error

事件码

0x0f0ed024

日志内容

System Firmware Error (POST Error)---DIMM population error

日志含义

内存兼容性错误

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---DIMM population error

对系统的影响

可能导致系统无法正常启动

日志产生原因

内存兼容性错误

处理建议

内存兼容性错误,请参考HDM维护手册

 

2.13.7  System Firmware Error (POST Error)---Some CPU links failed to train. UPI topology changed across reset

事件码

0x0f003ff4

日志内容

System Firmware Error (POST Error)---Some CPU links failed to train. UPI topology changed across reset

日志含义

UPI trainning失败

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---Some CPU links failed to train. UPI topology changed across reset

对系统的影响

可能导致系统无法正常启动

日志产生原因

CPU错误

处理建议

确认CPU是否正确安装

 

2.13.8  System Firmware Error (POST Error)---CPU stepping mismatch detected

事件码

0x0f010ff4

日志内容

System Firmware Error (POST Error)---CPU stepping mismatch detected

日志含义

CPU stepping不匹配

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---CPU stepping mismatch detected

对系统的影响

可能导致系统无法正常启动

日志产生原因

 CPU安装错误, stepping不匹配

处理建议

确认安装的CPU stepping是否一致

 

2.13.9  System Firmware Error (POST Error)---KTI Topology Change Logged

事件码

0x0f0ffff4

日志内容

System Firmware Error (POST Error)---KTI Topology Change Logged

日志含义

UPI配置错误

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---KTI Topology Change Logged

对系统的影响

可能导致系统无法正常启动

日志产生原因

CPU错误

处理建议

确认CPU是否正确安装

 

2.13.10  System Firmware Error (POST Error)---CPU matching failure---CPU stepping is detected

事件码

0x0f0d00de

日志内容

System Firmware Error (POST Error)---CPU matching failure---CPU stepping is detected

日志含义

CPU stepping不匹配

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---CPU matching failure---CPU stepping is detected

对系统的影响

导致系统无法正常启动

日志产生原因

POST阶段检测CPU stepping匹配错误,该事件触发

处理建议

·     请检查与主CPU型号是否一致

·     请检查与主CPU stepping是否匹配

 

2.13.11  System Firmware Error (POST Error)---CPU matching failure---CPU frequency is detected

事件码

0x0f0d10de

日志内容

System Firmware Error (POST Error)---CPU matching failure---CPU frequency is detected

日志含义

CPU频率不匹配

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---CPU matching failure---CPU frequency is detected

对系统的影响

可能导致系统无法正常启动

日志产生原因

POST阶段检测CPU频率匹配错误,该事件触发

处理建议

请检查与主CPU型号是否一致

 

2.13.12  System Firmware Error (POST Error)---CPU matching failure---CPU Microcode is detected

事件码

0x0f0d20de

日志内容

System Firmware Error (POST Error)---CPU matching failure---CPU Microcode is detected

日志含义

CPU微码不匹配

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---CPU matching failure---CPU Microcode is detected

对系统的影响

可能导致系统无法正常启动

日志产生原因

POST阶段检测CPU 微码匹配错误,该事件触发

处理建议

请检查与主CPU型号是否一致

 

2.13.13  System Firmware Error (POST Error)---CPU matching failure---UPI Topology is detected

事件码

0x0f0d30de

日志内容

System Firmware Error (POST Error)---CPU matching failure---UPI Topology is detected

日志含义

CPU UPI不匹配

参数解释

日志等级

严重(Major

举例

System Firmware Error (POST Error)---CPU matching failure---UPI Topology is detected

对系统的影响

可能导致系统无法正常启动

日志产生原因

POST阶段检测CPU UPI匹配错误,该事件触发

处理建议

请检查与主CPU型号是否一致

 

2.13.14  System Firmware Error(POST Error)---Unrecoverable video controller failure

事件码

0x0f0090de

日志内容

System Firmware Error(POST Error)---Unrecoverable video controller failure

日志含义

视频控制器故障

参数解释

日志等级

轻微(Minor

举例

System Firmware Error(POST Error)---Unrecoverable video controller failure

对系统的影响

KVM视频显示功能可能存在异常

日志产生原因

主机启动过程中,VGA两次抓屏相同时,该事件触发

处理建议

·     更换BMC插卡

·     若问题仍然存在,请联系技术支持

 

2.13.15  System Firmware Hang

事件码

0x0f1000de

日志内容

System Firmware Hang

日志含义

BIOS启动过程中挂死

参数解释

日志等级

紧急(Critical

举例

System Firmware Hang

对系统的影响

系统无法正常运行

日志产生原因

BIOS启动过程中挂死

处理建议

·     请根据同时上报的对应部件的其他事件日志处理

·     若问题仍然存在,请联系技术支持

 

2.13.16  System software triggered an uncorrectable error

事件码

0x0f1a00de

日志内容

System software triggered an uncorrectable error

日志含义

系统软件上不可纠正错误

参数解释

日志等级

严重(Major

举例

System software triggered an uncorrectable error

对系统的影响

系统已发生了IERRMCERR异常,造成业务不可用

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为系统软件uncorrectable error

处理建议

系统已发生了IERRMCERR异常,造成业务不可用,通常是系统或系统软件异常触发了IERRMCERR异常,请联系技术支持

 

2.13.17  System software triggered a correctable error

事件码

0x0f0a00de

日志内容

System software triggered a correctable error

日志含义

系统软件上可纠正错误

参数解释

日志等级

轻微(Minor

举例

System software triggered a correctable error

对系统的影响

系统已发生了IERRMCERR异常,造成业务不可用

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为系统软件correctable error

处理建议

系统已发生了IERRMCERR异常,造成业务不可用,通常是系统或系统软件异常触发了IERRMCERR异常,请联系技术支持

 

2.13.18  System Firmware Progress---Video initialization---Detection unsuccessful

事件码

0x0f2090de

日志内容

System Firmware Progress---Video initialization---Detection unsuccessful

日志含义

视频控制器检测错误

参数解释

日志等级

轻微(Minor

举例

System Firmware Progress---Video initialization---Detection unsuccessful

对系统的影响

不影响系统正常运行

日志产生原因

视频控制器检测失败

处理建议

请联系技术支持

 

2.13.19  System Firmware Progress---Secondary processor(s) initialization---Detection unsuccessful

事件码

0x0f2030de

日志内容

System Firmware Progress---Secondary processor(s) initialization---Detection unsuccessful

日志含义

TPM/TCM检测失败

参数解释

日志等级

轻微(Minor

举例

System Firmware Progress---Secondary processor(s) initialization---Detection unsuccessful

对系统的影响

不影响系统正常运行

日志产生原因

触发TPM/TCM自检信号丢失或设备访问失败

处理建议

请联系技术支持

 

2.14  Event Logging Disabled

2.14.1  Log Area Reset/Cleared

事件码

0x102000de

日志内容

Log Area Reset/Cleared

日志含义

日志清除

参数解释

日志等级

正常(Info

举例

Log Area Reset/Cleared

对系统的影响

日志产生原因

清除所有事件日志后触发该事件日志

处理建议

无需处理

 

2.14.2  SEL Full

事件码

0x104000de

日志内容

SEL Full

日志含义

事件日志满了

参数解释

日志等级

轻微(Minor

举例

SEL Full

对系统的影响

无法继续记录事件日志

日志产生原因

当日志已满时,其他事件不会写入日志。用户禁用事件日志可能触发该事件日志

处理建议

登录HDM Web页面,进入事件日志页面,单击<清除所有事件日志>按钮,清理日志文件

 

2.14.3  SEL Almost Full

事件码

0x105000de

日志内容

SEL Almost Full

日志含义

事件日志即将存满

参数解释

日志等级

轻微(Minor

举例

SEL Almost Full

对系统的影响

日志产生原因

线性策略下,当日志即将存满会触发该事件日志

处理建议

登录HDM Web页面,进入事件日志页面,单击<清除所有事件日志>按钮,清理日志文件

 

 

 

2.15  System Event

2.15.1  System Reconfigured---BIOS load default. CMOS cleared

事件码

0x120000de

日志内容

System Reconfigured---BIOS load default. CMOS cleared

日志含义

Bios加载默认配置

参数解释

日志等级

正常(Info

举例

System Reconfigured---BIOS load default. CMOS cleared

对系统的影响

Bios加载默认配置,配置丢失

日志产生原因

主板电池异常

处理建议

·     检查BIOS启动模式是否符合Secure boot要求,如果否,请修改BIOS启动模式为UEFI模式;如果是,请执行下一步操作

·     检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作

·     强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作

·     若问题仍然存在,请联系技术支持

 

2.15.2  Limit Exceeded--CPU usage exceeds the threshold

事件码

0x1210100a

日志内容

Limit Exceeded---CPU usage exceeds the threshold---Current usage $1, Threshold $2

日志含义

cpu使用率超过阈值

参数解释

$1cpu使用率当前值

$2cpu使用率阈值

日志等级

正常(Info

举例

Limit Exceeded---Cpu usage exceeds the threshold---Current usage 82%, Threshold 80%

对系统的影响

可能导致系统性能降低

日志产生原因

CPU使用率超过阈值时生成此消息

处理建议

无需处理

 

2.15.3  Limit Exceeded---Mem usage exceeds the threshold

事件码

0x120200de

日志内容

Limit Exceeded---Mem usage exceeds the threshold---Current usage $1, Threshold $2

日志含义

当内存使用率超过阈值

参数解释

$1:内存使用率当前值

$2:内存使用率阈值

日志等级

严重(Major

举例

Limit Exceeded---Mem usage exceeds the threshold---Current usage 81%, Threshold 80%

对系统的影响

可能导致系统性能降低

日志产生原因

当内存使用率超过阈值时生成此消息

处理建议

无需处理

 

2.15.4  Limit Exceeded---Network usage exceeds the threshold

事件码

0x120300de

日志内容

Limit Exceeded---Network usage exceeds the threshold---Current usage $1, Threshold $2

日志含义

网络使用率超过阈值

参数解释

$1:网络使用率当前值

$2:网络使用率阈值

日志等级

严重(Major

举例

Limit Exceeded---Network usage exceeds the threshold---Current usage 81%, Threshold 80%

对系统的影响

可能网络丢失

日志产生原因

当网络使用率超过阈值时生成此消息志

处理建议

系统资源使用状况,该告警由FIST SMS触发

 

2.15.5  Limit Exceeded---Hard disk usage exceeds the threshold

事件码

0x120400de

日志内容

Limit Exceeded---Hard disk usage exceeds the threshold---OS:Linux/Unix,See disk details about Logical disk name,Current usage $1, Threshold $2

日志含义

硬盘使用率超过阈值

参数解释

$1:硬盘使用率当前值

$2:硬盘使用率阈值

日志等级

严重(Major

举例

Limit Exceeded---Hard disk usage exceeds the threshold---OS:Linux/Unix,See disk details about Logical disk name,Current usage 81%, Threshold 80%

对系统的影响

硬盘可靠性降低,可能对操作系统存储性能、业务正常运行等造成影响

日志产生原因

当硬盘使用率超过阈值时生成此消息

处理建议

系统资源使用状况,该告警由FIST SMS触发

 

2.15.6  Timestamp clock synch---BMC Time SYNC succeed

事件码

0x125000de

日志内容

Timestamp Clock Synch---BMC Time SYNC succeed.

日志含义

时间同步成功

参数解释

日志等级

正常(Info

举例

Timestamp Clock Synch---BMC Time SYNC succeed.

对系统的影响

日志产生原因

BMC同步ME时间成功

处理建议

无需处理

 

2.15.7  Timestamp clock synch

事件码

0x128000de

日志内容

Timestamp Clock Synch---event is $1 of pair---SEL Timestamp Clock updated

日志含义

事件同步

参数解释

$1:可能是first/secondfirst代表是时间同步前的事件,second代表是时间同步后的事件

日志等级

正常(Info

举例

Timestamp Clock Synch---event is first of pair---SEL Timestamp Clock updated

对系统的影响

日志产生原因

主机上电时,HDM都会跟主机侧进行时间同步,时间同步前触发first事件,同步后触发second事件

处理建议

无需处理

 

2.16  Critical Interrupt

2.16.1  Transition to Non-Critical from OK

事件码

0x1310000e

日志内容

Transition to Non-Critical from OK--- Single-bit ECC error---PCIe slot:$1

参数解释

$1:槽位号

日志等级

严重(Major

举例

Transition to Non-Critical from OK--- Single-bit ECC error---PCIe slot: 2

对系统的影响

给定PCIE设备访问发生错误,不影响系统正常运行

日志产生原因

指定slotPCIe卡故障

处理建议

此日志在PCIe硬件检测到故障后上报。请查看相关事件日志消息并更换有故障的PCIe设备或联系技术支持

 

2.16.2  PCI PERR

事件码

0x134000de

日志内容

PCI PERR ---Slot $1---PCIE Name:$2

日志含义

PCI设备内部奇偶校验错误

参数解释

$1:slot

$2:PCIe Name

日志等级

严重(Major

举例

PCI PERR ---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障。

日志产生原因

PCI设备内部奇偶校验错误。PCIe设备PERR信号(数据奇偶校验错误),异常则告警。

处理建议

·     PCIe设备内部故障会触发此日志

·     同一段时间存在多条同类错误,请检查riser与主板连接情况

·     重启主机检查日志是否依然上报

·     根据slot号确定发生错误的PCIe设备

·     如果这是一个PCIe外设

¡     检查卡是否正确插入

¡     检查金手指是否有污染

¡     将卡安装在另一个插槽中,检查该错误是否跟随卡或与插槽保持一致

¡     更新所有固件和驱动程序,包括非英特尔组件

¡     如果PCIe外设接在riser卡上,检查插槽并检查金手指是否有污染

¡     更换备件

·     如果这是板载设备

¡     更新BIOS、固件和驱动程序

¡     更换主板

 

2.16.3  PCI SERR

事件码

0x13500000

日志内容

PCI SERR---Slot $1---PCIE Name:$2

日志含义

PCI设备内部系统错误

参数解释

$1:slot

$2:PCIe Name

日志等级

严重(Major

举例

PCI SERR---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障。

日志产生原因

PCI设备内部系统错误。监控PCIe设备SERR信号(系统错误:地址奇偶校验错误,特定周期内数据奇偶校验错误,其它致命错误),异常则告警。

处理建议

·     PCIe设备内部故障会触发此日志

·     同一段时间存在多条同类错误,请检查riser与主板连接情况

·     重启主机检查日志是否依然上报

·     根据slot号确定发生错误的PCIe设备

·     如果这是一个PCIe外设

¡     检查卡是否正确插入

¡     检查金手指是否有污染

¡     将卡安装在另一个插槽中,检查该错误是否跟随卡或与插槽保持一致

¡     更新所有固件和驱动程序,包括非英特尔组件

¡     如果PCIe外设接在riser卡上,检查插槽并检查金手指是否有污染

¡     更换备件

·     如果这是板载设备

¡     更新BIOS、固件和驱动程序

¡     更换主板

 

2.16.4  Bus Correctable Error

事件码

0x137000de

日志内容

Bus Correctable Error ---Slot $1---PCIE Name:$2

日志含义

PCIe可纠正错误

参数解释

$1:指明故障PCIeslot

$2:指明故障PCIe卡名称

日志等级

轻微(Minor

举例

Bus Correctable Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

偶发性的告警,不影响使用。若发生频率的话,会影响到PCIE卡的性能

日志产生原因

PCIe设备内部故障,产生可纠正的错误

处理建议

·     访问PCIe设备时,原则上可忽略该告警

·     若持续产生该告警,请根据slot号信息确定发生错误的PCIe设备

·     如果这是一个插件卡,检查卡是否正确安装或更换槽位,确认故障原因

·     更换PCIe设备

 

2.16.5  Bus Correctable Error

事件码

0x137800de

日志内容

Bus Correctable Error ---Slot $1---PCIE Name:$2

日志含义

PCIe可纠正错误

参数解释

$1:指明故障PCIeslot

$2:指明故障PCIe卡名称

日志等级

轻微(Minor

举例

Bus Correctable Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

偶发性的告警,不影响使用。若发生频率的话,会影响到PCIE卡的性能

日志产生原因

AMD机型,PCIe设备内部故障,产生可纠正的错误

处理建议

·     访问PCIe设备时,原则上可忽略该告警

·     若持续产生该告警,请根据slot号信息确定发生错误的PCIe设备

·     如果这是一个插件卡,检查卡是否正确安装或更换槽位,确认故障原因

·     更换PCIe设备

 

2.16.6  Bus Uncorrectable Error

事件码

0x138000de

日志内容

Bus Uncorrectable Error ---Slot $1---PCIE Name:$2

日志含义

PCIe不可纠正错误

参数解释

$1:指明故障PCIe设备slot

$2:指明故障PCIe设备名称

日志等级

严重(Major

举例

Bus Uncorrectable Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIe设备访问发生错误。严重时,会扩散到主机系统级的故障。

日志产生原因

CPUPCIe设备进行交互时设备或链路存在不可纠正的错误

处理建议

·     若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况

·     重启服务器,检查日志是否依然上报

·     根据slot号确定发生错误的PCIe设备

·     如果发生错误的是PCIe外设,请执行以下操作:

¡     检查PCIe设备是否正确插入

¡     检查PCIe设备金手指是否有污染

¡     PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽

¡     如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序

¡     如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染

¡     如问题依然存在,请更换备件

·     如果发生错误的是板载设备,请执行以下操作:

¡     更新固件和驱动程序以及BIOS版本

¡     更换主板

·     若问题仍然存在,请检查PCIe设备所在链路部件

·     若多个GPU模组报错,或者网卡笼上的多张网卡报错,更换SW板或者主板

·     若问题仍然存在,请联系技术支持

 

2.16.7  Bus Uncorrectable Error

事件码

0x138800de

日志内容

Bus Uncorrectable Error ---Slot $1---PCIE Name:$2

日志含义

PCIe不可纠正错误

参数解释

$1:指明故障PCIeslot

$2:指明故障PCIe卡名称

日志等级

严重(Major

举例

Bus Uncorrectable Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障。

日志产生原因

AMD机型,PCIe设备内部故障,产生不可纠正的错误

处理建议

此消息是在触发CPU内部错误时生成的。SHD将该错误识别为PCIe无法纠正的错误。要清除事件,请执行以下任务:

·     通过PCIe插槽号找到发生故障的PCIe模块

·     如果PCIe模块是可更换组件

¡     验证PCIe模块是否正确安装

¡     PCIe模块安装到另一个插槽中

¡     升级PCIe模块的固件和驱动程序

·     如果PCIe模块是嵌入式组件

¡     升级BIOS、固件和驱动程序

¡     更换系统板

 

2.16.8  Bus Fatal Error

事件码

0x13a000de

日志内容

Bus Fatal Error ------Slot $1---PCIE Name: $2

日志含义

PCIe致命错误

参数解释

$1:指明故障PCIe设备slot

$2:指明故障PCIe设备名称

日志等级

严重(Major

举例

Bus Fatal Error---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

给定PCIe设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

PCIe链路或设备发生不可纠正错误,同时软件层无法进行容错处理,对系统产生不可修复影响

处理建议

·     若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况

·     重启服务器,检查日志是否依然上报

·     根据slot号确定发生错误的PCIe设备

·     如果发生错误的是PCIe外设,请执行以下操作:

¡     检查PCIe设备是否正确插入

¡     检查PCIe设备金手指是否有污染

¡     PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽

¡     如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序

¡     如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染

¡     如问题依然存在,请更换备件

·     如果发生错误的是板载设备,请执行以下操作:

¡     更新固件和驱动程序以及BIOS版本

¡     更换主板

·     若问题仍然存在,请检查PCIe设备所在链路部件

·     若多个GPU模组报错,或者网卡笼上的多张网卡报错,更换SW板或者主板

·     若问题仍然存在,请联系技术支持

 

2.16.9  Bus Degraded

事件码

0x13b000de

日志内容

Bus Degraded ------Slot $1---PCIE Name: $2

日志含义

PCIe降速降带宽

参数解释

$1:指明故障PCIeslot

$2:指明故障PCIe卡名称

日志等级

严重(Major

举例

Bus Degraded ---Slot 3---PCIE Name: RAID-LSI-9361-8i

对系统的影响

可能导致系统性能降低

日志产生原因

PCIe降速降带宽

处理建议

·     同一段事件存在多条同类错误,请检查Riser与主板连接情况

·     重启主机检查日志是否依然上报

·     根据slot号确定发生错误的PCIe设备

·     如果这是一个PCIE外设

¡     检查卡是否正确插入

¡     检查金手指是否有污染

¡     将卡安装在另一个插槽中,检查该错误是否跟随卡或与插槽保持一致

¡     更新所有固件和驱动程序,包括非英特尔组件

¡     如果PCIe外设接在riser卡上,检查插槽并检查金手指是否有污染

¡     更换备件

·     如果这是板载设备

¡     更新BIOS、固件和驱动程序

¡     更换主板

 

2.16.10  $1 triggered an uncorrectable error

事件码

0x138400de

日志内容

$1 triggered an uncorrectable error

日志含义

PCIe不可纠正错误

参数解释

$1 PCIe卡类型

日志等级

严重(Major

举例

NIC triggered an uncorrectable error

对系统的影响

给定PCIe设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为PCIe uncorrectable error

处理建议

·     根据slot号判断发生错误的PCIe设备

·     如果这是一个插件卡

¡     检查卡是否正确插入

¡     将卡安装在另一个插槽中,检查该错误是否跟随卡或与插槽保持一致

¡     更新所有固件和驱动程序,包括非英特尔组件

·     如果这是板载设备

¡     更新所有BIOS、固件和驱动程序

¡     更换主板

 

2.16.11  $1 triggered a correctable error

事件码

0x137400de

日志内容

$1 triggered a correctable error

日志含义

PCIe可纠正错误

参数解释

$1 PCIe卡类型

日志等级

轻微(Minor

举例

NIC triggered a correctable error

对系统的影响

给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障。

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为PCIe correctable error

处理建议

·     如果是偶发事件,可忽略该告警

·     如果持续产生该告警,请根据slot号确定发生错误的PCIe设备

·     如果这是一个插件卡

¡     检查卡是否正确插入

¡     将卡安装在另一个插槽中,检查该错误是否跟随卡或与插槽保持一致

¡     更新所有固件和驱动程序,包括非英特尔组件

·     如果这是板载设备

¡     更新所有BIOS、固件和驱动程序

¡     更换主板

 

2.17  Button / Switch

2.17.1  Power Button pressed

事件码

0x140000de

日志内容

Power Button pressed---$1---$2

日志含义

电源按键按下

参数解释

$1:按键类型,Physical button Virtual button

$2:执行动作, Power off commandPower on command

Soft off command

日志等级

正常(Info

举例

Power Button pressed---Physical button--- Power off command

对系统的影响

日志产生原因

按下设备前面板的实体电源按钮

执行强制关机、正常关机、关机并重新开机命令

处理建议

无需处理

 

2.17.2  Reset Button pressed

事件码

0x142000de

日志内容

Reset Button pressed---Virtual button---reset command

日志含义

重启事件产生

参数解释

日志等级

正常(Info

举例

Reset Button pressed---Virtual button---reset command

对系统的影响

日志产生原因

以下场景会触发本日志:

1.     用户下发reset命令

2.     发生IERR事件

处理建议

无需处理

 

2.18  Module / Board

2.18.1  Transition to Non-Critical from OK($1)

事件码

0x1510000e

日志内容

Transition to Non-Critical from OK($1)

日志含义

主板可纠正故障

参数解释

$1:告警的类型,如

VGA_REARUSB_REAR_UPUSB_REAR_DOWEAR_VGA2EAR_LCDL_EAR_USBINNER_USBR_EAR_USB

日志等级

轻微(Minor

举例

Transition to Non-Critical from OK(VGA_REAR)

对系统的影响

偶发性的告警,不影响使用

日志产生原因

主板内部故障,产生可纠正的错误

处理建议

·     检查系统供电是否正常

·     若问题仍然存在,请联系技术支持

 

2.18.2  Transition to Critical from less severe

事件码

0x1520000e

日志内容

Transition to Critical from less severe

日志含义

PCIe BUS0不可纠正错误

参数解释

日志等级

严重(Major

举例

Transition to Critical from less severe

对系统的影响

给定PCIe BUS0设备访问发生错误。严重时,会扩散到主机系统级的故障

日志产生原因

PCIe BUS0设备内部故障,产生不可纠正的错误

处理建议

·     检查系统供电是否正常

·     交叉检查是否存在部件异常

·     若问题仍然存在,请联系技术支持

 

2.18.3  Transition to Non- Recoverable from less severe

事件码

0x1530000e

日志内容

Transition to Non- Recoverable from less severe $1($2).

日志含义

单板供电异常

参数解释

$1:故障部件,如主板(---System detected a power supply failure on Motherboard)、电源板(---System detected a power supply failure on PDB)、计算模块(---System detected a power supply failure on CMOD)、Riser卡(---System detected a power supply failure on Riser)等,若无特定部件时该参数为空

$2:故障具体位置,如P5VP5V_STBYCPU1_PVCSACPU2_PVCCIO

日志等级

紧急(Critical

举例

Transition to Non- Recoverable from less severve---System detected a power supply failure on Motherboard(P5V).

对系统的影响

会引起系统下电

日志产生原因

板内电压异常

处理建议

·     对于电源上下电情况,可忽略此日志

·     重新插拔电源线,确认服务器能否正常上电并开机

¡     如果服务器能够正常上电,可能由于其上检测信号被误干扰,可以继续正常使用。

¡     如果无法重新上电,需要根据SDS日志的分析记录确定具体故障,并更换故障部件的备件

·     如故障在运行期间再次出现,请更换故障部件的备件

·     若问题仍然存在,请联系技术支持

 

2.18.4  Transition to Non-Critical from OK---System is operating in KTI Link Slow Speed Mode

事件码

0x15101ff4

日志内容

Transition to Non-Critical from OK---System is operating in KTI Link Slow Speed Mode

日志含义

系统配置错误

参数解释

日志等级

轻微(Minor

举例

Transition to Non-Critical from OK---System is operating in KTI Link Slow Speed Mode

对系统的影响

可能导致系统无法正常启动

日志产生原因

系统运行在KTI Link Slow Speed模式

处理建议

确认信号质量和硬件参数的配置

 

2.18.5  Transition to Non-Critical from OK---Requested Link Speed is not supported. Defaulting to 12.8GT

事件码

0x15102ff4

日志内容

Transition to Non-Critical from OK---Requested Link Speed is not supported. Defaulting to 12.8GT

日志含义

系统配置错误

参数解释

日志等级

轻微(Minor

举例

Transition to Non-Critical from OK---Requested Link Speed is not supported. Defaulting to 12.8GT

对系统的影响

可能导致系统无法正常启动

日志产生原因

不支持的Link Speed

处理建议

确认硬件参数的配置

 

2.18.6  Transition to Non-Critical from OK---One or more per Link option mismatch detected. Forcing to common setting

事件码

0x15104ff4

日志内容

Transition to Non-Critical from OK---One or more per Link option mismatch detected. Forcing to common setting

日志含义

系统配置错误

参数解释

日志等级

轻微(Minor

举例

Transition to Non-Critical from OK---One or more per Link option mismatch detected. Forcing to common setting

对系统的影响

可能导致系统无法正常启动

日志产生原因

部分CPU链路错误

处理建议

确认SetupUPI Configuration配置是否正确

 

2.18.7  Transition to Non-Critical from OK---Some CPU has more than one link connecting to other CPU. Disable one of the Dual-Link

事件码

0x15105ff4

日志内容

Transition to Non-Critical from OK---Some CPU has more than one link connecting to other CPU. Disable one of the Dual-Link

日志含义

系统配置错误

参数解释

日志等级

轻微(Minor

举例

Transition to Non-Critical from OK---Some CPU has more than one link connecting to other CPU. Disable one of the Dual-Link

对系统的影响

可能导致系统无法正常启动

日志产生原因

UPI链路错误

处理建议

确认UPI 链路接线是否满足要求

 

2.18.8  Transition to Non-Critical from OK---KTI Adaptation is in progress, or High Speed adaptation is failed

事件码

0x15106ff4

日志内容

Transition to Non-Critical from OK---KTI Adaptation is in progress, or High Speed adaptation is failed

日志含义

系统配置错误

参数解释

日志等级

轻微(Minor

举例

Transition to Non-Critical from OK---KTI Adaptation is in progress, or High Speed adaptation is failed

对系统的影响

可能导致系统无法正常启动

日志产生原因

KTI正在进行适配

处理建议

确认信号质量和硬件参数的配置

 

2.18.9  System board triggered an uncorrectable error

事件码

0x1521000e

日志内容

System board triggered an uncorrectable error

日志含义

主板不可纠正错误

参数解释

日志等级

严重(Major

举例

System board triggered an uncorrectable error

对系统的影响

系统已发生了IERRMCERR异常,造成业务不可用

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为主板 uncorrectable error

处理建议

系统已发生了IERRMCERR异常,造成业务不可用,通常是主板(包括各类背板)异常触发了IERRMCERR异常,请联系技术支持

 

2.18.10  System board triggered a correctable error

事件码

0x1521000e

日志内容

System board triggered a correctable error

日志含义

主板不可纠正错误

参数解释

日志等级

轻微(Minor

举例

System board triggered a correctable error

对系统的影响

系统已发生了IERRMCERR异常,造成业务不可用

日志产生原因

触发IERR或者MCERR错误,HDM诊断结果为主板correctable error

处理建议

系统已发生了IERRMCERR异常,造成业务不可用,通常是主板(包括各类背板)异常触发了IERRMCERR异常,请联系技术支持

 

 

 

2.19  Add-in Card

2.19.1  Transition to OK

事件码

0x1700000e

日志内容

Transition to OK---PCIe slot: $1---LDDevno:$2

日志含义

逻辑盘恢复正常

参数解释

$1:逻辑盘所属存储卡所在的槽位号

$2:逻辑盘序号

日志等级

正常(Info

举例

Transition to OK---PCIe slot:1---LDDevno:0

对系统的影响

日志产生原因

RAID卡管理的逻辑盘从异常恢复为正常时,记录该日志

处理建议

无需处理

 

2.19.2  Transition to Critical from less severe

事件码

0x1720000e

日志内容

Transition to Critical from less severe

日志含义

背板、riser电源故障

参数解释

日志等级

严重(Major

举例

Transition to Critical from less severe

对系统的影响

会引起系统下电

日志产生原因

背板电源故障

处理建议

·     登录到HDM并确认逻辑盘是否已降级或出现故障

·     如果逻辑盘降级,请执行以下操作:

¡     检查逻辑盘中的所有成员盘是否正常工作

¡     重新安装成员盘,确认硬盘是否可以正确识别

¡     登录BIOS页面确认所有成员盘的状态是否配置正常

¡     查看硬盘错误日志

¡     更换故障的硬盘

¡     若问题仍然存在,请联系技术支持

·     如果逻辑盘出现故障,请执行以下操作:

¡     确认对应硬盘未被拆卸

¡     重新安装成员盘并重新创建RAID阵列

¡     更换故障硬盘,之后重启服务器

¡     若问题仍然存在,请联系技术支持

 

2.19.3  Transition to Critical from less severe

事件码

0x172a000e

事件码

Transition to Critical from less severe---PCIe slot:$1---LDDevno::$2

日志内容

逻辑盘降级

日志含义

$1:逻辑盘所属存储卡所在的槽位号

$2:逻辑盘序号

参数解释

严重(Major

日志等级

Transition to Critical from less severe---PCIe slot: 1---LDDevno:0

举例

阵列降级,对数据可靠性将有影响

对系统的影响

RAID卡管理的逻辑盘降级或故障时记录该日志

日志产生原因

·     登录到HDM并确认逻辑盘是否已降级或出现故障

·     如果逻辑盘降级,请执行以下操作:

¡     检查逻辑盘中的所有成员盘是否正常工作

¡     重新安装成员盘,确认硬盘是否可以正确识别

¡     登录BIOS页面确认所有成员盘的状态是否配置正常

¡     查看硬盘错误日志

¡     更换故障的硬盘

¡     若问题仍然存在,请联系技术支持

·     如果逻辑盘出现故障,请执行以下操作:

¡     确认对应硬盘未被拆卸

¡     重新安装成员盘并重新创建RAID阵列

¡     更换故障硬盘,之后重启服务器

¡     若问题仍然存在,请联系技术支持

 

2.19.4  Transition to Non-recoverable  from less severe

事件码

0x1730000e

日志内容

Transition to Non-recoverable from less severe

日志含义

背板、riser电源故障

参数解释

日志等级

紧急(Critical

举例

Transition to Non-recoverable from less severe

对系统的影响

会引起系统下电

日志产生原因

背板、riser电源故障

处理建议

·     对于电源上下电情况,可忽略此日志

·     重新插拔电源线,确认服务器能否正常上电并开机

¡     如果服务器能够正常上电,可能由于其上检测信号被误干扰,可以继续正常使用

¡     如果无法重新上电,需要根据SDS日志的分析记录确定具体故障,并更换故障部件的备

·     如故障在运行期间再次出现,请更换故障部件的备件

·     若问题仍然存在,请联系技术支持

 

2.20  ChipSet

2.20.1  Transition to Critical from less severe

事件码

0x1920000e

日志内容

Transition to Critical from less severe

日志含义

PCH状态异常

参数解释

日志等级

轻微(Minor

举例

Transition to Critical from less severe

对系统的影响

可能导致系统性能降低

日志产生原因

PCH状态异常

处理建议

·     主机重启过程上报,可忽略此日志

·     如故障在运行期间再次出现,请更换主板

·     若问题仍然存在,请联系技术支持

 

 

 

2.21  Cable / Interconnect

2.21.1  Configuration Error - Incorrect cable connected / Incorrect interconnection

事件码

0x1b1000de

日志内容

Configuration Error - Incorrect cable connected / Incorrect interconnection

日志含义

网线配置错误

参数解释

日志等级

轻微(Minor

举例

Configuration Error - Incorrect cable connected / Incorrect interconnection

对系统的影响

网线异常,可能导致系统网络不通

日志产生原因

线配置错误

处理建议

·     检查线缆连接是否正确,如果没有连接错误,请重新连接线缆,确保线缆连接到正确的接口

·     检查线缆连接是否松动,确保线缆正常通电

 

2.21.2  Configuration Error - Incorrect cable connected / Incorrect interconnection

事件码

0x1b1800de

日志内容

Configuration Error - Incorrect cable connected / Incorrect interconnection---$1

日志含义

线缆配置错误

参数解释

$1:线缆配置错误描述

日志等级

轻微(Minor

举例

Configuration Error - Incorrect cable connected / Incorrect interconnection---Incorrect SATA cable connection to the backplane

对系统的影响

可能引起背板通信异常

日志产生原因

线缆配置错误

处理建议

·     检查线缆连接是否正确,如果没有连接错误,请重新连接线缆,确保线缆连接到正确的接口

·     检查线缆连接是否松动,确保线缆正常通电

 

2.21.3  Configuration Error - Incorrect cable connected / Incorrect interconnection

事件码

0x1b1400de

日志内容

Configuration Error - Incorrect cable connected / Incorrect interconnection$1

日志含义

线缆配置错误

参数解释

$1:线缆连接位置

日志等级

轻微(Minor

举例

Configuration Error-Incorrect cable connected / Incorrect interconnection(FrontBackplane1)

对系统的影响

可能引起背板通信异常

日志产生原因

线缆配置错误

处理建议

·     检查线缆连接是否正确,如果没有连接错误,请重新连接线缆,确保线缆连接到正确的接口

·     检查线缆连接是否松动,确保线缆正常通电

 

2.22  System Boot / Restart Initiated

2.22.1  Initiated by power up

事件码

0x1d0000de

日志内容

Initiated by power up

日志含义

系统上电

参数解释

日志等级

正常(Info

举例

Initiated by power up

对系统的影响

日志产生原因

系统开机触发

处理建议

无需处理

 

2.22.2  Initiated by hard reset

事件码

0x1d1000de

日志内容

Initiated by hard reset

日志含义

系统硬重启

参数解释

日志等级

正常(Info

举例

Initiated by hard reset

对系统的影响

日志产生原因

系统硬重启时触发

处理建议

无需处理

 

2.22.3  Initiated by warm reset

事件码

0x1d2000de

日志内容

Initiated by warm reset

日志含义

系统热重启

参数解释

日志等级

正常(Info

举例

Initiated by warm reset

对系统的影响

日志产生原因

系统热重启时触发

处理建议

无需处理

 

2.22.4  System restart

事件码

0x1d7000de

日志内容

System Restart---$1:$2

日志含义

系统重启

参数解释

$1:指明重启原因

$2:电源模式,可能是power offpower resetpower cycle或为空

日志等级

正常(Info

举例

对系统的影响

System Restart---due to power button pressed:power off

日志产生原因

系统重启

处理建议

无需处理

 

2.23  Boot Error

2.23.1  No bootable media

事件码

0x1e0000de

日志内容

No bootable media

日志含义

无启动介质

参数解释

日志等级

正常(Info

举例

No bootable media

对系统的影响

日志产生原因

状态描述,标识无启动介质,通常无影响

处理建议

·     接入可启动设备

·     若问题仍然存在,请联系技术支持

 

2.24  OS_BOOT

2.24.1  C: boot completed

事件码

0x1f1000de

日志内容

C: boot completed

日志含义

windows系统开始引导

参数解释

日志等级

正常(Info

举例

C: boot completed

对系统的影响

日志产生原因

当从硬盘上引导操作系统时,就会产生该事件,该事件的产生和特定的系统有关,大部分Windows系统会产生该事件

处理建议

无需处理

 

2.24.2  Boot completed - boot device not specified

事件码

0x1f6000de

日志内容

Boot completed - boot device not specified

日志含义

主机结束BIOS引导阶段

参数解释

日志等级

正常(Info

举例

Boot completed - boot device not specified

对系统的影响

日志产生原因

当主机退出BIOS引导阶段后,上报该日志

处理建议

无需处理

 

2.25  OS Stop / Shutdown

2.25.1  Run-time Critical Stop

事件码

0x201000de

日志内容

Run-time Critical Stop

日志含义

操作系统运行过程中发生紧急错误导致宕机

参数解释

日志等级

紧急(Critical

举例

Run-time Critical Stop

对系统的影响

系统宕机

日志产生原因

操作系统运行过程中发生紧急错误导致宕机

处理建议

·     检查安装的系统版本、驱动版本、固件版本及软件是否存在Bug或兼容性问题

·     若存在Bug或兼容性问题,请更新版本

·     否则请检查安装的部件是否属于服务器支持的范围,可以参见官网的OS兼容性列表

·     若问题仍然存在,请联系技术支持

 

2.25.2  OS Graceful Stop

事件码

0x202000de

日志内容

OS Graceful Stop

日志含义

Windows操作系统停止

参数解释

日志等级

正常(Info

举例

OS Graceful Stop

对系统的影响

系统关机

日志产生原因

Windows操作系统处于等待外部操作的停止状态

处理建议

 

2.25.3  OS Graceful Shutdown

事件码

0x203000de

日志内容

OS Graceful Shutdown

日志含义

Windows操作系统关闭

参数解释

日志等级

正常(Info

举例

OS Graceful Shutdown

对系统的影响

系统关机

日志产生原因

正常关闭Windows操作系统

处理建议

 

 

 

2.26  Slot / Connector

2.26.1  Device disabled: PCIe module information not obtained

事件码

0x21000012

日志内容

Device disabled: PCIe module information not obtained---Slot $1

日志含义

设备禁用,无法获取PCIe相关信息

参数解释

$1:故障PCIe设备连接的slot

日志等级

严重(Major

举例

Device Disabled: PCIe module information not obtained---Slot 1

对系统的影响

PCIe卡无法识别,可能降低系统性能

日志产生原因

PCIe设备故障,无法获取相关信息,会产生该事件

处理建议

·     检查服务器是否处于最小启动模式,判断是否处于最小启动模式配置下请参见《故障处理手册》;如果是则无需处理,否则请检查下一项

·     检查BIOS配置中是否已禁用对应Port口;如果是则无需处理,否则请检查下一项

·     检查该PCIe设备是否满足兼容性需求;如果是则无需处理,否则请检查下一项

·     检查该PCIe设备是否安装到位;如果是则无需处理,否则请检查下一项

·     交叉检查该PCIe设备是否故障;如果是则无需处理,否则请检查下一项

·     若问题仍然存在,请联系技术支持

 

2.26.2  Fault Status asserted

事件码

0x210000de

日志内容

Fault Status asserted:---fan error in slot $1

日志含义

PCIe卡风扇故障

参数解释

$1:故障的slot

日志等级

严重(Major

举例

Fault Status asserted:---fan error in slot 15

对系统的影响

 可能导致PCIe卡故障引起系统宕机

日志产生原因

OCP风扇不在位和堵转时上报

处理建议

·     建议插拔OCP风扇,看看问题是否可被修复

·     插拔OCP风扇后问题依旧的话,可更换OCP风扇来确认问题是否存在

 

2.26.3  Transition to Non-Critical from OK

事件码

0x2110000e

日志内容

Transition to Non-Critical from OK---slot $1----PCIe Name:$2

日志含义

OCP卡连接失败

参数解释

$1: 指明PCIeslot

$2: 指明PCIe卡名称

日志等级

严重(Major

举例

Transition to Non-Critical from OK---slot 15----PCIe Name:NIC-620F-B2-25Gb-2P-1-X

对系统的影响

 可能导致PCIe卡故障引起系统宕机

日志产生原因

获取网卡连接信息失败时,会生成此消息

处理建议

·     验证当前网卡是否存在故障

·     检查相关链路是否正常(如I2CMCTP)

 

2.27  System ACPI Power State

2.27.1  S0 / G0 "working"

事件码

0x220000de

日志内容

S0 / G0 "working"

日志含义

系统处于正常工作状态

参数解释

日志等级

正常(Info

举例

S0 / G0 "working"

对系统的影响

日志产生原因

S0 / G0表示系统处于正常工作状态,其中G(0-2)表示全局状态(G-States),S(0-5)表示睡眠状态(S-States

G0工作状态:在这一状态下可运行应用程序

S0睡眠状态:正常工作状态

处理建议

无需处理

 

2.27.2  S0 / G0 "working"

事件码

0x220800de

日志内容

S0 / G0 "working"---$1

日志含义

系统上电

参数解释

$1:上电原因,可能参数

·     due to virtual power button pressed

·     due to physical power button pressed

·     due to ipmi cmd

·     due to redfish cmd

·     due to AC lost

·     due to kvm button pressed

·     due to snmp cmd

日志等级

正常(Info

举例

S0 / G0 "working"--- due to virtual power button pressed

对系统的影响

日志产生原因

系统上电

处理建议

无需处理

 

2.27.3  S5 / G2 "soft-off"

事件码

0x225000de

日志内容

S5 / G2 "soft-off"

日志含义

系统软关机

参数解释

日志等级

正常(Info

举例

S5 / G2 "soft-off"

对系统的影响

日志产生原因

S5 / G2 表示软关机状态,此时不可运行应用程序和操作系统,除了主要的电源供电单元,基本上会关闭整个系统。功耗约等于零,如需重启系统,唤醒延迟时间比较长

处理建议

无需处理

 

2.27.4  S5 / G2 "soft-off"

事件码

0x225800de

日志内容

S5 / G2 "soft-off"---$1

日志含义

系统软关机

参数解释

$1:正常关机原因,可能参数

·     due to virtual power button pressed

·     due to physical power button pressed

·     due to ipmi cmd

·     due to redfish cmd

·     due to AC lost

·     due to kvm button pressed

·     due to snmp cmd

·     due to pef expiration

日志等级

正常(Info

举例

S5 / G2 "soft-off"--- due to virtual power button pressed

对系统的影响

日志产生原因

S5 / G2 表示软关机状态,此时不可运行应用程序和操作系统,除了主要的电源供电单元,基本上会关闭整个系统。功耗约等于零,如需重启系统,唤醒延迟时间比较长

处理建议

无需处理

 

2.27.5  S4 / S5 soft-off, particular S4 / S5 state cannot be determined

事件码

0x226000de

日志内容

S4 / S5 soft-off, particular S4 / S5 state cannot be determined

日志含义

系统软关机

参数解释

日志等级

正常(Info

举例

S4 / S5 soft-off, particular S4 / S5 state cannot be determined

对系统的影响

日志产生原因

·     S4/S5软关机状态,当不能决定是S4还是S5情况下为当前状态

·     S(0-5)指睡眠状态(S-States

·     S4状态

¡     包括RAM在内的所有部件均被关闭

¡     只保留平台设置,其他部分设置被保存在硬盘的特殊位置中

¡     成功切换至S4平台后,系统会关闭

¡     因为几乎所有的程序和配置都已经停止运行,因此功耗<3W

¡     唤醒时需要再次进入“BIOS Boot Sequence

¡     不需重启系统,会继续执行S5状态关机

处理建议

无需处理

 

2.27.6  LPC Reset occurred

事件码

0x22d000de

日志内容

LPC Reset occurred

日志含义

主机关机

参数解释

日志等级

正常(Info

举例

LPC Reset occurred

对系统的影响

对系统无影响

日志产生原因

Intel机型的服务器产生复位操作时,触发该事件日志

处理建议

无需处理

 

2.28  Watchdog2

2.28.1  Watchdog overflowAction:Timer expired

事件码

0x230000de

日志内容

Watchdog overflow.Action:Timer expired - status only (no action and no interrupt)---interrupt type:$1---timer use at expiration:$2

日志含义

系统看门狗超时

参数解释

$1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

$2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

正常(Info

举例

Watchdog overflow.Action:Timer expired - status only (no action and no interrupt)---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

看门狗超时溢出时,如果超时动作设为“无动作”,则产生此告警,产生此告警的前提是BIOS下启动看门狗

处理建议

·     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

·     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

·     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

·     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

·     若问题仍然存在,请联系技术支持

 

2.28.2  Watchdog overflowAction:Hard Reset

事件码

0x231000de

日志内容

Watchdog overflow.Action:Hard Reset---interrupt type:$1---timer use at expiration:$2

日志含义

系统看门狗超时

参数解释

$1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

$2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

严重(Major

举例

Watchdog overflow.Action:Hard Reset---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为“重启”,则产生此告警

处理建议

·     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

·     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

·     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

·     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

·     若问题仍然存在,请联系技术支持

 

2.28.3  Watchdog overflowAction:Power Down

事件码

0x232000de

日志内容

Watchdog overflow.Action:Power Down---interrupt type:$1---timer use at expiration:$2

日志含义

系统看门狗超时

参数解释

$1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

$2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

严重(Major

举例

Watchdog overflow.Action:Power Down---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为“关机”,则产生此告警,系统被强制下电,此时业务将被中断,未保存数据将丢失

处理建议

·     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

·     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

·     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

·     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

·     若问题仍然存在,请联系技术支持

 

2.28.4  Watchdog overflowAction:Power Cycle

事件码

0x233000de

日志内容

Watchdog overflow.Action:Power Cycle---interrupt type:$1---timer use at expiration:$2

日志含义

系统看门狗超时

参数解释

$1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified

$2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified

日志等级

严重(Major

举例

Watchdog overflow.Action:Power Cycle---interrupt type:none---timer use at expiration:BIOS FRB2

对系统的影响

系统无法启动

日志产生原因

通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POSTOS LoadSMS/OS阶段),看门狗超时溢出时,如果超时动作设为“掉电重启”,则产生此告警

处理建议

·     告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作

·     告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5

·     告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理

·     在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步

·     若问题仍然存在,请联系技术支持

 

2.29  Entity Presence

2.29.1  Entity Present---License is about to expire

事件码

0x250000de

日志内容

Entity Present---License is about to expire

日志含义

临时许可证即将到期

参数解释

日志等级

轻微(Minor

举例

Entity Present---License is about to expire

对系统的影响

日志产生原因

证书剩余使用时间小于10天会报此告警

处理建议

临时许可证即将到期,请购买正式许可证

 

2.29.2  Entity Disabled---License has expired

事件码

0x252000de

日志内容

Entity Disabled---$1

日志含义

临时许可证过期或者不可用

参数解释

$1:证书状态

License has expired---证书过期

License is unavailable---证书不可用

日志等级

轻微(Minor

举例

Entity Disabled---License has expired

对系统的影响

日志产生原因

证书已过期或者不可用

处理建议

·     若临时许可证已到期,请购买正式许可证并激活

·     若许可证不可用,请卸载当前许可证并重新激活或联系技术人员

 

2.30  Management Subsystem Health

2.30.1  Controller access degraded or unavailable

事件码

0x281000de

日志内容

Controller access degraded or unavailable---$1

日志含义

SD卡读取失败或者SD卡丢失

参数解释

$1:可能值有Failed to access the SD cardSD card partitions are missing

日志等级

严重(Major

举例

Controller access degraded or unavailable---Failed to access the SD card.

对系统的影响

日志产生原因

SD卡读取失败或者SD卡丢失

处理建议

·     建议重启HDM,看看问题是否可被修复

·     重启HDM后问题依旧的话,可尝试复位HDM插卡SD卡来确认问题是否存在

·     若问题仍然存在,请联系技术支持

 

2.30.2  Controller access degraded or unavailable

事件码

0x282000de

日志内容

Management controller off-line ---$1

日志含义

BMC重启

参数解释

$1:BMC重启原因

日志等级

正常(Info

举例

Management controller off-line---BMC reset

对系统的影响

日志产生原因

BMC重启

处理建议

无需处理

 

2.31  Battery

2.31.1  Battery low (predictive failure)

事件码

0x290000de

日志内容

Battery low (predictive failure)---PCIe slot:$1

日志含义

电量不足

参数解释

$1:告警的超级电容所属存储卡所在的槽位号

日志等级

轻微(Minor

举例

Battery low (predictive failure)---PCIe slot:1

对系统的影响

RAID卡可靠性下降,可能引起系统性能下降

日志产生原因

RAID卡电池(超级电容)电量不足、过温、过压或过流时会产生此日志,该状态下RAID卡可靠性下降

处理建议

·     设备上电后会自动为电容充电,一段时间后登录HDM,查看RAID卡的超级电容状态,检查告警是否消失

·     排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器

·     若问题仍然存在,请联系技术支持

 

2.31.2  Battery failed

事件码

0x291000de

日志内容

Battery failed---PCIe slot:$1

日志含义

电池故障

参数解释

$1:告警的超级电容所属存储卡所在的槽位号

日志等级

轻微(Minor

举例

Battery failed---PCIe slot:1

对系统的影响

RAID卡可靠性下降,可能引起系统性能下降

日志产生原因

RAID卡的掉电保护模块出现内部错误时,产生此告警,可能原因如下:

·     电池或超级电容电量耗尽,生命周期结束

·     掉电保护模块初始化失败

·     掉电保护模块子系统故障

·     掉电保护模块充电失败

·     电池或超级电容故障

处理建议

·     登录HDM,查看RAID卡的超级电容状态

·     排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器

·     若问题仍然存在,请联系技术支持

 

2.31.3  Battery presence detected

事件码

0x292000de

日志内容

Battery presence detected---PCIe slot:$1

日志含义

电池不在位

参数解释

$1:告警的超级电容所属存储卡所在的槽位号

日志等级

正常(Info

举例

Battery presence detected---PCIe slot:1

对系统的影响

RAID卡可靠性下降,可能引起系统性能下降

日志产生原因

RAID卡电池或超级电容不在位

处理建议

·     登录HDM,查看RAID卡的超级电容状态。若显示不在位,请开箱检查电池或超级电容是否安装,线缆连接是否正确

·     排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器

·     若问题仍然存在,请联系技术支持

 

2.32  Version Change

2.32.1  Hardware incompatibility detected with associated Entity---Memory is not certified

事件码

0x2b2000de

日志内容

Hardware incompatibility detected with associated Entity---Memory is not certified---Location:CPU:$1 CH:$2 DIMM:$3

日志含义

内存未认证

参数解释

$1CPU编号

$2:通道编号

$3:内存编号

日志等级

轻微(Minor

举例

Hardware incompatibility detected with associated Entity---Memory is not certified---Location:CPU:1 CH:1 DIMM:0

对系统的影响

对系统无影响

日志产生原因

内存未认证上报此日志

处理建议

·     请使用H3C认证内存

·     若问题仍然存在,请联系技术支持

 

新华三官网
联系我们