手册下载
H3C HDM告警日志信息参考手册
Copyright © 2020-2024新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目 录
2.1.1 Dropped below the lower minor threshold
2.1.2 Dropped below the lower major threshold
2.1.3 Dropped below the lower critical threshold
2.1.4 Exceeded the upper minor threshold
2.1.5 Exceeded the upper major threshold
2.1.6 Exceeded the upper critical threshold
2.2.2 Dropped below the lower major threshold
2.2.3 Exceeded the upper major threshold
2.3.2 Exceeded the upper minor threshold
2.3.3 Exceeded the upper major threshold
2.3.4 Exceeded the upper critical threshold
2.4.3 Non-redundant:Sufficient Resources from Redundant
2.4.5 Non-redundant:Insufficient Resources
2.5.1 Liquid Cooler is not present
2.5.2 Liquid Cooler is leakage
2.5.3 Liquid Cooler is leakage
2.6.1 General Chassis Intrusion
2.7.3 CPU Critical Temperature
2.7.6 Processor Presence detected
2.7.7 Processor Automatically Throttled
2.7.9 triggered an uncorrectable error
2.7.11 Machine Check Error ---CPU core errors
2.7.12 triggered a correctable error
2.7.13 Correctable Machine Check Error
2.7.14 Correctable Machine Check Error---CPU UPI errors
2.7.15 Correctable Machine Check Error ---IOH UPI errors
2.7.16 Correctable Machine Check Error ---IOH core errors
2.7.17 Correctable Machine Check Error---VT-d errors
2.7.18 Correctable Machine Check Error ---CPU core errors
2.7.19 Correctable Machine Check Error ---Cbo error
2.7.20 Configuration Error---System is operating in KTI Link Slow Speed Mode
2.8.5 Power Supply Failure detected
2.8.6 Power Supply Predictive Failure---PSU Self Check Failed
2.8.7 Power Supply Predictive Failure
2.8.8 Power Supply input lost (AC/DC)
2.8.9 Power Supply input lost or out-of-range
2.8.10 Power Supply input out-of-range - but present
2.8.11 Configuration error ---Vendor mismatch
2.8.12 Configuration error---Power supply rating mismatch
2.8.13 Exceeded the upper minor threshold
2.8.14 Power Supply Inactive/standby state
2.8.16 Power Supply Pwok abnormal
2.8.17 Power limit is exceeded over correction time limit
2.8.18 Power limit is exceeded over correction time limit
2.9.1 Correctable ECC or other correctable memory error
2.9.2 CPU triggered a correctable error
2.9.3 Uncorrectable ECC or other uncorrectable memory error
2.9.4 triggered an uncorrectable error
2.9.6 Parity---Memory Training Faulty Part Tracking Uncorrectable Error
2.9.7 Parity---Memory Receive Enable Training Error
2.9.8 Parity---Memory Write Leveling Training Error
2.9.9 Parity---Memory Write DqDqs Training Error
2.9.10 Parity---Memory Sense Amp Training Error
2.9.11 Parity---Warning Command Clock Training Error
2.9.12 Parity---An uncorrectable error occurs during the memory test phase
2.9.13 Parity---Memory Training Error
2.9.14 Parity---The number of correctable memory errors reached the error logging threshold
2.9.15 Parity---An error occurred on the DIMM slot
2.9.16 Parity---CMD eye width is too small
2.9.17 Parity---The command is not in the FNv table
2.9.18 Parity---CTL is not consistent with clock in timing, and the channel is isolated
2.9.19 Parity---Memory write flyby failed
2.9.21 Parity---Memory read DqDqs training failed
2.9.22 Parity---Memory receive enable training failed
2.9.23 Parity---Memory write leveling training failed
2.9.24 Parity---Memory write DqDqs training failed
2.9.25 Parity---An error occurrs during memory test, and the rank is disabled
2.9.26 Parity---Failed to find the RxVref for data eye training
2.9.27 Parity---LRDIMM RCVEN training failed
2.9.28 Parity---RCVEN CYCLE training failed
2.9.29 Parity---Read delay training failed
2.9.30 Parity---Memory write leveling training failed
2.9.31 Parity---Coarse write leveling training failed
2.9.32 Parity---Write delay training failed
2.9.33 Parity---QxCA_CLK_NO_EYE training failed
2.9.34 Parity---mapped out because failed critical mask test at cold boot
2.9.35 Parity---Invalid SPD contents
2.9.37 Memory Device Disabled---The DIMM is disabled
2.9.38 Memory Device Disabled---the rank is disabled
2.9.39 Memory Device Disabled---Pmem Media disabled
2.9.40 Correctable ECC or other memory error limit reached
2.9.42 Configuration error---RDIMMs are installed on the server that supports only UDIMMs
2.9.43 Configuration error---UDIMMs are installed on the server that supports only RDIMMs
2.9.44 Configuration error---SODIMMs are installed on the server that supports only RDIMMs
2.9.45 Configuration error---The number of ranks per channel can be only 1, 2, or 4
2.9.47 Configuration error---The number of ranks in the channel exceeds 8
2.9.50 Configuration error---The CPU is not compatible with 3DS DIMMs
2.9.51 Configuration error---NVDIMMs with stepping lower than 0x10 are not supported
2.9.52 Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs
2.9.53 Configuration error---The CPU is not compatible with the DIMMs
2.9.54 Configuration error---The frequency of the DIMM is not supported on the server
2.9.55 Configuration error---NVDIMMs are not compatible with the CPU
2.9.56 Configuration error---DCPMMs are not supported
2.9.57 Configuration error---Memory LockStep Disable Error
2.9.58 Configuration error---Memory Mirror Disable Error
2.9.59 Configuration error---Failed to enable the full mirror mode
2.9.63 Configuration error---Memory Rank Sparing Error
2.9.64 Configuration error---Failed to enable patrol scrubbing
2.9.67 Configuration error---The DDR-T memory module is installed in the white slot
2.9.68 Configuration error---2LM IMC memory Mismatch
2.9.69 Configuration error---ODT configuration errorThe channel is isolated
2.9.70 Configuration error---Failed to enable ADDDC
2.9.71 Configuration error---Failed to enable SDDC
2.9.72 Configuration error---DCPMM firmware version not supported
2.9.73 Configuration error---DCPMM firmware version not supported
2.9.74 Configuration error---NVMCTRL_MEDIA_NOTREADY
2.9.75 Configuration error---The DDR-T memory modules of the unexpected model are installed
2.9.76 Configuration error---Failed to set the VDD voltage of the DIMM
2.9.77 Configuration error---Too many RIR rules
2.9.78 Configuration error---The DIMMs for the CPU exceeded the limit
2.10.8 Rebuild/Remap in progress
2.10.9 The disk triggered an media error
2.10.10 The disk triggered an uncorrectable error
2.11.1 System Firmware Error (POST Error)---CPU matching failure
2.11.2 System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected
2.11.3 System Firmware Error (POST Error)---Load microcode failed
2.11.4 System Firmware Error (POST Error)---No system memory or invalid memory configuration
2.11.8 System Firmware Error (POST Error)---Memory Population Rule Error
2.11.9 System firmware error (POST error)---DIMM installation or compatibility error occurred
2.11.10 System firmware error (POST error)---No Memory Usable
2.11.11 System firmware error (POST error)---No DDR Memory Error
2.11.12 System firmware error (POST error)---DIMM Compatible Error(LRDIMM and RDIMM are installed)
2.11.13 System Firmware Error (POST Error)---No DIMMs present
2.11.14 System Firmware Error (POST Error)---No DDR memory in the system
2.11.15 System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation
2.11.16 System Firmware Error (POST Error)---Different DIMM types detected
2.11.17 System Firmware Error (POST Error)---DIMM population error
2.11.20 System Firmware Error (POST Error)---DIMM voltage error
2.11.21 System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed
2.11.22 System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed
2.11.23 System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed
2.11.24 System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed
2.11.25 System Firmware Error (POST Error)---Memory Unrecognized Initialization Error
2.11.26 System Firmware Hang---Unspecified
2.11.27 System firmware hang-----No DDR Memory Error
2.11.28 System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed)
2.11.29 System firmware hang---Memory Unrecognized Initialization Error
2.11.30 System Firmware Progress---Current Memory Ras Mode
2.11.32 System Firmware Error (POST Error)---No DIMMs installed for CPU
2.13.2 OS Watchdog NMI/Diagnostic Interrupt
2.13.3 OS Watchdog pre-timeout Interrupt-non-NMI
2.14.1 Timestamp Clock Synch---event is $1 of pair---SEL Timestamp Clock updated
2.14.2 Timestamp clock synch---BMC Time SYNC succeed
2.15.1 Transition to Non-Critical from OK
2.15.2 PCI: PCIE Hot Plug PCIe Pull Out
2.15.3 PCI: PCIE Hot Plug PCIe Insert
2.15.5 Bus Uncorrectable Error
2.16.1 Power Button pressed---Physical button---Button pressed
2.16.2 Power Button pressed---Physical button---Button released
2.16.3 Power Button pressed---Virtual button---Power cycle command
2.16.4 Power Button pressed---Virtual button---Power off command
2.16.5 Power Button pressed---Virtual button---Power on command
2.16.6 Power Button pressed---Virtual button---Soft off command
2.16.7 Reset Button pressed---Virtual button---Reset command
2.16.8 FRU service request button---Physical button---Uid button pressed
2.17.1 Transition to Critical from less severe
2.17.2 Transition to Non-recoverable from less severe
2.17.3 Monitor---Board found PSU output can't be enabled
2.18.2 Transition to Critical from less severe
2.19.3 Transition to Critical from less severe
2.19.4 Transition to Non-recoverable from less severe
2.20 System Boot / Restart Initiated
2.20.2 Initiated by hard reset
2.20.3 Initiated by warm reset
2.20.4 System restart---due to fan error:power off
2.20.6 System Restart---due to fan error:power reset
2.20.7 System Restart---due to fan error:power cycle
2.24.1 Device disabled: PCIe module information not obtained
2.24.2 triggered an uncorrectable error
2.24.3 triggered a correctable error
2.24.4 Slot/Connector Device installed/attached
2.24.7 Transition to Non-Critical from OK
2.26.1 Watchdog overflowAction:Timer expired
2.26.2 Watchdog overflowAction:Hard Reset
2.26.3 Watchdog overflowAction:Power Down
2.26.4 Watchdog overflowAction:Power Cycle
2.26.5 Watchdog overflowAction:Timer interrupt
2.27 Management Subsystem Health
2.27.1 Management controller off-line.
2.27.2 Management controller off-line---BMC reset
2.27.3 Management controller off-line---HDM cold reboot
2.27.4 Management controller off-line---BMC WDT timeout event happened
2.27.5 Management controller off-line---BMC service restart
2.27.6 Management controller unavailable
2.27.7 Management controller unavailable---Adapter $1 is in a fault condition
2.27.8 Sensor access degraded or unavailable--- Adapter $1 has no response for 2 minutes in $2 slot
2.27.9 Sensor access degraded or unavailable--- Adapter $1 has no response for 5 minutes in $2 slot
2.27.10 Sensor failure---Adapter $1 has no response for 4 minutes in $2 slot
2.27.11 Sensor failure---Adapter $1 has no response for 10 minutes in $2 slot
2.28.1 Battery low (predictive failure)
2.28.3 Battery presence detected
2.29.1 Management controller unavailable
2.30.1 System Source Monitor:Mem usage exceeds the threshold
2.30.2 System Source Monitor:Relieve resource alarm about Mem Usage
2.30.3 System Source Monitor:Cpu usage exceeds the threshold
2.30.4 System Source Monitor:Relieve resource alarm about Cpu Usage
2.30.5 Memory is not certified
本文档主要介绍HDM告警日志的相关信息。
当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同模块出现的故障产生告警,同时生成事件日志信息。用户获取到日志信息后,再通过日志信息中的相应字段在本文档中搜索定位到该日志信息,即可了解该日志信息的详细内容和处理建议,从而方便维护服务器的正常运行。
· 通过HDM Web页面获取:登录到HDM Web页面,单击[远程运维/日志]菜单项,选择“一键收集”页签,进入一键收集页面,根据需要下载日志。
· 通过告警邮件获取:若用户已完成告警邮件的相关配置,可通过告警邮件获取设备告警信息。
· 通过第三方平台获取:若用户已完成SNMP的相关配置,实现了HDM与第三方管理平台对接,则可通过第三方管理平台获取设备告警信息。
· 通过Redfish事件订阅服务器获取:若用户已完成远程订阅服务器的配置,当触发告警时,Redfish会将接收到的告警信息上传到远程订阅服务器。
· 通过IPMI命令获取:通过IPMItool以命令行的方式访问HDM的IPMI接口,输入获取SEL日志的命令,可以获取事件日志信息。
服务器系统的告警包含服务器系统所有部件产生的告警,当产生告警时,需要根据告警信息来定位告警产生的具体原因,告警信息按严重性分为四个等级。
· 正常(Info):
服务器正常运行产生的事件日志,不影响服务器正常运行,无需处理。
· 轻微(Minor):
当前未对系统产生大影响,但可能存在一定风险和隐患,可对相关事件进行观察,必要时采取相应的措施,防止故障升级。
· 严重(Major):
已对系统产生较大的影响,有可能中断系统或业务模块(计算、存储、通信、用户数据安全性)的正常运行,导致业务中断。
· 紧急(Critical):
因出现系统处理单元能力严重下降、系统可用资源明显减少、业务处理能力严重下降、业务模块大面积中断、存储设备不可用等现象,导致(或极可能导致)服务器失效、系统宕机、业务数据丢失等情况出现的,需要立即进行处理的告警。
本文以表格的形式对告警日志信息进行介绍,各项的含义请参见表1-1。
表项 |
说明 |
举例 |
事件码 |
唯一标识一条告警日志信息,用16进制数来表示 |
0x02900002 可以通过事件码的最后一位的奇偶性来判断是告警触发还是告警解除。 · 偶数:告警触发 · 奇数:告警解除 |
日志内容 |
显示日志信息的具体内容。 如出现多条内容一样的日志,可以通过上报的传感器类型来区分 |
Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
对日志中出现的参数进行解释,参数名称用“$数字”表示,如$1:XXXX |
· $1:电压传感器的当前读数 · $2:电压传感器的严重高压告警阈值 |
日志等级 |
日志等级 |
严重 |
举例 |
日志真实举例内容 |
Exceeded the upper major threshold.---Current reading:2.58---Threshold reading:2.56 |
对系统的影响 |
解释告警事件对系统的影响 |
电压过高会影响设备各器件性能,出现运行不稳定的情况 |
日志产生原因 |
解释日志产生的原因 |
板内电压异常 |
处理建议 |
建议用户应采取哪些处理措施,对于建议措施无法解决的问题,请联系技术支持 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
本手册适用于以下产品:
· H3C UniServer R5500 INTEL 液冷机型
· H3C UniServer R4300 G5
· H3C UniServer R4330 G5
· H3C UniServer R4330 G5 H3
· H3C UniServer R4700 G5
· H3C UniServer R4700LC G5
· H3C UniServer R4900 G5
· H3C UniServer R4900LC G5
· H3C UniServer R4930 G5
· H3C UniServer R4930 G5 H3
· H3C UniServer R4930LC G5 H3
· H3C UniServer R4950 G5
· H3C UniServer R5300 G5
· H3C UniServer R5500 G5
· H3C UniServer R6900 G5
· H3C UniServer B5700 G5
· H3C UniServer R2700 G3
· H3C UniServer R2900 G3
· H3C UniServer R4100 G3
· H3C UniServer R4300 G3
· H3C UniServer R4400 G3
· H3C UniServer R4500 G3
· H3C UniServer R4700 G3
· H3C UniServer R4900 G3
· H3C UniServer R4950 G3
· H3C UniServer R5300 G3
· H3C UniServer R6700 G3
· H3C UniServer R6900 G3
· H3C UniServer R8900 G3
· H3C UniServer B5700 G3
· H3C UniServer B5800 G3
· H3C UniServer B7800 G3
· H3C UniServer E3200 G3
事件码 |
0x01000002 |
日志内容 |
Dropped below the lower minor threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的轻微级别低温告警阈值 |
日志等级 |
轻微(Minor) |
举例 |
Dropped below the lower minor threshold.---Current reading:2---Threshold reading:10 |
对系统的影响 |
温度过低会影响设备各器件性能,出现运行不稳定的情况。 如果温度没有上升,告警一直存在,会导致温度进一步降低产生严重级别的告警。因此,产生低温告警应尽早发现可能存在的问题,避免问题升级。 |
日志产生原因 |
环境温度过低 |
处理建议 |
1. 请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作 2. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过高,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x01200002 |
日志内容 |
Dropped below the lower major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的严重级别低温告警阈值 |
日志等级 |
严重(Major) |
举例 |
Dropped below the lower major threshold.---Current reading:2---Threshold reading:5 |
对系统的影响 |
温度过低会影响设备各器件性能,出现运行不稳定的情况。 如果温度没有上升,告警一直存在,会导致温度进一步降低产生紧急级别的告警。因此,产生低温告警应尽早发现可能存在的问题,避免问题升级。 |
日志产生原因 |
环境温度过低 |
处理建议 |
1. 请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作 2. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过高,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x01400002 |
日志内容 |
Dropped below the lower critical threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的紧急级别低温告警阈值 |
日志等级 |
紧急(Critical) |
举例 |
Dropped below the lower critical threshold.---Current reading:2---Threshold reading:3 |
对系统的影响 |
设备运行在超低温环境下,会降低设备器件性能,影响设备寿命,影响业务,产生宕机 |
日志产生原因 |
环境温度过低 |
处理建议 |
1. 请确认机房温度是否过低,如果是,请调整机房温度;如果否,请执行下一步操作 2. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过高,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x01700002 |
日志内容 |
Exceeded the upper minor threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的轻微级别的高温告警阈值 |
日志等级 |
轻微(Minor) |
举例 |
Exceeded the upper minor threshold.---Current reading:100---Threshold reading:80 |
对系统的影响 |
温度过高会影响设备各器件性能,出现运行不稳定的情况。 如果温度没有降低,告警一直存在,会导致温度进一步升高产生严重级别的告警。因此,产生高温告警应尽早发现可能存在的问题,避免问题升级。 |
日志产生原因 |
环境温度过高、进风口、出风口堵塞、风扇转速过低等 |
处理建议 |
1. 请确认机房温度是否过高,如果是,请调整机房温度,如果否;请执行下一步操作 2. 确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 4. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x01900002 |
日志内容 |
Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的严重级别高温告警阈值 |
日志等级 |
严重(Major) |
举例 |
Exceeded the upper major threshold.---Current reading:100---Threshold reading:85 |
对系统的影响 |
温度过高会影响设备各器件性能,出现运行不稳定的情况。 如果温度没有降低,告警一直存在,会导致温度进一步升高产生紧急级别的告警。因此,产生高温告警应尽早发现可能存在的问题,避免问题升级。 |
日志产生原因 |
环境温度过高、进风口、出风口堵塞、风扇转速过低等 |
处理建议 |
1. 请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作 2. 确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 4. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x01b00002 |
日志内容 |
Exceeded the upper critical threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:温度传感器的当前读数 · $2:温度传感器的紧急级别高温告警阈值 |
日志等级 |
紧急(Critical) |
举例 |
Exceeded the upper critical threshold.---Current reading:100---Threshold reading:90 |
对系统的影响 |
设备运行在超高温环境下,会降低设备器件性能,影响设备寿命,增加能耗,影响业务,产生宕机 |
日志产生原因 |
环境温度过高、进风口、出风口堵塞、风扇转速过低等 |
处理建议 |
1. 请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作 2. 确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 4. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x011000de |
日志内容 |
Abnormal Temperature---GPU Card Temperature Error---Register location:$1--- GPU location:$2 |
参数解释 |
· $1:状态寄存器 · $2:GPU槽位号 |
日志等级 |
严重(Major) |
举例 |
Abnormal Temperature---GPU Card Temperature Error---Register location:0x6--- GPU location:11 |
对系统的影响 |
|
日志产生原因 |
|
处理建议 |
1. 请确认机房温度是否过高,如果是,请调整机房温度;如果否,请执行下一步操作 2. 确认服务器的入风口和出风口是否堵塞,如果是,请保持出风口和入风口通畅;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 4. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x02100006 |
日志内容 |
State Asserted |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
State Asserted |
对系统的影响 |
电压过高会影响设备各器件性能,出现运行不稳定的情况。 |
日志产生原因 |
主板上存在部件的电压过压,故障触发部件请参见HDM Web页面“事件日志”页面的传感器名称 |
处理建议 |
1. 断电重启服务器查看告警是否解除 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x02200002 |
日志内容 |
Dropped below the lower major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:电压传感器的当前读数 · $2:电压传感器的严重级别低压告警阈值 |
日志等级 |
严重(Major) |
举例 |
Dropped below the lower major threshold.---Current reading:2.58---Threshold reading:2.60 |
对系统的影响 |
电压过低会影响设备各器件性能,出现运行不稳定的情况。 |
日志产生原因 |
板内电压异常 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x02900002 |
日志内容 |
Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:电压传感器的当前读数 · $2:电压传感器的严重级别高压告警阈值 |
日志等级 |
严重(Major) |
举例 |
Exceeded the upper major threshold.---Current reading:2.58---Threshold reading:2.56 |
对系统的影响 |
电压过高会影响设备各器件性能,出现运行不稳定的情况。 |
日志产生原因 |
板内电压异常 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境问题;如果是,请执行下一步操作 2. 登录HDM Web页面确认电源模块是否处于正常状态,如果否,请更换电源模块;如果是,请执行下一步操作 3. 断电重启服务器查看告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x03100006 |
日志内容 |
State Asserted |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
State Asserted |
对系统的影响 |
可能会造成系统下电关机 |
日志产生原因 |
主板上存在组件的电流过流 |
处理建议 |
1. 通过HDM Web告警页面检查电源模块与主板是否存在异常告警 2. 确保供电系统能正常供电、电压正常 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x03700002 |
日志内容 |
Exceeded the upper minor threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:当前读数 · $2:阈值 |
日志等级 |
轻微(Minor) |
举例 |
Exceeded the upper minor threshold.---Current reading:20---Threshold reading:18 |
对系统的影响 |
电流过高会影响设备各器件性能,出现运行不稳定的情况。 |
日志产生原因 |
对应部件电流异常 |
处理建议 |
1. 检查阈值设置是否合理 2. 根据服务器额定功率判断工作负荷是否过高 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x03900002 |
日志内容 |
Exceeded the upper major threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:当前读数 · $2:阈值 |
日志等级 |
严重(Major) |
举例 |
Exceeded the upper major threshold.---Current reading:25---Threshold reading:22 |
对系统的影响 |
电流过高会影响设备各器件性能,出现运行不稳定的情况。 |
日志产生原因 |
对应部件电流异常 |
处理建议 |
1. 检查阈值设置是否合理 2. 根据服务器额定功率判断工作负荷是否过高 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x03b00002 |
日志内容 |
Exceeded the upper critical threshold.---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:当前读数 · $2:阈值 |
日志等级 |
紧急(Critical) |
举例 |
Exceeded the upper critical threshold.---Current reading:30---Threshold reading:25 |
对系统的影响 |
可能导致部件损坏,进而引起宕机 |
日志产生原因 |
板内电流异常 |
处理建议 |
1. 检查阈值设置是否合理 2. 根据服务器额定功率判断工作负荷是否过高 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04000014 |
日志内容 |
Transition to Running |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Transition to Running |
对系统的影响 |
对系统无影响 |
日志产生原因 |
风扇在位状态解除正常运行 |
处理建议 |
1. 检查风扇是否在位 2. 重新安装风扇 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04000017 |
日志内容 |
Fully Redundant |
参数解释 |
无 |
日志等级 |
严重 (Major) |
举例 |
Fully Redundant |
对系统的影响 |
根据冗余丢失的情况,严重时可能影响服务器整机正常散热 |
日志产生原因 |
风扇未满配、有风扇发生故障或被移除,导致风扇冗余异常 |
处理建议 |
1. 如果风扇被移除,建议重新安装风扇 2. 请重新插拔风扇,确保风扇接触良好 3. 如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04300016 |
日志内容 |
Non-redundant:Sufficient Resources from Redundant |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Non-redundant:Sufficient Resources from Redundant |
对系统的影响 |
不影响系统散热 |
日志产生原因 |
风扇失效或者不在位 |
处理建议 |
1. 如果风扇被移除,建议重新安装风扇 2. 请重新插拔风扇,确保风扇接触良好 3. 如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04400014 |
日志内容 |
Transition to Off Line |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Transition to Off Line |
对系统的影响 |
影响系统散热功能,降低主板器件性能 |
日志产生原因 |
风扇模块被拔出、风扇模块与主板接触不良 |
处理建议 |
1. 如果风扇被移除,建议重新安装风扇 2. 请重新插拔风扇,确保风扇接触良好 3. 如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04500016 |
日志内容 |
Non-redundant:Insufficient Resources |
参数解释 |
无 |
日志等级 |
严重 (Major) |
举例 |
Non-redundant:Insufficient Resources |
对系统的影响 |
影响系统散热功能,导致系统过热,主机下电关机 |
日志产生原因 |
风扇失效或者不在位 |
处理建议 |
1. 如果风扇被移除,建议重新安装风扇 2. 如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇 3. 请重新插拔风扇,确保风扇接触良好 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04600014 |
日志内容 |
Transition to Degraded |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Transition to Degraded |
对系统的影响 |
影响系统散热功能,降低主板器件性能 |
日志产生原因 |
风扇转速异常 |
处理建议 |
1. 通过HDM Web页面查看风扇转速确认风扇故障原因,如果转速偏低可能是风扇老化导致,如果转速接近零可能是风扇被异物堵住或风扇故障。 2. 如果风扇被异物堵塞,建议清理风扇 3. 如果风扇状态传感器有故障报告,则风扇发生故障,建议更换风扇 4. 如果风扇老化,建议更换风扇 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x04800014 |
日志内容 |
Install Error |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
Install Error |
对系统的影响 |
系统可能无法开机 |
日志产生原因 |
风扇安装错误 |
处理建议 |
1. 检查风扇是否按照产品要求的部件安装准则来安装。安装准则请参见产品用户指南 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0a5000de |
日志内容 |
Liquid Cooler is not present |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
Liquid Cooler is not present |
对系统的影响 |
可能会造成散热不正常,影响系统性能 |
日志产生原因 |
液冷服务器专有,液冷模块安装错误 |
处理建议 |
1. 请验证液冷模块是否正常在位 2. 请验证漏液传感器是否安装到位 3. 请更换液冷模块 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0a6000de |
日志内容 |
Liquid Cooler is leakage |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
Liquid Cooler is leakage |
对系统的影响 |
可能会造成系统宕机 |
日志产生原因 |
液冷服务器专有,液冷模块发生漏液 |
处理建议 |
1. 请验证液冷模块是否正常运行或存在漏液 2. 请更换液冷模块 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0a7000de |
日志内容 |
Liquid Cooler is leakage |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
Liquid Cooler is leakage |
对系统的影响 |
可能会造成系统宕机 |
日志产生原因 |
液冷服务器专有,液冷模块发生漏液 |
处理建议 |
1. 请验证液冷模块是否正常运行或存在漏液 2. 请更换液冷模块 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x050000de |
日志内容 |
General Chassis Intrusion |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
General Chassis Intrusion |
对系统的影响 |
无影响 |
日志产生原因 |
机箱盖被打开 |
处理建议 |
1. 检查是否有人为打开机箱的操作 2. 检查机箱盖是否正确安装,必要时可打开机盖再关闭,确认日志是否消失 3. 检查开箱告警模块与挂耳连接是否正常 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x054000de |
日志内容 |
LAN Leash Lost |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
LAN Leash Lost |
对系统的影响 |
无影响 |
日志产生原因 |
BMC的NCSI通道检测网络物理层断开 |
处理建议 |
1. 确认OS内是否对网卡进行禁用,若是则无需处理 2. 若系统在开关机阶段上报此日志,可忽略 3. 检查共享网口网线是否正常连接 4. 若无需使用共享网口,请关闭共享网口 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x070000de |
日志内容 |
· Intel: $1 $2 err---Socket $3 · AMD: GMI/xGMI err---Socket$1 Die$2 LinkID$3 |
参数解释 |
· Intel ¡ $1:信号类型,包括:MSMI和CATERR ¡ $2:错误类型,包括:IERR和MCERR ¡ $3:产生错误的CPU · AMD ¡ $1:CPU ¡ $2:Di ¡ $3:Lin |
日志等级 |
紧急(Critical) |
举例 |
· Intel: CATERR IERR err---Socket 1 · AMD: GMI/xGMI err---Socket1 Die1 LinkID1 |
对系统的影响 |
会造成系统宕机,之后系统默认会自动重启 |
日志产生原因 |
CPU内部错误,比如PCU(Package Control Unit)发生了不可纠正错误时,会产生此告警 |
处理建议 |
1. 升级最新的BIOS和HDM固件版本,如问题还在,请执行下一步 2. 结合和该日志同时上报的具体部件事件日志进行处理 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07100006 |
日志内容 |
State Asserted |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
State Asserted |
对系统的影响 |
可能会造成系统宕机 |
日志产生原因 |
部分CPU过热 |
处理建议 |
1. 登录HDM Web页面,检查风扇状态是否正常 2. 插拔或者更换转速告警的风扇模块 3. 查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载 4. 检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内 5. 检查入风口/出风口是否堵塞,移除阻塞物 6. 将服务器下电,CPU检查散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电 7. 若问题仍然存在,请联系技术支持 |
事件码 |
0x071000de |
日志内容 |
CPU Critical Temperature. |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
CPU Critical Temperature |
对系统的影响 |
可能会造成系统宕机 |
日志产生原因 |
当CPU过热时,触发该事件 |
处理建议 |
1. 登录HDM Web页面,检查风扇状态是否正常 2. 插拔或者更换转速告警的风扇模块 3. 查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载 4. 检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内 5. 检查入风口/出风口是否堵塞,移除阻塞物 6. 将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电 7. 若问题仍然存在,请联系技术支持 |
事件码 |
0x071000de |
日志内容 |
Thermal Trip |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
Thermal Trip |
对系统的影响 |
可能会造成系统宕机 |
日志产生原因 |
当CPU过热时,触发该事件,可能会关机下电 |
处理建议 |
1. 登录HDM Web页面,检查风扇状态是否正常 2. 插拔或者更换转速告警的风扇模块 3. 查看系统资源监控页签,查看系统业务量是否过大,关闭非紧急业务以降低业务承载 4. 检查环境温度是否过高,将服务器运行环境温度控制在其正常工作温度范围内 5. 检查入风口/出风口是否堵塞,移除阻塞物 6. 将服务器下电,检查CPU散热器是否接触不良,重新涂抹导热硅脂并安装散热器,然后上电 7. 若问题仍然存在,请联系技术支持 |
事件码 |
0x072000de |
日志内容 |
FRB1/BIST failure. |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
FRB1/BIST failure |
对系统的影响 |
可能导致操作系统无法正常启动、硬件降额使用 |
日志产生原因 |
在系统启动时,当CPU自检错误时产生此告警 |
处理建议 |
1. 执行关机并重启操作 2. 如果问题仍然存在,表示CPU部分core自检失败,请更换CPU 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x077000df |
日志内容 |
Processor Presence detected |
参数解释 |
无 |
日志等级 |
正常(Info)/紧急(Critical) |
举例 |
Processor Presence detected |
对系统的影响 |
若主CPU不在位会导致系统无法启动 |
日志产生原因 |
当主CPU不在位或者安装有误时会触发该事件解除日志 |
处理建议 |
1. 检查主CPU是否安装正确 2. 如主CPU故障,请更换CPU 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07a000de |
日志内容 |
Processor Automatically Throttled---due to fan error |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
Processor Automatically Throttled---due to fan error |
对系统的影响 |
CPU降频导致系统性能下降 |
日志产生原因 |
风扇故障导致CPU降频 |
处理建议 |
1. 检查风扇调速模式与当前业务模型是否匹配 2. 检查环境温度是否过高,入风口或出风口是否被堵住 3. 检查风扇是否被异物阻塞,或风扇故障 4. 查看风扇状态,如风扇故障,更换掉故障的风扇 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07b000de |
日志内容 |
Machine Check Exception---$1---$2---Location: Socket:$3 |
参数解释 |
· $1:错误类型 · $2:产生错误的时间,这一次启动或上一次启动 · $3:CPU编号 |
日志等级 |
紧急(Critical) |
举例 |
Machine Check Exception---SMN---Last Boot Error---Location: Socket:1 |
对系统的影响 |
可能导致系统停止响应 |
日志产生原因 |
当发生uncorrectable error时,会产生该告警 |
处理建议 |
1. 升级最新的BIOS和HDM固件版本,如问题还在,请执行下一步 2. 查看其他事件日志,检查是否有更明确的事件日志上报,以明确故障的具体位置 3. 重启服务器,检查问题是否存在 4. 交叉验证CPU、内存以确认问题是否解决 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07b000de |
日志内容 |
CPU $1 triggered an uncorrectable error. |
参数解释 |
$1:CPU编号 |
日志等级 |
紧急(Critical) |
举例 |
CPU 1 triggered an uncorrectable error. |
对系统的影响 |
可能导致系统停止响应 |
日志产生原因 |
触发IERR或者MCERR错误,BMC诊断结果为CPU uncorrectable error |
处理建议 |
1. 升级最新的BIOS和HDM固件版本,如问题还在,请执行下一步 2. 查看其他错误告警日志分析,检查是否能明确对应的内存、PCIe或者CPU 3. 将服务器安全下电, 请更换一个正常运行的内存、PCIe或者CPU,查看告警是否消失 4. 更换主板,查看告警是否消失 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07b100de |
日志内容 |
Machine Check Error ---Location: Processor:$1 ---IIO Stack number:$2 ---$3---$4 |
参数解释 |
· $1:CPU编号 · $2:IIO Stack number(IIO端口号) · $3:产生错误的时间,这一次启动或上一次启动 · $4:错误类型 |
日志等级 |
紧急(Critical) |
举例 |
Machine Check Exception---Location: Processor:1 ---IIO Stack number:1 --Last Boot---ITC Error:ECC uncorrectable error in the ITC dat_dword RF |
对系统的影响 |
可能导致系统停止响应 |
日志产生原因 |
系统在运行过程中检测到CPU内部不可纠正错误信息,比如VT-d errors, ITC errors, OTC errors, DMA errors, IRP errorrs, Ring errors 此错误同时会触发其他异常日志 |
处理建议 |
1. 根据其他故障告警日志以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07b150de |
日志内容 |
Machine Check Error ---CPU core errors --- ErrorType:$1---Location: Processor:$2 core MCA bank: $(3) |
参数解释 |
· $1:错误类型 · $2:CPU编号 · $3:错误类型 |
日志等级 |
紧急(Critical) |
举例 |
Machine Check Exception---CPU core errors--ErrorType:Unknow--Fatal Error--Last Boot---Location: Processor:1 core MCA bank: instruction fetch unit |
对系统的影响 |
可能导致系统停止响应 |
日志产生原因 |
系统在运行过程中检测到CPU内部不可纠正错误信息,比如CPU core errors 此错误同时会触发其他异常日志 |
处理建议 |
1. 根据其他故障告警日志以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c000de |
日志内容 |
CPU $1 triggered a correctable error. |
参数解释 |
$1:CPU编号 |
日志等级 |
轻微(Minor) |
举例 |
CPU 1 triggered a correctable error. |
对系统的影响 |
对系统无影响 |
日志产生原因 |
触发IERR或者MCERR错误,BMC诊断结果为CPU uncorrectable error |
处理建议 |
1. 升级最新的BIOS和HDM固件版本,如问题还在,请执行下一步 2. 根据同时上报的具体部件事件日志处理 3. 更换CPU或者内存、PCIe设备,查看告警是否消失 4. 更换主板,查看告警是否消失 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c100de |
日志内容 |
Correctable Machine Check Error ---location: Processor:$1 ---IIO Stack number:$2 ---$3---$4 |
参数解释 |
· $1:CPU编号 · $2:IIO Stack number · $3:Last Boot/Current Boot · $4:错误类型 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---Location: Processor:1 ---IIO Stack number:1 --Last Boot---DMA Error:Descriptor Count Error |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如VT-d errors, ITC errors, OTC errors, DMA errors, IRP errorrs, Ring errors 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
|
日志内容 |
Correctable Machine Check Error ---CPU UPI errors ---Location: Processorr:$1 UPI port number:$2 |
参数解释 |
· $1:CPU编号 · $2:UPI端口 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---CPU UPI errors---Location: Processor:2 UPI port number:0x1 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如CPU UPI errors 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c120de |
日志内容 |
Correctable Machine Check Error ---IOH UPI errors ---Location: Processor:$1 UPI port number:$2 ---Coherent interface (IRP) local group error code:$3 |
参数解释 |
· $1:CPU编号 · $2:UPI端口 · $3:错误码 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---IOH UPI errors---Location: Processor:1 UPI port number:0x1---Coherent interface (IRP) local group error code:0x6 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如IOH UPI errors 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c130de |
日志内容 |
Correctable Machine Check Error ---IOH core errors ---Location:Processor:$1 ---IIO core local group error code:$(2) |
参数解释 |
· $1:CPU编号 · $2:错误码 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---IOH core errors---Location: Processor:2---IIO core local group error code:0x6 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如IOH core errors 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c140de |
日志内容 |
Correctable Machine Check Error---VT-d errors ---Location: Processor:$1---VT-d local group error code:$(2) |
参数解释 |
· $1:CPU编号 · $2:错误码 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---VT-d errors---Location: Processor:2---VT-d local group error code:0x6 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如VT-d errors 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c150de |
日志内容 |
Correctable Machine Check Error ---CPU core errors ---ErrorType:$1 ---Location: Processor:$2 core MCA bank: $(3) |
参数解释 |
· $1:错误类型 · $2:CPU编号 · $3:错误类型 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---CPU core errors--ErrorType:Unknow--Current Boot---Location: Processor:2 core MCA bank: mid level cache |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如CPU core errors 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x07c160de |
日志内容 |
Correctable Machine Check Error ---Cbo error--location: CPU core ID:$1 thread ID:$2 caching agent MCA bank: Cbo$(3) |
参数解释 |
· $1:CORE编号 · $2:thread编号 · $3:Cbo编号 |
日志等级 |
轻微(Minor) |
举例 |
Correctable Machine Check Error---Cbo error---Location: CPU core ID:0x0 thread ID:0x0 caching agent MCA bank: Cbo0 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统在运行过程中检测到CPU内部可纠正错误信息,比如Cbo error 这些信息是CPU内部的底层信息,对外无直接影响,仅供参考使用 |
处理建议 |
1. 检查是否有其他故障告警以进一步处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x075d7010 |
日志内容 |
Configuration Error---System is operating in KTI Link Slow Speed Mode- Location:CPU:$1 |
参数解释 |
$1:CPU编号 |
日志等级 |
轻微(Minor) |
举例 |
Configuration Error---System is operating in KTI Link Slow Speed Mode- Location:CPU:1 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
系统处于KTI(Keizer Technology Interconnect)低速模式 |
处理建议 |
1. 确认CPU安装是否符合服务器用户指南中的安装准则,如果否,请重新正确安装CPU,如果是,请执行下一步 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x08000016 |
日志内容 |
Fully Redundant |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Fully Redundant |
对系统的影响 |
对系统无影响 |
日志产生原因 |
电源冗余 |
处理建议 |
无需处理 |
事件码 |
0x08000017 |
日志内容 |
Fully Redundant |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Fully Redundant |
对系统的影响 |
电源冗余失效,降低设备供电可靠性 |
日志产生原因 |
电源冗余失效 |
处理建议 |
1. 检查电源模块供电环境是否正常 2. 检查是否有电源模块被移除 3. 检查是否有电源模块和电源线缆接触不良 4. 检查是否存在电源相关故障告警日志,判断是否为电源故障 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x080000df |
日志内容 |
Presence detected |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Presence detected |
对系统的影响 |
对系统无影响 |
日志产生原因 |
0x080000de:当检测到电源模块插入时,该事件触发,表示电源模块从不在位变为在位状态。 0x080000df:当检测到电源模块拔出时,该事件解除,表示电源模块从在位状态变为不在位状态 |
处理建议 |
1. 检查是否进行了拔出电源模块的操作 2. 检查电源模块是否安装正确 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x08100016 |
日志内容 |
Redundancy Lost |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Redundancy Lost |
对系统的影响 |
电源冗余失效,降低设备供电可靠性 |
日志产生原因 |
电源冗余失效 |
处理建议 |
1. 检查电源模块供电环境是否正常 2. 检查是否有电源模块被移除 3. 检查是否有电源模块和电源线缆接触不良 4. 检查是否存在电源相关故障告警日志,判断是否为电源故障 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x081000de |
日志内容 |
Power Supply Failure detected |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Power Supply Failure detected |
对系统的影响 |
影响系统供电,可能导致系统异常下电 |
日志产生原因 |
检测到电源故障 |
处理建议 |
1. 检查电源模块的风扇是否停转 2. 重新拔插电源模块 3. 检查电源模块输入电压是否正常 4. 更换对应的电源模块 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x082000de |
日志内容 |
Power Supply Predictive Failure---PSU Self Check Failed---Id: $1 |
参数解释 |
$1:PSU编号 |
日志等级 |
轻微(Minor) |
举例 |
Power Supply Predictive Failure---PSU Self Check Failed---Id: 1 |
对系统的影响 |
电源模块可能会出现故障,影响系统供电 |
日志产生原因 |
电源自检失败告警 |
处理建议 |
1. 检查电源模块的状态指示灯是否正常 2. 检查电源模块的风扇是否停转 3. 检查电源是否为服务器兼容的电源模块,以判断是否更换 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x082000de |
日志内容 |
Power Supply Predictive Failure |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
Power Supply Predictive Failure |
对系统的影响 |
电源模块可能会出现故障,影响系统供电 |
日志产生原因 |
检测到电源模块预故障 |
处理建议 |
1. 检查电源模块的状态指示灯是否正常 2. 检查电源模块的风扇是否停转 3. 检查电源输入电压是否正常 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x083000de |
日志内容 |
Power Supply input lost (AC/DC) |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Power Supply input lost (AC/DC) |
对系统的影响 |
可能导致服务器异常下电 |
日志产生原因 |
电源的AC电源线缆被拔出或者AC输入异常 |
处理建议 |
1. 确认所有电源线未损坏且连接正确 2. 确认所有电源模块都已正确安装 3. 检查电源模块的风扇是否停转 4. 确认电源输入正常 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x084000de |
日志内容 |
Power Supply input lost or out-of-range |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Power Supply input out-of-range |
对系统的影响 |
可能导致服务器异常下电 |
日志产生原因 |
电源输入电压超出额定范围 |
处理建议 |
1. 检查是否有人为断电的操作 2. 检查电源模块输入电压是否正常 3. 检查电源线和电源模块是否安装正确 4. 重新拔插电源模块,确保电源接触良好 5. 检查电源模块的风扇是否停转 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x085000de |
日志内容 |
Power Supply input out-of-range - but present |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Power Supply input out-of-range - but present |
对系统的影响 |
电源输入异常,超过支持的范围,可能会导致服务器下电 |
日志产生原因 |
电源模块的输入电压过高 |
处理建议 |
1. 检查电源模块输入电压是否正常 2. 检查电源线和电源模块是否安装正确 3. 重新拔插电源模块,确保电源接触良好 4. 检查电源模块的风扇是否停转 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x086000de |
日志内容 |
Configuration error ---Vendor mismatch |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
Configuration error ---Vendor mismatch |
对系统的影响 |
非原厂认证部件,存在未知风险 |
日志产生原因 |
安装了非原厂认证的电源模块 |
处理建议 |
1. 请安装H3C服务器兼容的电源模块 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x086000de |
日志内容 |
Configuration error---Power supply rating mismatch:PSU$1,POUT:$2 |
参数解释 |
· $1:PSU编号 · $2:电源输出功率 |
日志等级 |
轻微(Minor) |
举例 |
Configuration error---Power supply rating mismatch:PSU1,POUT:2000 |
对系统的影响 |
可能会导致供电不稳定,系统异常下电 |
日志产生原因 |
安装了原厂认证的电源,但是两个电源之间的型号不匹配 |
处理建议 |
1. 如果电源的额定功率一致,则依次插拔电源并检查故障是否消除 2. 如果电源的额定功率不一致,则更换功率一致的电源 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x08700002 |
日志内容 |
Exceeded the upper minor threshold. ---Current reading:$1---Threshold reading:$2 |
参数解释 |
· $1:当前读数 · $2:总功率告警阈值 |
日志等级 |
轻微(Minor) |
举例 |
Exceeded the upper minor threshold.---Current reading:2030---Threshold reading:493 |
对系统的影响 |
功率超过最大值,会导致系统下电 |
日志产生原因 |
功率超过阈值 |
处理建议 |
1. 通过HDM Web页面检查阈值设置是否合理 2. 通过HDM Web页面检查服务器总功率是否过高 3. 检查电源总功率是否满足业务需求 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x087000df |
日志内容 |
Power Supply Inactive/standby state |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Supply Inactive/standby state |
对系统的影响 |
无影响 |
日志产生原因 |
电源退出冷备模式,当设置了备用电源的功能,如果当前设备的运行功率过高,备用电源会自动退出冷备份模式,给设备进行供电 |
处理建议 |
1. 通过HDM Web页面检查服务器总功率是否过高 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x093000de |
日志内容 |
Interlock Power Down |
日志含义 |
电压波动导致AC瞬断,触发关机 |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
Interlock Power Down |
对系统的影响 |
可能会引起系统宕机 |
日志产生的原因 |
现网电网波动引起AC瞬断 |
处理建议 |
1. 检查服务器外部供电环境是否处于正常状态,如果否,请检修外部供电环境;如果是,请执行下一步操作 2. 长按电源按钮直至UID灯不再闪烁以解除故障 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x08a000de |
日志内容 |
Power Supply Pwok abnormal |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Power Supply Pwok abnormal |
对系统的影响 |
可能影响系统正常供电,最终引起宕机 |
日志产生原因 |
电源输出电压正常,主板监控的Pwok电源信号异常且健康灯点亮 |
处理建议 |
1. 检查电源模块是否输入正常 2. 检查主板是否正常。 3. 确认电源模块与主板的连接是否正确。 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x095000de |
日志内容 |
Power limit is exceeded over correction time limit---Current Power: $1W. |
参数解释 |
$1:设置的功率阈值 |
日志等级 |
轻微(Minor) |
举例 |
Power limit is exceeded over correction time limit---Current Power: 2000W. |
对系统的影响 |
功率封顶失效会执行预定策略 |
日志产生原因 |
功率封顶功能,当功率超过一定时间后触发该告警 |
处理建议 |
1. 建议调整功率封顶阈值或调整服务器工作负载 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x095010de |
日志内容 |
Power limit is exceeded over correction time limit---GPU Current Power: $1W. |
参数解释 |
$1:设置的功率阈值 |
日志等级 |
轻微(Minor) |
举例 |
Power limit is exceeded over correction time limit---GPU Current Power: 2000W. |
对系统的影响 |
功率封顶失效会执行预定策略 |
日志产生原因 |
功率封顶功能,当功率超过一定时间后触发该告警 |
处理建议 |
1. 建议调整功率封顶阈值或调整GPU工作负载 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c0000de |
日志内容 |
Correctable ECC or other correctable memory error--$1-Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6 |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:内存控制器编号 · $4:通道编号 · $5:内存编号 · $6:内存丝印 |
日志等级 |
轻微(Minor) |
举例 |
Correctable ECC or other correctable memory error---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
内存的可纠正错误 |
处理建议 |
无需处理 |
事件码 |
0x0c0000de |
日志内容 |
CPU $1 $2 triggered a correctable error |
参数解释 |
· $1:CPU编号 · $2:内存编号 |
日志等级 |
轻微(Minor) |
举例 |
CPU 1 A0 triggered a correctable error |
对系统的影响 |
对系统无影响 |
日志产生原因 |
触发IERR或者MCERR错误,HDM诊断结果为内存Correctable Error |
处理建议 |
无需处理 |
事件码 |
0x0c1000de |
日志内容 |
Uncorrectable ECC or other uncorrectable memory error--$1-Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6 |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:内存控制器编号 · $4:通道编号 · $5:内存编号 · $6:内存丝印 |
日志等级 |
严重(Major) |
举例 |
Uncorrectable ECC or other uncorrectable memory error---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1 |
对系统的影响 |
可能导致系统停止响应(除非内存在某些RAS模式,例如mirror、MCA recovery) |
日志产生原因 |
发生了一个不可纠正的(多位bit跳变)ECC错误 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c1000de |
日志内容 |
CPU$1 $2 triggered an uncorrectable error |
参数解释 |
· $1:CPU编号 · $2:内存编号 |
日志等级 |
严重(Major) |
举例 |
CPU1 A0 triggered an uncorrectable error |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
触发IERR或者MCERR错误,BMC诊断结果为内存Uncorrectable Error |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2000de |
日志内容 |
Parity---$1---Location: Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6 |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:对应MEM CTRL · $4:通道编号 · $5:内存编号 · $6:内存丝印编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A0 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
该错误信息是读取内存单元数据时,在命令/地址线上的数据奇偶校验失败,导致该次访问内存数据异常 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c201310 |
日志内容 |
Parity---Memory Training Faulty Part Tracking Uncorrectable Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory Training Faulty Part Tracking Uncorrectable Error-Location:CPU:2 CH:1 DIMM:B1 Rank:0 |
对系统的影响 |
对系统无影响 |
日志产生原因 |
内存奇偶校验错误,UCE发生故障,引发Faulty Parts Tracking故障 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c204140 |
日志内容 |
Parity---Memory Receive Enable Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory Receive Enable Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存Faulty Parts Tracking故障,内存的Receive Enable信号无法训练出对应的时序 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c205150 |
日志内容 |
Parity---Memory Write Leveling Training Error-Location:CPU:&1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory Write Leveling Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存Faulty Parts Tracking故障时,内存的Write Leveling信号无法训练出对应的时序 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c206160 |
日志内容 |
Parity---Memory Write DqDqs Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory Write DqDqs Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存写入Dq、Dqs训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2072f0 |
日志内容 |
Parity---Memory Sense Amp Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory Sense Amp Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存Sense Amp Training(RX方向的电压异常)故障 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c208260 |
日志内容 |
Parity---Warning Command Clock Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Warning Command Clock Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存命令的时钟周期训练故障 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c20b1c0 |
日志内容 |
Parity---An uncorrectable error occurs during the memory test phase-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---An uncorrectable error occurs during the memory test phase-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
memory test产生UCE |
处理建议 |
1. 更换内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c20c290 |
日志内容 |
Parity---Memory Training Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory Training Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
在BIOS POST阶段内存训练过程中发现内存错误 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c21f010 |
日志内容 |
Parity---The number of correctable memory errors reached the error logging threshold-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---The number of correctable memory errors reached the error logging threshold-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存内存奇偶校验错误,可更正内存错误数已达到错误记录阈值 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c21f020 |
日志内容 |
Parity---An error occurred on the DIMM slot-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---An error occurred on the DIMM slot-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存奇偶校验错误,内存插槽上发生错误 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c226010 |
日志内容 |
Parity---CMD eye width is too small-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---CMD eye width is too small-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
CMD眼宽太小 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c228000 |
日志内容 |
Parity---The command is not in the FNv table-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---The command is not in the FNv table-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
发送的命令不在FNv table中 |
处理建议 |
1. 升级BIOS和DCPMM控制器固件至最新版本 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c229020 |
日志内容 |
Parity---CTL is not consistent with clock in timing, and the channel is isolated-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---CTL is not consistent with clock in timing, and the channel is isolated-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存奇偶检验错误,CTL和Clock之间时序不满足,通道被隔离 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231000 |
日志内容 |
Parity---Memory write flyby failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory write flyby failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存奇偶校验错误,Flyby布局结构下内存写入失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231010 |
日志内容 |
Parity---Timing error occurred during signal line adjustment for memory write leveling training-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Timing error occurred during signal line adjustment for memory write leveling training-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
Write Leveling调整信号线时序异常 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231130 |
日志内容 |
Parity---Memory read DqDqs training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory read DqDqs training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存读取Dq、Dqs训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231140 |
日志内容 |
Parity---Memory receive enable training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 |
举例 |
Parity---Memory receive enable training failed-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存Faulty Parts Tracking故障,内存的Receive Enable信号无法训练出对应的时序 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231150 |
日志内容 |
Parity---Memory write leveling training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory write leveling training failed-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存奇偶校验错误,内存写入均衡训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231160 |
日志内容 |
Parity---Memory write DqDqs training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Memory write DqDqs training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存写入Dq、Dqs训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2311c0 |
日志内容 |
Parity---An error occurrs during memory test, and the rank is disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---An error occurrs during memory test, and the rank is disabled-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
在内存测试期间发生错误,该rank已禁用 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231250 |
日志内容 |
Parity---Failed to find the RxVref for data eye training-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---Failed to find the RxVref for data eye training-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存奇偶校验错误,LRDIMM RCVEN训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231260 |
日志内容 |
Parity---LRDIMM RCVEN training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---LRDIMM RCVEN training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
LRDIMM RCVEN训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231270 |
日志内容 |
Parity---RCVEN CYCLE training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微(Minor) |
举例 |
Parity---RCVEN CYCLE training failed-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存奇偶校验错误,RCVEN循环训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231280 |
日志内容 |
Parity---Read delay training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---Read delay training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
读取延迟训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c231290 |
日志内容 |
Parity---Memory write leveling training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---Memory write leveling training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志说明 |
内存奇偶校验错误,内存写入均衡训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2312a0 |
日志内容 |
Parity---Coarse write leveling training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---Coarse write leveling training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志说明 |
内存奇偶校验错误,Coarse write leveling信号训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2312b0 |
日志内容 |
Parity---Write delay training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---Write delay training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
写入延迟训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2312c0 |
日志内容 |
Parity---QxCA_CLK_NO_EYE training failed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---QxCA_CLK_NO_EYE training failed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志说明 |
内存奇偶校验错误,QxCA_CLK_NO_EYE信号训练失败 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c28c020 |
日志内容 |
Parity---mapped out because failed critical mask test at cold boot-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---mapped out because failed critical mask test at cold boot-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
冷启动过程中该内存关键掩码检测失败被标记映射为缺陷区域 |
处理建议 |
1. 更换内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c2ed090 |
日志内容 |
Parity---Invalid SPD contents-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Parity---Invalid SPD contents-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
无效的SPD内容 |
处理建议 |
1. 检查当前环境温度或者湿度是否较高 2. 清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染,然后重新安装对应内存 3. 若问题仍然存在,检查对应内存插座上的引脚是否弯曲,如有弯曲则更换主板 4. 若问题仍然存在,建议更换内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c4000de |
日志内容 |
Memory Device Disabled---Location:CPU:$1 Channel:$2 Dimm:$3 $4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:内存丝印 |
日志等级 |
严重 ( Major ) |
举例 |
Memory Device Disabled---Location:Socket:1 Channel:1 Dimm:1 A1 |
对系统的影响 |
内存被禁用,导致系统性能降低 |
日志产生原因 |
系统启动过程中检测到内存故障 |
处理建议 |
1. 检查BIOS配置是否主动禁用内存。若禁用,请在BIOS页面中启用内存 2. 若BIOS在配置中内存已启动,但问题仍然存在,请检查内存所在通道,确保无故障 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c40a040 |
日志内容 |
Memory Device Disabled---The DIMM is disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
严重 ( Major ) |
举例 |
Memory Device Disabled---The DIMM is disabled- Location:CPU:1 CH:1 DIMM:0 Rank:0 |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存被禁用 |
处理建议 |
1. 检查BIOS配置是否主动禁用内存。若禁用,请在BIOS页面中启用内存 2. 若BIOS在配置中内存已启动,但问题仍然存在,请检查内存所在通道,确保无故障 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c40a030 |
日志内容 |
Memory Device Disabled---The rank is disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存丝印 · $4:Rank编号 |
日志等级 |
严重 ( Major ) |
举例 |
Memory Device Disabled---The rank is disabled-Location:CPU:2 CH:1 DIMM:B1 Rank:1 |
对系统的影响 |
可能导致系统性能降低,不影响系统正常使用 |
日志产生原因 |
内存某个Rank被禁用,但不影响其余Rank使用 |
处理建议 |
1. 检查BIOS配置是否主动禁用内存。若禁用,请在BIOS页面中启用内存 2. 若BIOS在配置中内存已启动,但问题仍然存在,请检查内存所在通道,确保无故障 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c484030 |
日志内容 |
Memory Device Disabled---Pmem Media disabled-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
严重 ( Major ) |
举例 |
Memory Device Disabled---Pmem Media disabled-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统性能降低,若PMem中存在系统关键组件,将无法正常使用该系统 |
日志说明 |
PMem初始化过程检测到错误,此时存储介质被禁用无法访问PMem中的数据,但带内与PMem可正常通信和管理 |
处理建议 |
1. 更换故障的内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c5000de |
日志内容 |
Correctable ECC or other memory error limit reached--$1-Location:CPU:$2 MEM CTRL:$3 CH:$4 DIMM:$5 $6 |
参数解释 |
· $1:产生错误启动时间,Current Boot Error或Last Boot Error · $2:CPU编号 · $3:内存控制器编号 · $4:通道编号 · $5:内存编号 · $6:内存丝印 |
日志等级 |
轻微 ( Minor ) |
举例 |
Correctable ECC or other memory error limit reached---Current Boot Error-Location:CPU:1 MEM CTRL:1 CH:1 DIMM:0 A1 |
对系统的影响 |
可能导致重启或者停止响应 |
日志产生原因 |
内存没有安装正确或者内存内部发生故障。内存的可纠正错误达到了设定的阈值,当设置对应的Memory RAS Mode后会执行对应RAS特性,不会引起系统崩溃。内存修复模式下,仍超过阈值 |
处理建议 |
1. 重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物,环境温度湿度正常 2. 在BIOS中检查内存的漏斗门限是否过低。若过低,请在BIOS中调整漏斗门限值 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c6000de/0x0c6000df |
日志内容 |
Presence detected |
参数解释 |
无 |
日志等级 |
正常 (Info)/轻微(Minor) |
举例 |
Presence detected |
对系统的影响 |
内存在位时,对系统无影响;内存不在位时,可能降低系统性能 |
日志产生原因 |
0x0c6000de:对应的传感器检测到需要监控的内存模块在位 0x0c6000df:对应的传感器检测到需要监控的内存模块不在位 |
处理建议 |
1. 在BIOS页面中检查服务器是否处于最小启动模式。如果处于服务器最小启动模式,设备可能会被BIOS隔离,导致HDM无法识别 2. 重新安装对应的内存,确保安装正确,金手指未被污染,内存插槽中无异物 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c701010 |
日志内容 |
Configuration error---RDIMMs are installed on the server that supports only UDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---RDIMMs are installed on the server that supports only UDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
在仅支持UDIMM的CPU平台上插入了RDIMM |
处理建议 |
1. 检查内存类型,通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认是服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c702010 |
日志内容 |
Configuration error---UDIMMs are installed on the server that supports only RDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---UDIMMs are installed on the server that supports only RDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
在仅支持RDIMM的服务器上插入了UDIMM |
处理建议 |
1. 检查内存类型,通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认是服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c703010 |
日志内容 |
Configuration error---SODIMMs are installed on the server that supports only RDIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---SODIMMs are installed on the server that supports only RDIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
在只支持RDIMM的平台上插入了SODIMM |
处理建议 |
1. 检查内存类型,通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认是服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c707020 |
日志内容 |
Configuration error---The number of ranks per channel can be only 1, 2, or 4-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The number of ranks per channel can be only 1, 2, or 4-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
内存的Rank数不满足CPU平台要求,当前CPU平台支持的内存Rank数为1、2、4 |
处理建议 |
1. 通过内存标签确认内存的Rank数,若不满足,请更换内存 2. 若满足当前CPU平台支持的内存Rank数,但若问题仍然存在,请联系技术支持 |
事件码 |
0x0c707040 |
日志内容 |
Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Columns, rows, or banks of the DIMM cannot meet the JEDEC standards, and LRDIMMs are not supported-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生的原因 |
不支持该类型内存: · 内存的设计(COL、Row、Bank),不符合JEDEC标准设计 · 该LRDIMM不在服务器支持列表内 |
处理建议 |
1. 请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认是服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c707050 |
日志内容 |
Configuration error---The number of ranks in the channel exceeds 8-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The number of ranks in the channel exceeds 8-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
通道内所有内存的总Rank数超过最大支持的Rank数(8个) |
处理建议 |
1. 检查报错信息中的通道,确认内存Rank的数目是否超过最大支持的Rank数。若超出,请更换内存 2. 若检查确认未超出,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c707090 |
日志内容 |
Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Support for ECC on the DIMMs is not consistent with support for ECC on the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
服务器的内存ECC支持情况不一致 |
处理建议 |
1. 根据报错内存槽位确认内存类型,在HDM中查看内存ECC支持情况。若与服务器的内存ECC支持情况不一致,请更换内存 2. 若与服务器的内存ECC支持情况一致,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c7070a0 |
日志内容 |
Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The voltage for a DDR4 DIMM must be 12V, and the voltage for a DDR5 DIMM must be 11V-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
当前电压不满足内存的支持电压 · DDR4内存支持的电压为12V · DDR5内存支持的电压为11V |
处理建议 |
1. 更换适配该电压的内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c707100 |
日志内容 |
Configuration error---The CPU is not compatible with 3DS DIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The CPU is not compatible with 3DS DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
当前CPU不支持3DS封装的内存 |
处理建议 |
1. 更换内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c707110 |
日志内容 |
Configuration error---NVDIMMs with stepping lower than 0x10 are not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---NVDIMMs with stepping lower than 0x10 are not supported-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
配置错误,不支持步进低于16的NVDIMM |
处理建议 |
1. 在BIOS页面中查看内存是否满足CPU支持规格,若不满足,请更换内存 2. 若满足,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c707120 |
日志内容 |
Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The CPU is not compatible with 16-GB single-rank DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
当前CPU不支持16G单Rank内存 |
处理建议 |
1. 检查对应的报错内存是否为16G单Rank内存。若是,请更换内存 2. 若报错内存非16G单Rank内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c707140 |
日志内容 |
Configuration error---The CPU is not compatible with the DIMMs-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The CPU is not compatible with the DIMMs-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
CPU与DIMM不兼容 |
处理建议 |
1. 请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认为服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c707150 |
日志内容 |
Configuration error---The frequency of the DIMM is not supported on the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The frequency of the DIMM is not supported on the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
当前服务器不支持该内存频率 |
处理建议 |
1. 请通过服务器兼容的部件查询工具确认服务器是否支持当前内存频率。若不支持,请更换为服务器兼容的内存 2. 若确认为服务器支持的内存,但问题仍然存在,请检查BIOS页面中是否开启了Enforce POR选项。若未开启,请将该选项开启 3. 若Enforce POR选项已开启,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c7071a0 |
日志内容 |
Configuration error---NVDIMMs are not compatible with the CPU-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---NVDIMMs are not compatible with the CPU-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
当前CPU不支持的DCPMM |
处理建议 |
1. 请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认为服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c7071d0 |
日志内容 |
Configuration error---DCPMMs are not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---DCPMMs are not supported-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能造成系统性能降低 |
日志说明 |
该CPU不支持的DCPMM |
处理建议 |
1. 请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若确认为服务器支持的内存,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c709090 |
日志内容 |
Configuration error---Memory LockStep Disable Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Memory LockStep Disable Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能造成系统性能降低 |
日志说明 |
内存配置无法使用LockStep模式,降级为Independent |
处理建议 |
1. 请根据产品用户指南确认内存安装方法是否满足LockStep模式要求。若不满足,请请按照模式要求重新安装内存 2. 若确认内存满足要求,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c70a0c0 |
日志内容 |
Configuration error---Memory Mirror Disable Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Memory Mirror Disable Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
BIOS未识别的内存错误。用户配置Mirror模式,但安装方法不满足 |
处理建议 |
1. 请根据产品用户指南确认内存安装方法是否正确。若不正确,请重新安装 2. 若内存安装方法正确,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c70c010 |
日志内容 |
Configuration error---Failed to enable the full mirror mode |
参数解释 |
无 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Failed to enable the full mirror mode |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
内存Full Mirror RAS Mode开启失败,Mirror配置降级 |
处理建议 |
1. 请根据产品用户指南确认内存安装方法是否满足Mirror模式要求。若不满足,请按照模式要求重新安装内存 2. 若确认内存满足要求,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c70e030 |
日志内容 |
Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
内存配置错误,内存交织配置不满足服务器的要求 |
处理建议 |
1. 检查BIOS setup页面中的内存交织配置情况(NUMA、Interleave等)。若不满足要求,请重新进行内存的配置 2. 若满足配置要求,但问题仍存在,建议升级BIOS固件到最新版本 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c70e080 |
日志内容 |
Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The memory interleaving configuration cannot meet the requirements of the server-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
内存配置错误,内存交织配置不满足服务器的要求 |
处理建议 |
1. 检查BIOS setup页面中的内存交织配置(NUMA、Interleave等)。若不满足要求,请重新进行内存的配置 2. 若满足配置要求,但问题仍存在,建议升级BIOS固件到最新版本 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c710010 |
日志内容 |
Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4;Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Failed to enable the rank sparing mode The memory RAS mode has degraded to independent-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
无法启用Rank Sparing模式,内存RAS模式已降级为独立模式 |
处理建议 |
1. 请根据产品用户指南确认内存安装方法是否满足Rank Sparing模式要求。若不满足,请按照模式要求重新安装内存 2. 若确认内存满足要求,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c710100 |
日志内容 |
Configuration error---Memory Rank Sparing Error-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Memory Rank Sparing Error-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能造成系统性能降低 |
日志说明 |
内存Rank Sparing配置未生效 |
处理建议 |
1. 检查BIOS页面中是否已开启Rank Sparing功能。若未开启,请开启该功能。 2. 若已开启,但问题仍存在,请根据产品用户指南确认内存安装方法是否满足Rank Sparing模式要求。若不满足,请按照模式要求重新安装内存 3. 若满足安装要求,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c711000 |
日志内容 |
Configuration error---Failed to enable patrol scrubbing-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Failed to enable patrol scrubbing-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
无法启用内存巡检 |
处理建议 |
1. 请参考RAS技术白皮书检查CPU规格支持的RAS特性。若不支持,请关闭Patrol Scrub功能;若支持,请正确配置内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c717010 |
日志内容 |
Configuration error---The number of ranks in the black slot is greater than that in the white slot, or the DIMM is installed in the black slot with the white slot empty-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The number of ranks in the black slot is greater than that in the white slot, or the DIMM is installed in the black slot with the white slot empty-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
内存安装方法错误: · 通道下不满足大Rank内存在前(白槽)的原则 · 不满足白槽优先配置内存的原则 |
处理建议 |
1. 请参考产品用户指南中内存安装准则及相关要求安装内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c717030 |
日志内容 |
Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---DIMM population error Two DDR-T memory modules cannot be installed in a channel-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
两个DCPMM内存在同一个通道下,不满足内存安装要求 |
处理建议 |
1. 请参考产品用户指南中内存安装准则及相关要求安装内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c717050 |
日志内容 |
Configuration error---The DDR-T memory module is installed in the white slot-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The DDR-T memory module is installed in the white slot-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
DCPMM在白槽位置,不满足内存安装要求 |
处理建议 |
1. 请参考产品用户指南中内存安装准则及相关要求安装内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c7170c0 |
日志内容 |
Configuration error---2LM IMC memory Mismatch-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---2LM IMC memory Mismatch-Location:CPU:1 CH:1 DIMM:A1 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
内存不满足在2LM模式下单IMC(Integrated Memory Controller,集成内存控制器)的配置要求 |
处理建议 |
1. 确认内存配置是否符合规则:2LM模式下要求单个IMC内至少配置一根DDR和一根可用容量大于0的DCPMM。若不符合,请按照规则进行配置 2. 若符合内存配置规则,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c729030 |
日志内容 |
Configuration error---ODT configuration error The channel is isolated-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---ODT configuration errorThe channel is isolated-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
内存ODT配置错误,通道被隔离 |
处理建议 |
1. 重新安装内存,清洁内存槽位和内存金手指,确保内存槽位中无异物,金手指未被污染 2. 若问题仍然存在,请更换内存 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c73a010 |
日志内容 |
Configuration error---Failed to enable ADDDC |
参数解释 |
无 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Failed to enable ADDDC |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
ADDDC开启失败 |
处理建议 |
1. 在BIOS页面中检查内存配置是否满足ADDDC配置要求。若不满足,请重新按照要求进行内存的配置 2. 若满足配置要求,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c73b020 |
日志内容 |
Configuration error---Failed to enable SDDC |
参数解释 |
无 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Failed to enable SDDC |
对系统的影响 |
造成系统性能降低 |
日志说明 |
内存配置错误,SDDC开启失败 |
处理建议 |
1. 在BIOS页面中检查内存配置是否满足SDDC配置要求。若不满足,请重新按照要求进行内存的配置 2. 若满足配置要求,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c73c000 |
日志内容 |
Configuration error---DCPMM firmware version not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---DCPMM firmware version not supported-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
造成系统性能降低 |
日志说明 |
内存配置错误,不支持DCPMM的固件版本 |
处理建议 |
1. 升级DCPMM的固件到最新版本 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c73c010 |
日志内容 |
Configuration error---DCPMM firmware version not supported-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 |
举例 |
Configuration error---DCPMM firmware version not supported-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
造成系统性能降低 |
日志说明 |
内存配置错误,不支持DCPMM的固件版本 |
处理建议 |
1. 升级DCPMM的固件到最新版本 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c784020 |
日志内容 |
Configuration error---NVMCTRL_MEDIA_NOTREADY-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---NVMCTRL_MEDIA_NOTREADY-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志产生原因 |
DCPMM固件媒介未就绪 |
处理建议 |
1. 升级DCPMM的固件到最新版本 2. 若问题仍然存在,请更换内存 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c7ed0c0 |
日志内容 |
Configuration error---The DDR-T memory modules of the unexpected model are installed-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The DDR-T memory modules of the unexpected model are installed-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
内存配置错误,安装了服务器不兼容的DCPMM内存 |
处理建议 |
1. 请通过服务器兼容的部件查询工具确认服务器是否支持当前内存。若不支持,请更换为服务器兼容的内存 2. 若支持,但问题仍然存在,请联系技术支持 |
事件码 |
0x0c7f0010 |
日志内容 |
Configuration error---Failed to set the VDD voltage of the DIMM |
参数解释 |
无 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Failed to set the VDD voltage of the DIMM |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
内存配置错误,无法设置DIMM的VDD电压 |
处理建议 |
1. 请更换内存 2. 若问题仍然存在,请更换主板 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c7f9010 |
日志内容 |
Configuration error---Too many RIR rules |
参数解释 |
无 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---Too many RIR rules |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
内存配置错误,RIR规则太多 |
处理建议 |
1. 升级BIOS到最新版本 2. 请参考产品用户指南,确认内存和CPU均按要求安装 3. 在BIOS页面中检查内存Interleaving和NUMA的配置是否符合要求 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0c7fa010 |
日志内容 |
Configuration error---The DIMMs for the CPU exceeded the limit-Location:CPU:$1 CH:$2 DIMM:$3 Rank:$4 |
参数解释 |
· $1:CPU编号 · $2:通道编号 · $3:内存编号 · $4:Rank编号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Configuration error---The DIMMs for the CPU exceeded the limit-Location:CPU:1 CH:2 DIMM:A0 Rank:0 |
对系统的影响 |
可能导致系统重启或者停止响应 |
日志说明 |
内存配置错误,CPU的内存超出限制 |
处理建议 |
1. 检查CPU支持的内存规格,若不符合规格,请更换内存 2. 若符合规格,但问题仍然存在,请联系技术支持 |
事件码 |
0x0d0000df |
日志内容 |
Drive Presence --- $1: $2, HDD Slot: $3 |
参数解释 |
· $1:Bay Slot或者JBOD,Bay Slot对应HDD Bay场景,JBOD对应整机柜场景 · $2: ¡ $1为Bay Slot时,表示HDD Bay的槽位号,取值范围为:1、2、5、6、9、10、13、14; ¡ $1为JBOD时,表示整机柜上硬盘的槽位号,取值范围为:1~8 · $3: ¡ $1为Bay Slot时,表示HDD Bay上硬盘的丝印号,取值范围为:0~39; ¡ $1为JBOD时,表示整机柜上硬盘的槽位号,取值范围为:0~22 |
日志等级 |
正常 ( Info ) |
举例 |
l Drive Presence l Drive Presence --- Bay Slot: 1, HDD Slot: 2 |
对系统的影响 |
硬盘在位变化 |
日志产生原因 |
硬盘在位变化 |
处理建议 |
无需处理 |
事件码 |
0x0d1000de |
日志内容 |
Drive Fault --- $1: $2, HDD Slot: $3 |
参数解释 |
· $1:Bay Slot或者JBOD,Bay Slot对应HDD Bay场景,JBOD对应整机柜场景 · $2: ¡ $1为Bay Slot时,表示HDD Bay的槽位号,取值范围为:1、2、5、6、9、10、13、14; ¡ $1为JBOD时,表示整机柜上硬盘的槽位号,取值范围为:1~8 · $3: ¡ $1为Bay Slot时,表示HDD Bay上硬盘的丝印号,取值范围为:0~39; ¡ $1为JBOD时,表示整机柜上硬盘的槽位号,取值范围为:0~22 |
日志等级 |
严重(Major) |
举例 |
Drive Fault --- Bay Slot: 1, HDD Slot: 2 |
对系统的影响 |
指示的硬盘发生故障,可能会造成数据丢失 |
日志产生原因 |
硬盘故障 |
处理建议 |
1. 登录HDM Web页面查看硬盘信息,如果该槽位的硬盘不显示,首先确认硬盘安装是否到位 2. 插拔该硬盘确认硬盘是否能重新被识别。如插拔后仍不能被识别,则更换硬盘 3. 查看该硬盘状态是否为Unconfig Bad状态,尝试更改硬盘状态为Unconfig Good 4. 如果硬盘能识别且状态正常,继续查看对应硬盘信息中的丝印号与实际安装是否一致。如果不一致,请排查线缆连接是否正确 5. 如果多个槽位硬盘信息不显示,请排查数据线缆或列阵卡是否有问题;如果多个槽位硬盘在位不显示,请排查信号线缆或硬盘背板是否有问题 6. 检查硬盘灯是否正常,指示灯为橙色时说明硬盘故障;同时检查OS内对应硬盘能否正常识别及访问。若有问题请更换故障部件;若无问题则执行下一步 7. 检查所在存储控制卡是否处于异常状态。若有问题请更换故障部件;若无问题则执行下一步 8. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0d2000de |
日志内容 |
Predictive Failure---Bay Slot: $1, HDD Slot: $2 |
参数解释 |
· $1:HDD Bay的槽位号,取值范围包括:1、2、5、6、9、10、13、14 · $2:HDD Bay上硬盘的丝印号,取值范围为:0~39 |
日志等级 |
轻微 ( Minor ) |
举例 |
Predictive Failure---Bay Slot: 1, HDD Slot: 2 |
对系统的影响 |
硬盘可靠性降低,可能对操作系统存储性能、业务正常运行等造成影响 |
日志产生原因 |
RAID卡上报硬盘预告警的故障。包括:存储介质的预留块告警、硬盘磨损寿命告警、Prefail告警,以及坏道告警。 |
处理建议 |
1. 登录到HDM Web页面并检查硬盘是否处于正常状态 2. 若有问题,请更换硬盘 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0d4000de |
日志内容 |
· Linux: Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold---OS:Linux/Unix,See disk details about Logical disk name, Threshold $1: ---Current usage $2 · Windows: Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold---OS:Windows, Logical disk $1:---Current usage $2 |
参数解释 |
· Linux: ¡ $1:磁盘空间阈值 ¡ $2:磁盘空间当前使用率 · Windows: ¡ $1:盘符 ¡ $2:磁盘空间当前使用率 |
日志等级 |
正常 ( Info ) |
举例 |
· Linux: Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold --OS:Linux/Unix,See disk details about Logical disk name, Threshold 75%: ---Current usage 80% · Windows: Consistency Check / Parity Check in progress. System Source Monitor: Hard Disk usage exceeds the threshold ---OS:Windows, Logical disk d: ---Current usage 80% |
对系统的影响 |
如果使用率过高,会导致性能下降、任务堆积、系统稳定性下降、数据丢失或损坏 |
日志说明 |
在HDM系统信息页面可进行CPU、内存、磁盘空间使用率等阈值的设置,FIST SMS获取系统资源的使用信息,通过IPMI命令发送给HDM,HDM进行阈值判断以触发该事件日志 |
处理建议 |
1. 使用HDM的系统资源监控功能检查硬盘使用率是否正常,如不正常请联系技术支持 2. 如果硬盘使用率确实过高,请备份数据并扩容硬盘 |
事件码 |
0x0d4000df |
日志内容 |
· Linux: Consistency Check / Parity Check in progress. System Source Monitor: System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Linux/Unix,See disk details about Logical disk name, Threshold $1: ---Current usage $2 · Windows: Consistency Check / Parity Check in progress. System Source Monitor: System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Windows, Logical disk $1:---Current usage $2 |
参数解释 |
· Linux: ¡ $1:磁盘空间阈值 ¡ $2:磁盘空间当前使用率 · Windows: ¡ $1:盘符 ¡ $2:磁盘空间当前使用率 |
日志等级 |
正常 ( Info ) |
举例 |
· Linux: Consistency Check / Parity Check in progress. System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Linux/Unix,See disk details about Logical disk name, Threshold 80%: ---Current usage 75% · Windows: Consistency Check / Parity Check in progress. System Source Monitor: Relieve resource alarm about Hard Disk Usage ---OS:Windows, Logical disk d: ---Current usage 80% |
对系统的影响 |
可能导致性能下降、导致系统崩溃、数据损坏、安全问题 |
日志说明 |
系统资源使用状况低于系统资源阈值时触发此日志,此日志为0x0d4000de事件的解除日志。 在HDM系统信息页面可进行CPU、内存、磁盘空间使用率等阈值的设置,FIST SMS获取系统资源的使用信息,通过IPMI命令发送给HDM,HDM进行阈值判断以触发该事件日志 |
处理建议 |
无 |
事件码 |
0x0d5000de |
日志内容 |
In Critical Array---$1:$2$3 :$4 |
参数解释 |
· $1:Bay Slot或者PCIe slot · $2:当$1为Bay Slot时,表示HDD Bay的槽位号,取值范围为:1、2、5、6、9、10、13、14,表示逻辑盘所属存储卡所在的槽位号 · $3:“HDD Slot”或者“---LDDevno” · $4: 当$3为“,HDD Slot”时,表示HDD Bay上硬盘的丝印号,取值范围为:0~39;$3为“---LDDevno” 时,表示逻辑盘序号 |
日志等级 |
严重 ( Major ) |
举例 |
In Critical Array---PCIe slot:1---LDDevno :2 |
对系统的影响 |
阵列降级,对数据可靠性将有影响 |
日志产生原因 |
由于硬盘被拔出或硬盘发生故障,导致该盘所在的逻辑盘降级。 |
处理建议 |
1. 检查硬盘是否被拔出,如被拔出则重新插回硬盘,重构RAID阵列 2. 登录HDM Web页面,在“存储”页面查看硬盘信息,如对应槽位硬盘不能识别,请重新插拔硬盘并确认该硬盘是否识别。插拔后仍不能识别请更换硬盘 3. 登录HDM Web页面,在“存储”页面查看硬盘信息,确认对应槽位硬盘状态是否为故障。如果是Unconfig Bad状态,首先尝试更改硬盘状态为Unconfig Good 4. 硬盘正确识别后,重构RAID阵列,检查告警是否解除 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0d6000de |
日志内容 |
In Failed Array---$1:$2$3 :$4 |
参数解释 |
· $1:故障发生的位置,包括:Bay Slot或者PCIe slot · $2:当$1为Bay Slot时,表示HDD Bay的槽位号;当$1为PCIe slot时,表示逻辑盘所属存储卡所在的槽位号 · $3:“HDD Slot”或者“---LDDevno” · $4: 当$3为“,HDD Slot”时,表示Bay上硬盘的丝印号;$3为“---LDDevno” 时,表示逻辑盘序号 |
日志等级 |
严重 ( Major ) |
举例 |
In Failed Array---PCIe slot:1---LDDevno :2 |
对系统的影响 |
阵列失效,离线会造成数据丢失 |
日志产生原因 |
由于硬盘被拔出或硬盘发生故障,导致该盘所在的逻辑盘完全损坏。 |
处理建议 |
1. 确认硬盘是否被拔出,如被拔出则重新插回硬盘,检查告警是否解除 2. 如果硬盘安装正确,登录HDM Web页面,在“存储”页面查看硬盘信息,如对应槽位硬盘不能识别,请重新插拔硬盘并确认该硬盘是否识别。插拔后仍不能被识别,请更换硬盘 3. 如果硬盘安装正确,登录HDM Web页面,在“存储”页面查看硬盘信息,查看该硬盘状态是否为故障。如果是Unconfig Bad状态,首先尝试更改硬盘状态为Unconfig Good 4. 硬盘正确识别后,检查逻辑阵列状态,如果逻辑阵列状态仍为故障,请删除原阵列并重新创建逻辑阵列 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0d7000de |
日志内容 |
Rebuild/Remap in progress---Bay Slot: $1, HDD Slot: $2 |
参数解释 |
· $1:HDD Bay的槽位号,取值范围为:1、2、5、6、9、10、13、14 · $2:HDD Bay上硬盘的丝印号,取值范围为:0~39 |
日志等级 |
正常 ( Info ) |
举例 |
Rebuild/Remap in progress---Bay Slot: 1, HDD Slot: 2 |
对系统的影响 |
无影响 |
日志产生原因 |
插入硬盘后,RAID重建过程中提示该信息。 |
处理建议 |
6. 无需处理 |
事件码 |
0x0da000de |
日志内容 |
The disk triggered an media error--$1 |
参数解释 |
$1:指硬盘位置信息 |
日志等级 |
正常 ( Info ) |
举例 |
The disk triggered an media error--Front 1 |
对系统的影响 |
存储介质发生media error故障,会造成数据丢失 |
日志产生原因 |
硬盘media error计数值超过当前设置的阈值 |
处理建议 |
1. 更新硬盘固件,检查告警是否消失 2. 若告警还在,请更换硬盘 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0db000de |
日志内容 |
The disk triggered an uncorrectable error--$1 |
参数解释 |
$1:指硬盘位置信息 |
日志等级 |
轻微 ( Minor ) |
举例 |
The disk triggered an uncorrectable error--Front 1 |
对系统的影响 |
存储介质发生不可纠正故障,可能会造成数据丢失 |
日志产生原因 |
硬盘uncorrectable计数值超过当前设置的阈值 |
处理建议 |
1. 更新硬盘固件,检查告警是否消失 2. 若告警还在,请更换硬盘 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0dc000de |
日志内容 |
The disk is missing |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
The disk is missing |
对系统的影响 |
用于指示对应硬盘被拔离或解除松动,影响系统的存储系统可靠性 |
日志产生原因 |
存储未识别到该硬盘、线缆连接错误所产生的告警 |
处理建议 |
1. 登录HDM Web页面,检查硬盘是否被正常识别 2. 检查硬盘数据、电源和信号线缆是否连接正确 3. 重新插拔硬盘检查是否能识别 4. 若仍不能识别,请更换硬盘,查看告警是否消失 5. 检查所在存储控制卡是否处于异常状态。若有问题请更换故障部件;若无问题则执行下一步 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0000de |
日志内容 |
System Firmware Error (POST Error)---CPU matching failure |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---CPU matching failure |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
BIOS在POST阶段检测到CPU频率、微码、UPI等信息不匹配 |
处理建议 |
1. 检查告警CPU是否符合服务器用户指南的安装准则,如果否,请参考安装准则重新安装CPU;如果是,请执行下一步操作 2. 检查各CPU型号是否一致,如果否,请更换CPU确保CPU型号一致;如果是,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
0x0f0000de |
|
日志内容 |
System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---Firmware (BIOS) ROM corruption detected |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
BIOS在POST阶段检测到ROM损坏 |
处理建议 |
1. 重新升级BIOS固件版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 2. 强制覆盖升级BIOS固件版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
0x0f0000de |
|
日志内容 |
System Firmware Error (POST Error)---Load microcode failed |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
System Firmware Error (POST Error)---Load microcode failed |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
CPU微码加载失败,导致BIOS在POST阶段发现错误,但系统未挂死 |
处理建议 |
1. 断电重启服务器,检查告警是否解除,如果否,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,检查告警是否解除,如果否,请执行下一步操作 3. 若问题仍然存在,请联系技术支持 |
0x0f0000de |
|
日志内容 |
System Firmware Error (POST Error)---No system memory or invalid memory configuration |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---No system memory or invalid memory configuration |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
BIOS启动过程中没有检测到内存或内存插法不符合安装准则 |
处理建议 |
1. 检查内存插法是否符合服务器用户指南里的安装准则,如果否,请参考安装准则重新安装内存;如果是,请执行下一步操作 2. 若问题仍然存在,请联系技术支持 |
0x0f0000de |
|
日志内容 |
System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image is unsigned or Certificate is invalid |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image is unsigned or Certificate is invalid |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
BIOS在POST阶段检测到ROM损坏 |
处理建议 |
1. 检查BIOS启动模式是否符合Secure boot要求,如果否,请修改BIOS启动模式为UEFI模式;如果是,请执行下一步操作 2. 检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作 3. 强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
0x0f0000de |
|
日志内容 |
System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate not found in Authorized database(db) |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate not found in Authorized database(db) |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
BIOS在POST阶段检测到ROM损坏 |
处理建议 |
1. 检查BIOS启动模式是否符合Secure boot要求,如果否,请修改启动BIOS模式为UEFI模式;如果是,请执行下一步操作 2. 检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作 3. 强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
0x0f0000de |
|
日志内容 |
System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate is found in Forbidden database(dbx) |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System firmware error (POST error)---Firmware (BIOS) ROM corruption detected:Image Certificate is found in Forbidden database(dbx) |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
BIOS在POST阶段检测到ROM损坏 |
处理建议 |
1. 检查BIOS启动模式是否符合Secure boot要求,如果否,请修改启动BIOS模式为UEFI模式;如果是,请执行下一步操作 2. 检查BIOS固件是否正常升级成功,如果否,请重新升级BIOS固件;如果是,请执行下一步操作 3. 强制覆盖升级BIOS固件,升级成功后检查告警是否解除,如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
0x0f002170 |
|
日志内容 |
System Firmware Error (POST Error)---Memory Population Rule Error |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---Memory Population Rule Error |
对系统的影响 |
可能造成系统无法正常启动或者系统性能降低 |
日志产生原因 |
内存条插法错误导致Faulty Parts Tracking故障 |
处理建议 |
1. 检查内存插法是否符合服务器用户指南里的安装准则,如果否,请参考安装准则重新安装内存;如果是,请执行下一步操作 2. 若问题仍然存在,请联系技术支持 |
0x0f003070 |
|
日志内容 |
System firmware error (POST error)---DIMM installation or compatibility error occurred |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System firmware error (POST error)---DIMM installation or compatibility error occurred |
对系统的影响 |
可能造成系统无法正常启动或者系统性能降低 |
日志产生原因 |
内存插法错误 |
处理建议 |
1. 登录HDM Web页面,进入“内存”页面,确认是否存在故障内存,如果是,请更换故障内存;如果否,请执行下一步操作 2. 检查内存插法是否符合服务器用户指南里的安装准则,如果否,请参考安装准则重新安装内存;如果是,请执行下一步操作 3. 确认每颗CPU至少有一根可正常使用的内存,如果否,请合理安装内存;如果是,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f003e80 |
日志内容 |
System firmware error (POST error)---No Memory Usable |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System firmware error (POST error)---No Memory Usable |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
没有可用内存 |
处理建议 |
1. 检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作 4. 重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作 5. 更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作 6. 若问题仍然存在,请联系技术支持 |
0x0f0082a0 |
|
日志内容 |
System firmware error (POST error)---No DDR Memory Error |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System firmware error (POST error)---No DDR Memory Error |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
没有可用的DDR内存 |
处理建议 |
1. 检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作 4. 重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作 5. 更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作 6. 若问题仍然存在,请联系技术支持 |
0x0f00bed0 |
|
日志内容 |
System firmware error (POST error)---DIMM Compatible Error(LRDIMM and RDIMM are installed) |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---DIMM Compatible Error(LRDIMM and RDIMM are installed) |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
LRDIMM 和 RDIMM两种不同类型的内存混插 |
处理建议 |
1. 通过服务器兼容的部件查询工具或部件兼容的服务器查询工具确认服务器兼容的内存类型 2. 请参考服务器用户指南中的内存安装准则重新安装类型兼容的内存条 3. 若问题仍然存在,请联系技术支持 |
0x0f02a010 |
|
日志内容 |
System Firmware Error (POST Error)---No DIMMs present |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---No DIMMs present |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
G5服务器无可用内存 |
处理建议 |
1. 检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作 4. 重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作 5. 更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作 6. 若问题仍然存在,请联系技术支持 |
0x0f02a040 |
|
日志内容 |
System Firmware Error (POST Error)---No DDR memory in the system |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---No DDR memory in the system |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
G5服务器没有可用的DDR内存 |
处理建议 |
1. 检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作 4. 重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作 5. 更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0e8020 |
日志内容 |
System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---No DIMM is available for memory-mapping operation |
对系统的影响 |
可能导系统性能降低 |
日志产生原因 |
没有可用于内存映射操作的内存 |
处理建议 |
1. 登录HDM Web页面,进入“内存”页面确认系统有正常内存可用,如果否,请执行下一步操作 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0ed010 |
日志内容 |
System Firmware Error (POST Error)---Different DIMM types detected |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---Different DIMM types detected |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
检测到不同的DIMM类型 |
处理建议 |
1. 登录HDM Web页面,进入“事件日志”页面,确认出现问题的内存槽位 2. 请通过兼容性系列查询工具检查该内存是否符合服务器兼容性要求。若不符合兼容性要求,请更换内存 ¡ 通过服务器兼容的部件查询工具或部件兼容的服务器查询工具查询内存与服务器是否兼容 ¡ 通过OS兼容性查询工具查询内存与服务器安装的操作系统是否兼容 3. 通过内存配置工具确认服务器上安装的内存符合内存配置规则 4. 参考服务器用户指南内存安装准则,重新安装内存 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0ed020 |
日志内容 |
System Firmware Error (POST Error)---DIMM population error |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---DIMM population error |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
内存兼容性错误 |
处理建议 |
1. 登录HDM Web页面,进入“事件日志”页面,确认出现问题的内存槽位 2. 参考服务器用户指南内存安装准则,重新安装内存 3. 若问题仍然存在,请联系技术支持 |
0x0f0ed030 |
|
日志内容 |
System Firmware Error (POST Error)---A maximum of two quad-rank DIMMs can be populated per channel |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---A maximum of two quad-rank DIMMs can be populated per channel |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),每个通道最多可以安装两个四列DIMM |
处理建议 |
1. 参考服务器用户指南内存安装准则,重新安装内存 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0ed040 |
日志内容 |
System Firmware Error (POST Error)---The third DIMM slot with green release tabs does not support UDIMMs or SODIMMs |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---The third DIMM slot with green release tabs does not support UDIMMs or SODIMMs |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),第三个DIMM插槽不兼容UDIMM或SODIMM内存 |
处理建议 |
1. 通过服务器兼容的部件查询工具或部件兼容的服务器查询工具查询服务器兼容的内存类型,更换UDIMM或SODIMM内存为服务器兼容的内存类型 2. 若问题仍然存在,请联系技术支持 |
0x0f0ed050 |
|
日志内容 |
System Firmware Error (POST Error)---DIMM voltage error |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---DIMM voltage error |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),DIMM电压故障 |
处理建议 |
1. 登录HDM Web页面,进入“事件日志”页面确认异常内存的槽位,将其与正常内存交叉验证。如果故障仍然存在,说明内存插槽故障,请更换主板;如果故障解除,说明内存故障,请更换内存 2. 若问题仍然存在,请联系技术支持 |
0x0f0ed060 |
|
日志内容 |
System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---DDR3 and DDR4 DIMMs cannot be mixed |
对系统的影响 |
系统无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),DDR3和DDR4 DIMM不能混合使用 |
处理建议 |
1. 更换DDR3 DIMM或DDR4 DIMM,确保服务器上安装的内存类型一致 2. 若问题仍然存在,请联系技术支持 |
0x0f0ed070 |
|
日志内容 |
System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---256-byte and 512-byte SPD devices cannot be mixed |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),256字节和512字节SPD设备不能混合使用 |
处理建议 |
1. 更换256字节SPD设备或512字节SPD设备,确保服务器上安装的设备类型一致 2. 若问题仍然存在,请联系技术支持 |
0x0f0ed080 |
|
日志内容 |
System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---3DS and non-3DS LRDIMMs cannot be mixed |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),不能混合使用3DS和非3DS LRDIMM |
处理建议 |
1. 更换3DS LRDIMM或非3DS LRDIMM,确保服务器上安装的内存类型一致 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0ed0b0 |
日志内容 |
System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---DDR-T memory modules and UDIMMs cannot be mixed |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
系统固件错误(POST错误),DDR-T内存模块和UDIMM不能混合使用 |
处理建议 |
1. 更换DDR-T内存或者UDIMM内存,确保服务器上安装的内存类型一致 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f0ffff0 |
日志内容 |
System Firmware Error (POST Error)---Memory Unrecognized Initialization Error |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---Memory Unrecognized Initialization Error |
对系统的影响 |
系统可能无法正常启动 |
日志产生原因 |
部分内存初始化错误 |
处理建议 |
1. 根据同时上报的对应部件的事件日志处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f1000de |
日志内容 |
System Firmware Hang---Unspecified |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
System Firmware Hang---Unspecified |
对系统的影响 |
系统无法正常运行 |
日志产生原因 |
BIOS启动过程中挂死 |
处理建议 |
1. 请根据同时上报的对应部件的其他事件日志处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f103e80 |
日志内容 |
System firmware hang-----No DDR Memory Error |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
System firmware hang-----No DDR Memory Error |
对系统的影响 |
系统无法正常运行 |
日志产生原因 |
服务器没有可用的DDR内存导致操作系统挂死 |
处理建议 |
1. 检查是否有安装内存,如果否,请根据服务器用户指南里的安装准则安装内存;如果是,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 重新拔插电源线缆,确保服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作 4. 重新插拔内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装完成后检查告警是否解除,如果否,请执行下一步操作 5. 更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f10bed0 |
日志内容 |
System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed) |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
System firmware hang---DIMM Compatible Error(LRDIMM and RDIMM are installed) |
对系统的影响 |
系统无法正常运行 |
日志产生原因 |
LRDIMM 和 RDIMM两种不同类型的内存混插 |
处理建议 |
1. 通过服务器兼容的部件查询工具或部件兼容的服务器查询工具确认服务器兼容的内存类型 2. 请参考服务器用户指南中的内存安装准则重新安装类型兼容的内存 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f1ffff0 |
日志内容 |
System firmware hang---Memory Unrecognized Initialization Error |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
System firmware hang---Memory Unrecognized Initialization Error |
对系统的影响 |
系统无法正常运行 |
日志产生原因 |
内存初始化错误,主CPU的内存条出现错误,导致主CPU下无可用内存,出现系统hang住。 |
处理建议 |
1. 根据同时上报的对应部件的事件日志处理 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f20eff0 |
日志内容 |
System Firmware Progress---Current Memory Ras Mode |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
System Firmware Progress---Current Memory Ras Mode |
对系统的影响 |
无影响 |
日志产生原因 |
当前内存处于RAS模式 |
处理建议 |
1. 无需处理 |
事件码 |
0x0f017130 |
日志内容 |
System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
System Firmware Error (POST Error)--- Memory population enforcement mismatch, Please check the DIMM symmetry on the socket |
对系统的影响 |
可能导致系统性能降低 |
日志产生原因 |
内存插法错误 |
处理建议 |
1. 通过服务器兼容的部件查询工具或部件兼容的服务器查询工具确认服务器兼容的内存类型 2. 请参见服务器用户指南的安装准则重新安装内存 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x0f017180 |
日志内容 |
System Firmware Error (POST Error)---No DIMMs installed for CPU |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
System Firmware Error (POST Error)---No DIMMs installed for CPU |
对系统的影响 |
系统无法正常运行 |
日志产生原因 |
服务器未安装内存 |
处理建议 |
1. 检查服务器是否已安装内存,如果否,请参见服务器用户指南的安装准则安装内存:如果是,请执行下一步操作 2. 将BIOS、HDM固件升级到最新版本,升级成功后检查告警是否解除,如果否,请执行下一步操作 3. 重新拔插电源线缆,确认服务器彻底下电后再上电,检查告警是否解除,如果否,请执行下一步操作 4. 重新安装内存条,检查金手指是否被污染,内存插槽中是否有异物,内存插法是否按照规范要求,安装成功后检查告警是否解除,如果否,请执行下一步操作 5. 更换内存条再次上电,检查告警是否解除,如果否,请执行下一步操作 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x102000de |
日志内容 |
Log Area Reset/Cleared |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Log Area Reset/Cleared |
对系统的影响 |
无 |
日志产生原因 |
清除所有事件日志后触发该事件日志 |
处理建议 |
无需处理 |
事件码 |
0x104000de |
日志内容 |
SEL Full |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
SEL Full |
对系统的影响 |
无法继续记录事件日志 |
日志产生原因 |
当日志已满时,其他事件不会写入日志。早期的事件可能被覆盖并丢失。用户禁用事件日志可能触发该事件日志 |
处理建议 |
登录HDM Web页面,进入事件日志页面,单击<清除所有事件日志>按钮,清理日志文件 |
事件码 |
0x105000de |
日志内容 |
SEL Almost Full |
参数解释 |
无 |
日志等级 |
轻微(Minor) |
举例 |
SEL Almost Full |
对系统的影响 |
无 |
日志产生原因 |
当日志即将存满会触发该事件日志 |
处理建议 |
登录HDM Web页面,进入事件日志页面,单击<清除所有事件日志>按钮,清理日志文件 |
事件码 |
0x110000de |
日志内容 |
BIOS Watchdog Reset |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
BIOS Watchdog Reset |
对系统的影响 |
系统重启 |
日志产生原因 |
BIOS看门狗复位有如下两个原因: · BIOS启动时间超过阈值 · BIOS启动过程中未响应 |
处理建议 |
1. 确认BIOS是否正常工作 2. 确认外围模块和BIOS配置正确 3. 确认BIOS调试模式已禁用 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x115000de |
日志内容 |
OS Watchdog NMI/Diagnostic Interrupt |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
OS Watchdog NMI/Diagnostic Interrupt |
对系统的影响 |
若非手动触发时,可能导致系统无法正常启动 |
日志产生原因 |
启用OS看门狗后,触发了NMI(Non Maskable Interrupt,不可屏蔽中断)生成的 |
处理建议 |
1. 检测业务软件是否存在异常 2. BIOS中关闭对应的看门狗功能,进入BIOS Setup设置OS Watchdog Timer选项为Disabled 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x117000de |
日志内容 |
OS Watchdog pre-timeout Interrupt-non-NMI |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
OS Watchdog pre-timeout Interrupt-non-NMI |
对系统的影响 |
可能导致系统无法正常启动 |
日志产生原因 |
OS看门狗预超时产生非NMI中断,OS长时间启动不起来 |
处理建议 |
1. 请排查启动项是否存在异常,如果是,则请修复操作系统启动环境;如果否,则执行下一步 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x125000de |
日志内容 |
Timestamp Clock Synch---event is $1 of pair---SEL Timestamp Clock updated |
参数解释 |
$1:first/second,first代表是时间同步前的事件,second代表是时间同步后的事件 |
日志等级 |
正常(Info) |
举例 |
Timestamp Clock Synch---event is first of pair---SEL Timestamp Clock updated |
对系统的影响 |
无 |
日志产生原因 |
服务器上电时,HDM会跟主机侧进行时间同步,时间同步前触发first事件,同步后触发second事件 |
处理建议 |
无需处理 |
事件码 |
0x125000de |
日志内容 |
Timestamp Clock Synch---BMC Time SYNC succeed. |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Timestamp Clock Synch---BMC Time SYNC succeed. |
对系统的影响 |
无 |
日志产生原因 |
BMC同步ME时间成功 |
处理建议 |
无需处理 |
事件码 |
0x1300000e |
日志内容 |
Transition to Non-Critical from OK--- Single-bit ECC error---PCIe slot:$1 |
参数解释 |
$1:槽位号 |
日志等级 |
严重(Major) |
举例 |
Transition to Non-Critical from OK--- Single-bit ECC error---PCIe slot: 2 |
对系统的影响 |
给定PCIE设备访问发生错误,不影响系统正常运行 |
日志产生原因 |
指定slot的PCIe卡故障 |
处理建议 |
此日志在PCIe硬件检测到故障后上报。请查看相关事件日志消息并更换有故障的PCIe设备或联系技术支持 |
事件码 |
0x13000010 |
日志内容 |
PCI: PCIE Hot Plug PCIe Pull Out---Slot number $1 |
参数解释 |
$1:槽位号 |
日志等级 |
正常(Info) |
举例 |
PCI: PCIE Hot Plug PCIe Pull Out---Slot number 34 |
对系统的影响 |
无 |
日志产生原因 |
R8900 G3专有,在支持热插拔Riser上拔出了一张PCIe卡 |
处理建议 |
1. 检查是否有拔卡动作 2. 如果没有拔卡动作,请检查指定槽位上的卡是否松动 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x13100010 |
日志内容 |
PCI: PCIE Hot Plug PCIe Insert---Slot number $1 |
参数解释 |
$1:槽位号 |
日志等级 |
正常(Info) |
举例 |
PCI: PCIE Hot Plug PCIe Insert---Slot number 34 |
对系统的影响 |
无 |
日志产生原因 |
R8900 G3专有,在支持热插拔Riser上插入了一张PCIe卡 |
处理建议 |
1. 检查是否有插卡动作 2. 如果没有插卡动作,请检查指定槽位上的卡是否松动 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x135000de |
日志内容 |
PCI SERR ------Slot $1---PCIE Name: $2 |
参数解释 |
· $1:指明故障PCIe设备slot号 · $2:指明故障PCIe设备名称 |
日志等级 |
严重(Major) |
举例 |
PCI SERR ------Slot 5---PCIE Name: EF-I20 |
对系统的影响 |
可能会造成系统宕机 |
日志产生原因 |
PCIe设备内部故障,产生严重的错误 |
处理建议 |
1. 若同一段时间存在多条同类错误,检查Riser与主板连接情况 2. 重启服务器,检查日志是否依然上报 3. 根据slot号确定发生错误的PCIe设备 4. 如果发生错误的是PCIe外设,请执行以下操作: ¡ 检查PCIe设备是否正确插入 ¡ 检查PCIe设备金手指是否有污染 ¡ 将PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽 ¡ 如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序 ¡ 如果错误位于PCIe插槽,请检查Riser卡金手指是否有污染 ¡ 如问题依然存在,请更换备件 5. 如果发生错误的是板载设备,请执行以下操作: ¡ 更新固件和驱动程序以及BIOS版本 ¡ 更换主板 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x138000de |
日志内容 |
Bus Uncorrectable Error ---Slot $1---PCIE Name:$2 |
参数解释 |
· $1:指明故障PCIe设备slot号 · $2:指明故障PCIe设备名称 |
日志等级 |
严重(Major) |
举例 |
Bus Uncorrectable Error---Slot 3---PCIE Name: RAID-LSI-9361-8i |
对系统的影响 |
给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障 |
日志产生原因 |
PCIe设备内部故障,产生不可纠正的错误 |
处理建议 |
1. 若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况 2. 重启服务器,检查日志是否依然上报 3. 根据slot号确定发生错误的PCIe设备 4. 如果发生错误的是PCIe外设,请执行以下操作: ¡ 检查PCIe设备是否正确插入 ¡ 检查PCIe设备金手指是否有污染 ¡ 将PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽 ¡ 如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序 ¡ 如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染 ¡ 如问题依然存在,请更换备件 5. 如果发生错误的是板载设备,请执行以下操作: ¡ 更新固件和驱动程序以及BIOS版本 ¡ 更换主板 6. 若问题仍然存在,请检查PCIe设备所在链路部件 7. 若多个GPU模组报错,或者网卡笼上的多张网卡报错,请更换SW板或者主板 8. 若问题仍然存在,请联系技术支持 |
事件码 |
0x13a000de |
日志内容 |
Bus Fatal Error ------Slot $1---PCIE Name: $2 |
参数解释 |
· $1:指明故障PCIe设备slot号 · $2:指明故障PCIe设备名称 |
日志等级 |
严重(Major) |
举例 |
Bus Fatal Error---Slot 3---PCIE Name: RAID-LSI-9361-8i |
对系统的影响 |
给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障 |
日志产生原因 |
PCIe设备内部故障,产生致命的错误 |
处理建议 |
1. 若同一段时间存在多条同类错误,检查Riser等链路部件与主板连接情况 2. 重启服务器,检查日志是否依然上报 3. 根据slot号确定发生错误的PCIe设备 4. 如果发生错误的是PCIe外设,请执行以下操作: ¡ 检查PCIe设备是否正确插入 ¡ 检查PCIe设备金手指是否有污染 ¡ 将PCIe设备安装在另一个插槽中,检查该错误位于PCIe设备还是位于PCIe插槽 ¡ 如果错误位于PCIe设备,请更新PCIe设备固件和驱动程序 ¡ 如果错误位于PCIe插槽,请检查Riser卡等链路部件金手指是否有污染 ¡ 如问题依然存在,请更换备件 5. 如果发生错误的是板载设备,请执行以下操作: ¡ 更新固件和驱动程序以及BIOS版本 ¡ 更换主板 6. 若问题仍然存在,请检查PCIe设备所在链路部件 7. 若多个GPU模组报错,或者网卡笼上的多张网卡报错,请更换SW板或者主板 8. 若问题仍然存在,请联系技术支持 |
事件码 |
0x140000de |
日志内容 |
Power Button pressed---Physical button---Button pressed |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Button pressed---Physical button---Button pressed |
对系统的影响 |
对系统执行上下电操作 |
日志产生原因 |
当按下设备前面板的实体电源按钮时,会产生该事件 |
处理建议 |
无需处理 |
事件码 |
0x140000de |
日志内容 |
Power Button pressed---Physical button---Button released |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Button pressed---Physical button---Button released |
对系统的影响 |
对系统执行上下电操作 |
日志产生原因 |
当松开设备前面板的实体电源按钮时,会产生该事件 |
处理建议 |
无需处理 |
事件码 |
0x140000de |
日志内容 |
Power Button pressed---Virtual button---Power cycle command |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Button pressed---Virtual button---Power cycle command |
对系统的影响 |
主机重启 |
日志产生原因 |
当在HDM Web页面或KVM窗口中单击关机并重新开机(Force System Cycle)时,会产生该事件 |
处理建议 |
无需处理 |
事件码 |
0x140000de |
日志内容 |
Power Button pressed---Virtual button---Power off command |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Button pressed---Virtual button---Power off command |
对系统的影响 |
主机关机 |
日志产生原因 |
按下设备前面板的实体电源按钮,执行强制关机、正常关机、关机并重新开机命令 |
处理建议 |
无需处理 |
事件码 |
0x140000de |
日志内容 |
Power Button pressed---Virtual button---Power on command |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Button pressed---Virtual button---Power on command |
对系统的影响 |
主机开机 |
日志产生原因 |
按下设备前面板的实体电源按钮,执行强制关机、正常关机、关机并重新开机命令 |
处理建议 |
无需处理 |
事件码 |
0x140000de |
日志内容 |
Power Button pressed---Virtual button---Soft off command |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Power Button pressed---Virtual button---Soft off command |
对系统的影响 |
主机关机 |
日志产生原因 |
按下设备前面板的实体电源按钮,执行强制关机、正常关机、关机并重新开机命令 |
处理建议 |
无需处理 |
事件码 |
0x142000de |
日志内容 |
Reset Button pressed---Virtual button---Reset command |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Reset Button pressed---Virtual button---Reset command |
对系统的影响 |
主机重启 |
日志产生原因 |
以下场景会触发本日志: 用户下发reset命令; 发生IERR事件; |
处理建议 |
1. 检查操作日志确认是否下发了reset命令,若是则无需处理 2. 检查是否同时产生了IERR故障日志,若是则请按照对应故障日志处理方式解决 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x144000de |
日志内容 |
FRU service request button---Physical button---Uid button pressed |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
FRU service request button---Physical button---Uid button pressed |
对系统的影响 |
无影响 |
日志产生原因 |
按下UID按钮时会产生该事件日志 |
处理建议 |
无需处理 |
事件码 |
0x1520000e |
日志内容 |
Transition to Critical from less severe |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Transition to Critical from less severe |
对系统的影响 |
给定PCIe BUS0设备访问发生错误。严重时,会扩散到初级系统级故障 |
日志产生原因 |
PCIe BUS0设备内部故障,产生不可纠正的错误 |
处理建议 |
1. 检查系统供电是否正常 2. 交叉检查是否存在部件异常 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1530000e |
日志内容 |
Transition to Non-recoverable from less severe---System detected a power supply failure on $1($2). |
参数解释 |
· $1:故障部件,如Motherboard(主板)、PDB(电源板)、CMOD(计算模块)、Riser卡等 · $2:故障具体位置,如P5V、P5V_STBY、CPU1_PVCSA、CPU2_PVCCIO等 |
日志等级 |
紧急(Critical) |
举例 |
Transition to Non-recoverable from less severve---System detected a power supply failure on Motherboard(P5V). |
对系统的影响 |
会引起系统下电 |
日志产生原因 |
板内电压异常 |
处理建议 |
1. 对于电源上下电情况,可忽略此日志 2. 重新插拔电源线,确认服务器能否正常上电并开机。 ¡ 如果服务器能够正常上电,可能由于其上检测信号被误干扰,可以继续正常使用。 ¡ 如果无法重新上电,需要根据SDS日志的分析记录确定具体故障,并更换故障部件的备件 ¡ 若参数为CPUx_DIMM_ABC_P2V5_VPP、CPUx_DIMM_DEF_P2V5_VPP、CPUx_DIMM_ABC_P0V6_VPP等,则存在内存供电异常。交换内存所在CPU左右两侧的内存,若报错跟随内存交换变化,请单独测试故障侧内存,确认故障内存并进行更换,若报错不跟随内存变化,说明主板对内存供电异常,请更换主板。详细参数信息请查看《H3C HDM告警日志信息参考》附录下表4-1 3. 如故障在运行期间再次出现,请更换故障部件的备件 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1570000e |
日志内容 |
Monitor---Board found PSU output can't be enabled($1) |
参数解释 |
$1:故障模块 |
日志等级 |
严重(Major) |
举例 |
Monitor---Board found PSU output can't be enabled(PSU2) |
对系统的影响 |
可能会导致系统下电 |
日志产生原因 |
电源无法正常向主板供电时,触发此告警 |
处理建议 |
1. 检查电源模块的状态指示灯是否处于正常状态,如果否,请更换电源模块;如果是,将告警槽位的电源模块与正常槽位交叉验证,查看告警是否解除 ¡ 如果是槽位故障,请联系技术支持更换主板 ¡ 如果是电源模块问题,请确认电源模块是否正确安装,如果否,请正确安装电源模块;如果是,请更换电源模块 2. 若问题仍然存在,联系技术支持 |
事件码 |
0x1700000e |
日志内容 |
Transition to OK---PCIe slot: $1---LDDevno:$2 |
参数解释 |
· $1:逻辑盘所属存储卡所在的槽位号 · $2:逻辑盘序号 |
日志等级 |
正常(Info) |
举例 |
Transition to OK---PCIe slot:1---LDDevno:0 |
对系统的影响 |
无 |
日志产生原因 |
RAID卡管理的逻辑盘从异常恢复为正常时,记录该日志 |
处理建议 |
无需处理 |
事件码 |
0x1720000e |
日志内容 |
Transition to Critical from less severe---PCIe slot: $1---LDDevno:$2 |
参数解释 |
· $1:逻辑盘所属存储卡所在的槽位号 · $2:逻辑盘序号 |
日志等级 |
严重(Major) |
举例 |
Transition to Critical from less severe---PCIe slot: 1---LDDevno:0 |
对系统的影响 |
会引起系统下电 |
日志产生原因 |
RAID卡管理的逻辑盘降级或故障时记录该日志背板电源故障 |
处理建议 |
1. 登录到HDM并确认逻辑盘是否已降级或出现故障 2. 如果逻辑盘降级,请执行以下操作: a. 检查逻辑盘中的所有成员盘是否正常工作 b. 重新安装成员盘,确认硬盘是否可以正确识别 c. 登录BIOS页面确认所有成员盘的状态是否配置正常 d. 查看硬盘错误日志 e. 更换故障的硬盘 f. 若问题仍然存在,请联系技术支持 3. 如果逻辑盘出现故障,请执行以下操作: a. 确认对应硬盘未被拆卸 b. 重新安装成员盘并重新创建RAID阵列 c. 更换故障硬盘,之后重启服务器 d. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1800000e |
日志内容 |
Transition to OK |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Transition to OK |
对系统的影响 |
无影响 |
日志产生原因 |
机箱状态恢复为正常 |
处理建议 |
触发事件码0x1800000e:无需处理 解除事件码0x1800000f:请根据其他日志检查故障原因,并检查是否存在其他部件故障;若问题仍然存在,请联系技术支持 |
事件码 |
0x18100006 |
日志内容 |
State asserted |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
State asserted |
对系统的影响 |
根据上报的具体部件影响确定对系统的影响(视具体情况而定) |
日志产生原因 |
系统检测到故障,请根据同时上报的具体部件事件日志处理 |
处理建议 |
根据同时上报的具体部件事件日志处理;若不存在其他相关事件日志或处理后问题仍然存在,请联系技术支持 |
事件码 |
0x1820000e |
日志内容 |
Transition to Critical from less severe |
参数解释 |
无 |
日志等级 |
严重(Major) |
举例 |
Transition to Critical from less severe |
对系统的影响 |
严重时,会扩散到主机系统级的故障 |
日志产生原因 |
机箱状态从轻微故障转变为严重 |
处理建议 |
1. 检查供电是否正常 2. 结合其他日志,检查是否存在部件异常 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1830000e |
日志内容 |
Transition to Non-recoverable from less severe |
参数解释 |
无 |
日志等级 |
紧急(Critical) |
举例 |
Transition to Non-recoverable from less severe |
对系统的影响 |
会引起系统下电 |
日志产生原因 |
机箱状态从轻微故障转变为不可恢复状态 |
处理建议 |
1. 检查供电是否正常 2. 结合其他日志,检查是否存在部件异常 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1d0000de |
日志内容 |
Initiated by power up---$1 reset by $2 |
参数解释 |
· $1:重启主体,可能参数: ¡ BIOS ¡ BMC ¡ System · $2:重启方式,可能参数: ¡ power up ¡ power recycle ¡ power reset |
日志等级 |
正常(Info) |
举例 |
Initiated by power up---BIOS reset by power up |
对系统的影响 |
无 |
日志产生原因 |
系统开机触发,该事件日志的后缀部分仅在支持BIOS_Boot_Up传感器的服务器上显示 |
处理建议 |
1. 请通过其他日志确认事件日志触发原因和处理建议 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1d1000de |
日志内容 |
Initiated by hard reset---$1 reset by $2 |
参数解释 |
· $1:重启主体,可能参数: ¡ BIOS ¡ BMC ¡ System · $2:重启方式,可能参数: ¡ power up ¡ power recycle ¡ power reset |
日志等级 |
正常(Info) |
举例 |
Initiated by hard reset---BIOS reset by power reset |
对系统的影响 |
无 |
日志产生原因 |
系统硬重启时触发,该事件日志的后缀部分仅在支持BIOS_Boot_Up传感器的服务器上显示 |
处理建议 |
1. 请通过其他日志确认事件日志触发原因和处理建议 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1d2000de |
日志内容 |
Initiated by warm reset---$1 reset by $2 |
参数解释 |
· $1:重启主体,可能参数: ¡ BIOS ¡ BMC ¡ System · $2:重启方式,可能参数: ¡ power up ¡ power recycle ¡ power reset |
日志等级 |
正常(Info) |
举例 |
Initiated by warm reset---BIOS reset by power reset |
对系统的影响 |
无 |
日志产生原因 |
系统热重启时触发,该事件日志的后缀部分仅在支持BIOS_Boot_Up传感器的机型显示 |
处理建议 |
1. 请通过其他日志确认事件日志触发原因和处理建议 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1d7000de |
日志内容 |
System restart---due to fan error:power off |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
System Restart---due to fan error:power off |
对系统的影响 |
无 |
日志产生原因 |
当两个及以上关键位置的风扇不在位或异常时,会执行预设的关机动作 |
处理建议 |
1. 确认服务器入风口或出风口是否被堵塞,如果是,移除堵塞物;如果否,请执行下一步操作 2. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1d7000de |
日志内容 |
System Restart---$1 |
参数解释 |
· $1:系统重启原因,可能参数: ¡ Unknown cause(未知原因) ¡ Chassis control command(IPMI电源控制命令或单击HDM Web页面虚拟电源按钮) ¡ Reset via pushbutton(按下电源按钮开机或关机) ¡ Power-up via power pushbutton(按下电源按钮开机) ¡ Watchdog expiration(Watchdog超时) ¡ AC lost(失去电源输入) |
日志等级 |
正常(Info) |
举例 |
System Restart---Reset via pushbutton |
对系统的影响 |
无 |
日志产生原因 |
服务器重启 |
处理建议 |
无需处理 |
事件码 |
0x1d7000de |
日志内容 |
System Restart---due to fan error:power reset |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
System Restart---due to fan error:power reset |
对系统的影响 |
无 |
日志产生原因 |
当两个及以上关键位置的风扇不在位或异常时,系统会执行预设的重启动作 |
处理建议 |
1. 确认服务器入风口或出风口是否被堵塞,如果是,移除堵塞物;如果否,请执行下一步操作 2. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1d7000de |
日志内容 |
System Restart---due to fan error:power cycle |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
System Restart---due to fan error:power cycle |
对系统的影响 |
无 |
日志产生原因 |
当两个及以上关键位置的风扇不在位或异常时,会执行预设的重启动作 |
处理建议 |
1. 确认服务器入风口或出风口是否被堵塞,如果是,移除堵塞物;如果否,请执行下一步操作 2. 登录HDM Web页面,进入“风扇”页面检查是否有风扇处于故障状态,如果是,请更换故障风扇;如果否,请执行下一步操作 3. 登录HDM Web页面,进入“风扇”页面确认风扇转速是否过低,如果是,请调整风扇转速模式或风扇档位;如果否,请执行下一步操作 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1e0000de |
日志内容 |
No bootable media |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
No bootable media |
对系统的影响 |
无 |
日志产生原因 |
状态描述,标识无启动介质,通常无影响 |
处理建议 |
1. 接入可启动设备 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x1f1000de |
日志内容 |
C: boot completed |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
C: boot completed |
对系统的影响 |
无 |
日志产生原因 |
当从硬盘上引导操作系统时,就会产生该事件,该事件的产生和特定的系统有关,大部分Windows系统会产生该事件 |
处理建议 |
无需处理 |
事件码 |
0x1f2000de |
日志内容 |
PXE boot completed |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
PXE boot completed |
对系统的影响 |
无 |
日志产生原因 |
当从PXE引导操作系统时,就会产生该事件,该事件的产生和特定的系统有关,大部分Windows系统会产生该事件 |
处理建议 |
无需处理 |
事件码 |
0x201000de |
日志内容 |
Run-time Critical Stop--$1 |
参数解释 |
$1:操作系统宕机原因 |
日志等级 |
紧急(Critical) |
举例 |
Run-time Critical Stop--System Shut Down Cause by DFC Critical Warning |
对系统的影响 |
系统宕机 |
日志产生原因 |
操作系统运行过程中发生紧急错误导致宕机,参数"操作系统宕机原因"为可选参数 |
处理建议 |
1. 检查安装的系统版本、驱动版本、固件版本及软件是否存在Bug或兼容性问题 2. 若存在Bug或兼容性问题,请更新版本 3. 否则请检查安装的部件是否属于服务器支持的范围,可以参见官网的OS兼容性列表 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x202000de |
日志内容 |
OS Graceful Stop |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
OS Graceful Stop |
对系统的影响 |
系统关机 |
日志产生原因 |
Windows系统强制关机 |
处理建议 |
无需处理 |
事件码 |
0x203000de |
日志内容 |
OS Graceful Shutdown |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
OS Graceful Shutdown |
对系统的影响 |
系统关机 |
日志产生原因 |
Windows系统正常关机 |
处理建议 |
无需处理 |
事件码 |
0x21000012 |
日志内容 |
Device disabled: PCIe module information not obtained---Slot $1 |
参数解释 |
$1:故障PCIe设备连接的slot号 |
日志等级 |
轻微(Minor) |
举例 |
Device Disabled: PCIe module information not obtained---Slot 1 |
对系统的影响 |
PCIe卡无法识别,可能降低系统性能 |
日志产生原因 |
PCIe设备故障,无法获取相关信息,会产生该事件 |
处理建议 |
1. 检查服务器是否处于最小启动模式,判断是否处于最小启动模式配置下请参见《故障处理手册》;如果是则无需处理,否则请检查下一项 2. 检查BIOS配置中是否已禁用对应Port口;如果是则无需处理,否则请检查下一项 3. 检查该PCIe设备是否满足兼容性需求;如果是则无需处理,否则请检查下一项 4. 检查该PCIe设备是否安装到位;如果是则无需处理,否则请检查下一项 5. 交叉检查该PCIe设备是否故障;如果是则无需处理,否则请检查下一项 6. 若问题仍存在,请联系技术支持 |
事件码 |
0x210000de |
日志内容 |
$1 triggered an uncorrectable error |
参数解释 |
$1:PCIe设备类型 |
日志等级 |
严重(Major) |
举例 |
NIC triggered an uncorrectable error |
对系统的影响 |
给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障 |
日志产生原因 |
触发IERR或者MCERR错误,诊断结果为PCIe uncorrectable error |
处理建议 |
1. 根据slot号判断发生错误的PCIe设备 2. 如果是安装的PCIe设备,请执行以下操作: ¡ 更新PCIe设备固件和驱动程序至最新版本 ¡ 检查是否满足安装准则且安装到位 ¡ 交叉检查该故障是否跟随设备或插槽 3. 如果是板载设备,请执行以下操作: ¡ 更新BIOS固件和驱动程序至最新版本 ¡ 更换主板 4. 若问题仍存在,请联系技术支持 |
事件码 |
0x211000de |
日志内容 |
$1 triggered a correctable error |
参数解释 |
$1:PCIe设备类型 |
日志等级 |
轻微(Minor) |
举例 |
NIC triggered a correctable error |
对系统的影响 |
给定PCIE设备访问发生错误。严重时,会扩散到主机系统级的故障 |
日志产生原因 |
触发IERR或者MCERR错误,诊断结果为PCIe correctable error |
处理建议 |
1. 若仅为偶发事件,则可以忽略 2. 若持续产生该告警,请根据slot号确定发生错误的PCIe设备 3. 确认到PCIe设备后,如果是安装的PCIe设备,请执行以下操作: ¡ 更新PCIe设备固件和驱动程序 ¡ 检查设备是否正确插入 ¡ 交叉检查该故障是否跟随设备或插槽 4. 如果是板载设备,请执行以下操作: ¡ 更新BIOS固件和驱动程序 ¡ 更换主板 5. 若问题仍存在,请联系技术支持 |
事件码 |
0x212000de |
日志内容 |
Slot/Connector Device installed/attached |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Slot/Connector Device installed/attached |
对系统的影响 |
无 |
日志产生原因 |
用户进行安装操作时会产生该事件日志 |
处理建议 |
无需处理 |
事件码 |
0x21300014 |
日志内容 |
Transition to on line |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Transition to on line |
对系统的影响 |
无影响 |
日志产生原因 |
共享网口插入网线时,会产生该事件 |
处理建议 |
无需处理 |
事件码 |
0x21300015 |
日志内容 |
Transition to off line |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
Transition to off line |
对系统的影响 |
无影响 |
日志产生原因 |
共享网口网线断开,会产生该事件 |
处理建议 |
请确认是否进行过网线断开的操作,若实际未断开,则请联系技术支持 |
事件码 |
0x2110000e |
日志内容 |
Transition to Non-Critical from OK---Slot $1 |
参数解释 |
$1:网卡的slot号 |
日志等级 |
严重(Major) |
举例 |
Transition to Non-Critical from OK---Slot 6 |
对系统的影响 |
可能导致PCIe卡故障引起系统性能下降 |
日志产生原因 |
网卡连接异常断开时,会产生该事件 |
处理建议 |
1. 检查当前网卡是否存在故障 2. 检查相关链路(如I2C或MCTP)是否正常 3. 若问题仍存在,请联系技术支持 |
事件码 |
0x220000de |
日志内容 |
S0 / G0 "working" |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
S0 / G0 "working" |
对系统的影响 |
无 |
日志产生原因 |
S0 / G0表示系统处于正常工作状态,其中G(0-2)表示全局状态(G-States),S(0-5)表示睡眠状态(S-States) G0工作状态:在这一状态下可运行应用程序 S0睡眠状态:正常工作状态 |
处理建议 |
无需处理 |
事件码 |
0x225000de |
日志内容 |
S5 / G2 "soft-off" |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
S5 / G2 "soft-off" |
对系统的影响 |
无 |
日志产生原因 |
S5 / G2 表示软关机状态,此时不可运行应用程序和操作系统,除了主要的电源供电单元,基本上会关闭整个系统。功耗约等于零,如需重启系统,唤醒延迟时间比较长 |
处理建议 |
无需处理 |
事件码 |
0x22d000de |
日志内容 |
LPC Reset occurred |
参数解释 |
无 |
日志等级 |
正常(Info) |
举例 |
LPC Reset occurred |
对系统的影响 |
对系统无影响 |
日志产生原因 |
当Intel机型的服务器产生复位操作时,触发该事件日志 |
处理建议 |
无需处理 |
事件码 |
0x230000de |
日志内容 |
Watchdog overflow.Action:Timer expired - status only (no action and no interrupt)---interrupt type:$1---timer use at expiration:$2 |
参数解释 |
· $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified · $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified |
日志等级 |
正常(Info) |
举例 |
Watchdog overflow.Action:Timer expired - status only (no action and no interrupt)---interrupt type:none---timer use at expiration:BIOS FRB2 |
对系统的影响 |
系统无法启动 |
日志产生原因 |
看门狗超时溢出时,如果超时动作设为“无动作”,则产生此告警,产生此告警的前提是BIOS下启动看门狗 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x231000de |
日志内容 |
Watchdog overflow.Action:Hard Reset---interrupt type:$1---timer use at expiration:$2 |
参数解释 |
· $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified · $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified |
日志等级 |
严重(Major) |
举例 |
Watchdog overflow.Action:Hard Reset---interrupt type:none---timer use at expiration:BIOS FRB2 |
对系统的影响 |
系统无法启动 |
日志产生原因 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为“重启”,则产生此告警 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x232000de |
日志内容 |
Watchdog overflow.Action:Power Down---interrupt type:$1---timer use at expiration:$2 |
参数解释 |
· $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified · $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified |
日志等级 |
严重(Major) |
举例 |
Watchdog overflow.Action:Power Down---interrupt type:none---timer use at expiration:BIOS FRB2 |
对系统的影响 |
系统无法启动 |
日志产生原因 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为“关机”,则产生此告警,系统被强制下电,此时业务将被中断,未保存数据将丢失 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x233000de |
日志内容 |
Watchdog overflow.Action:Power Cycle---interrupt type:$1---timer use at expiration:$2 |
参数解释 |
· $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified · $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified |
日志等级 |
严重(Major) |
举例 |
Watchdog overflow.Action:Power Cycle---interrupt type:none---timer use at expiration:BIOS FRB2 |
对系统的影响 |
系统无法启动 |
日志产生原因 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为“掉电重启”,则产生此告警 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x238000de |
日志内容 |
Watchdog overflow.Action:Timer interrupt---interrupt type:$1---timer use at expiration:$2 |
参数解释 |
· $1:中断类型,可能是none/SMI/NMI/Messaging Interrupt/unspecified · $2:看门狗,可能是reserved/BIOS FRB2/BIOS POST/OS Load/SMS OS/OEM/unspecified |
日志等级 |
轻微(Minor) |
举例 |
Watchdog overflow.Action:Timer interrupt---interrupt type:none---timer use at expiration:BIOS FRB2 |
对系统的影响 |
系统无法启动 |
日志产生原因 |
通过BIOS启动看门狗,在系统某个阶段(由timer user字段来标示,比如BIOS POST、OS Load或SMS/OS阶段),看门狗超时溢出时,如果超时动作设为timer interrupt,则产生此告警 |
处理建议 |
1. 告警产生在BIOS启动阶段,为硬件异常或BIOS启动异常,检查事件日志中其它的相关错误,并执行日志中建议的操作 2. 告警产生在操作系统加载阶段,为操作系统启动异常,请确认操作系统启动环境是否出现异常,如果是,则修复系统启动环境;如果否,请执行第5步 3. 告警产生在操作系统运行阶段,为业务软件异常,检查操作系统中是否有更为详细的日志并根据具体问题进行处理 4. 在产生网络风暴的情况下,可能会导致看门狗超时,检查当前网络是否存在网络风暴,如果是,请处理网络异常;如果否,请执行下一步 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x282000de |
日志内容 |
Management controller off-line. |
参数解释 |
无 |
日志等级 |
正常 ( Info ) |
举例 |
Management controller off-line. |
对系统的影响 |
无 |
日志说明 |
HDM脱机,可能的原因比如执行HDM关机操作或者AC掉电 |
处理建议 |
1. 如果HDM下电操作由用户触发,则可通过操作日志检查冷重启动作是否为用户主动下发 2. 若由用户主动下发,则等待HDM重启 3. 若确认无冷重启动作或HDM重启后还出现脱机现象,检查下是否有AC lost事件以及电源模块是否掉电或故障 4. 若出现AC lost事件或电源模块掉电或故障,请更换电源模块 5. 若问题仍然存在,请联系技术支持 |
事件码 |
0x282000de |
日志内容 |
Management controller off-line---BMC reset. |
参数解释 |
无 |
日志等级 |
正常 ( Info ) |
举例 |
Management controller off-line---BMC reset. |
对系统的影响 |
无 |
日志说明 |
通常由用户对HDM进行重启操作触发,可通过操作日志确认热重启动作是否是用户主动下发 |
处理建议 |
1. 检查操作日志确认热重启动作是否是用户主动下发 2. 若由用户主动下发,则等待HDM重启 3. 若确认未下发热重启指令,请再检查是否有主板异常、电源异常事件 4. 若问题仍然存在,请联系技术支持 |
事件码 |
0x282000de |
日志内容 |
Management controller off-line---HDM cold reboot. |
参数解释 |
无 |
日志等级 |
正常 ( Info ) |
举例 |
Management controller off-line---HDM cold reboot. |
对系统的影响 |
无 |
日志说明 |
通常由用户对HDM进行下电操作触发,可通过操作日志确认冷重启动作是否为用户主动下发 |
处理建议 |
1. 检查操作日志确认冷重启动作是否用户主动下发 2. 若由用户主动下发,则等待HDM重启 3. 若确认无下发冷重启指令,检查是否有AC lost事件,以及是否有电源线断开或故障 4. 若有AC lost事件或电源模块掉电或故障,请更换电源模块 5. 若电源线断开或故障请更换电源线,确保通电 6. 若问题仍然存在,请联系技术支持 |
事件码 |
0x282000de |
日志内容 |
Management controller off-line---BMC WDT timeout event happened. |
参数解释 |
无 |
日志等级 |
正常 ( Info ) |
举例 |
Management controller off-line---BMC WDT timeout event happened. |
对系统的影响 |
无 |
日志说明 |
看门狗引起的超时重启 |
处理建议 |
1. 检查事件日志上下文,确认超时原因 2. 升级HDM最新版本,检查日志是否不再上报 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x282000de |
日志内容 |
Management controller off-line---BMC service restart. |
参数解释 |
无 |
日志等级 |
正常 ( Info ) |
举例 |
Management controller off-line---BMC service restart. |
对系统的影响 |
无 |
日志说明 |
HDM主动重启服务 |
处理建议 |
1. 检查HDM是否发生了重启,功能是否正常,是否处于升级状态。若是偶发性事件且能自愈,则无需处理。 2. 若问题仍然存在,请联系技术支持 |
事件码 |
0x283000de |
日志内容 |
Management controller unavailable |
参数解释 |
无 |
日志等级 |
严重 ( Major ) |
举例 |
Management controller unavailable |
对系统的影响 |
无 |
日志说明 |
管理控制器不可用,可能原因比如HDM控制器、ME控制器当前不可用,影响带外监控 |
处理建议 |
1. 请等待1~2分钟后重新刷新页面检查是否恢复 2. 若不恢复则更换主板 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x283000de |
日志内容 |
Management controller unavailable---Adapter $1 is in a fault condition |
参数解释 |
$1:存储控制卡型号 |
日志等级 |
严重 ( Major ) |
举例 |
Management controller unavailable---Adapter RAID-P460-B4 is in a fault condition |
对系统的影响 |
可能会造成系统宕机,与系统安装位置相关 |
日志说明 |
PMC存储控制卡状态异常 |
处理建议 |
1. 重启HDM,进入“事件日志”页面检查告警是否解除 2. 若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x280000de |
日志内容 |
Sensor access degraded or unavailable--- Adapter $1 has no response for 2 minutes in $2 slot |
参数解释 |
$1:存储控制卡型号 $2:告警的存储控制卡所在的槽位号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Sensor access degraded or unavailable--- Adapter RAID-P460-B4 has no response for 2 minutes in 1 slot |
对系统的影响 |
带外识别异常,若带内也异常可能会造成系统宕机 |
日志说明 |
HDM超过2分钟没有识别到槽位$2中的PMC存储控制卡 |
处理建议 |
1. 重启HDM,进入“事件日志”页面检查告警是否解除 2. 若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x280000de |
日志内容 |
Sensor access degraded or unavailable--- Adapter $1 has no response for 5 minutes in $2 slot |
参数解释 |
$1:存储控制卡型号 $2:告警的存储控制卡所在的槽位号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Sensor access degraded or unavailable--- Adapter HBA-LAI-9300-8i-A1-X has no response for 5 minutes in 1 slot |
对系统的影响 |
带外识别异常,若带内也异常可能会造成系统宕机 |
日志说明 |
HDM超过5分钟没有识别到槽位$2中的LSI存储控制卡 |
处理建议 |
1. 重启HDM,进入“事件日志”页面检查告警是否解除 2. 若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x284000de |
日志内容 |
Management controller unavailable---Adapter $1 has no response for 4 minutes in $2 slot |
参数解释 |
$1:存储控制卡型号 $2:告警的存储控制卡所在的槽位号 |
日志等级 |
严重 ( Major ) |
举例 |
Management controller unavailable---Adapter RAID-P460-B4 has no response for 4 minutes in 1 slot |
对系统的影响 |
带外识别异常,若带内也异常可能会造成系统宕机 |
日志说明 |
HDM超过4分钟没有识别到槽位$2中的PMC存储控制卡 |
处理建议 |
1. 重启HDM,进入“事件日志”页面检查告警是否解除 2. 若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x284000de |
日志内容 |
Management controller unavailable---Adapter $1 has no response for 10 minutes in $2 slot |
参数解释 |
$1:告警的存储控制卡所在的槽位号 |
日志等级 |
严重( Major ) |
举例 |
Management controller unavailable---Adapter HBA-LAI-9300-8i-A1-X has no response for 10 minutes in 1 slot |
对系统的影响 |
带外识别异常,若带内也异常可能会造成系统宕机 |
日志说明 |
HDM超过10分钟没有识别到槽位$2中的LSI存储控制卡 |
处理建议 |
1. 重启HDM,进入“事件日志”页面检查告警是否解除 2. 若问题仍然存在,请重启服务器后再进入“事件日志”页面检查告警是否解除 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0x290000de |
日志内容 |
Battery low (predictive failure)---PCIe slot:$1 |
参数解释 |
$1:告警的超级电容所属存储卡所在的槽位号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Battery low (predictive failure)---PCIe slot:1 |
对系统的影响 |
RAID卡可靠性下降,可能引起系统性能下降 |
日志产生原因 |
RAID卡电池(超级电容)电量不足、过温、过压或过流时会产生此日志,该状态下RAID卡可靠性下降 |
处理建议 |
1. 设备上电后会自动为电容充电,一段时间后登录HDM,查看RAID卡的超级电容状态,检查告警是否消失 2. 排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器 3. 若问题仍存在,请联系技术支持 |
事件码 |
0x291000de |
日志内容 |
Battery failed---PCIe slot:$1 |
参数解释 |
$1:告警的超级电容所属存储卡所在的槽位号 |
日志等级 |
轻微 ( Minor ) |
举例 |
Battery failed---PCIe slot:1 |
对系统的影响 |
RAID卡可靠性下降,可能引起系统性能下降 |
日志产生原因 |
当RAID卡的掉电保护模块出现内部错误时,产生此告警,可能原因如下: · 电池或超级电容电量耗尽,生命周期结束 · 掉电保护模块初始化失败 · 掉电保护模块子系统故障 · 掉电保护模块充电失败 · 电池或超级电容故障 |
处理建议 |
1. 登录HDM,查看RAID卡的超级电容状态 2. 排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器 3. 若问题仍存在,请联系技术支持 |
事件码 |
0x292000df |
日志内容 |
Battery presence detected---PCIe slot:$1 |
参数解释 |
$1:告警的超级电容所属存储卡所在的槽位号 |
日志等级 |
正常 ( Info ) |
举例 |
Battery presence detected---PCIe slot:1 |
对系统的影响 |
RAID卡可靠性下降,可能引起系统性能下降 |
日志产生原因 |
RAID卡电池或超级电容不在位 |
处理建议 |
1. 登录HDM,查看RAID卡的超级电容状态。若显示不在位,请开箱检查电池或超级电容是否安装,线缆连接是否正确 2. 排查掉电保护模块安装是否正确。若安装无问题尝试更换相关部件包括电池或超级电容及Flash卡,并重启服务器 3. 若问题仍存在,请联系技术支持 |
事件码 |
0xb03000de |
日志内容 |
Management controller unavailable |
参数解释 |
无 |
日志等级 |
轻微 ( Minor ) |
举例 |
Management controller unavailable |
对系统的影响 |
无影响 |
日志说明 |
ME自检失败 |
处理建议 |
1. 检查ME的固件版本信息是否为最新版本,如果是,则执行第3步;如果否,请执行下一步操作 2. 将服务器BIOS升级到最新版本,重启后检查告警是否解除,如果告警已解除,则无需其它处理;如果告警未解除,请执行下一步 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0xe01000de |
日志内容 |
System Source Monitor:Mem usage exceeds the threshold---Current usage $1 Threshold $2 |
参数解释 |
· $1:内存占用率 · $2:阈值 |
日志等级 |
正常 ( Info ) |
举例 |
System Source Monitor:Mem usage exceeds the threshold---Current usage 100%, Threshold 80% |
对系统的影响 |
可能造成系统卡顿 |
日志说明 |
内存使用率超过阈值,该告警由FIST SMS触发 |
处理建议 |
1. 检查内存使用率阈值的设置是否合理,如不合理,请调整内存使用率阈值;如合理,请执行下一步操作 2. 检查当前业务的内存使用情况,适当调整业务运行以降低内存使用率或扩充内存大小 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0xe01000df |
日志内容 |
System Source Monitor:Relieve resource alarm about Mem Usage---Current usage $1 Threshold $2 |
参数解释 |
· $1:内存占用率 · $2:阈值 |
日志等级 |
正常 ( Info ) |
举例 |
System Source Monitor:Relieve resource alarm about Mem Usage---Current usage 80%, Threshold 100% |
对系统的影响 |
无影响 |
日志说明 |
内存使用率恢复到低于阈值,该告警由FIST SMS触发,表示超过阈值的告警解除 |
处理建议 |
无需处理 |
事件码 |
0xe02000de |
日志内容 |
System Source Monitor:Cpu usage exceeds the threshold---Current usage $1 Threshold $2 |
参数解释 |
· $1:当前CPU使用率 · $2:阈值 |
日志等级 |
正常 ( Info ) |
举例 |
System Source Monitor:Cpu usage exceeds the threshold---Current usage 100%, Threshold 80% |
对系统的影响 |
系统性能降低 |
日志说明 |
CPU使用率高于阈值,该告警由FIST SMS触发 |
处理建议 |
1. 检查CPU使用率阈值的设置是否合理,如不合理,请调整CPU使用率阈值,如合理,请执行下一步操作 2. 检查当前业务的CPU使用情况,适当调整业务运行以降低CPU使用率 3. 若问题仍然存在,请联系技术支持 |
事件码 |
0xe02000df |
日志内容 |
System Source Monitor:Relieve resource alarm about Cpu Usage---Current usage $1 Threshold $2 |
参数解释 |
· $1:当前CPU使用率 · $2:阈值 |
日志等级 |
正常 ( Info ) |
举例 |
System Source Monitor:Relieve resource alarm about Cpu Usage---Current usage 80%, Threshold 100% |
对系统的影响 |
无影响 |
日志说明 |
CPU使用率恢复到低于阈值,该告警由FIST SMS触发,表示超过阈值的告警解除 |
处理建议 |
无需处理 |
事件码 |
0xe11000de |
日志内容 |
Memory is not certified---Location:CPU:$1 CH:$2 DIMM:$3 $4 |
参数解释 |
· $1:CPU编号 · $2:Channel编号 · $3:DIMM编号 · $4:内存丝印 |
日志等级 |
轻微 ( Minor ) |
举例 |
Memory is not certified---Location:CPU:1 CH:1 DIMM:0 A1 |
对系统的影响 |
无影响 |
日志说明 |
BIOS重启后,HDM会对内存条进行防伪校验,未经过H3C认证的内存条会上报此故障 |
处理建议 |
1. 在HDM内存信息页面查看内存状态是否为已认证,如果是,请执行第3步;如果否,请执行下一步操作 2. 检查是否正确安装了经过H3C认证的内存条,使用未经过H3C认证的内存可能存在稳定性隐患 3. 若问题仍然存在,请联系技术支持 |
表3-1 CPU起始编号说明
服务器名称 |
CPU起始编号 |
· H3C UniServer R4300 G5 · H3C UniServer R4330 G5 · H3C UniServer R4700 G5 · H3C UniServer R4900 G5 · H3C UniServer R4900LC G5 · H3C UniServer R4930 G5 · H3C UniServer R4950 G5 · H3C UniServer R5300 G5 · H3C UniServer R5500 G5 · H3C UniServer R6900 G5 · H3C UniServer B5700 G5 · H3C UniServer R2700 G3 · H3C UniServer R2900 G3 · H3C UniServer R4300 G3 · H3C UniServer R4400 G3 · H3C UniServer R4500 G3 · H3C UniServer R4700 G3 · H3C UniServer R4900 G3 · H3C UniServer R5300 G3 · H3C UniServer R6700 G3 · H3C UniServer R6900 G3 · H3C UniServer R8900 G3 · H3C UniServer B5700 G3 · H3C UniServer B5800 G3 · H3C UniServer B7800 G3 · H3C UniServer E3200 G3 |
CPU 1 |
· H3C UniServer R4950 G3(Hygon) · H3C UniServer R4950 G3(Naples) · H3C UniServer R4950 G3(Rome) |
CPU 0 |
H3C UniServer R4100 G3 |
服务器出厂时只配置一个CPU,不涉及编号问题 |
表4-1 0x1530000e参数$2与所属机型信息
|
G3 |
G5 |
Intel机型 |
H3C UniServer R6900 G3: · CPUX_PVDDQ_DDR4_DEF · CPUX_PVDDQ_DDR4_ABC · CPUX_P2V5_VPP_DEF · CPUX_P2V5_VPP_ABC · CPUX_P0V6_VTT_DEF · CPUX_P0V6_VTT_ABC |
H3C UniServer R6900 G5/ 5500K_ S4703/S2703: · CPUX_DIMM_DEF_PVPP · CPUX_DIMM_ABC_PVPP · CPUX_DIMM_DEF_PVTT · CPUX_DIMM_ABC_PVTT · CPUX_DIMM_DEF_PVDDQ · CPUX_DIMM_ABC_PVDDQ |
H3C UniServer G3系列机型: · CPUX_DIMM_DEF_P2V5_VPP · CPUX_DIMM_ABC_P2V5_VPP · CPUX_DIMM_DEF_P0V6_VTT · CPUX_DIMM_ABC_P0V6_VTT · CPUX_DIMM_DEF_PVDDQ · CPUX_DIMM_ABC_PVDDQ |
H3C UniServer R4700/R4300/R5500_intel/B5700/X10000 G5: · CPUX_DIMM_EFGH_PVPP · CPUX_DIMM_ABCD_PVPP · CPUX_DIMM_EFGH_PVTT · CPUX_DIMM_ABCD_PVTT · CPUX_DIMM_EFGH_PVDDQ · CPUX_DIMM_ABCD_PVDDQ |
|
AMD机型 |
· PX_VDD_VPP_EFGH · PX_VDD_VPP_ABCD · PX_VDD_VTT_EFGH · PX_VDD_VTT_ABCD · PX_VDDIO_MEM_EFGH · PX_VDDIO_MEM_ABCD |
无 |
AMD/Hygon机型 |
无 |
H3C UniServer R4950/R4930/R4330/R5500_hygon/S4753 G5: · PVPP_CPUX_DIMM_DEF · PVPP_CPUX_DIMM_ABC · PVTT_CPUX_DIMM_DEF · PVTT_CPUX_DIMM_ABC · PVDDQ_CPUX_DIMM_DEF · PVDDQ_CPUX_DIMM_ABC |