• 软件测试技术
  • 软件测试博客
  • 软件测试视频
  • 开源软件测试技术
  • 软件测试论坛
  • 软件测试沙龙
  • 软件测试资料下载
  • 软件测试杂志
  • 软件测试人才招聘
    暂时没有公告

字号: | 推荐给好友 上一篇 | 下一篇

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

发布: 2007-6-08 22:43 | 作者: seanhe | 来源: | 查看: 27次 | 进入软件测试论坛讨论

领测软件测试网
我的系统(H85)前一段连续几天宕机器,一个星期宕了4次. LED 报 888 102 300 0C0,显示是软件或硬件错误引起宕机,查guide 300显示 软件在处理器里中断. errpt里显示有大量的硬盘临时及部分永久错误,我开始以为硬盘有问题,于是做在线diag和停止机器做standalone diag,都也没什么错误. 在standalone模式下做硬盘的表面测试也显示没有问题. 
我还是以为硬盘可能什么其他没有检测出的问题导致了系统宕机. 于是更换了硬盘. 但是过了两天系统又开始报大量硬盘临时错误并宕机. 当时有几个情况引起我的注意,客户说去年这个机器也莫名气妙宕了好几次机,而且有很长一段时间机房的空调有问题,温度很高. 于是我就检测了机器的温度环境(/usr/lpp/diagnostics/bin/uesensor -l或采用diag里的task选项),发现这台机器温度比其他小型机要高出近10度. IO 柜大约36-37度,CEC为28-30度, 而其他机器大约为22-27度.  且该机器放置紧贴在另一台机器的下面. 下面是7133存储,S00机柜全部充满. 但该机器电源,风扇等冷却系统正常.系统没有相关错误且该机器刚刚做过清洗(该故障在清洗之前就一存在). 现在该机房已经安装新空调,温度比较正常. 检测该机器温度为24-30度,其他机器22-24度,最高的一台温度为27-32度,主要是IO柜高为32度. 该机器也将近一个月没有宕机了.

因此我怀疑可能是机房温度太高并且该机器放置的位置导致他散热不通畅, 从而导致主机温度太高超过正常工作温度(10-40度)从而导致系统宕机. 

这是我以前写的分析报告,我开始也以为是温度引起的问题. 到事实可能不是这样的. 以下是后来写的报告..

4.21 10:00左右客户通知我们H85机器宕机,LED显示 888 102 300 0C0 代码. 系统已经HA切换到另一台H80机器. 因此前该H85机器出现过多次宕机现象,LED代码显示一样为8881023000C0,每次系统均报大量硬盘临时及永久硬件错误,开始怀疑是内置硬盘故障,更换硬盘后故障也出现过几次且硬盘表面测试正常,后来发现该H85机器温度太高接近40度的正常工作温度上限,当时怀疑是机器温度太高导致系统异常宕机.建议用户修复机房空调后该机器正常工作了近2个月没有出现宕机故障. 因此这次又出现宕机故障,一开始怀疑是否又是温度问题或者是硬盘问题. 
不久客户将该H85重新启动并将HA切回H85. 但过了一段时间该机又宕机了,客户又将H85重新启动并回切,据客户反映这次HA好象没有完全成功切换.因为在电话中无法详细处理且我司工程师已在赶赴现场的途中,因此让客户保留现场等待我司的处理.
到达现场后将H85重新启动发现系统报大量硬盘错误,且HA启动不正常.于是又将H85再次启动,这时系统已不能启动,LED代码显示引导记录丢失. 由于该机器此前的宕机故障现象,没有仔细考虑可能是引导列表丢失的情况,认为可能是硬盘损坏导致引导记录丢失,为保险起见没有重建引导记录而是直接为客户更换硬盘. 待更换硬盘后用系统备份磁带恢复时发现该备份磁带已经失效,于是只好从另一台与该H85做HA的H80机器备份数据并恢复到H85上.在恢复的过程中发现系统无法恢复到hdisk0上,报"无效的磁盘位置"类似的错误. ,我怀疑是2台机器内置硬盘安装的SCSI ID不一样造成,H80上硬盘是SCSI ID 4因此备份磁带记录的也是ID 4,而H85实际安装的位置是SCSI ID 8(H85可以安装2块内置硬盘,SCSI ID 分别为4,8)导致恢复时报类似错误,因此我想通过恢复安装选择项中的改变安装磁盘及方法的方法让系统识别在ID8上的hdisk0磁盘.但是当选择了修改安装方法的选择项后发现无法像原来一样进一步修改安装选择项,只显示可以安装在hdisk0上. 当时也没多想,就直接恢复安装了,后来通过SMS菜单才发现这个hdisk0根本就不是内置硬盘而是7133上的SSA 逻辑磁盘.这样还造成了7133上一部分大约半天数据的丢失. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并将H85与7133断开进行恢复,恢复成功后系统成功启动一次后又再次报找不到引导记录无法启动. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并还安装了另一块ID8的测试硬盘.并每次恢复前进入SMS菜单确认,此时发现系统启动设备根本就没有找到内置硬盘,反复启动几次发现有时能找到2块内置硬盘中的某一块,有时一块也找不到.这时才发现问题可能出在这个启动列表丢失的问题上,结合以前该机器的宕机故障,认为可能是连接内置硬盘的SCSI线缆有问题(尽管一般认为这种可能性很小)或者存储bootlist的NVROM后系统电池有问题. 于是在H80上恢复7133损失的数据并用HA将全部应用切在H80上运行后,等待公司备件.
备件到达后更换SCSI线缆后反复启动机器,启动列表不丢失.恢复系统数据更改同步HA后系统正常.

至此该问题才算解决. 从此例可以看出,有些认为不可能的故障也能导致莫名其妙的问题(如此例的SCSI线). 不可存侥幸心理必须逐个排除!!

 aixnewer 回复于:2005-05-30 16:05:15
谢谢分享
有时候把io柜拿下来,捋一捋scsi线也有可能管事

 wozxz 回复于:2005-05-30 17:06:11
谢谢
好文!!

 wutongke 回复于:2005-05-31 09:17:48
謝謝分享經驗...

 yanbing 回复于:2005-05-31 12:47:01
祝你的公主快乐健康!!!

这么紧要的关头你还能保持工作干劲,佩服佩服!!!

 zlg88 回复于:2005-05-31 15:03:43
初看起来后面的问题原因的确很少见,不过大家想过没有,最后SCSI线的故障很有可能就是以前机房在高温环境下长期工作的结果呀!!

不单是SCSI线,许多电子元件也会出现很奇怪的问题,经常遇到的电源,硬盘在工作中时好时坏,都和机房环境有很大关系.

 brucewoo 回复于:2005-06-01 10:55:53
解决这类问题是
很头疼的,这非常
有用,谢谢分享

 gdzlin 回复于:2005-06-01 14:31:35
经过认证,结论如下:由于长期高温工作,导致机器内伤

 johnsons 回复于:2005-06-01 15:48:09
丫中暑了吧

 CUaixer 回复于:2005-06-01 16:28:40
谢谢!!!我们这里也有报这样的错误!!谢谢分享

 QSECOFR 回复于:2005-06-01 17:18:50
[quote:4454dea908="zlg88"]初看起来后面的问题原因的确很少见,不过大家想过没有,最后SCSI线的故障很有可能就是以前机房在高温环境下长期工作的结果呀!!

不单是SCSI线,许多电子元件也会出现很奇怪的问题,经常遇到的电源,硬盘在工作中时好时?.........[/quote:4454dea908]

恩. 我认为也确实是这个原因.

 QSECOFR 回复于:2005-06-01 17:24:52
[quote:e50388fc8d="yanbing"]祝你的公主快乐健康!!!

这么紧要的关头你还能保持工作干劲,佩服佩服!!![/quote:e50388fc8d]

没办法! 要赚奶粉钱和面包钱. 呵呵..

 rootboy 回复于:2005-06-02 12:32:32
谢谢啊。我这边也是碰到了同样问题。哥们,往往最不可能得事情竟然会。。。

 arkerzz 回复于:2005-06-02 14:42:07
感谢QSECOFR兄的分享,不知道能不能指点一下从A机的备份恢复到B机后,还应做哪些操作才能让HA起来,谢谢了

 QSECOFR 回复于:2005-06-02 16:29:18
修改B机的主机名,IP,然后直接将HA从A机器同步到B机器即可. 不要直接在B机器上直接修改HA的定义,即使你改成原来的样子,但ODM里还是有原来的东西必须要同步,否则HA可能后有问题的.

 arkerzz 回复于:2005-06-02 17:15:12
谢谢QSECOFR大侠,能否再指点一下A——〉B同步的过程(命令),同步前B机是否要clstar,还要做什么其他准备

 lhg0001 回复于:2005-06-04 10:27:44
这种问题我也遇见过,也是H80,报一些磁盘读写错误,同事去换过两次盘,后来又报错,提示磁盘、cable等问题。因已换过两次新盘了,考虑有可能不是盘的问题,分析是scsi线,或者scsi接口问题,考虑scsi线坏的可能性要小些,当时也没有多余的线,索性先测试接口,把连接I/o柜主板的scsi口直接连到一外置scsi卡上,起机后不在有错误,后没听客户再反映有问题。故问题的根源在于i/o板的scsi接口。

 QSECOFR 回复于:2005-06-04 23:07:57
[quote:c73a2c7868="lhg0001"]这种问题我也遇见过,也是H80,报一些磁盘读写错误,同事去换过两次盘,后来又报错,提示磁盘、cable等问题。因已换过两次新盘了,考虑有可能不是盘的问题,分析是scsi线,或者scsi接口问题,考虑scsi线坏的可能性要..........[/quote:c73a2c7868]

这个H85案例可能跟SCSI卡关系不大. 因为在这个SCSI卡的BUS上还有TAPE设备,但是采用的不同的SCSI线和终结器. (具体位置记不清楚了具体结构可参考H85 serviceguide 结构图) 磁带设备读写正常,也没有报BUS错误之类的. 所以估计可能跟SCSI卡关系不大.

 koala_mel 回复于:2005-08-01 13:38:29
pSeries machine is good, but you must use it according to the rules of IBM.

my experience is like this:
我的系统(H85)前一段连续几天宕机器,一个星期宕了4次. LED 报 888 102 300 0C0,显示是软件或硬件错误引起宕机,查guide 300显示 软件在处理器里中断. errpt里显示有大量的硬盘临时及部分永久错误,我开始以为硬盘有问题,于是做在线diag和停止机器做standalone diag,都也没什么错误. 在standalone模式下做硬盘的表面测试也显示没有问题. 
我还是以为硬盘可能什么其他没有检测出的问题导致了系统宕机. 于是更换了硬盘. 但是过了两天系统又开始报大量硬盘临时错误并宕机. 当时有几个情况引起我的注意,客户说去年这个机器也莫名气妙宕了好几次机,而且有很长一段时间机房的空调有问题,温度很高. 于是我就检测了机器的温度环境(/usr/lpp/diagnostics/bin/uesensor -l或采用diag里的task选项),发现这台机器温度比其他小型机要高出近10度. IO 柜大约36-37度,CEC为28-30度, 而其他机器大约为22-27度.  且该机器放置紧贴在另一台机器的下面. 下面是7133存储,S00机柜全部充满. 但该机器电源,风扇等冷却系统正常.系统没有相关错误且该机器刚刚做过清洗(该故障在清洗之前就一存在). 现在该机房已经安装新空调,温度比较正常. 检测该机器温度为24-30度,其他机器22-24度,最高的一台温度为27-32度,主要是IO柜高为32度. 该机器也将近一个月没有宕机了. 

因此我怀疑可能是机房温度太高并且该机器放置的位置导致他散热不通畅, 从而导致主机温度太高超过正常工作温度(10-40度)从而导致系统宕机. 

这是我以前写的分析报告,我开始也以为是温度引起的问题. 到事实可能不是这样的. 以下是后来写的报告.. 

4.21 10:00左右客户通知我们H85机器宕机,LED显示 888 102 300 0C0 代码. 系统已经HA切换到另一台H80机器. 因此前该H85机器出现过多次宕机现象,LED代码显示一样为8881023000C0,每次系统均报大量硬盘临时及永久硬件错误,开始怀疑是内置硬盘故障,更换硬盘后故障也出现过几次且硬盘表面测试正常,后来发现该H85机器温度太高接近40度的正常工作温度上限,当时怀疑是机器温度太高导致系统异常宕机.建议用户修复机房空调后该机器正常工作了近2个月没有出现宕机故障. 因此这次又出现宕机故障,一开始怀疑是否又是温度问题或者是硬盘问题. 
不久客户将该H85重新启动并将HA切回H85. 但过了一段时间该机又宕机了,客户又将H85重新启动并回切,据客户反映这次HA好象没有完全成功切换.因为在电话中无法详细处理且我司工程师已在赶赴现场的途中,因此让客户保留现场等待我司的处理. 
到达现场后将H85重新启动发现系统报大量硬盘错误,且HA启动不正常.于是又将H85再次启动,这时系统已不能启动,LED代码显示引导记录丢失. 由于该机器此前的宕机故障现象,没有仔细考虑可能是引导列表丢失的情况,认为可能是硬盘损坏导致引导记录丢失,为保险起见没有重建引导记录而是直接为客户更换硬盘. 待更换硬盘后用系统备份磁带恢复时发现该备份磁带已经失效,于是只好从另一台与该H85做HA的H80机器备份数据并恢复到H85上.在恢复的过程中发现系统无法恢复到hdisk0上,报"无效的磁盘位置"类似的错误. ,我怀疑是2台机器内置硬盘安装的SCSI ID不一样造成,H80上硬盘是SCSI ID 4因此备份磁带记录的也是ID 4,而H85实际安装的位置是SCSI ID 8(H85可以安装2块内置硬盘,SCSI ID 分别为4,导致恢复时报类似错误,因此我想通过恢复安装选择项中的改变安装磁盘及方法的方法让系统识别在ID8上的hdisk0磁盘.但是当选择了修改安装方法的选择项后发现无法像原来一样进一步修改安装选择项,只显示可以安装在hdisk0上. 当时也没多想,就直接恢复安装了,后来通过SMS菜单才发现这个hdisk0根本就不是内置硬盘而是7133上的SSA 逻辑磁盘.这样还造成了7133上一部分大约半天数据的丢失. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并将H85与7133断开进行恢复,恢复成功后系统成功启动一次后又再次报找不到引导记录无法启动. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并还安装了另一块ID8的测试硬盘.并每次恢复前进入SMS菜单确认,此时发现系统启动设备根本就没有找到内置硬盘,反复启动几次发现有时能找到2块内置硬盘中的某一块,有时一块也找不到.这时才发现问题可能出在这个启动列表丢失的问题上,结合以前该机器的宕机故障,认为可能是连接内置硬盘的SCSI线缆有问题(尽管一般认为这种可能性很小)或者存储bootlist的NVROM后系统电池有问题. 于是在H80上恢复7133损失的数据并用HA将全部应用切在H80上运行后,等待公司备件. 
备件到达后更换SCSI线缆后反复启动机器,启动列表不丢失.恢复系统数据更改同步HA后系统正常. 

至此该问题才算解决. 从此例可以看出,有些认为不可能的故障也能导致莫名其妙的问题(如此例的SCSI线). 不可存侥幸心理必须逐个排除!!

延伸阅读

文章来源于领测软件测试网 https://www.ltesting.net/


关于领测软件测试网 | 领测软件测试网合作伙伴 | 广告服务 | 投稿指南 | 联系我们 | 网站地图 | 友情链接
版权所有(C) 2003-2010 TestAge(领测软件测试网)|领测国际科技(北京)有限公司|软件测试工程师培训网 All Rights Reserved
北京市海淀区中关村南大街9号北京理工科技大厦1402室 京ICP备2023014753号-2
技术支持和业务联系:info@testage.com.cn 电话:010-51297073

软件测试 | 领测国际ISTQBISTQB官网TMMiTMMi认证国际软件测试工程师认证领测软件测试网