- 重现问题需要哪些步骤?
知道这些步骤可以帮助你在相同条件下不同的机器中再现相同的问题。如果可以,你将有机会使用测试机来代替崩溃的生产服务器。
- 是一个间歇性问题吗?
如果问题间歇性发生,第一件要做的是就是搜集信息并找到可以重现问题的规律,目标就是构建一个情境让问题可以随时发生。
- 问题在每天的特定时间或每周的特定某天发生吗?
这可能帮助你查明问题是由什么引起的。问题可能发生在大家上午上班或下午上班时,想办法改变现有作息时间(这可能减少问题发生的机会或发生的更加频繁);以便让问题可以重现。
- 问题很少见吗?
如果问题不可以重现,你可能得出结果在特殊情况下问题才会发生并将其归类为已解决。在现实生活中,此问题还是极有可能再次发生的。
在排除难以重现的问题时,有效的措施就是:重启或将机器的驱动程序和补丁升级到最新。
▶ 问题是什么时候开始的?是渐渐的还是突然发生的?
如果性能问题是渐渐出现的,这很像是一个容量规划问题;如果它是突然出现的,很可能是由于服务器或外围设备的变更引起的。
▶ 服务器是否有做过变更(小的或大的)或客户端使用服务器的方法有改变吗?
- 客户是否改变过服务器或外围设备而导致了问题的发生?有网络变更的所有记录吗?
▶ 还涉及了其它的服务器或硬件吗?
▶ 有日志可以用吗?
▶ 问题的优先级是什么?什么时候问题必须解决?
- 必须在几分钟内解决还是允许在几天内解决?你可能有充分时间来解决问题;或已启动应急方案。
- 问题有多大?
- 相关的损失有哪些?
3.1.2 分析服务器性能
重要提示:在执行任何故障排除动作前,备份所有的数据和配置信息,防止其部分或全部丢失。
此时,你应开始监控服务器。最简单的方法就是在需要分析的服务器上运行监控工具。(参看第二章“监控和基准工具”)。
在运行高峰时(例如,上午9点到下午5点)记录服务器的性能日志;取决于有提供哪些服务和有哪些人在使用这些服务。在记录日志时如果可以应该包含下列字段:
处理器【Processor】
系统【System】
服务器工作队列【Server work queues】
内存【Memory】
分页文件【Page file】
物理硬盘【Physical disk】
重定向器【redirector】
网络接口【Network interface】
在你开始前,要牢记井然有序的进行性能调优是非常重要的。你可以使用我们推荐的流程为你的服务器进行调优,流程如下:
1.清楚影响服务器性能的因素。
2.测量出当前的性能作为基线,用于与后来的测量数据比较来识别出系统的瓶颈。
3.使用监控工具来识别性能瓶颈。按照下节介绍,你可以缩小瓶颈的范围到子系统级。
4.针对导致瓶颈的元件执行相应调整,提升服务器性能以满足需要。
注释:当服务器其它元件都有足够的能力来维持性能在一个较高的级别时,通过升级存在瓶颈的元件可以获得最好的效果。
5.对性能进行新的测量,对比调优前后的性能差异。
当尝试处理性能问题时,请记住下列事项:
▶ 应用程序应该使用适当的优化级别进行编译,这样可以少走弯路。
▶ 在你做任何升级和修改前执行测量,以便于确定变更是否有效果。(换句话说就是执行基线测量)
▶ 检查项目不应只有新增加的硬件,还要包括配置有更改的现有设备。
原文转自:http://www.redbooks.ibm.com/abstracts/redp4285.html