TSM服务器是TSM存储备份环境中最为重要的组成部分。一旦TSM服务器出现故障后,所有客户端的备份和恢复操作都有可能受到影响。当故障出现时,用户通常可以执行下面列举的一些操作来检查错误,这样可以尽快发现问题的根源,并协助技术支持工程师排除故障:
1. 查看服务器的活动日志
通常建议客户检查故障出现前后一段时间(例如前后30分钟内)出现的各种信息,通常情况下,除了出错信息以外,故障前后一段时间的提示信息会给出一些与故障相关的消息,甚至揭示问题出现的根源。
下面是查看服务器活动日志的命令示例:
QUERY ACTLOG BEGINTIME=NOW-30 ENDTIME=NOW
2. 利用HELP命令查看TSM的出错信息
使用HELP用户可以获得关于这条出错信息更多的内容,包括对信息更详细的解释,系统所做的反应和用户应该做的操作等等,下面是利用HELP命令查看出错信息的示例:
查看错误号为ANR7800I的信息:
help 7800
系统输出为:
ANR7800I DSMSERV GENERATED AT time ON date.
EXPLANATION: The Tivoli Storage Manager server module was generated
at the indicated date and time.
SYSTEM ACTION: Server operation
USER RESPONSE: None
3. 检查问题是否可以重现
如果问题可以比较容易的重现,则意味着可以比较容易孤立并发现出现故障的原因。但是并不是所有问题都可以很容易重现,而这往往意味着问题的产生是多方面因素结合的结果,这时候就需要用户放宽思维范围,从更广的范围和更长的时间段上来发现问题。
4. 问题的出现是否与读或写设备有关系
如果问题的出现是在读或者写某个硬件设备上的数据的时候,则硬件系统所在的计算机操作系统往往也会产生一些错误日志记录,例如AIX,Windows都会产生相应的错误日志。用户可以利用这些记录来帮助发现问题的所在。
5 检查服务器和客户端的配置信息是否发生过修改
如果错误是在配置信息修改以后产生的,则可以考虑重新修改配置信息,并测试问题是否重复出现。
6 检查服务器的数据库空间是否溢出
TSM利用数据库来记录和管理元数据,所以如果数据库空间不够时,所有的备份和恢复操作都无法进行。查看数据库空间可以使用命令Query Database。
7 关于客户端无法连接的问题,通常需要检查下面一些细节:
检查服务器配置文件,并检查服务器是否绑定配置文件中规定的端口;
查看服务器的状态(Query Status)确保设置好了"Availability: Enabled";
检查客户端配置文件中端口号和IP地址是否与服务器端一致;
检查节点是否被服务器端锁定(LOCK);
配置系统管理员检查网络状况和服务器的内存利用状况,如果内存不够用了,则新的连接肯定无法建立。