• 软件测试技术
  • 软件测试博客
  • 软件测试视频
  • 开源软件测试技术
  • 软件测试论坛
  • 软件测试沙龙
  • 软件测试资料下载
  • 软件测试杂志
  • 软件测试人才招聘
    暂时没有公告

字号: | 推荐给好友 上一篇 | 下一篇

SavWareHA (又称sentinel)

发布: 2007-6-08 22:43 | 作者: seanhe | 来源: ChinaUnix.net

软件测试论坛讨论

领测软件测试网
我在信合,请问大家谁有SavWareHA (又称sentinel)的资料,现在很需要它,多谢了。多谢!!!!!!!!!!!!

 sdccf 回复于:2004-09-30 00:12:50
SavWareHA是美国WesternMicro公司的产品,是目前SCO UNIX上唯一的一种成熟的纯软件方式双机热备份方案。安装了SavWareHA的两个系统之间通过以太网连接,关键数据在两个系统之间呈镜像存在。在正常运行时,控制权在主用系统上,数据实时地镜像到备用系统上,当主用系统发生故障或主用系统检查到某种故障后,系统控制权切换到备用主机,由于采用以太网作系统的数据链路,主用系统可不干扰备用系统工作,自动脱离并在一个孤立的环境中进行故障的诊断和维修。主用系统修复后,控制权需再切换到主用系统。数据需要从备用系统恢复到主用系统,这个工作在后台自动完成,应用读数据仍从备用系统上进行而不会中断。数据恢复完成后,双机系统进入正常工作模式。

 sdccf 回复于:2004-09-30 00:13:22
SavWareHA 双机容错软件问答

问:SavWareHA能支持其它如Windows 2000的操作系统吗? 

答:不能,SavWareHA只支持SCO系列操作系统平台,包括SCO Open Server 3、SCO Open Server 5、SCO UnixWare7和最新的Caldera OpenUnix 8。 

问:SavWareHA能支持什么数据库和应用系统? 

答: SavWareHA与数据库和应用系统无关,可以支持任何数据库和应用。 

问: SavWareHA对硬件有什么特殊要求? 

答: 由于SavWareHA使用SCO的设备驱动程序,对硬件无特殊要求,甚至主备机的配置都可以不相同,唯一的要求是主机和备用机上用于做镜像的文件系统设备空间大小一样。再就是主备机之间除了安装以太链路进行监控外,还建议再安一串行线来监控。

问: 备用机如何对主机进行监视呢? 

答: 主备机之间至少要安装两条线路用于监视,若只安装一条线路,当这条线路出了问题而主机实际上并无问题时,备用机就会因接收到主机活动信号而误认为主机故障,而切换启动备用机投入工作,这会造成主备机同时工作的混乱。如果有两条线路,当备用机从第一条线路上收不到信号时,就会再尝试从第二条线路上收信号,第一条线路上若有信号则证明主机没坏,仅为线路故障,不必切换。同时向有关方面报警,线路故障。第一条线路用网卡连接,第二条线路用串行口连接,若主备机和用户PC机之间是以网络相连,第二条线路也可以用公共网线直接代替。

问: 运行了SavWareHA后,主备机整体性能会有什么下降呢? 

答: 由于SavWareHA以镜像方式对主备两机盘同时进行写操作,而不是互相等待,因此客户感觉不出有延迟,除非写盘缓冲区占满,这种情况不易发生。既使发生用户感觉出的延迟也是十分微小的,我们研究过各种比较繁忙的商业系统,发现他们有如下规律,那就是写与读的比例是12% ~20%。也就是说写操作不会将整个写缓冲区占满,写操作之间的时间间隔是足够的。在这一点上,用户可以用“sar -d”命令来观察盘读写的繁忙情况。

问: 当主机因故障而停止工作时,已入用户如何转换到备机上呢? 

答: (与Data link配置方法相反)网络上主机与备用机的IP和MAC地址是一样的,并且可以在SavWareHA中用命令方式来设定其连接和断开。若主机出现故障,SavWareHA会自动地以发命令的方式来设定备用机网卡与网线连通,用户的登入使用也会被自动地转移地备用机上。服务器上的网络设置程序均支持这种“平滑”转换,如LAN manger Century . JSB.。即使是在主机正常工作的情况下,也可以将用户使用转移到备用机上。这种转移立即的,不需转移时间。

问: SavWareHA可以同时支持多少种网络连接? 

答: 安装SavWareHA的主机能支持多少种网络连接,SavWareHA就能支持多少种网络连接,主机、备机都一样,以下是三种常见的连接方式。

1. Data link 两网卡各自具有自已的网络地址

2. User link 两网卡具有同一地址,SavWareHA可以将登入的用户在主备机 之间自由切换。

3. User link 两网卡各自具有其自已的地址,用户在登入时自主选择要登 入的计算机、主机或备机。

问: 系统管理人员如何启动主备机进入工作呢? 

答: 因为SavWareHA是从备用机来观察主机工作情况的,因此备用机做为观察者应先启动。如果先启动的是主机,则SavWareHA的镜像盘功能就会自动关闭,启动了备用机后就需手动运行“Fix mirror by copy”功能来进行盘拷贝,以形成镜像环境。

问: 主机的故障被修复以后,如何将系统再恢复到原有的主备机状态呢? 

答: 主机修复后应先检测确保其安全正常工作后,再启动进入主备机状态。启动方法是运行“restore to normal mode”恢复功能,启动之前最好通知现登入用户都退机以防意外。启动运行恢复功能之后,备用机盘工作先停止,然后是执行“镜像盘重做功能”,这个功能将备用机盘全部拷回到主机上。这个过程可能要用一段时间,但用户可在同时登入使用镜像盘重做功能,只是以一种优先数很低的后台工作方式运行的,前台用户可照常登入工作。仅区别在于此时的写操作在两盘同时进行,而读仅在备用机上进行,待镜像盘重做完毕后,再恢复到主机读操作上。

问: “Normal ”和“Fallback”方式有何区别? 

答: 此为SavWareHA系统的两个工作状态N.F.。N为主机工作,并且具有全系统的用户注册和文件读写控制权;F为备机工作,掌握全系统的用户注册和文件读写控制权。

问: 若两机之间的以太网络出现故障,情况会怎样? 

答: 若两机以太网卡出现断接现象,SavWareHA将认为是备用机方出故障,并且将备用机盘写操作关闭,

问: 在盘镜像重做期间,写操作是如何进行的?是否受影响? 

答: 不受影响,写是在主备机两端同时进行的。盘上的数据是按块为单位,从备机拷入主机的,当写一个尚未拷贝的块时,先写备用机块,然后再将该块拷到主机上,当写一个已拷贝块时就在两机上同时写,这样就保证了两边的数据在镜像盘重做完毕时是完全相同的。

问: 主备机在镜像盘重做期间,用户如何知道自已正登入主机还是备机? 

答: 用户不必知道,SavWareHA系统自已知道谁为拷贝机,谁为被拷贝机。

问: 系统的启动和关闭相应工作是如何进行的呢? 

答: 在两边系统的“/ etc / sentinel / .d”目录中存放了次号“K”开头的文件集,他们用写系统的启动和关闭,即“startup”和“kill”主机启动进入“Normal”方式时,自动执行“S”开头文件,备用机启动进入“Fallback”方式时也执行“S”开头文件。主机退至“Fallback”状态时执行“K”开头文件,备机返回至“Normal”状态时,执行“K”开头文件。

问: 在转入“F”状态的过程中,主机方已运行的后台作业受到什么影响? 

答: 在这个过程中,主机正在运行的应用将会按照定义好的序列停止,未完成的交易将由客户端重新提交,然后交易将在备机重新完成。

问: 主备机镜像盘重做期间,用户对备用机的写操作会是什么结果? 

答: SavWareHA有这样的功能。即,当整个系统由另机控制时,本机文件系统不能访问,因此两端不能同时安装文件系统,以防用户意外写入控制机以外的硬盘。(即主机控制系统时,备用机不能访问文件系统,备用机控制系统时,主机文件系统不能访问,最好是两端不要同时安装文件系统,以防意外访问。)

问:SavWareHA系统如何关闭呢? 

答: 主机shutdown关闭时会自动通知备机,以防备机误认为是主机故障,而切换成“Fallback”方式。正确的关闭系统方法应如下:

①先关主机系统;②关闭备用机

 sdccf 回复于:2004-09-30 00:15:52
镜像原理


  SavWareHA系统采用虚拟设备的方法,替代SCO Unix的磁盘驱动(见图2-1),下图是SCO Unix 的硬盘子系统和安装SavWareHA之后的系统硬盘子系统的结构框图。在安装完SavWareHA之后的系统里,SCO的磁盘驱动已经由SavWareHA的标准的磁盘驱动和网络磁盘驱动替代了,替代后的磁盘驱动系统捕获应用的所有写盘操作,实时将数据写到两台机器的硬盘上。


  SavWareHA的镜像是指两台服务器,主用系统与备用系统之间通过TCP/IP协议,对应用数据进行的镜像,其镜像空间的大小,镜像的个数,均可根据应用系统的要求进行设置。这种镜像是通过修改SCO UNIX写盘机制而实现的,故不存在任何不同步的现象。并且在数据专用网段上,SavWareHA可以直接调用LLI链路,而不必通过TCP/IP,从而有效提高数据专用网段上的数据传输速度。通过镜像数据,SavWareHA物理上把数据库的风险平均分布在两台服务器上。 


监控及切换原理(图2-2)
  SavWareHA软件安装完毕正式启动后,两台PC服务器担任不同的角色,一台为主用系统 ( Primary System ),另一台为备用系统( Standby System )在这两台机器上都运行有一个进程叫“SMON”,它们通过数据网(专用以太网段、TCP/IP协议)和串行口相互监视着对方的工作状态,在正常情况下,主用系统通过用户网接受客户机的访问,当主用系统出现故障时,备用机就接管客户机对系统的访问,接管的内容包括原主用系统的网络地址及数据库等,并重起原主用系统的各类应用程序。SavWareHA还提供了扩展监控模块,通过这个模块,主机可对其运行状况进行检测,如应用系统、数据库、网络等,我们还可以针对客户不同的需求开发不同的监控程序。



图2-2




图2-1 标准 SCO系统     安装了SavWareHA之后的SCO系统


 sdccf 回复于:2004-09-30 00:18:41
1.系统整体可靠性 

  纯软件方式下,真正将风险分散到两台服务器上,使系统可靠性真正得到提高。这一结论可通过前面所述的评价容错系统的两个指标可靠性和可用性得到,从可靠性指标来看,假设单台PC服务器的可靠性为100%,使用了SavWareHA后,主备机同时损坏整个系统才不可用,根据条件概率,同时损坏的概率为: 
1-(1-100%)*(1-100%)=99% 
可以得到结论:使用了SavWareHA后,整个系统的可靠性为99%,风险分散到两台主机上。 

  如果使用了共享磁盘阵列柜,假设共享磁盘阵列子系统的可靠性为99%,根据条件概率,主备机同时损坏或磁盘阵列柜损坏即双机系统和磁盘阵列子系统同时完好的概率为: 
(1-(1-100%)*(1-100%))*99%=98.01% 
   可以得到结论:使用了可靠性高于主机的共享磁盘柜双机容错系统,可靠性仍低于采用了SavWareHA的双机容错系统;如果采用了100%可靠的磁盘阵列柜,则可靠性与SavWareHA相等;可怕的是采用了可靠性较差的磁盘阵列柜,如磁盘阵列柜的可靠性比所用的主备机可靠性还差或相当,那么根据条件概率计算整个系统可靠性还不如单机运行。 
(1-(1-100%)*(1-100%))*100%=89.01%<100% 
  从可用性指标来看,使用了SavWareHA的双机系统允许系统中任意部件故障而不会导致整个系统停机,而共享磁盘阵列柜则存在其本身的单点故障而可能导致整个系统不能工作,可用性指标必然会小于纯软件的SavWareHA方案。 

  从以上分析可知:选用双机热备容错系统的主要目的,是将单主机系统运行所带来的系统风险降至最低。采用以共享磁盘阵列柜为核心的方案,却是将系统风险转移至共享磁盘阵列柜上,此设傅目煽啃裕苯泳龆ㄕ鱿低车目煽啃浴6鳶avWareHA纯软件双机热备容错系统无需共享设备,将系统风险平均分散到两台服务器上,从而真正提高整个系统的可靠性。 


2.配置灵活 

  主备机可以采用不同的资源配置,如可用较低档的SCSI接口的PC服务器或IDE接口的PC机作为备机,以节省用户的投资。 


3.对新设备的支持 

  使用SCO UNIX底层设备驱动,可立即支持SCO UNIX支持的新设备。 

  由于SavWareHA使用的是SCO UNIX的底层设备驱动,所以SavWareHA可以支持任何SCO UNIX支持的各类周边设备,并立即支持SCO UNIX支持的新设备,大大提高SavWareHA的系统兼容性。避免了研制设备驱动的容错产品供应商因未能及时更新设备驱动而引发的系统兼容问题。 

4.对软硬件的支持 

  只与SCO UNIX操作系统紧密联系,可支持所有SCO UNIX支持的硬件与软件平台。 

  SavWareHA只与SCO UNIX紧密联系,而与具体的硬件平台以及基于SCO UNIX之上的软件平台完全无关。所以SavWareHA可以支持任何支持SCO UNIX的PC服务器,同时支持任何支持SCO UNIX的包括数据库软件在内的各类软件平台。 

5. 对存储方式的支持 

  支持SCO UNIX中的文件系统(Filesystem)及裸设备(Raw Device)两种储存方式。 

  不同的应用系统在选择SCO UNIX系统的数据存储方式时,会根据需要选择文件系统(Filesystem)或裸设备(Raw Device)两种数据存储方式中的一种,或同时使用这两种方式。SavWareHA对文件系统(Filesystem)或裸设备(Raw Device)两种数据存储方式均支持,可以使用户自由选择数据存储方式。 

6.双机采用网络连接,真正做到在线连接及修复,支持双机远距离间隔 

  双机通过以太网连接,可在线修复,并且两台服务器之间的物理距离可相对较远。 

  在SavWareHA纯软件双机热备容错系统中,两台服务器通过以太网连接。所以两台服务器可以随时在不影响前台用户端工作的情况下,在线的从系统中分离出去,或重新连接到系统中。而在以共享磁盘阵列柜为核心的双机热备容错系统中,双机均通过SCSI连线与共享磁盘阵列柜相连,在整个系统不停止工作的前提下,其中的任何一台设备很难从系统中分离出去修复或重新连接到系统中。这极度限制了用户对故障系统修复的时间掌握,特别是对7x24小时的作业系统而言。 

  在SavWareHA纯软件双机热备容错系统中,两台服务器通过以太网连接,又使得两台服务器之间的物理距离可相对较远,如使用五类双绞线连接,双机之间可间隔100米,如使用光纤连接,两台服务器可间隔数千米至数十千米。这种连接方式可以避免一些人力不可抗拒的事故,如火灾、地震等而导致系统中断,从而增加了可靠性。 

7.无共享设备,使用户可以集中精力在两台主机的管理及维护上,日常管理维护方便、简单、灵活 

  SavWareHA纯软件双机热备容错系统纯软件实现,提供良好的管理界面,可以灵活、快捷地管理系统,并且简单、易于掌握,使用户可以很容易的管理系统,从而节省大量的管理、维护费用。 

8.升级方便,有效保护投资 

  纯软件实现,无挪动、受潮、被盗、折旧等硬件容错的忧虑。产品升级方便,无需重复投资。 

  硬件产品的更新换代异常频繁,而硬件产品用户一经购买,就必须认识到对此产品的大规模升级已不可能,随着时间的推移,该产品被功能更强大的新产品所取代势不可免。如在将来重新购买新产品又将是重复投资。而SavWareHA纯软件双机热备容错系统由纯软件实现,用户可随时享受到可能的软件升级,从而有效保护用户的已有投资。同时,SavWareHA是通过调用SCO UNIX的底层设备驱动,对SCO UNIX能支持的任何新设备和驱动,SavWareHA便即时支持,这对用户的系统升级和兼容性亦提供了有力的保证。 


9. 投资小,可靠性高,性能/价格比高 

  为保证系统的高可靠性,用户如选择以共享磁盘阵列柜为核心的双机热备容错系统,就应选择真正具备高可靠性的磁盘阵列柜产品,而此类产品相对SavWareHA又价格极高。所以,在真正能有效保证系统高可靠性的双机热备容错方案中,SavWareHA具极高的性能/价格比。

 sdccf 回复于:2004-09-30 00:19:27
SavWareHA的日常维护

软件注册 

  使用SavWareHA的用户必须在系统安装以后一个月之内对主备机都进行软件注册。用户需要将Serial号和Registration Request 号以及SCO Unix的序列号反馈给供应商,供应商会根据提供的号反馈注册号,用户将注册号选择UtilitiesàRegisteràEnter Registration Code输入注册号,输入后要重新启动两个系统,或在root用户下运行如下命令即可: 

# sentinel -dp 

启动与关闭系统: 

  正常的次序是启动时先备用机后主用机,关闭(一定要用shutdown)时先主用机后备用机。 

切换到备用状态: 

  当主用机故障时,备用机通过 /etc/sentinel.d/links 文件规定的监控 线路访问不到主用机时,系统会自动切换到备用机工作状态。 

  当出于测试分析目的、或对数据有危险的处理时,可以在主用机或 备用机上选择菜单 Utility->Force Change to Fallback Mode,将系统手工切换到备用机工作状态。 

修复镜像: 

  必须在主用机上多用户下执行sentinel,对于每一个镜像选择Mirror ->Fix Broken Mirror->Fix Mirror by Copy。 


切换到正常状态: 

  主用机修复后,必须在主用机上多用户下执行 sentinel,选择Utility ->Recover From Fallback to Normal,手动将系统切换到正常状态。 

显示容错系统日志: 

  该日志存于文件 /usr/adm/dmx.log,可以通过在主用或备用机上选 择 Utility->Display Mirror Log 来读取。 

显示监控状态: 

  可以运行 smon -d 命令显示,也可以选择菜单Utility->Display Monitor Status 显示。在状态栏一行显示 Normal 系统才可以自动切换,如为 Fallback 则表示已切换到备用状态;如为 Pause 则表示主用或备用系统已被关闭。 

(一)SavWareHA软件安装规范 

  指定本规范的目的是制订SavWareHA软件的安装标准过程,控制SavWareHA软件在安装过程中的风险,从而保障项目实施的质量。本规范可以作为工程项目实施计划和实施报告的参考文本中主机系统的一部分。 

 本文涉及到有关SavWareHA的具体安装技术细节请参考《SavWareHA手册》。 

  在SavWareHA软件的安装过程中应遵守以下步骤: 

1、操作系统安装、配置。 

  如在现已运行的系统上安装可以省略这个步骤。要注意主备机操作系统的序列号不能重复,否则会导致网络速度较慢甚至系统用户数变为单用户等问题,SavWareHA软件的登记注册也会涉及到这一问题。在划分文件系统时注意给要镜像的数据划出单独的文件系统。 

2、数据备份与恢复。 

  由于SavWareHA是对主机系统包括数据库进行备份,在安装过程中不慎误操作可能导致数据丢失等严重问题,并且由于可能的灾难等原因,双机热备份系统本身也不能完全替代传统的数据备份手段,因此在主机系统做任何调整、维护之前,包括安装SavWareHA之前都要先对数据进行备份再进行操作。并且要将数据备份尝试恢复,保证数据备份是可以恢复的。注意如果使用设备备份的方法(如Dump、dd等),不能采用原始设备的镜像方式,因为恢复时设备的大小会改变而无法恢复。 

3、镜像方式选择。 

  SavWareHA在SCO UnixWare7上只支持文件系统镜像方式,在SCO Open Server上可以支持文件系统和原始设备两种镜像方式,两种方式的主要区别是文件系统是操作系统提供的用户IO界面,原始设备是数据库直接读写文件系统设备的方式,前者的优点是可以利用操作系统提供文件缓冲从而加快IO读写速度,在SavWareHA中的配置和安装都比较简单,缺点是突然掉电等故障会导致文件系统损坏而丢失数据,但现代的UNIX文件系统结构都是日志型的,所以也是很安全的;后者的优点是数据库空间利用较充分,缺点是在SavWareHA配置、维护都远比文件系统复杂。 

4、在IOLink上IP地址方案的选择。 

  IOLink指连接客户端的网络,在这个网络上双机应对外提供同一个IP地址,SavWareHA在SCO UnixWare7上的版本只能支持IP漂移的方案,在SCO Open Server上的版本可以支持IP漂移和同一IP两种方案。IP漂移方案是主备机各有一个内部的IP地址,对外使用的IP地址随着主备机运行状态的改变可以绑定在任何一个系统上,三个地址要在同一个网段上,这个方案对任何网卡都可以支持,缺点是要多占用两个IP地址资源。同一IP方案的优点是节省IP地址资源,缺点是只有特定的3COM、Intel、SMC三个厂商的网卡才能使用这种方案,所以在IP资源允许的情况下应尽量在IOLink上使用IP漂移的方案。 

5、安装SavWareHA。 

  以上方案定好后可以按照手册中的安装步骤指定主备机、建立镜像、设定IP漂移或修改MAC地址、编写启动、关闭应用的脚本依次安装SavWareHA。 

6、测试。 

  安装结束后,实施人员应先自己对SavWareHA进行必要的测试。应先对启动、关闭应用系统的脚本进行测试,这些脚本往往存在一些问题导致切换时系统故障。然后具体的测试项目可以参照《测试计划》中的内容进行。测试的目标是系统能进行切换,并且系统正常的启动关闭都没有问题。 

7、软件登记注册。 

  SavWareHA会相对应操作系统序列号产生一组注册请求码,将这组请求码返回给供应商后会得到一组注册码,注册后才能正常运行。否则会有30天的评估运行期,过期后镜像会停止,系统将不会自动切换,但不会丢失数据。一定要注意安装多套SavWareHA的各个操作系统序列号也不要重复。

(二)SavWareHA测试规范 

  本文的是写给安装、配置SavWareHA的项目实施工程师,目的是介绍对SavWareHA双机系统安装后的测试方法,用于SavWareHA系统供应商具体工程实施时系统测试计划、测试报告的编写。要注意具体的测试计划需根据用户的具体需求而定,因为具体测试的项目越多,系统配置就越复杂,从而测试环境要求也越高,用户的维护工作也越多。 

  SavWareHA双机热备份软件的具体功能介绍参见《SavWareHA技术白皮书》一文。在具体指定测试计划或测试方案时应对所要测试的各个项目事先自测一次,以排除配置过程中出现的错误。 

  在具体工程实施中我们对SavWareHA进行测试的目的是检查SavWareHA是否能达到预期的容错效果。因此测试时要在容错系统中模拟各种故障,来测试系统是否对该故障进行冗余、故障的侦测时间、故障的切换及恢复时间。由于SavWareHA双机完全冗余备份,所以原则上可以对任何一种故障进行测试。这一方法称故障注入法(Fault Injection),被国内用户广泛使用。根据这一原则,对于SavWareHA可以注入如下故障进行测试: 

1.硬件故障:硬件故障可分别从主机故障、连线故障、数据硬盘故障四个方面去测试。 

• 主机故障。通常用户如不做特殊要求,仅做这一种测试就可以了。主机的故障如CPU、电源、主板、总线等故障均可导致备机无法收到主机的心跳信息从而导致切换。测试时可将主机非正常关机,记录切换到备用机的时间和修复后的恢复时间。 

• 连线故障:可以拔掉双机之间的各种连线如网线、RS232线、SCSI线等。记录切换到备用的时间和修复后的恢复时间。 

• 数据硬盘的故障。分别针对两种容错系统对连线故障的反映,在纯软件双机容错系统中,数据盘的故障据称会将数据的读写转到备机执行,而应用系统的执行仍在主机而不会切换;对于共享磁盘阵列系统数据盘至少做RAID5的容错可容余一块硬盘,因此一块硬盘的故障不会影响系统运行,但在恢复时要考察系统是否能在线恢复。测试数据盘的故障可通过拔插数据盘来测试系统的反映和切换及恢复的时间。注意这种测试有可能会导致硬盘损坏。 

2.软件故障:软件故障应从操作系统和应用系统两方面去测试。 

• 操作系统故障。指操作系统发生严重的故障核心异常(Kernel Trap)、系统因争夺资源而引起的死锁(Dead Lock)等。致使主用机无法正常发出心跳信息,以备机接受不到主机信息为条件,可参照主机故障记录测试结果。 

• 应用系统故障。在客户机服务器模式的应用中,服务器端往往只有数据库监听进程属应用系统范畴,应用故障后系统应可以据用户的要求切换或仅发出警告。因此测试时可以非正常杀掉这个进程,测试系统对该故障的反映和切换及恢复的时间。这个测试主要是检查应用的进程是否在进程队列当中,如要达到更高的要求如数据库空间满等则需要专门设计。 

3.网络故障:用户子网发生故障,主机访问不到任何一台网络设备或主机上网卡报错为条件,系统应可以据用户的要求切换或仅发出警告。测试时可以采用拔掉用户子网的网线,测试系统对用户子网的监测反映和切换及恢复的时间。 这个测试在SavWareHA中主要方法是检查载波信号和发送广播信息。如果客户机都已关闭或不响应IP层广播包则会导致SavWareHA认为网络故障。 
  
   测试计划和测试报告应全部写好后进行测试,根据测试计划进行测试后填写测试报告,测试计划和测试报告还应包括测试的时间、参加测试的人员(应包括用户方),和具体项目的简介等信息。对SavWareHA的测试可以作为工程项目初步验收的一部分。 

(三) SavWareHA与应用系统 

  SavWareHA有两个方面与应用系统(包括应用和数据库)相关:一个是应用读写数据的设备,应用系统只有将数据写入SavWareHA建立的虚拟设备,SavWareHA才能将数据实时写到主备两个系统;一个是应用系统的启动、关闭过程,对应用的启动、关闭过程要求如下: 

1、 启动、关闭过程要加入到文件/etc/sentinel.d/S75user和文件/etc/sentinel.d/K20user中。这样在切换过程中,SavWareHA可以自动启动、关闭应用系统。 

2、 应用系统的启动、关闭要能自动进行,不须交互输入用户、密码等。 

3、 应用系统的启动、关闭要能无限次重复进行。如果应用的启动关闭在切换中不能成功,会发生严重故障,如在备机切换回主机时,备机如无法关闭应用,将导致主机系统崩溃。 

如果应用系统没有提供正常关闭的方法,程序中也没有捕获任何中断信号进行处理,可以采用如下Shell脚本程序关闭应用:

ps -e |grep 应用进程名 | while read PID

do

kill -9 $PID

done


(四)数据库支持

SavWareHA与Oracle数据库
  对于Oracle数据库一般采用文件系统方式建立数据库存储空间,可以将数据库存储空间做镜像,Oracle本身可以不做镜像,但由于Oracle在根文件系统有一些配置文件,所以Oracle应该在主、备机分别安装、配置,或将其在根文件系统的文件从安装好的主机拷贝到另一台主机。Oracle的启动与关闭可以用如下脚本完成:

启动
su - oracle -c "/usr/oracle/bin/dbstart"

关闭
su - oracle -c "/usr/oracle/bin/dbshut"

  其中/usr/oracle为Oracle的安装目录,可以根据实际目录修改。dbstart和dbshut为Oracle提供的启动和关闭Oracle的工具,可以启动、关闭定义在文件/etc/oratab中的数据库。注意在关闭数据库选项中应加入immediate。这样切换时就不会造成因客户端连接而无休止等待。 

SavWareHA与Sybase数据库
  Sybase一般会建议采用原始设备方式建立数据库空间,在配置SavWareHA时可以建立一个较大的原始设备镜像,再利用SavWareHA原始设备镜像的特点将镜像设备划分出几个原始设备,如master、log、data、procdure等给Sybase使用。Sybase本身可以不做镜像,但要保证Sybase的配置文件在主备机上保持一致。Sybase的启动和关闭可以用如下脚本完成:

启动
su - sybase -c "/usr/sybase/install/startserver -f /usr/sybase/install/RUN_SYBASE"

  其中Sybase的主目录可根据实际安装目录做相应修改,RUN_SYBASE为Sybase实例名,可相应修改。注意在关闭数据库选项中应加入with nowait。这样切换时就不会造成因客户端连接而无休止等待。

关闭
su - sybase -c "/usr/sybase/isql -Usa -P /usr/sybase/install/downsyb.sql"

  其中Sybase的主目录可根据实际安装目录做相应修改,-P后要跟sa的密码,downsyb.sql是关闭Sybase的sql脚本,内容为:

shutdown SYB_BACKUP

go

shutdown with nowait

go 

SavWareHA与Informix数据库
  Informix数据库的存储空间可以使用文件系统,也可以使用原始设备,如果对SCO脚本编程比较熟悉,可以使用原始设备,简单的可以采用文件系统。在SavWareHA中要对数据库空间做镜像,可以不对Informix本身做镜像,但要注意Informix主目录下的etc目录中文件tbconfig或onconfig要在主备机上保持一致。Informix的启动和关闭可以用如下脚本完成:

启动
su - informix -c "/usr/informix/bin/oninit"

  其中/usr/informix为Informix安装的主目录,可以根据实际目录修改,oninit为Informix7版以上的启动命令。如使用5版要用tbinit命令。

关闭
su - informix -c "/usr/informix/bin/onmode -ky"

  其中其中/usr/informix为Informix安装的主目录,可以根据实际目录修改,oninit为Informix7版以上的启动命令,如使用5版要用tbmode命令。

(五)维护管理指南

软件注册 

  使用SavWareHA的用户必须在系统安装以后一个月之内对主备机都进行软件注册。用户需要将Serial号和Registration Request 号以及SCO Unix的序列号反馈给供应商,供应商会根据提供的号反馈注册号,用户将注册号选择UtilitiesàRegisteràEnter Registration Code输入注册号,输入后要重新启动两个系统,或在root用户下运行如下命令即可: 

# sentinel -dp 

启动与关闭系统: 

  正常的次序是启动时先备用机后主用机,关闭(一定要用shutdown)时先主用机后备用机。 

切换到备用状态: 

  当主用机故障时,备用机通过 /etc/sentinel.d/links 文件规定的监控 线路访问不到主用机时,系统会自动切换到备用机工作状态。 

  当出于测试分析目的、或对数据有危险的处理时,可以在主用机或 备用机上选择菜单 Utility->Force Change to Fallback Mode,将系统手工切换到备用机工作状态。 

切换到正常状态: 

  主用机修复后,必须在主用机上多用户下执行 sentinel,选择Utility ->Recover From Fallback to Normal,手动将系统切换到正常状态。 

显示容错系统日志: 

  该日志存于文件 /usr/adm/dmx.log,可以通过在主用或备用机上选 择 Utility->Display Mirror Log 来读取。 

显示监控状态: 

  可以运行 smon -d 命令显示,也可以选择菜单Utility->Display Monitor Status 显示。在状态栏一行显示 Normal 系统才可以自动切换,如为 Fallback 则表示已切换到备用状态;如为 Pause 则表示主用或备用系统已被关闭。 

更换序列号 

  如欲将原来的序列号改为123456,先用命令:reggie -ww 确认后删除原序列号,再用命令reggie -Ap4 -s"123456" 输入新的号。

 sdccf 回复于:2004-09-30 00:19:59
容错系统的定义: 

  能够对系统中的软件和硬件故障作出相应处理,以保证整个系统能够不因这些故障而导致业务处理中断,从而将因为可能的软件以及硬件故障给整个系统带来的风险将至最低。具备此种能力的系统即为容错系统。 

  容错系统设计的一个基本原则是冗余,有两种基本冗余方案:冗余的硬件和冗余的数据存储。冗余的代价往往是资金和时间,例如冗余的硬件会增加用户的设备投资、占据更大的空间、消耗更多的电、系统运行速度会减慢等。因此设计者往往需根据用户的实际可靠性与可用性的要求选择不同的冗余方案。 

  许多容错技术要求使用专用的硬件或软件,更多的是二者结合。这也取决于系统的需求:硬件的容错方案往往系统运行速度较快但投资规模较大,软件容错方案可能占用系统开销,但比硬件方案更灵活,尤其是在系统已经建立起来之后,并且投资相对小。

容错系统评价体系: 

  评价一个系统容错能力的两个指标是可靠性(Reliability)和可用性(Availability)。可靠性指一个系统在一定时间内工作时发生故障的可能性。如一个系统一年内的可靠性为99%意味者系统一年中工作时失败的概率为0.01%,即每100个系统中一年有一台损坏,对于硬件系统来说。随着时间增长,可靠性会逐年降低。可用性指一个系统故障中断工作时间与可持续工作时间的比率。如一个系统的可用性为 99%意味者在一百小时的工作中将有一个小时的故障中断时间。请注意任何一个高可用性的系统都无法避免故障,因此故障恢复的时间和故障的频率必须足够小以获得需要的可用性。高可靠性和高可用性的系统对于许多应用如军事、航天、金融、通信、交通等领域很重要,因为每一分钟的工作中断都会导致经济或生闹卮笏鹗А? 

  和可用性相比更具体有效的系统容错性能指标是年均工作中断时间。大多数用户喜欢他们的系统99%的可用,如果这个系统一年工作时间为365天,那么因系统故障引起的工作中断时间为5256分钟,在乘上每分钟因工作中断而导致的经济损失,这个指标很容易换算成可能的经济损失。据IEEE计算机组织最新研究报告,计算机系统一般的故障停工时间为每年500-5000分钟,而很多系统都远远超过了这个标准。 

常见的两种双机容错系统模式: 

纯软件模式 
软件: 

•SCO UNIX操作系统两套 

•双机容错软件壹套 

•数据库或应用系统壹套 

硬件: 

• PC服务器两台 

•以太网卡肆块 

•直连网线、串口连线各壹根 

共享磁盘阵列柜模式

软件: 

•SCO UNIX操作系统两套 

•监控软件壹套 

•数据库或应用系统壹套 

硬件: 

•PC服务器两台 

•磁盘阵列柜壹或两台 

•以太网卡两块 

•SCSI连线两根、串口连线壹根 


两种模式原理介绍 

  由于是双机系统,因此必然存在数据一致性的问题。在纯软件方式下,主用系统与备用系统之间通过TCP/IP协议,对应用数据进行的镜像,其镜像空间的大小,镜像的个数,均可根据应用系统的要求进行设置。这种镜像是通过修改SCO UNIX写盘机制而实现的,故不存在任何不同步的现象。并且在数据专用网段上,可以直接调用LLI链路,而不必通过TCP/IP,从而有效提高数据专用网段上的数据传输速度。通过镜像数据,物理上把数据库的风险平均分布在两台服务器上。在共享磁盘阵列方式下,双机采用外界共享存贮子系统,因此不存在数据一致性的问题。 

  两种双机容错系统都有一个故障监控、切换软件,原理方式都类似。 


对两种方式的评价与测试建议:

系统整体可靠性 

  纯软件方式下,真正将风险分散到两台服务器上,使系统可靠性真正得到提高。这一结论可通过前面所述的评价容错系统的两个指标可靠性和可用性得到,从可靠性指标来看,假设单台PC服务器的可靠性为100%,主备机同时损坏整个系统才不可用,根据条件概率,同时损坏的概率为: 
1-(1-100%)*(1-100%)=99% 

  可以得到结论:在纯软件方式下,整个系统的可靠性为99%,风险分散到两台主机上。 

  如果使用了共享磁盘阵列柜,假设共享磁盘阵列子系统的可靠性为99%,根据条件概率,主备机同时损坏或磁盘阵列柜损坏即双机系统和磁盘阵列子系统同时完好的概率为: 
(1-(1-100%)*(1-100%))*99%=98.01% 

  可以得到结论:使用了可靠性高于主机的共享磁盘柜双机容错系统,可靠性仍低于纯软件的双机容错系统;如果采用了100%可靠的磁盘阵列柜,则可靠性与纯软件方式相等;可怕的是采用了可靠性较差的磁盘阵列柜,如磁盘阵列柜的可靠性比所用的主备机可靠性还差或相当,那么根据条件概率计算整个系统可靠性还不如单机运行。 
1-(1-100%)*(1-100%))*100%=89.01%<100% 

从可用性指标评价: 

  由于可用性指标取决于故障后的宕机时间,因此测试可用性往往要在容错系统中模拟尽可能的故障,来测试系统是否对该故障进行冗余、故障的侦测时间、故障的切换及恢复时间。这一方法称故障注入法(Fault Injection),被国内用户广泛使用,根据这一原则,对于双机系统可以注入如下故障进行测试: 

  1.硬件故障:硬件故障可分别从主机故障、连线故障、磁盘阵列柜故障、数据硬盘故障四个方面去测试。 

  • 主机故障。主机的故障如CPU、电源、主板、总线等故障均可导致备机无法收到主机的心跳信息从而导致切换。测试时可将主机非正常关机,记录切换到备用机的时间和修复后的恢复时间。 

  • 连线故障:可以拔掉双机之间的各种连线如网线、RS232线、SCSI线等。记录切换到备用的时间和修复后的恢复时间。 

  • 磁盘阵列故障:可以断掉磁盘阵列的一个电源、拔掉一个控制器,模拟其主板、CPU、内存等各种故障。记录切换到备用设备的时间和修复后的恢复时间。如对该故障没有冗余,则记录其厂家的承诺响应时间。 

  • 数据硬盘的故障。分别针对两种容错系统对连线故障的反映,在纯软件双机容错系统中,数据盘的故障据称会将数据的读写转到备机执行,而应用系统的执行仍在主机而不会切换;对于共享磁盘阵列系统数据盘至少做RAID5的容错可容余一块硬盘,因此一块硬盘的故障不会影响系统运行,但在恢复时要考察系统是否能在线恢复。测试数据盘的故障可通过拔插数据盘来测试系统的反映和切换及恢复的时间。 

  2.软件故障:软件故障应从操作系统和应用系统两方面去测试。 

  •操作系统故障。指操作系统发生严重的故障核心异常(Kernel Trap)、系统因争夺资源而引起的死锁(Dead Lock)等。致使主用机无法正常发出心跳信息,以备机接受不到主机信息为条件,可参照主机故障记录测试结果。 

  • 应用系统故障。在客户机服务器模式的应用中,服务器端往往只有数据库监听进程属应用系统范畴,应用故障后系统应可以据用户的要求切换或仅发出警告。因此测试时可以非正常杀掉这个进程,测试系统对该故障的反映和切换及恢复的时间。 

  3.网络故障:用户子网发生故障,主机访问不到任何一台网络设备或主机上网卡报错为条件,系统应可以据用户的要求切换或仅发出警告。测试时可以采用拔掉用户子网的网线,测试系统对用户子网的监测反映和切换及恢复的时间。

 sdccf 回复于:2004-09-30 00:25:43
SavWareHA 系统集成商方案参考 


  SavWareHA是一个运行在SCO平台的不依赖于任何硬件的纯软件双机热备份系统。它可以通过以太网连接将数据实时备份到另一台主机,同时又采用一些监控手段,当主机发生故障时可以切换到备机使用。由于SavWareHA既具有数据实时镜像的功能,又具有双机监控的功能,所以在配置起来有多种方案可以选择。为方便集成商为最终用户提供最适合的方案,我们将SavWareHA可实现的各种连接方案综合起来,制订了如下五种方案供集成商参考,五种方案按用户的投资额由小到大依次是: 


一、纯软件方案 (图一)

  纯软件方案是SavWareHA相对竞争产品最独特特色的方案,如图一所示,在此方案中,数据通过镜像专用网络将数据实时备份到备机,使主用系统有了 
一个完全一样的备份系统。这个方案主机系统所需的软硬件配置如下: 

1、PC服务器两台(可以是不同配置)。 

2、SCO UNIX操作系统两套。 

3、数据库系统一套。 

4、SavWareHA软件一套。 

5、100兆以太网卡两块(每台服务器应内置一块)。 

6、RS232串口线、CAT5类直连(NO HUB)网线各一根。 


  这个纯软件的方案相对其它方案的优点是: 

1、风险平均分散到主备两个系统上,真正提高系统的可靠性。 

2、双机通过以太网连接,可以在线撤离修复,并允许远程备份。 

3、纯软件实现双机容错,没有挪动、受潮、被盗、折旧等硬件带来的忧虑。 

4、产品升级方便,重复投资小。 

5、对最终用户来说投资小,可靠性高。 

这个方案的缺点是:对集成商来说利润和集成额不如后面的几个方案。 


二、灾难备份方案 (图二)

  由于SavWareHA的主备机采用TCP/IP协议的网络连接,因此任何能够运行TCP/IP协议的网络都可以使用SavWareHA来备份主机系统。对于一些非常重 
要的系统,为防止如地震、火灾等灾难对系统造成严重后果,需要在异地备份整个系统,如图二所示,备份机可以通过两个光纤网络连接到远程主机系统,数据通过镜像网络同时写到备份机。这个方案主机系统所需的软硬件配置如下: 

1、PC服务器两台(可以是不同配置)。 

2、SCO UNIX操作系统两套。 

3、数据库系统一套。 

4、SavWareHA软件一套。 

5、FDDI网卡四块。(如为节省投资考虑,镜像专用光纤可以省去,通过一个光纤网络来实现数据镜像和连接客户端,此时只需两块网卡)。 

6、光纤交换机或其它光纤设备两台。 


  这个方案相对其它方案的优点是: 

1、风险平均分散到主备两个系统上,真正提高系统的可靠性。 

2、双机通过光纤网络连接,数据备份到异地,实现了容灾备份。 

3、纯软件实现双机容错,没有挪动、受潮、被盗、折旧等硬件带来的忧虑。 

4、产品升级方便,重复投资小。 

  这个方案的缺点是:由于主备机通过光纤网络连接,所以对这个网络连接质量和速度要求较高。


三、共享磁盘阵列方案 (图三)

  共享磁盘阵列方案也是国内普遍接受的一种方案,如图三所示,双机通过 
  共享独立的存储子系统来保证故障切换后数据的一致性,通过SavWareHA的监控系统对主机的运行状态进行实时监控,主机发生故障后将系统切换至备用机,备机接管磁盘阵列子系统的读写。这个方案主机系统所需的软硬件配置如下: 

1、PC服务器两台。 

2、磁盘阵列柜一套,要注意选择支持HA的产品。 

3、SCO UNIX操作系统两套。 

4、数据库系统一套。 

5、SavWareHA软件一套。 

6、RS232串口线一根。 


  这个方案相对第一个方案的优点是: 

1、由于磁盘阵列柜能加快系统I/O速度,所以对于I/O要求较高的系统运行效率高。 

2、对集成商来说利润和集成额比第一个方案好。 


  但是这个方案的钡阋步掀渌父龇桨竿怀觯?

  1、双机通过共享数据来达到高可用目的,风险集中到磁盘阵列柜上面。这种风险一方面是由于磁盘阵列最多只对磁盘、电源、控制器、风扇进行容余备份,而其它象主板、内存、连线(如SCSI线)等大多数设备不进行容余备份,导致这些部件损坏后双机无法工作。尤其是目前众多厂家的价格竞争使产品的质量控制在较低的水平,当磁盘阵列子系统的可靠性不如主机时,整个系统的可靠性甚至不如单台主机独立运行(具体计算过程参见《SavWareHA白皮书》;另一个风险是数据只有一份,如果软件故障导致数据损坏,那么即使磁盘阵列本身完好数据也会受到严重破坏,如主机工作时主备机若通讯全部丢失,备机会自动启动应用工作,备机在主机对数据进行访问的同时对数据进行访问会造成文件系统崩溃、或数据库的系统库不一致等严重故障而数据全部不可恢复。这两类故障在我国出现很多次,其中不乏金融等关键行业,给集成商和用户带来了很多不必要的损失。因此建议采用此方案时,该用户的应用不能太关键,最好是MIS等系统,而且要特别重视数据的日常备份。 

  2、相对第一种方案,由于双机和磁盘阵列柜采用SCSI连接,所以连接之间不可带电拔插,否则容易烧坏设备。所以故障系统不能在线地拆离修复。 


四、双机单柜方案 (图四)

  双机单柜方案的连接结构如图四所示,将磁盘阵列子系统单独连接到主机, 
  磁盘阵列中的数据只给主机专用,SavWareHA将数据通过专用的数据网实时备份到备机,这个方案主机系统所需的软硬件配置如下: 

1、PC服务器两台。 

2、磁盘阵列柜一套,注意可选择支持HA和不支持HA的产品,这两类产品均有各档次的品牌和型号。 

3、SCO UNIX操作系统两套。 

4、数据库系统一套。 

5、SavWareHA软件一套。 

6、100兆以太网卡两块(每台服务器应内置一块)。 

7、RS232串口线、CAT5类直连(NO HUB)网线一根。 


  这个方案相对第一种和第二种方案的优点是: 

1、在主用机上使用了磁盘阵列子系统,加快了应用系统I/O的速度,有独立存储子系统的各种优点。 

2、通过SavWareHA将数据完整并且实时地备份到备机上,风险完全分散到双机上。 

3、双机通过以太网连接,可以在线撤离修复,并允许远程备份。 

4、使集成商在获得好的利润和集成额的同时,又没有磁盘阵列系统损坏后丢失数据的风险,同时又很好地满足了应用系统对高可靠性和高可用性的需求。 


五、双机双柜方案 (图五)

  这个方案的系统连接结构如图五所示,主备机各连接一台磁盘阵列子系统, 

  其上的数据通过SavWareHA通过镜像专用网实时镜像到备机,备用机有和主机完全相同的系统和数据环境,主备机运行效率也完全相同。这个方案主机系统所需的软硬件配置如下: 

1、PC服务器两台。 

2、磁盘阵列柜两套,注意可选择支持HA和不支持HA的产品,这两类产品均有很多各档次的品牌和型号。 

3、SCO UNIX操作系统两套。 

4、数据库系统一套。 

5、SavWareHA软件一套。 

6、100兆以太网卡两块(每台服务器应内置一块)。 

6、RS232串口线、CAT5类直连(NO HUB)网线各一根。 


  这个方案具有第三个方案的全部优点,同时由于在备机上使用了单独的存储子系统,大大加快了整个系统的I/O速度。



图二




图一


 sdccf 回复于:2004-09-30 00:26:44
继续贴图



图四




图三


 sdccf 回复于:2004-09-30 00:27:20
第五图



图五


 answer 回复于:2004-09-30 09:35:38
个人还是建议使用盘柜,为了你的数据安全性。

 gjp77 回复于:2004-09-30 15:39:38
谢,多谢,非常感谢。
还请问它具体怎么使用?例如:如何恢复等等?
请问能把它的一些使用命令贴出来吗?

 sdccf 回复于:2004-09-30 15:48:40
我找到的就是这些,我再找一下看能否找到使用手册。

 gjp77 回复于:2004-09-30 15:57:28
多谢版主了,我找了好长时间,只在中软思科那里找到一点点的资料,还是您行,佩服、佩服!!!!麻烦您了!!!谢谢谢谢谢谢
 :lol:

 sdccf 回复于:2004-09-30 15:59:00
不客气,我尽力找。

 gjp77 回复于:2004-09-30 16:04:15
呵呵,那就跟您不客气了!!!


麻烦了!!!

 mill888 回复于:2004-09-30 16:44:01
[quote:21a70e9c48="sdccf"]SavWareHA是美国WesternMicro公司的产品,是目前SCO UNIX上唯一的一种成熟的纯软件方式双机热备份方案。安装了SavWareHA的两个系统之间通过以太网连接,关键数据在两个系统之间呈镜像存在。在正常运行时,控制权在主..........[/quote:21a70e9c48]

=====================================

关键要有 这个软件啊,怎么没有下载的地方?盗版的也可以,只要不是demo版!

 unix007 回复于:2004-10-14 10:09:38
这里有介绍:

http://www.cssgz.com.cn/tolerance/sentinel.htm

 saintdragon 回复于:2004-10-14 10:23:05
这个东东很昂贵的。
而且如果数据量大的话,不要采用镜像方式。
不过现在的savwareha好像可以支持盘阵了。

 wmtunix 回复于:2004-12-03 19:08:09
:lol: 伟高科技是负责SavWareHA(Sentinel)的销售和技术支持。
联系电话:010-62196763
E-mail:sales@westernmicro.com.cn;
http://www.westernmicro.com.cn

 pengdianbo 回复于:2005-02-28 22:01:06
请问legoto如何实现这种软件方式的双机备份呢?后台数据库oracle怎么配置,搂主可以给发个配置详解吗?

延伸阅读

文章来源于领测软件测试网 https://www.ltesting.net/


关于领测软件测试网 | 领测软件测试网合作伙伴 | 广告服务 | 投稿指南 | 联系我们 | 网站地图 | 友情链接
版权所有(C) 2003-2010 TestAge(领测软件测试网)|领测国际科技(北京)有限公司|软件测试工程师培训网 All Rights Reserved
北京市海淀区中关村南大街9号北京理工科技大厦1402室 京ICP备2023014753号-2
技术支持和业务联系:info@testage.com.cn 电话:010-51297073

软件测试 | 领测国际ISTQBISTQB官网TMMiTMMi认证国际软件测试工程师认证领测软件测试网