[华山论剑][ Solaris 经典问题之 Disksuite #1] [难度指数:2]

发表于:2007-05-26来源:作者:点击数: 标签:
[color=blue:97b844199c]这里出现的据说是在Sun公司客户经历的真实案例基础上而提炼的Solaris经典问题, 我是从一个朋友那里道听途说得来。问题难度各不相同,但有一定的代表性, 喜欢谈经论道者或 测试 功力者,请进。 难度指数:1(最小)-5(最大) YourScore

[color=blue:97b844199c]这里出现的据说是在 Sun 公司客户经历的真实案例基础上而提炼的 Solaris 经典问题,
我是从一个朋友那里道听途说得来。问题难度各不相同, 但有一定的代表性, 
喜欢谈经论道者或测试功力者, 请进。

难度指数: 1(最小) - 5 (最大)

Your Score Your Skills
---------- -----------
10 % Sun FE
30 % Sun SSE
50 % Sun Senior SSE

今天第一帖就帖个难度不算大的,先送给大家一个见面礼。[/color:97b844199c]

[color=darkred:97b844199c][华山论剑][ Solaris 经典问题之 Disksuite #1] [难度指数:2][/color:97b844199c]

[Question] 你是 Sun 的 FE。两星期前为 A 公司的一个项目安装了先期到达的一台 V880 及 3 台 SS3310。
           由于用户项目赶时间, 在第二批定货的 4 个 V880 内置盘,另 3 台 SS3310 及磁带机没有到达
           前匆匆上马。 而此时 V880 只有一个内置盘, 更要命的是机房还没装修好, 到处乌烟瘴气。
           你安装好硬件,操作系统及 Disksuite 后却不能配置 Diskuite, 原因是用户的磁盘划分方案
           还没定下来。 A 公司的系统管理员 B 说他可以两天后可以自己配置。你留下了联系电话后回到公司。

           今天一上班,就接到 A 公司系统管理员 B 的电话, 他说 V880 boot disk 坏了, 估计原因
           是机房的空调还没装好, 机房温度过高所致。 系统已经运行了一个多星期, 数据也有 200G 了。 
           由于没有备份, B 都快急哭了。 你安慰了他, 带上了硬盘赶往 A 公司, 并开始思考进行系统
           及 Disksuite 数据的恢复方案。

 yaoxinch 回复于:2004-07-20 12:39:27
晕,硬盘坏了和disksuite 有什么关系吗?你又没做raid

 lightspeed 回复于:2004-07-20 12:43:41
没看清楚吗, 系统有 3 个磁盘阵列, 已用 disksuite 管理,  有 200G 用户数据.

 cqwlyh 回复于:2004-07-20 12:45:15
对于这个问题,我的解答思路是这样的,既然V880 boot disk不行了,那么,带上另外一个启动硬盘,挂上去(这个时候有两个硬盘了)。然后从自己带来的硬盘启动,然后将原来不能boot disk的硬盘上的资料备份过来,这时候原来硬盘上的资料就都在新带来的这块硬盘上了,然后dd命令完全备份这块硬盘到原来的硬盘上。
然后拿下这块新硬盘,用原来的硬盘启动。

 lightspeed 回复于:2004-07-20 12:50:39
原来 boot disk 已经坏了, 无法读写, 因此不可能备份到新盘的.

 cqwlyh 回复于:2004-07-20 13:00:27
1.用新的硬盘启动进入系统;
2.unmout需要恢复资料的分区;
3.使用dumprestore命令恢复先前备份的资料;
4.将最新恢复的资料重新备份一次(ufsdump)。

 elk 回复于:2004-07-20 13:04:28
3310是硬的还是jbod

 elk 回复于:2004-07-20 13:11:30
这样吧:还是那台880+新的boot盘+另外3个3310,按老的3310的相同的配置来配,完成同步后,换老的3个3310接上,ok

 美丽传说 回复于:2004-07-20 13:24:30
我觉得关键就是SS3310是如何用disksuite做的,用新硬盘重新安装操作系统,做完EIS的步骤,包括SS3310的driver / patch /sd.conf等的操作。在boot disk上创建metadb,按照上次初始化SS3310的步骤一模一样创建基于SS3310的SDS的逻辑设备。这样就能把数据找回来了。不要动SS3310的设置内容。
PS:这种环境可以考虑一开始就在SS3310上MAP出5G-10G的非SDS存储空间来暂时备份系统,等有完善备份手段后在用SDS规划和使用。这样不仅能抢救数据,也能保证应用的快速恢复,当然恢复的时候需要2个硬盘来配合操作,因为CDROM引导即使SS3310没用SDS管理,环境也是无法使用SS3310的资源的。
如果是JBOD的SS3310可以在分区的时候参考以上方案,但是手法不同。

 美丽传说 回复于:2004-07-20 13:26:52
不好意思,上贴中应该是X6758A卡的driver / patch 就是SUNWqus软件

 nimysun 回复于:2004-07-20 15:16:59
根据经验,我是这样安慰B的:
兄弟咱不哭昂,烧盘不要紧,只要盘片好。
因为IC的温度一般都是比较高,尤其在B的那种环境下,那么就更免不了了,所以我建议我自己更换硬盘的电路板。盘片一般是用时间来摧毁的,而IC则是讨厌的高温。
成功指数:9(自我感觉)

 bear 回复于:2004-07-20 16:05:12
[quote:83d61a0904="nimysun"]根据经验,我是这样安慰B的:
兄弟咱不哭昂,烧盘不要紧,只要盘片好。
因为IC的温度一般都是比较高,尤其在B的那种环境下,那么就更免不了了,所以我建议我自己更换硬盘的电路板。盘片一般是用时间来摧毁的,而IC..........[/quote:83d61a0904]
你这样做Case Holder会扁死你的。那个线路板又不是FRU,FE是没权利换的。

 bear 回复于:2004-07-21 16:01:20
怎么没下文了?楼主呢?

 lightspeed 回复于:2004-07-21 22:43:24
看美丽传说的解决方案

我的下一帖将会是更困难的,而且有的问题不是 100% 有解,敬请关注。

 bear 回复于:2004-07-21 23:08:15
[quote:0f4a781756="lightspeed"]看美丽传说的解决方案。

我的下一帖将会是更困难的,而且有的问题不是 100% 有解,敬请关注。[/quote:0f4a781756]
关注ing

 予默 回复于:2004-07-21 23:39:58
我没大看明白题 .

极度关注中.

 南非蜘蛛 回复于:2004-07-21 23:49:01
随便胡说两句

根据我多次做raid,和丢数据的经验:)

不管是硬raid,还是软raid,坏了硬盘,丢了数据,都要保护现场,第一时间打800,不要乱操作

关于raid,现在raid的自愈性都做的非常好了
做raid的时候一定要记住初始的分区,或者metadb,我们现在都对这个做backup

有时候raid卡的信息都丢了,从硬盘也恢复不了了,这种情况俺不只一次遇到过,我命苦呀~~~~
以为数据丢失了,然后根据800的支持,按照当初划分的raid分区从做,数据竟然能从硬盘找回来,不可思议,也是多次

disksuite也是,这个案例可以试试安装当初的metedb的分区,一定要一样,初始那个新硬盘,我想也可以从3310里把数据找回来

 steellyz 回复于:2004-07-21 23:53:53
蜘蛛姐姐(?),答问题中不少人就是800的人。:-P

 lightspeed 回复于:2004-07-21 23:55:01
南非蜘蛛所言善大莫焉!

 予默 回复于:2004-07-21 23:58:09
[quote:4467ea067d="steellyz"]蜘蛛姐姐(?),答问题中不少人就是800的人。:-P[/quote:4467ea067d]
 :em17:  :em17: 
哦???

 bear 回复于:2004-07-22 00:19:21
我从问题中看到的是"亡羊补牢",没有不破的"牢",希望大家做系统管理员的要做好日常工作,这样"补牢"也快点,"羊"也少丢点

 风水 回复于:2004-07-22 01:11:21
神人,我做把实验看看

 x3y4z5 回复于:2004-07-22 09:37:43
楼主,这个问题解决的前提应该是B还记得自己在sds里面配置的3310的配置吧?另外“美丽传说”提出的解决方案中需要两块硬盘配合操作不明白是什么意思?

 伯爵的Druid 回复于:2004-07-22 10:31:44
发生了这种事,偶肯定是那个哭泣的B...................

 lightspeed 回复于:2004-07-22 11:08:10
[quote:f793394978]楼主,这个问题解决的前提应该是B还记得自己在sds里面配置的3310的配置吧?另外“美丽传说”提出的解决方案中需要两块硬盘配合操作不明白是什么意思?
[/quote:f793394978]

第一句: yes
第二句: 问美丽传说

 x3y4z5 回复于:2004-07-22 11:49:38
期待美丽传说出来解惑

 南非蜘蛛 回复于:2004-07-22 14:01:35
[quote:352bb217fa="iricyan"]
 :em17:  :em17: 
哦???[/quote:352bb217fa]

白混了吧,连自己人都不认识 :m01:  :m01:  :m01:  :m01:

 美丽传说 回复于:2004-07-22 14:46:36
[quote:7d5ce21406="x3y4z5"]楼主,这个问题解决的前提应该是B还记得自己在sds里面配置的3310的配置吧?另外“美丽传说”提出的解决方案中需要两块硬盘配合操作不明白是什么意思?[/quote:7d5ce21406]
我的意思是这样的:
1、假设初始装机的时候在SS3310上做了那个5G-10G的非SDS存储空间
2、系统和应用安装调试完成后,在SS3310的这个非SDS硬盘上对系统各个文件系统做了ufsdump的备份。
3、恢复的时候,先用2#硬盘装到能正常操作SS3310。
4、把SS3310上做的备份恢复到主机的1#硬盘上。
5、对1#盘上恢复的系统做相应的调整,使其能够启动。把原来挂接的SS3310上使用的文件系统挂接先屏蔽掉。
6、用1#硬盘启动,删除原来的metadb库,重建metadb,重新做SS3310的metadevice。
我的意思大概就是这些,这样不仅能够恢复系统,而且能够恢复用户的应用。
大家看看我说的有没有问题。

 x3y4z5 回复于:2004-07-22 17:11:00
如果你的3310上保存了完整的系统盘的备份,那么你使用第二块盘启动了系统后可以restore第一块系统盘的冬冬。那样的话,还需要重新作metadb么?

 美丽传说 回复于:2004-07-22 18:02:31
[quote:f0bdf2754c="x3y4z5"]如果你的3310上保存了完整的系统盘的备份,那么你使用第二块盘启动了系统后可以restore第一块系统盘的冬冬。那样的话,还需要重新作metadb么?[/quote:f0bdf2754c]
因为坏盘上的metadb库已经不在了,必须重建,好象没有备份metadb库的方法,所以也恢复不了,我不知道SS3310上原来是否也放了比较多的medadb库,如果有足够多的metadb库,那么系统能够正常引导,只要维护以下引导盘上的metadb库就行了。SS3310上的metadevice都不用重新做了。直接可以用。
大家看看有没有漏洞,我也是凭经验想的。

 Allan.Chen 回复于:2004-07-22 19:31:17
不错,这样可以。有备无患

 寒江獨釣 回复于:2004-07-22 20:31:45
其實,我感覺用live upgrade 先做一個第二塊備用啓動盤,它只是第一快盤的克隆,現在磁盤價格又不是太貴。這樣當第一塊盤壞掉後,只要從第二塊盤啓動就可以了,感覺上要比用ufsdump要方便些。不過不適合這個case.

 chenpp 回复于:2004-07-22 21:09:28
其实最好的办法是 用dd+ crontab

 chim 回复于:2004-07-22 21:23:33
[quote:2789e1ed53="chenpp"]其实最好的办法是 用dd+ crontab[/quote:2789e1ed53]

我也是喜欢这样做的。 在装完系统后会用dd 做个备份放在那里,等出问题时第一时间先让系统能够跑起来,其他东西再慢慢恢复。

 sunmarmot 回复于:2004-07-22 21:28:29
[quote:7269672b5e="lightspeed"]] 你是 Sun 的 FE。两星期前为 A 公司的一个项目安装了先期到达的一台 V880 及 3 台 SS3310。
           由于用户项目赶时间, 在第二批定货的 4 个 V880 内置盘,另 3 台 SS3310 及磁带机没有到达
           前..........[/quote:7269672b5e]

1.这个FE也就是个面瓜+2B,当你安装系统的时候就必须考虑用户的环境,可遇到能风险及遇到问题时候的恢复方案。当时就必须给客户提出来。如果客户一定要用SDS,就必须让他备份metadb,并且有恢复的计划,可以是很简单的一个步骤。当初做的时候就必须做要考虑到......恢复的方案多了去,用户一般也都会听你的建议。因为你的SUN的人。
2.如果你什么都没考虑到,也没有让用户做备份方案,也没有metadb的备份,也没有让用户备份重要数据。

那么偶的建议是:

带块硬盘去恢复系统,然后带够手帕,让他在机房里哭个够,这样下次他就知道要去备份了。当然如果用户还是不满意.偶强烈建议去的时候多带两根绳子,FE和用户一人一条..........注意:是两条 :emn29:

 lightspeed 回复于:2004-07-22 23:59:08
楼上说的真是既尖刻又深刻。 

不过不同的各户千差万别, 比这离奇的事多的去了。也不能把什么都推给我那可怜的朋友 FE.

另外,你的签名 “看到Sun就想吐“, 不会是有什么故事吧。

 sunmarmot 回复于:2004-07-23 00:44:34
他有一定的责任,但是责任不大。在工程中合理的应用免责和自我保护是每个FE必须具备的能力。技术在很多时候不是最重要的,重要的是知道正确工作流程,合理的利用现有的知识。如果管杀不管埋.....

 lightspeed 回复于:2004-07-23 03:26:42
说得好, 技术根本就没用。人们有时对埋的要求可是大大超过...的.............
关键是怎么个埋法....................................

 littleqs 回复于:2004-12-06 17:39:43
同样是fe,咋工作环境就差那么多呢?

 sexybabe 回复于:2004-12-13 14:12:38
没有继续了吗?
new 华山。

原文转自:http://www.ltesting.net