Solaris连锁故障

公司有一台服务器,属于经常被冷落的那种。SunV245 + solaris 10 + Oracle 10G 。自从装好机之后uptime至少有2年了。

且说这天需要重启,重启后无法通过ssh连接,通过串口终端连上之后发觉由于之前习惯于ssh key登录,一直没有root密码。郁闷中。

这台机器,一没有显卡,二没有光驱。实在让人头疼。七手八脚的把自己本本的光驱拆下来装在机器上,又发觉是自动硬盘启动的那种,无法光驱启动。

获得OK提示符

获得OK,相对比较容易,只是一般的键盘不是sun专用,没有那一堆控制键。
进入串口终端,启动机器并载入操作系统之后,在终端输入 #. 进入SC,运气不错,SC没有密码。输入break,再console回来就获得了Ok提示符。

获取root密码

进入OK后,放入solaris for sparc的盘,输入boot cdrom -s 进入修复系统。中间有一段比较漫长的等待。
进入系统后将硬盘 /dev/dsk/c1t0d0s0 挂装好之后找到硬盘上的etc/shadow。
将第一行的root:xxxxxxxxxxxx:14302:::::: 修改为root::14302::::::
重新启动后用空密码就可以直接登系统。

SVCS问题

进入系统后,发现一大堆SVC服务无法启动,所有的问题都来自于一个关键应用 system-filesystem-local:default 无法正常启动。
tail /var/svc/log/system-filesystem-local:default.log 发觉有如下报错:WARNING: /sbin/mountall -l failed: exit status 1

不解,但既然是mount的问题,肯定和/etc/vfstab有关。打开这个文件,顿时就傻了——最后一行:
/dev/dsk/c1t0d0s0       /dev/rdsk/c1t0d0s0      /       ufs           no
…….

/dev/dsk/c1t3d0s0  /dev/rdsk/c1t3d0s0  /backup  ufs  0  yes  rw
系统将/backup的挂装顺序设置为了0,/为1。这意味着系统默认会先挂/backup,后挂/。摆明了肯定会错。注释掉/backup这一行,问题解决!

分析

问题出的无厘头。
原来之前曾经对这个机器添加过硬盘,当时通过webmin直接修改的vfstab,webmin的一个bug导致了vfstab的错误。只是之前从未重启,也没暴露出来。
没有root密码也是因为一直没有暴露出这个交接不清的问题。


Webmin BUG ->硬盘挂装出错->fs关键服务不能启动->网络不启动->ssh不启动->无密码不能登入->需要OK提示符
纠结~~~~

推荐阅读:
接到一个黑盒的case:一套双
去年的DCDC,我主要介绍了基
之前收到公司一个大牛的PPT,

发表评论

电子邮件地址不会被公开。 必填项已用*标注

请补全下列算式: *

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据