本版版主招募中

 
标题: HP-UX V3做根盘镜像后Oracle RAC出问题了!
  本主题由 老农 于 2008-9-7 12:22 加入精华 
todaystudy
LU幼天使
Rank: 2



UID 74540
精华 4
积分 98
帖子 163
活跃指数 57
LU金币 566 个
LU金条 0 个
阅读权限 20
注册 2007-1-31
 
发表于 2008-9-6 01:07  资料  个人空间  短消息  加为好友 
HP-UX V3做根盘镜像后Oracle RAC出问题了!

今天在做根盘镜像时,已经做好的Oracle出了点问题,挺奇怪的,拿出来和大家分享,探讨一下!

故事是这样发生的

1:在做根盘镜像之前,Oracle RAC已经做好了。(由于客户没有买Service Guard软件,所以只能做裸设备加ASM。)

2:oracle Clustware安装在/devVG00/ora上,ora是创建的LV,名字为了容易区分没有采取默认的lvo19。

3:前一天晚上已经以为做好了根盘镜像,就回宾馆睡觉去了,走时没有重启小机,Oracle RAC正常。
    (其中发生了点小插曲,在使用lvlnboot -R命令时报错,老是报没有/dev/vg01/group的目录,
     TNND,这台机器根本就没有VG01,为什么会出现这样的问题呢?原来还以为能用文件系统做RAC,就把EVA上分下来的磁盘做了VG01,
     后来发现不行,就删除了VG01,我没有使用命令,直接在SAM里删除的。最后看看不行就是用命令:lvlnboot -R /dev/vg00,NND,这下
     到成功了!)

4:今天早上来了以后,我看了看VG01的信息,发现两个PV的Free PE的数量不一样,仔细一看,KAO,ORA的lv根本就没有镜像。因为在做镜像时使用的时
    for语句循环,参数设置的是LV$,所以没有镜像到ORA。

5:一看这样不行,因为客户说过镜像好了要把硬盘测试的。于是赶紧用lvextend镜像ORA。两台小机同时在做这个动作

6:客户这时来了,说要测试RAC,就拔掉了心跳网线,ORA的镜像也在同时完成,拔线和镜像几乎同步完成。(你说这时间巧不巧!)

7:就在这时,oracle报错了,什么CRSD之类的错误,我没有记录下来。查看crs_stat -t,没有任何反应,服务根本起不来,整个Oracle Down掉了!

8:我kao,我的第一感觉就是是不是镜像过程中出了什么问题了,因为镜像的是Oracle所在的LV。有点紧张,埋怨自己是不是手太贱了,心情十分复杂!

9:同事赶紧查看,可就是差不到原因,因为看了好些日志,没有发现不正常的信息。客户说我们的RAC有问题。压力大啊!

10:重新插上心跳线,reboot两台小机,希望能正常起来!我在心里暗暗祈祷!离开机房,抽根烟去!这是我慰藉自己,宽慰自己的方法!

(太累了,有空接着写,睡觉了。)


[ 本帖最后由 todaystudy 于 2008-9-6 01:09 编辑 ]

顶部
mali8507 (路遥芝麻粒)
LU幼天使
Rank: 2



UID 98532
精华 1
积分 58
帖子 90
活跃指数 24
LU金币 210 个
LU金条 0 个
阅读权限 20
注册 2007-11-10
 
发表于 2008-9-6 14:40  资料  个人空间  短消息  加为好友  添加 mali8507 为MSN好友 通过MSN和 mali8507 交谈
心跳怎么连接的? 直连?

直连的话拔心跳,oracle服务肯定会停,重启oracle会有回滚等自修复的操作。先看看oracle的日志吧。

顶部
todaystudy
LU幼天使
Rank: 2



UID 74540
精华 4
积分 98
帖子 163
活跃指数 57
LU金币 566 个
LU金条 0 个
阅读权限 20
注册 2007-1-31
 
发表于 2008-9-7 02:08  资料  个人空间  短消息  加为好友 
11:机器起来后,查看Oracle的状态,晕倒,一点反应也没有,所有的服务都down了,真的快疯了!

12:是什么原因能导致这样的错误,百思不得其解,同事查看了好多日志,还是没有找到原因!

13:快一个小时过去了,突然发现所有赋值给Oracle的磁盘权限没了,一共给Oracle分了7个裸设备磁盘的权限都没有了!
    晕倒,拔心跳线难道会导致这个结果,不大可能,难道是镜像Ora这个LV时,导致所有的磁盘权限丢失?

14:赶紧重新给Oracle分配的磁盘赋值权限,Reboot后,oracle RAC正常了,

15:接着又做测试,分别拔掉两台小机的公用网络网线,RAC正常。

16:拔掉心跳线后,RAC有不正常了,相关的实例,ASM等都Down了,真的很郁闷。

17:经多方打听,才知道心跳线拔掉CRS服务就会Down掉,因为是两个小机的Lan0直接连接的。

18:和客户沟通后,加了台交换机,两个做心跳的网线直接连接到交换机,然后拔掉任意一根心跳线,一切正常。

至此,任务虽然完成了,但是有两个问题还需要搞清楚

A:没接交换机,拔掉心跳线,为什么RAC就Down掉呢?接了交换机任意拔掉就正常。说明心跳的地址必须存在于单独的网络,没接交换机,拔掉,心跳的网络就中断了,连上交换机,拔掉一根,但另外一根还存活在网络中,所以正常。这个问题算是搞清楚了。

B:到底是什么原因导致给Oracle磁盘的权限丢失呢?于镜像Ora所在的LV有关系吗?这个问题我至今还很迷惑。

请各位高手不吝赐教,也希望做过11i V3的朋友给出完整做跟盘镜像的步骤和命令。谢谢大家!

顶部
luweinet (^[L|l]weiNet$)
LU天使
Rank: 4


UID 42295
精华 2
积分 600
帖子 872
活跃指数 65
LU金币 980 个
LU金条 0 个
阅读权限 80
注册 2006-3-13
来自 Hangzhou,China
 
发表于 2008-9-9 22:08  资料  个人空间  主页 短消息  加为好友  添加 luweinet 为MSN好友 通过MSN和 luweinet 交谈 QQ
这样的测试..

crs config信息给出太少,不好判断

[ 本帖最后由 luweinet 于 2008-9-9 22:10 编辑 ]





答案在风中飘扬...
mail:luweinet@126.com
顶部
easybegin
LU幼天使
Rank: 2



UID 56749
精华 0
积分 30
帖子 53
活跃指数 0
LU金币 10 个
LU金条 0 个
阅读权限 20
注册 2006-10-16
 
发表于 2008-9-22 12:02  资料  个人空间  短消息  加为好友 
顶一下

顶部
koko_hyc
LU幼天使
Rank: 2



UID 29135
精华 0
积分 38
帖子 66
活跃指数 0
LU金币 2002 个
LU金条 0 个
阅读权限 20
注册 2005-1-22
 
发表于 2008-10-21 15:08  资料  个人空间  短消息  加为好友 
谢谢咯

顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
quyun_chao001 (萧月无痕)
LU幼天使
Rank: 2


UID 112037
精华 0
积分 31
帖子 55
活跃指数 3
LU金币 30 个
LU金条 0 个
阅读权限 20
注册 2008-9-24
 
发表于 2008-10-22 11:37  资料  个人空间  短消息  加为好友 
好好学习天天向上

顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
 



当前时区 GMT+8, 现在时间是 2008-11-21 20:03
乐悠LoveUnix论坛-京ICP备05005823号

Thanks to Discuz!  © 2001-2007    Power by LoveUnix.net
Processed in 0.060785 second(s), 7 queries , Gzip enabled

清除 Cookies - 联系我们 - 乐悠LoveUnix - Archiver