标题: 山东关于tsm io错误的痛苦体验
dtbdtbdtb
技术专家
Rank: 14Rank: 14Rank: 14Rank: 14



UID 55853
精华 1
积分 64
帖子 115
活跃指数 21
LU金币 225 个
LU金条 0 个
阅读权限 200
注册 2006-10-1
 
发表于 2008-8-21 11:41  资料  个人空间  短消息  加为好友 
山东关于tsm io错误的痛苦体验

怪异的事情年年有
只是最近比较多

曾经以为对于tsm,对我来说已经没有技术可言,没有难度可言,没有神秘可言。

可是我还是遇到了一些问题。

上次在山西网通是os的系统问题加上诡异的磁带的损坏导致的io的问题。

tsm在遇到这些io的问题之后总是在有一些retry的机制。
但是上次怎么样也是带库的硬件的显式的报错了。
最后通过label libv search=b的方式,单独打带,将问题终于最终定了位。

可是这次在一个地市的商业银行。

事情比较怪异。

aix5307
ts3200
tsm543

再label的时候就是报io的错误
ANR8311E An I/O error occurred while accessing drive DR02 (/dev/rmt2) for OFFL operation, errno = 46.
ANR8300E I/O error on library 32LIB (OP=00006C03, CC=207, KEY=05, ASC=21, ASCQ=01,
SENSE=70.00.05.00.00.00.00.0A.00.00.00.0-
0.21.01.00.00.00.00.,

将带库的驱动打到 最新

依旧

ts3200还没有最新的firmware下载

直连

依旧

将tsm的定义,path删除,重置

ok了,可以label和sel

但是,dsmserv重启之后

错误依旧

反复尝试,发现,将配置删除重新设置就好了,只要重启服务或者machine,就错误依旧

此时发现errpt -dH 报了关于smc0的错误

将系统的snap抓给ibm。

由于这次我需要要用这个tsm server环境作为dest server来和source  tsm server之间做data 的迁移

所以我使劲想办法能不能将问题绕过去,我实在不想为了这么点事情再出来一次

赶紧下了tsm 5.5, 下了pack1

安装配置

其过程中

又报错io的错误。

此时,errpt -dH 报了关于smc0的错误

但是tsm的libr似乎retry了一下,libr 又 ready for operation了

nnd

但是,从此时开始,就不再报io的错误,一切正常。

将tsm server重启n次,也ok了。

狠怪,要么在tsm 55的配置过程中,从不报错,也能说明问题,但是还是报了次错误。

所以,这属于有隐患。

此时,IBM的菜鸟说是无需升级hba的fw
说是跟san switch的设置有关系。

就在此时,银行考虑已经开奥运会了,于是要叫硬件供应商的人来一起解决。

平生第一次一次性没有解决问题。

结论之猜测:

是san switch的设置问题或者是hba的问题
但是也有可能就是带库的fw问题
总之狠怪异

下次,
准备带个4gb的for win的hba
再win的环境中直连这个带库,看看会怎么样,就用最新的tsm551的介质
如果还有问题,
就直接压着ibm来现场解决问题了

顺便就是目前ibm市场的带库质量之内幕非常复杂。
厂商出来的当然是好的
但是。。。
我对其中太了解了
所以人在江湖,不能明示。
只能将问题确凿地排查定位,别回头被别人解决了,贻笑大方

san的switch那边还裹着别的公司的什么ppowerpath再里面
那个公司的鸟人水平特差人品也特差,
不想理他的环节,当然本来这个事情也是他们负责,我只是负责tsm的数据的异构的迁移

但是为了追进度,才玩命的折腾这个事情

这次比较烦躁
奉劝大家或者各承包商,把事情想清楚了再进场,
否则,到了现场,为了进度,帮别人干事情,否则出差一次白费,
成本就是这样产生了,利润就是这样减少了。

原文链接:  http://www.ituren.org.cn/html/jishusuibi/200808/08-110.html





tubie
qq:  850841068
msn:zhanglin_bj@live.com
www.ituren.org.cn
-------------------------------------
db2,websphere,mq,tsm,
-------------------------------------
反物质,反时尚
顶部
darkbug
超级版主
Rank: 17Rank: 17Rank: 17Rank: 17Rank: 17


UID 187
精华 12
积分 2353
帖子 4373
活跃指数 259
LU金币 3634 个
LU金条 161170 个
阅读权限 251
注册 2003-9-28
 
发表于 2008-8-21 11:52  资料  个人空间  短消息  加为好友  添加 darkbug 为MSN好友 通过MSN和 darkbug 交谈
厂商出来未必就是好的,我遇到好几次了





踏踏实实学习,认认真真干活
顶部
qian1110
版主
Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15


LU爱心使者  
UID 1945
精华 3
积分 2924
帖子 5245
活跃指数 142
LU金币 3913 个
LU金条 276361 个
阅读权限 210
注册 2003-11-8
 
发表于 2008-8-21 13:29  资料  个人空间  短消息  加为好友  添加 qian1110 为MSN好友 通过MSN和 qian1110 交谈
1、不是直连也出现这个问题了吗,应该能排除san switch吧?
2、重新配置后,暂时ok,但是重启dsmserv后,又出现这个问题,感觉是在
   tsm 启动时候初始化中报的错误
3、不知道3200有没有重启,我碰到过一次,配置没问题,但是server服务器重启后,就不能lab了,后来把3200重启后,就好了
4、不知道hba卡的微码有没有升级,或者把3200的降下来,不知道会不会解决





------------

本人承揽ibm相关产品的私活,尤其tivoli
qq 23691642
顶部
fengky
LU新生
Rank: 1



UID 47427
精华 0
积分 9
帖子 8
活跃指数 0
LU金币 7 个
LU金条 0 个
阅读权限 10
注册 2006-5-23
 
发表于 2008-8-21 17:22  资料  个人空间  短消息  加为好友 
呵呵,最近我也老遇到这种问题,总感觉是驱动器的问题,help一下,不是让LABEL,就是确认一下驱动器是否带电,也只能反复试,LABEL、checkin/checkout、删除路径后重新加、重起等,也没有好办法解决一下

顶部
pangyi
LU幼天使
Rank: 2


UID 56024
精华 1
积分 167
帖子 210
活跃指数 45
LU金币 346 个
LU金条 0 个
阅读权限 20
注册 2006-10-4
来自 广州
 
发表于 2008-8-22 07:54  资料  个人空间  短消息  加为好友  添加 pangyi 为MSN好友 通过MSN和 pangyi 交谈
前两天,我也遇到了label的时候出现IO错误了。
也是3200的带库。
label错误的是两盘被我checkout后,做了操作系统备份的磁带。
这两盘磁带第一次在TSM上label时是正常的。后来客户需要找两盘磁带做操作系统备份,我就checkout出来了。操作系统备份成功,恢复测试也是成功的。
由于在tsm上checkout了,我重新放进带库后。audit library出错。因此想把两盘磁带重新加入回TSM,在label这两盘磁带时就报drive的IO错误了。但是其他磁带读写数据是完全正常的。不知道有没有人碰到过这种情况。带库、主机都重启过,故障依旧。

顶部
LGHREADY
LU幼天使
Rank: 2


UID 109735
精华 1
积分 73
帖子 35
活跃指数 12
LU金币 138 个
LU金条 0 个
阅读权限 20
注册 2008-7-28
 
发表于 2008-8-27 12:39  资料  个人空间  短消息  加为好友 
好好学习中





我参与,我奉献,我快乐...
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
crazyshow
技术专家
Rank: 14Rank: 14Rank: 14Rank: 14
黑涩会头目


UID 59115
精华 10
积分 408
帖子 696
活跃指数 170
LU金币 1824 个
LU金条 0 个
阅读权限 200
注册 2006-11-21
来自 ChengDu
 
发表于 2008-8-27 14:34  资料  个人空间  短消息  加为好友  添加 crazyshow 为MSN好友 通过MSN和 crazyshow 交谈
我现在在windows上面用tsm5.4连3584,也是io错误。
前面什么都过了,就在最后node backup到磁带的时候,写不上去。
也在头痛中。





一个记忆力开始减退的人,还能在这里混么?
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
qian1110
版主
Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15


LU爱心使者  
UID 1945
精华 3
积分 2924
帖子 5245
活跃指数 142
LU金币 3913 个
LU金条 276361 个
阅读权限 210
注册 2003-11-8
 
发表于 2008-8-27 18:54  资料  个人空间  短消息  加为好友  添加 qian1110 为MSN好友 通过MSN和 qian1110 交谈


QUOTE:
原帖由 crazyshow 于 2008-8-27 14:34 发表
我现在在windows上面用tsm5.4连3584,也是io错误。
前面什么都过了,就在最后node backup到磁带的时候,写不上去。
也在头痛中。

嘿嘿

devclass
看看





------------

本人承揽ibm相关产品的私活,尤其tivoli
qq 23691642
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
 



当前时区 GMT+8, 现在时间是 2008-11-23 23:51
乐悠LoveUnix论坛-京ICP备05005823号

Thanks to Discuz!  © 2001-2007    Power by LoveUnix.net
Processed in 0.069977 second(s), 6 queries , Gzip enabled

清除 Cookies - 联系我们 - 乐悠LoveUnix - Archiver