怪异的事情年年有
只是最近比较多
曾经以为对于tsm,对我来说已经没有技术可言,没有难度可言,没有神秘可言。
可是我还是遇到了一些问题。
上次在山西网通是os的系统问题加上诡异的磁带的损坏导致的io的问题。
tsm在遇到这些io的问题之后总是在有一些retry的机制。
但是上次怎么样也是带库的硬件的显式的报错了。
最后通过label libv search=b的方式,单独打带,将问题终于最终定了位。
可是这次在一个地市的商业银行。
事情比较怪异。
aix5307
ts3200
tsm543
再label的时候就是报io的错误
ANR8311E An I/O error occurred while accessing drive DR02 (/dev/rmt2) for OFFL operation, errno = 46.
ANR8300E I/O error on library 32LIB (OP=00006C03, CC=207, KEY=05, ASC=21, ASCQ=01,
SENSE=70.00.05.00.00.00.00.0A.00.00.00.0-
0.21.01.00.00.00.00.,
将带库的驱动打到 最新
依旧
ts3200还没有最新的firmware下载
直连
依旧
将tsm的定义,path删除,重置
ok了,可以label和sel
但是,dsmserv重启之后
错误依旧
反复尝试,发现,将配置删除重新设置就好了,只要重启服务或者machine,就错误依旧
此时发现errpt -dH 报了关于smc0的错误
将系统的snap抓给ibm。
由于这次我需要要用这个tsm server环境作为dest server来和source tsm server之间做data 的迁移
所以我使劲想办法能不能将问题绕过去,我实在不想为了这么点事情再出来一次
赶紧下了tsm 5.5, 下了pack1
安装配置
其过程中
又报错io的错误。
此时,errpt -dH 报了关于smc0的错误
但是tsm的libr似乎retry了一下,libr 又 ready for operation了
nnd
但是,从此时开始,就不再报io的错误,一切正常。
将tsm server重启n次,也ok了。
狠怪,要么在tsm 55的配置过程中,从不报错,也能说明问题,但是还是报了次错误。
所以,这属于有隐患。
此时,IBM的菜鸟说是无需升级hba的fw
说是跟san switch的设置有关系。
就在此时,银行考虑已经开奥运会了,于是要叫硬件供应商的人来一起解决。
平生第一次一次性没有解决问题。
结论之猜测:
是san switch的设置问题或者是hba的问题
但是也有可能就是带库的fw问题
总之狠怪异
下次,
准备带个4gb的for win的hba
再win的环境中直连这个带库,看看会怎么样,就用最新的tsm551的介质
如果还有问题,
就直接压着ibm来现场解决问题了
顺便就是目前ibm市场的带库质量之内幕非常复杂。
厂商出来的当然是好的
但是。。。
我对其中太了解了
所以人在江湖,不能明示。
只能将问题确凿地排查定位,别回头被别人解决了,贻笑大方
san的switch那边还裹着别的公司的什么ppowerpath再里面
那个公司的鸟人水平特差人品也特差,
不想理他的环节,当然本来这个事情也是他们负责,我只是负责tsm的数据的异构的迁移
但是为了追进度,才玩命的折腾这个事情
这次比较烦躁
奉劝大家或者各承包商,把事情想清楚了再进场,
否则,到了现场,为了进度,帮别人干事情,否则出差一次白费,
成本就是这样产生了,利润就是这样减少了。
原文链接:
http://www.ituren.org.cn/html/jishusuibi/200808/08-110.html