2015年9月7日 星期一

IBM AIX 主機重新抓取硬碟 PVID wth error 0516-052 、 0514-516




昨天客戶因為大樓機電系統保養停電,機房主機及 Storage 設備都關機了
保養完後今天來協助客戶把機房內的主機及 Storage 設備開機
發現其中一台AIX P550主機開機後,有個重要的filesystem 沒有自動被  mount
手動 mount 也失敗

查看 lspv 

lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             ora            
hdisk4          none                                None            
hdisk5          none                                None            
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None            


發現該重要的 filesystem 所在的 ora VG 沒有被 active

使用varyonvg指令來手動 active VG

root > varyonvg ora

出現了以下錯誤

0516-052 varyonvg: Volume group cannot be varied on without a
       quorum. More physical volumes in the group must be active.

表示這個 VG 是由多數個 Disk 組成的, 可是這邊看到其他的Disk 都是 none

我翻了一下上個月維護的系統紀錄,看到是由hdisk3、hdisk4、hdisk5組成ora VG
如下列

lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             ora             active
hdisk4   00034dd9e3e734er4b             ora             active
hdisk5   00034dd9e3e734er4c             ora             active
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None   



意思是說開機時,主機抓不到hdisk4及hdisk5
接下來我們要讓主機重新抓到硬碟PVID

先把原本的ora VG 移除掉,使用 varyoffvg 及 exportvg 

varyoffvg ora
exportvg ora


查看 lspv (原本的ora就會變成 none)
lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             None            
hdisk4          none                                None            
hdisk5          none                                None            
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None      

移除 hdisk4 與 hdisk5
rmdev -l hdisk4 -d

出現以下錯誤訊息 (網路上也有人說重新開機就不會lock了)

rmdev: 0514-516 Device configuration database lock service timed out.

什麼......不給刪除
這時候也確定了其他台主機沒有使用該硬碟,所以並不是被別人所使用
(ODM 認為該 Device 有在使用但實際上卻沒有使用?)


接下來要操作到AIX ODM 的部分所以要注意且小心 

移除 config_lock 檔案
cd /etc/objrepos 看到底下有 config_lock 的檔案
mv config_lock config_lock_old 


ls 
adapter                 HACMPpager              InetServ                config_lock_old         sm_cmd_opt.vc
HACMPcluster            HACMPpairtasks          MenuGoal                crypto_module           sm_menu_opt
HACMPcommadapter        HACMPpathtasks          PDiagAtt                crypto_module.vc        sm_menu_opt.vc
HACMPcommand            HACMPport               PDiagAtt.vc             diag_lock               sm_name_hdr
HACMPcommlink           HACMPpprc               PDiagDev                diag_log_lock           sm_name_hdr.vc


移除 hdisk4 與 hdisk5
rm dev -l hdisk4 -d
hdisk4 deleted

rm dev -l hdisk5 -d
hdisk5 deleted


查看lspv hdisk4及hdisk5已成功刪除

lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             None             
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None  


讓系統重新抓取硬碟 (這邊我下了兩次 cfgmgr -v 才抓到Disk)
cfgmgr -v 


查看 lspv

lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             None             
hdisk4          none                                None   
hdisk5          none                                None   
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None  


重新分配PVID
chdev -l hdisk4 -a pv=yes 
hdisk4 changed

chdev -l hdisk5 -a pv=yes 
hdisk5 changed


就可以看到PVID 被抓回來了,且跟之前一模一樣
lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             none             
hdisk4   00034dd9e3e734er4b             none             
hdisk5   00034dd9e3e734er4c             none             
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None   

建立 VG 進入 smitty vg > Import a Volume Group >  VOLUME GROUP name (可重新命名不用跟之前一樣)  、 PHYSICAL VOLUME name (選擇hdisk4,在這邊選擇ora vg其中一顆Disk 及可,它會把同樣是GROUP內的Disk一起抓近來 )


按下 enter 後 

查看 lspv

lspv
hdisk0   00034229eee733csda             rootvg          active
hdisk1   00034dd9e3e734er44             rootvg          active
hdisk3   00034dd9e3e734er4a             ora             active
hdisk4   00034dd9e3e734er4b             ora             active
hdisk5   00034dd9e3e734er4c             ora             active
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None   

VG 建立成功

lsvg -l ora 查看 原本的filesystem 都還存在,接下來在把 filesystem mount 起來

恢復成功!!!!