LSI Raid1 搞了我好幾天才發現真正的問題


上周五請完連續假剛返回公司,當天有經濟部的簡報,一早就有人說伺服器卡卡的… 沒時間管,就直接重新開機。

周一開始爆發大問題,嚴重遲緩,這時注意到硬碟燈接近恆亮,按往例這類經驗不是硬碟快掛了、壞軌、就是有失效的磁區。

打開 LSI RAID 附的軟體,看起來都是 Online ,沒有警告或 Fail 之類的,所以想應該不是大問題。

線上的 Server 也不敢立刻修,就讓他針對每顆硬碟 Chkdsk 看回報內容,由於僅檢查無修復,所以不會影響到線上運作,之後報告 E 碟有失效磁區,我想這樣還好,傍晚下班後,對 E 下 Chkdsk E: /F 來修復。跑到七點左右,跑完了,看起來似乎沒事了,就閃人了。

周二又有人回報說 Server 卡卡的,完全不回應,只好斷電重開法,重開的時候進到 BIOS 內的 LSI Software RAID 看,硬碟仍然 Online,就先用 BIOS 內的 RAID 檢查跑一遍,跑完後正常開機後,跑去看事件檢視簿,事件檢視簿有報告到硬碟有問題,另外一個凌晨的排程倒是有報告到 E 碟有問題… 覺得很怪,開始往前翻事件檢視簿,沒想到居然先前就有報告硬碟有問題了,只是先前偶爾一個禮拜才一次,所以沒注意到,看了先前發生問題的時間,基本上都是存取資料庫時的排程,所以先對資料庫做備份,打算截斷交易紀錄檔,一看交易紀錄檔居然已經 26 GB 了… 沒想到資料庫備份一直跑不完,只好改資料庫屬性,先改成簡易,再切回完整,直接截斷交易紀錄檔。午飯過後又開始卡… 只好讓他先撐著到下班時間,把所有跟資料庫相關的服務都先停掉,下班時寫個 chkdskall.cmd 來讓三個硬碟納入開機掃描,然後重開機回家。

今天早上到公司仍然卡到不行,檢查了事件檢視簿,半夜的排程還有跑一段,之後就不行了… 只好調出一個現場延期施工的一台 Server ,打算當暫時的 FileServer ,弄到一半忽然想起來,記得當初 RAID 1 的第二顆硬碟有撞到,但是讀起來沒事,所以當時就以為沒事,跑回去把 RAID 1 第二顆硬碟拔掉,重新開機,哇~ 整個順到不行…

看樣子第二顆硬碟得送修了,送修前要先用資料粉碎軟體處理過,拿到我電腦裝起來,開機可以正常讀到,但是電腦管理就讀不到了,試了幾次,根本就是全死嘛~

打電話到華碩客服反應 LSI RAID 騙我騙了好幾天,硬碟拿去送修,也確認過 LSI RAID 的軟體功能允許兩個硬碟不同型號,新採購的第二顆只要比第一顆大或等於,速度快或等於,就不會影響到第一顆的效能,硬碟先送回去維修,看看有沒有保固… 外表看不出來碰過,而且順利跑了九個月才掛,說不定會換個良品給我~

這幾天在公司幾乎啥都沒做,就在跟 Server 奮戰,沒想到太信任 LSI RAID 的偵測結果,結果都拖在上面。當然,正常狀況也不會不信任他,因為隨便拔一顆硬碟開機的話,Windows 開機會寫入硬碟一些資訊,這樣兩顆硬碟就不同步了,要插回去的話,要先進 BIOS 重作 RAID ReBuild ,上次跑過,2 TB 要跑 1x 小時,非必要也會信任 LSI RAID 回報的結果啊~~~

Categories: 工作點滴 | 2 則迴響

文章分頁導航

2 thoughts on “LSI Raid1 搞了我好幾天才發現真正的問題

  1. 引用通告: 插入熱插拔硬碟,自動重建 RAID 1 « 鄭子璉

  2. fatjong

    感謝前輩…發言使用經驗…後生會注意….

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

在 WordPress.com 建立免費網站或網誌.

%d 位部落客按了讚: