راهنمای عیب یابی درایو دیسک در استوریج MSA2062
از دیگر بخش هایی که بر روی ذخیره سازهای MSA 2060 و استوریج 2062 میتواند دچار مشکلاتی شود، بخش سخت افزاری درایوهای دیسک است. در این مقاله به بررسی این خطاها پرداخته و راهکارهای متناسب با آن را نیز ارائه کردهایم.
فهرست محتوا
عدم شناسایی درایو دیسک پس از تعویض آن
دلیل:
یک درایو به عنوان جایگزین درایو خراب قرار داده شده است، اکنون درایو جایگزین شناسایی نمیشود.
راه حل 1
علت
درایو جایگزین خوب نیست.
عمل 1 :
- اگر اسلات درایو دیسک دیگری دارید، آن را در اسلات جایگزین کنید، اگر درایو جایگزین شناسایی شد، در ادامه از CLI یا SMU برای اختصاص آن به عنوان Global Spareاستفاده کنید.
- اما اگر درایو جایگزین را در اسلات قرار دادید و شناسایی نشد، درایو خوب شناخته شدهای که از عملکرد آن مطمئن هستید در اسلات جایگزین قرار دهید.
راه حل 2
علت
شیار درایو سالم نیست.
عمل 1 :
درایو مطمئن شناخته شدهای را در اسلاتی که درایو جایگزین شناسایی نکرده است، قرار دهید. اگر درایو مطمئنی که قرار دادید هم شناسایی نشود، ممکن است اسلات از کار افتاده باشد. در این صورت، شاسی را تعویض کنید.
درایو از کار می افتد و مشکلاتی در بازسازی وجود دارد
دلیل
یک درایو از کار افتاده است و بازسازی کامل نمیشود.
راه حل 1
علت
یک درایو یدکی برای بازسازی استفاده شد. قبل از تکمیل بازسازی، درایو دیگری از همان گروه دیسک (در زیر گروه برای RAID 10) شکست خورد، یا در مورد یک گروه دیسک RAID 6، دو یا چند درایو از همان گروه دیسک به مشکل برخورد
عمل
- سعی کنید با دوبارقراردادن دیسکها، Disk Group را ازحالت quarantine خارج کنید.
- اگر نتوانستید گروه دیسک را با تنظیم مجدد آخرین درایوهای خراب، قرنطینه کنید، گزارشهای آرایه را جمعآوری کرده و با پشتیبانی HPE تماس بگیرید.
راه حل 2
علت
برای RAID 6 اعمال میشود:
وضعیت گروه دیسک در حالت FTDN است، از یدکی استفاده میشود و بازسازی شروع میشود. اما بازسازی قبل از اینکه کامل شود متوقف میشود.
عمل
- در صورتی که به دلیل مشکلات سخت افزاری درایوها از کار افتاده اند، درایوها را تعویض کنید.
- اگر گروه دیسک پس از شکست سومین عضو درایو دیسک و قبل از تکمیل بازسازی به QTOF برود، سعی کنید با نصب مجدد آخرین درایوهای شکست خورده، قرنطینه را حذف کنید.
- اگر نمی توانید گروه دیسک را قرنطینه کنید، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
پیشنها مطالعه: نحوه انتخاب سطح RAID مناسب؟
عضو سوم درایو دیسک قبل از تکمیل بازسازی از کار می افتد
دلیل
گروه دیسک پس از شکست سومین عضو درایو دیسک و قبل از تکمیل بازسازی،QTOF میشود.
عمل
- آخرین درایوهای ناموفق را برای قرنطینه جابجا کنید.
- اگر نمیتوانید گروه دیسک را قرنطینه کنید، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
درایو دیسک از کار می افتد و بازسازی به طور خودکار شروع نمیشود
دلیل
پس از خرابی درایو، بازسازی به طور خودکار شروع نمیشود.
علت
هیچ یدکی سازگار در دسترس نیست
عمل 1
- تمام درایوهای خراب را جایگزین کنید و سپس بازسازی را به صورت دستی با استفاده از یکی از روشهای زیر شروع کنید:
درایوهای جدید را به عنوانGlobal Spare اضافه کنید.
گزینه Dynamic Spare Capability را فعال کنید تا از درایوهای جدید بدون تعیین آنها به عنوان یدکی استفاده کنید.
توجه: بسته به سطح و اندازه RAID گروه دیسک، سرعت دیسک، اولویت ابزار و سایر فرآیندهای در حال اجرا بر روی سیستم ذخیره سازی، بازسازی میتواند ساعت ها یا روزها طول بکشد تا تکمیل شود.
فقط با حذف دیسک میتوانید بازسازی را متوقف کنید، اما بدانید که با حذف یک گروه دیسک دادهها بطور دائمی از دست خواهند رفت.
خرابی درایو دیسک با قطعات یدکی پویا، فعال/غیرفعال شده است
دلیل
یک یا چند درایو در یک گروه دیسک شکست خورده است. (Does not apply to MSA-DP+)
توجه: درایوهای جایگزین باید از نظر نوع و ظرفیت باهم سازگار داشته باشند، مثلا همه در یک گروه دیسک از نوع هارد HDD Enterprise یا حافظه SSD باشند، با ظرفیت یکسان یا بزرگتر به عنوان درایوهای باقی مانده در گروه دیسک باشند.
پیشنهاد مطالعه: بررسی هاردهای HPE
راه حل 1
علت
هنگامی که درایوی از کار افتاد، ویژگی یدکی پویا فعال میشود و یک درایو دیسک با اندازه مناسب برای استفاده به عنوان درایو در دسترس قرار میگیرد.
عمل
پس از تکمیل باسازی گروه دیسک توسط سیستم، درایو خراب را جایگزین کنید.
راه حل 2
علت
در زمان خرابی درایو، ویژگی یدکی پویا فعال است، اما هیچ درایو سازگاری برای استفاده به عنوان یدکی در دسترس نیست.
عمل
- یدکی سازگاری تهیه کنید تا سیستم بتواند به طور خودکار از درایو جدید برای بازسازی گروه دیسک استفاده کند.
- پس از تمام شدن بازسازی، درایو خراب را تعویض کنید.
راه حل 3
علت
اگر درایوی از کار افتاد، ویژگی یدکی پویا غیرفعال شد و هیچ Global Spare سازگاری در دسترس نبود.
عمل
- درایو سازگار فراهم کنید.
- از CLI یا SMU برای اختصاص آن به عنوان Global Spareبهره ببرید.
- پس از تمام شدن بازسازی، برای تعویض درایو خراب اقدام کنید.
راه حل 4
علت
در RAID 1 یا RAID 5 دو یا چند درایو در یک گروه دیسک خراب شدهاند.
در RAID 6 سه یا چند درایو در یک گروه دیسک از کار افتاده است.
در RAID 10 دو یا چند درایو در یک زیرگروه از کار افتاده اند.
در صورتی که هر یک از شرایط قبل رخ دهد، دادههای گروه دیسک غیرقابل دسترس شده و در معرض خطر قرار میگیرند.
عمل
- آخرین درایوهای شکست خورده را مجددا تنظیم کنید و به این صورت برای بازیابی تلاش کنید.
- اما اگر آخرین درایو را مجدد نصب کردید ولی مشکل حل نشد باید گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
درایو دیسک به عنوان LEFTOVR علامت گذاری شده است
دلیل
وضعیت یک یا چند درایو در یک شاسی به عنوان LEFTOVR علامت گذاری شده است.
راه حل 1
علت
خطاهای MEDIUM / SMART / PROTOCOL / I/O TIMEOUT برای درایوها وجود دارد.
عمل
- در صورتی که تمام گروههای دیسک آنلاین هستند، جایگزین کردن درایو دیسک میتواند گزینه مناسبی برای حل مشکل باشد.
- در صورتی که گروه دیسکیآنلاین است، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
راه حل 2
علت
کابل کشی شل شده
برق قطع شده یا منبع تغذیه مشکل دارد.
سایت مشکل دارد.
عمل
- مشکل کابل کشی، برق یا سایت را رفع کنید.
- اگر همه گروههای دیسک آنلاین هستند، ابردادهها را در درایو پاک کنید و از آن به عنوان یدکی برای بازسازی گروههای دیسک استفاده کنید.
- اگر از صحیح بودن اقدامات، مطمئن نیستید، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
راه حل 3
عمل
اگر این درایو دیسک عضو یک گروه دیسک در سیستم دیگری بود و آن گروه دیسک در این سیستم وجود نداشت و اگر همه گروههای دیسک شما FTOL هستند، اگر برای یک گروه دیسک از آرایه دیگری لازم نیست، ابرداده درایو را پاک کنید.
درایو خاموش است
دلیل
درایو Offline است و وضعیت Fault/UID (کهربایی/آبی) نشان دهنده یک مشکل است.
راه حل 1
علت
یک خطا، خرابی یا خطای اساسی در درایو وجود دارد.
عمل
- گزارش رویداد را برای به دست آوردن اطلاعات خاص در مورد خطا بررسی کنید.
- درایو معیوب را جدا و تعویض کنید.
- اگر مطمئن نیستید که چه اقدامی انجام دهید، با پشتیبانی HPE تماس بگیرید.
راه حل 2
علت
برق وجود ندارد یا درایو Offline است.
عمل
- مطمئن شوید که درایو دیسک به طور کامل وارد شده و در جای خود قرار گرفته است.
- بررسی کنید که شاسی روشن باشد.
راه حل 3
علت
خطای 8 رخ میدهد و یکی از شرایط زیر را برای درایو گزارش میکند:
- خطای سخت افزاری رخ داده
- فرمانی حاوی کد تشخیص غیرقانونی، در پشتیبانی درایو دیسک درخواست شده است.
- خطای رسانه رخ داده
- خطای SMARTرخ داده
عمل
- در صورتی که تمام درایوها و گروههای دیسک آنلاین و در دسترس هستند، برای تعویض درایو اقدام کنید.
- اگر درایو به عنوان LEFTOVER یا ناموفق علامت گذاری شده است، و به بازیابی دادهها نیاز دارید، گزارشهای آرایه را جمعآوری کنید و با پشتیبانی HPE تماس بگیرید.
راه حل 4
علت
وضعیت خطای Event 8 نشان دهنده این است که کنترلر RAID دیگر نمیتواند درایو را شناسایی کند.
عمل
- درایو را مجدداً قرار دهید.
- اگر تمام درایوها و گروههای دیسک آنلاین و در دسترس هستند، درایو را تعویض کنید.
- در صورت نیاز به بازیابی اطلاعات، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
راه حل 5
علت
شرط خطای رویداد 8 نشان دهنده آن است که منطق RAID 6 عمداً درایو را خراب میکند.
عمل
درایو را تعویض کنید.
بلوک داده در خواندن ناموفق است
دلیل
یک رویداد 542 یا رویداد 543 ایجاد شده است.
علت
اگر میزبان خطای خواندن یا نوشتن نداشته باشد، این رویداد هنگام خواندن یا نوشتن متا دیتا برای گروه دیسک رخ داده است، البته این رویداد ممکن است در طول بازسازی نیز ظاهر شود.
عمل
- آرایه را راه اندازی مجدد نکنید.
- گزارشها را جمع آوری کنید، با پشتیبانی HPE تماس بگیرید و اطلاعات زیر را ارائه دهید.
اطلاعات رویداد 542 شامل:
- نام درایو
- شماره سریال درایو
- آدرس بلوک منطقی (LBA) گروه دیسک انتخاب شده
- (LBA) گروه دیسک انتخاب شده
- شماره اسلات Enclosure
- شماره Enclosure
اطلاعات رویداد 543 شامل:
- نام درایو انتخاب شده
- شماره سریال درایو انتخاب شده
- LBA درایو انتخاب شده
- نام گروه دیسک انتخاب شده
- شماره سریال دیسک انتخاب شده
- در صورت لزوم، دادهها را از آخرین نسخه پشتیبان مناسب، بازیابی کنید.
خرابیهای متعدد درایو دیسک
علامت
دو یا چند درایو دیسک از کار افتاده است.
راه حل 1
علت
RAID 1: در صورت خرابی 2 درایو دیسک، گروه دیسک وارد حالت QTOF یا OFFL میشود.
RAID 5: در صورت خرابی دو یا چند درایو دیسک در یک گروه دیسک، آن گروه وارد حالت QTOF یا OFFL میشود.
RAID 6: در صورت ورود بیش از دو درایو دیسک، گروه دیسک به وضعیت QTOF یا OFFL در خواهد آمد.
RAID 10: در صورت خرابی هر دو درایو دیسک در یک گروه دیسک، آن گروه وارد حالت QTOF یا OFFL میشود.
+DP: هنگامی که یک درایو از کار بیفتد، در ظرفیت اضافی، گروه دیسک داخلی بازسازی میشود.
به همین ترتیب، هنگامی که یک درایو دوم خراب شود بر روی ظرفیت گروه دیسک داخلی بازسازی میشود.
هنگامی که درایو سوم از کار بیفتد، سیستم ترکیبی از خرابیها و خطا خواهد داشت، نوارهای تحملپذیر از دادهها
هنگامی که درایو چهارم از کار می افتد، سیستم ترکیبی از بحرانی، تخریب شده، و تحمل خطا خواهد داشت.
در این حالت، گروه دیسک به حالت Rebalance Fault Tolerant (REFT) میرود. سیستم خطا را کاهش میدهد نوارهای متحمل برای بازسازی نوارهای بحرانی، که منجر به بهترین تحمل خطای کلی سیستم می شود، جایی که میتواند از یک دیسک دیگر جان سالم به در ببرد.
عدم موفقیت: با افزایش تعداد دیسک ها، توانایی مقاومت در برابر خطاهای بیشتر درایو افزایش می یابد.
عمل
- اگر گروه دیسک QTOF باشد، پس از شناسایی درایوها به طور خودکار از قرنطینه خارج میشود. گزارشها را بررسی کنید تا مشخص کنید که آیا اقدام بیشتری لازم است.اگر گروه دیسک مجازی قرنطینه یا offline است، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
راه حل 2
علت
RAID 6: خرابی دو درایو دیسک در یک گروه دیسک باعث میشود که گروه دیسک وارد وضعیت CRIT شود.
عمل
اگر چند قطعه یدکی در دسترس باشد، بازسازی به طور خودکار شروع میشود.
راه حل 3
علت
RAID 10: دو یا چند درایو در گروههای فرعی دیسک مختلف از کار افتادهاند.
عمل
گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.
مشکل ظرفیت اضافی گزارش شده در پیکربندی+DP
دلیل
ظرفیت اضافی پیکربندی شده است، اما با ظرفیت اضافی واقعی مطابقت ندارند.
علت
یک یا چند درایو در گروه دیسک شکست خورده است.
عمل
درایوهای خراب را جایگزین کنید.
عضو گروه دیسک در دسترس نیست
دلیل
یک گروه دیسک در حالت offline (OFFL)، بحرانی (CRIT) یا تخریب شده (FTDN) قرار دارد.
علت
یک دیسک خراب باعث میشود که یک گروه دیسک به یک وضعیت بحرانی برای RAID 1، RAID 5، RAID 10، یا یک حالت تخریب شده برای RAID 6 وارد شود.
دیسکهای ناموفق باعث میشوند که یک گروه دیسک RAID 6 وارد وضعیت بحرانی شود.
عمل
- اگر یدکی از قبل موجود باشد، بازسازی به طور خودکار آغاز می شود.
- اگر یدکی در دسترس نیست، درایو خراب را جایگزین کنید و آن را به عنوان یدکی اضافه کنید.
گروه دیسک در هنگام بوت آرایه قرنطینه شد
دلیل
در طول زمانی که گروه دیسک بوت شود، یک یا چند درایو دیسک، از یک گروه دیسک قرنطینه میشوند.
راه حل 1
علت
RAID5: در هنگام بوت شدن، چندین درایو دیسک از بین می روند و به حالت QTOF در می آیند.
RAID 6: در هنگام بوت شدن، بیش از دو درایو دیسک ناپدید میشوند و وضعیت گروه دیسک به حالت QTOF نشانهگذاری میشود.
RAID 10: در زمان بوت شدن، دو درایو دیسک از یک گروه فرعی دیسک ناپدید شده و وضعیت گروه دیسک به حالت QTOF نشانه گذاری میشود.
عمل
- یک اسکن مجدد دستی انجام دهید.
- اگر گروه دیسک به طور خودکار قرنطینه نمیکند، یا از صحیح بودن این اقدام مطمئن نیستید، گزارشهای آرایه را جمع آوری کنیدو با پشتیبانی HPE تماس بگیرید.
راه حل 2
علت
کنترل کننده اشتباهی مالکیت گروه دیسک را در هنگام بوت به دست گرفته و آخرین حافظه پنهان و سایر اطلاعات گروه دیسک در کنترلر فعلی موجود نیست.
عمل
- سیستم را خاموش کنید.
- یکی از اقدامات زیر را انجام دهید:
- در صورتی که کنترل کننده ای قبلی گروه دیسک، موجود است آن را وارد کنید. کنترلکنندهای که مالکیت آن را بر عهده گرفته است را حذف کنید.
- اگر کنترل کنندهای که مالک قبلی بود در دسترس نیست، گروه دیسک را به صورت دستی از قرنطینه خارج کنید.
- اگر از صحیح بودن این اقدام مطمئن نیستید، گزارشهای آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.