نتسا / راهنمای عیب یابی درایو دیسک در استوریج MSA2062

راهنمای عیب یابی درایو دیسک در استوریج MSA2062

مقالات

از دیگر بخش هایی که بر روی ذخیره سازهای MSA 2060 و استوریج 2062 میتواند دچار مشکلاتی شود، بخش سخت افزاری درایوهای دیسک است. در این مقاله به بررسی این خطاها پرداخته و راهکارهای متناسب با آن را نیز ارائه کرده‌ایم.

فهرست محتوا

عدم شناسایی درایو دیسک پس از تعویض آن

دلیل:

یک درایو به عنوان جایگزین درایو خراب قرار داده شده است، اکنون درایو جایگزین شناسایی نمی‌شود.

راه حل 1

علت

درایو جایگزین خوب نیست.

عمل 1 :

اگر اسلات درایو دیسک دیگری دارید، آن را در اسلات جایگزین کنید، اگر درایو جایگزین شناسایی شد، در ادامه از CLI یا SMU برای اختصاص آن به عنوان Global Spareاستفاده کنید.
اما اگر درایو جایگزین را در اسلات قرار دادید و شناسایی نشد، درایو خوب شناخته شده‌ای که از عملکرد آن مطمئن هستید در اسلات جایگزین قرار دهید.

راه حل 2

علت

شیار درایو سالم نیست.

عمل 1 :

درایو مطمئن شناخته شده‌ای را در اسلاتی که درایو جایگزین شناسایی نکرده است، قرار دهید. اگر درایو مطمئنی که قرار دادید هم شناسایی نشود، ممکن است اسلات از کار افتاده باشد. در این صورت، شاسی را تعویض کنید.

درایو از کار می افتد و مشکلاتی در بازسازی وجود دارد

دلیل

یک درایو از کار افتاده است و بازسازی کامل نمی‌شود.

راه حل 1

علت

یک درایو یدکی برای بازسازی استفاده شد. قبل از تکمیل بازسازی، درایو دیگری از همان گروه دیسک (در زیر گروه برای RAID 10) شکست خورد، یا در مورد یک گروه دیسک RAID 6، دو یا چند درایو از همان گروه دیسک به مشکل برخورد

عمل

سعی کنید با دوبارقراردادن دیسکها، Disk Group را ازحالت quarantine خارج کنید.
اگر نتوانستید گروه دیسک را با تنظیم مجدد آخرین درایوهای خراب، قرنطینه کنید، گزارش‌های آرایه را جمع‌آوری کرده و با پشتیبانی HPE تماس بگیرید.

راه حل 2

علت

برای RAID 6 اعمال می‌شود:

وضعیت گروه دیسک در حالت FTDN است، از یدکی استفاده می‌شود و بازسازی شروع می‌شود. اما بازسازی قبل از اینکه کامل شود متوقف می‌شود.

عمل

در صورتی که به دلیل مشکلات سخت افزاری درایوها از کار افتاده اند، درایوها را تعویض کنید.
اگر گروه دیسک پس از شکست سومین عضو درایو دیسک و قبل از تکمیل بازسازی به QTOF برود، سعی کنید با نصب مجدد آخرین درایوهای شکست خورده، قرنطینه را حذف کنید.
اگر نمی توانید گروه دیسک را قرنطینه کنید، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

پیشنها مطالعه: نحوه انتخاب سطح RAID مناسب؟

عضو سوم درایو دیسک قبل از تکمیل بازسازی از کار می افتد

دلیل

گروه دیسک پس از شکست سومین عضو درایو دیسک و قبل از تکمیل بازسازی،QTOF می‌شود.

عمل

آخرین درایوهای ناموفق را برای قرنطینه جابجا کنید.
اگر نمی‌توانید گروه دیسک را قرنطینه کنید، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

درایو دیسک از کار می افتد و بازسازی به طور خودکار شروع نمی‌شود

دلیل

پس از خرابی درایو، بازسازی به طور خودکار شروع نمی‌شود.

علت

هیچ یدکی سازگار در دسترس نیست

عمل 1

تمام درایوهای خراب را جایگزین کنید و سپس بازسازی را به صورت دستی با استفاده از یکی از روش‌های زیر شروع کنید:

درایوهای جدید را به عنوانGlobal Spare اضافه کنید.

گزینه Dynamic Spare Capability را فعال کنید تا از درایوهای جدید بدون تعیین آنها به عنوان یدکی استفاده کنید.

توجه: بسته به سطح و اندازه RAID گروه دیسک، سرعت دیسک، اولویت ابزار و سایر فرآیندهای در حال اجرا بر روی سیستم ذخیره سازی، بازسازی می‌تواند ساعت ها یا روزها طول بکشد تا تکمیل شود.

فقط با حذف دیسک می‌توانید بازسازی را متوقف کنید، اما بدانید که با حذف یک گروه دیسک داده‌ها بطور دائمی از دست خواهند رفت.

خرابی درایو دیسک با قطعات یدکی پویا، فعال/غیرفعال شده است

دلیل

یک یا چند درایو در یک گروه دیسک شکست خورده است. (Does not apply to MSA-DP+)

توجه: درایوهای جایگزین باید از نظر نوع و ظرفیت باهم سازگار داشته باشند، مثلا همه در یک گروه دیسک از نوع هارد HDD Enterprise یا حافظه SSD باشند، با ظرفیت یکسان یا بزرگتر به عنوان درایوهای باقی مانده در گروه دیسک باشند.

پیشنهاد مطالعه: بررسی هاردهای HPE

راه حل 1

علت

هنگامی که درایوی از کار افتاد، ویژگی یدکی پویا فعال می‌شود و یک درایو دیسک با اندازه مناسب برای استفاده به عنوان درایو در دسترس قرار می‌گیرد.

عمل

پس از تکمیل باسازی گروه دیسک توسط سیستم، درایو خراب را جایگزین کنید.

راه حل 2

علت

در زمان خرابی درایو، ویژگی یدکی پویا فعال است، اما هیچ درایو سازگاری برای استفاده به عنوان یدکی در دسترس نیست.

عمل

یدکی سازگاری تهیه کنید تا سیستم بتواند به طور خودکار از درایو جدید برای بازسازی گروه دیسک استفاده کند.
پس از تمام شدن بازسازی، درایو خراب را تعویض کنید.

راه حل 3

علت

اگر درایوی از کار افتاد، ویژگی یدکی پویا غیرفعال شد و هیچ Global Spare سازگاری در دسترس نبود.

عمل

درایو سازگار فراهم کنید.
از CLI یا SMU برای اختصاص آن به عنوان Global Spareبهره ببرید.
پس از تمام شدن بازسازی، برای تعویض درایو خراب اقدام کنید.

راه حل 4

علت

در RAID 1 یا RAID 5 دو یا چند درایو در یک گروه دیسک خراب شده‌اند.

در RAID 6 سه یا چند درایو در یک گروه دیسک از کار افتاده است.

در RAID 10 دو یا چند درایو در یک زیرگروه از کار افتاده اند.

در صورتی که هر یک از شرایط قبل رخ دهد، داده‌های گروه دیسک غیرقابل دسترس شده و در معرض خطر قرار می‌گیرند.

عمل

آخرین درایوهای شکست خورده را مجددا تنظیم کنید و به این صورت برای بازیابی تلاش کنید.
اما اگر آخرین درایو را مجدد نصب کردید ولی مشکل حل نشد باید گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

درایو دیسک به عنوان LEFTOVR علامت گذاری شده است

دلیل

وضعیت یک یا چند درایو در یک شاسی به عنوان LEFTOVR علامت گذاری شده است.

راه حل 1

علت

خطاهای MEDIUM / SMART / PROTOCOL / I/O TIMEOUT برای درایوها وجود دارد.

عمل

در صورتی که تمام گروه‌های دیسک آنلاین هستند، جایگزین کردن درایو دیسک می‌تواند گزینه مناسبی برای حل مشکل باشد.
در صورتی که گروه دیسکیآنلاین است، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

راه حل 2

علت

کابل کشی شل شده

برق قطع شده یا منبع تغذیه مشکل دارد.

سایت مشکل دارد.

عمل

مشکل کابل کشی، برق یا سایت را رفع کنید.
اگر همه گروه‌های دیسک آنلاین هستند، ابرداده‌ها را در درایو پاک کنید و از آن به عنوان یدکی برای بازسازی گروه‌های دیسک استفاده کنید.
اگر از صحیح بودن اقدامات، مطمئن نیستید، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

راه حل 3

عمل

اگر این درایو دیسک عضو یک گروه دیسک در سیستم دیگری بود و آن گروه دیسک در این سیستم وجود نداشت و اگر همه گروه‌های دیسک شما FTOL هستند، اگر برای یک گروه دیسک از آرایه دیگری لازم نیست، ابرداده درایو را پاک کنید.

درایو خاموش است

دلیل

درایو Offline است و وضعیت Fault/UID (کهربایی/آبی) نشان دهنده یک مشکل است.

راه حل 1

علت

یک خطا، خرابی یا خطای اساسی در درایو وجود دارد.

عمل

گزارش رویداد را برای به دست آوردن اطلاعات خاص در مورد خطا بررسی کنید.
درایو معیوب را جدا و تعویض کنید.
اگر مطمئن نیستید که چه اقدامی انجام دهید، با پشتیبانی HPE تماس بگیرید.

راه حل 2

علت

برق وجود ندارد یا درایو Offline است.

عمل

مطمئن شوید که درایو دیسک به طور کامل وارد شده و در جای خود قرار گرفته است.
بررسی کنید که شاسی روشن باشد.

راه حل 3

علت

خطای 8 رخ می‌دهد و یکی از شرایط زیر را برای درایو گزارش می‌کند:

خطای سخت افزاری رخ داده
فرمانی حاوی کد تشخیص غیرقانونی، در پشتیبانی درایو دیسک درخواست شده است.
خطای رسانه رخ داده
خطای SMARTرخ داده

عمل

در صورتی که تمام درایوها و گروه‌های دیسک آنلاین و در دسترس هستند، برای تعویض درایو اقدام کنید.
اگر درایو به عنوان LEFTOVER یا ناموفق علامت گذاری شده است، و به بازیابی داده‌ها نیاز دارید، گزارش‌های آرایه را جمع‌آوری کنید و با پشتیبانی HPE تماس بگیرید.

راه حل 4

علت

وضعیت خطای Event 8 نشان دهنده این است که کنترلر RAID دیگر نمی‌تواند درایو را شناسایی کند.

عمل

درایو را مجدداً قرار دهید.
اگر تمام درایوها و گروه‌های دیسک آنلاین و در دسترس هستند، درایو را تعویض کنید.
در صورت نیاز به بازیابی اطلاعات، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

راه حل 5

علت

شرط خطای رویداد 8 نشان دهنده آن است که منطق RAID 6 عمداً درایو را خراب می‌کند.

عمل

درایو را تعویض کنید.

بلوک داده در خواندن ناموفق است

دلیل

یک رویداد 542 یا رویداد 543 ایجاد شده است.

علت

اگر میزبان خطای خواندن یا نوشتن نداشته باشد، این رویداد هنگام خواندن یا نوشتن متا دیتا برای گروه دیسک رخ داده است، البته این رویداد ممکن است در طول بازسازی نیز ظاهر شود.

عمل

آرایه را راه اندازی مجدد نکنید.
گزارش‌ها را جمع آوری کنید، با پشتیبانی HPE تماس بگیرید و اطلاعات زیر را ارائه دهید.

اطلاعات رویداد 542 شامل:

نام درایو
شماره سریال درایو
آدرس بلوک منطقی (LBA) گروه دیسک انتخاب شده
(LBA) گروه دیسک انتخاب شده
شماره اسلات Enclosure
شماره Enclosure

اطلاعات رویداد 543 شامل:

نام درایو انتخاب شده
شماره سریال درایو انتخاب شده
LBA درایو انتخاب شده
نام گروه دیسک انتخاب شده
شماره سریال دیسک انتخاب شده

در صورت لزوم، داده‌ها را از آخرین نسخه پشتیبان مناسب، بازیابی کنید.

خرابی‌های متعدد درایو دیسک

علامت

دو یا چند درایو دیسک از کار افتاده است.

راه حل 1

علت

RAID 1: در صورت خرابی 2 درایو دیسک، گروه دیسک وارد حالت QTOF یا OFFL می‌شود.

RAID 5: در صورت خرابی دو یا چند درایو دیسک در یک گروه دیسک، آن گروه وارد حالت QTOF یا OFFL می‌شود.

RAID 6: در صورت ورود بیش از دو درایو دیسک، گروه دیسک به وضعیت QTOF یا OFFL در خواهد آمد.

RAID 10: در صورت خرابی هر دو درایو دیسک در یک گروه دیسک، آن گروه وارد حالت QTOF یا OFFL می‌شود.

+DP: هنگامی که یک درایو از کار بیفتد، در ظرفیت اضافی، گروه دیسک داخلی بازسازی می‌شود.

به همین ترتیب، هنگامی که یک درایو دوم خراب ‌شود بر روی ظرفیت گروه دیسک داخلی بازسازی می‌شود.

هنگامی که درایو سوم از کار بیفتد، سیستم ترکیبی از خرابی‌ها و خطا خواهد داشت، نوارهای تحمل‌پذیر از داده‌ها

هنگامی که درایو چهارم از کار می افتد، سیستم ترکیبی از بحرانی، تخریب شده، و تحمل خطا خواهد داشت.

در این حالت، گروه دیسک به حالت Rebalance Fault Tolerant (REFT) می‌رود. سیستم خطا را کاهش می‌دهد نوارهای متحمل برای بازسازی نوارهای بحرانی، که منجر به بهترین تحمل خطای کلی سیستم می شود، جایی که می‌تواند از یک دیسک دیگر جان سالم به در ببرد.

عدم موفقیت: با افزایش تعداد دیسک ها، توانایی مقاومت در برابر خطاهای بیشتر درایو افزایش می یابد.

عمل

اگر گروه دیسک QTOF باشد، پس از شناسایی درایوها به طور خودکار از قرنطینه خارج می‌شود. گزارش‌ها را بررسی کنید تا مشخص کنید که آیا اقدام بیشتری لازم است.اگر گروه دیسک مجازی قرنطینه یا offline است، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

راه حل 2

علت

RAID 6: خرابی دو درایو دیسک در یک گروه دیسک باعث می‌شود که گروه دیسک وارد وضعیت CRIT شود.

عمل

اگر چند قطعه یدکی در دسترس باشد، بازسازی به طور خودکار شروع می‌شود.

راه حل 3

علت

RAID 10: دو یا چند درایو در گروه‌های فرعی دیسک مختلف از کار افتاده‌اند.

عمل

گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

مشکل ظرفیت اضافی گزارش شده در پیکربندی+DP

دلیل

ظرفیت اضافی پیکربندی شده است، اما با ظرفیت اضافی واقعی مطابقت ندارند.

علت

یک یا چند درایو در گروه دیسک شکست خورده است.

عمل

درایوهای خراب را جایگزین کنید.

عضو گروه دیسک در دسترس نیست

دلیل

یک گروه دیسک در حالت offline (OFFL)، بحرانی (CRIT) یا تخریب شده (FTDN) قرار دارد.

علت

یک دیسک خراب باعث می‌شود که یک گروه دیسک به یک وضعیت بحرانی برای RAID 1، RAID 5، RAID 10، یا یک حالت تخریب شده برای RAID 6 وارد شود.

دیسک‌های ناموفق باعث می‌شوند که یک گروه دیسک RAID 6 وارد وضعیت بحرانی شود.

عمل

اگر یدکی از قبل موجود باشد، بازسازی به طور خودکار آغاز می شود.
اگر یدکی در دسترس نیست، درایو خراب را جایگزین کنید و آن را به عنوان یدکی اضافه کنید.

گروه دیسک در هنگام بوت آرایه قرنطینه شد

دلیل

در طول زمانی که گروه دیسک بوت شود، یک یا چند درایو دیسک، از یک گروه دیسک قرنطینه می‌شوند.

راه حل 1

علت

RAID5: در هنگام بوت شدن، چندین درایو دیسک از بین می روند و به حالت QTOF در می آیند.

RAID 6: در هنگام بوت شدن، بیش از دو درایو دیسک ناپدید میشوند و وضعیت گروه دیسک به حالت QTOF نشانه‌گذاری می‌شود.

RAID 10: در زمان بوت شدن، دو درایو دیسک از یک گروه فرعی دیسک ناپدید شده و وضعیت گروه دیسک به حالت QTOF نشانه گذاری می‌شود.

عمل

یک اسکن مجدد دستی انجام دهید.
اگر گروه دیسک به طور خودکار قرنطینه نمی‌کند، یا از صحیح بودن این اقدام مطمئن نیستید، گزارش‌های آرایه را جمع آوری کنیدو با پشتیبانی HPE تماس بگیرید.

راه حل 2

علت

کنترل کننده اشتباهی مالکیت گروه دیسک را در هنگام بوت به دست گرفته و آخرین حافظه پنهان و سایر اطلاعات گروه دیسک در کنترلر فعلی موجود نیست.

عمل

سیستم را خاموش کنید.
یکی از اقدامات زیر را انجام دهید:

در صورتی که کنترل کننده ای قبلی گروه دیسک، موجود است آن را وارد کنید. کنترل‌کننده‌ای که مالکیت آن را بر عهده گرفته است را حذف کنید.
اگر کنترل کننده‌ای که مالک قبلی بود در دسترس نیست، گروه دیسک را به صورت دستی از قرنطینه خارج کنید.

اگر از صحیح بودن این اقدام مطمئن نیستید، گزارش‌های آرایه را جمع آوری کنید و با پشتیبانی HPE تماس بگیرید.

دیدگاهتان را بنویسید لغو پاسخ

پیشنهاد ویژه نتسا