ارائه عملکرد بیشتر با فناوری حافظه با پهنای باند بالا (HBM)

فناوری حافظه با پهنای باند بالا (HBM)

پیشرفت طراحی درسطح تراشه باعث افزایش پهنای باند برای ابررایانه‌ها و برنامه‌های کاربردی هوش مصنوعی (AI) می‌شود.

ارائه دهندگان فناوری اطلاعات معمولا رقابتشان در ارائه روش‌ها و تجهیزاتی است که خطوط تولید فعلی را بهبود می‌بخشند، اما گاهی اوقات فناوری واقعاً مخرب از راه می‌رسد. یکی از آن فناوری‌های مخرب که در حال یافتن راه خود به مراکز داده سازمانی است، حافظه با پهنای باند بالا (HBM) است.

HBM به طور قابل توجهی سریع‌تر از فناوری‌های تراشه حافظه فعلی است، انرژی کمتری مصرف می‌کند و فضای کمتری را اشغال می‌کند. این تکنولوژی به ویژه برای برنامه‌های کاربردی با منابع فشرده مانند محاسبات با عملکرد بالا (HPC) و هوش مصنوعی (AI) محبوب شده است.

در خبر تازه منتشر شده از شرکت HPE به شروع عصر جدیدی از بینش تکنولوژی در جهان با راهکارهای قدرتمند HPC و AI اشاره داشته است.

اما به دلایلی پذیرش جریان اصلی برای اجرای برنامه‌های تجاری معمولی، هنوز راه‌حل مناسبی نیست. این امر به دلایل زیر می‌باشد:

  • گران بودن HBM
  • ایجاد شدن مشکلات مدیریت گرما
  • نیاز برنامه‌های خاص به بازنویسی

HBM چگونه کار می‌کند؟

HBM سازنده تراشه‌ساز آمریکایی AMD و SK Hynix، تامین‌کننده تراشه‌های حافظه در کره جنوبی است. توسعه در سال 2008 آغاز شد و در سال 2013 این شرکت‌ها مشخصات را به کنسرسیوم JEDEC، نهاد استاندارد برای صنعت نیمه هادی، واگذار کردند. استاندارد HBM2 در سال 2016 تایید شد و HBM3 به طور رسمی در ژانویه معرفی شد. تولید کنندگان اصلی تراشه‌های حافظه HBM امروزه سامسونگ کره جنوبی،SK Hynix  و Micron Technology هستند.

HBMبرای رسیدگی به عملکرد عقب افتاده و قدرت حافظه با دسترسی تصادفی پویا استاندارد (DRAM)، در مقایسه با عملکرد واحد پردازش مرکزی (CPU) و واحد پردازش گرافیکی (GPU) طراحی شده است. راه حل اصلی پرتاب DRAM بیشتر به مشکل و پرکردن مادربردها با اسلات‌های ماژول حافظه درون خطی دوگانه (DIMM) بود که به اسلات RAM نیز معروف است.

به طور کلی 4 مدل حافظه وجود دارد که در مقاله تفاوت ماژول‌های رم LRDIMM و RDIMM و بررسی حافظه‌های NVDIMM و Persistent Memory به مزایا و معایب و کاربرد هر کدام اشاره کرده‌ایم.

اما مشکل از خود حافظه نبود، بلکه مشکل از BUS رم بود. گذرگاه استاندارد DRAM از 4 تا 32 بیت عرض دارد. اما گذرگاه HBM  عرضی معادل 1024 بیت دارد، به گفته جو ماکری، معاون شرکت و مدیر عامل شرکت AMD، و همچنین توسعه دهنده حافظه HBM، تا 128 برابر گسترده‌تر است. در مقایسه میتوان گفت می‌تواند ماشین‌های بیشتری را مدیریت کند، یک جاده یک خط یا یک جاده 16 خط؟

علاوه بر گسترش گذرگاه به منظور افزایش پهنای باند، فناوری HBM اندازه تراشه‌های حافظه را کوچک می‌کند و آن‌ها را در قالب طراحی جدید و زیبا روی هم قرار می‌دهد. تراشه‌های HBM در مقایسه با حافظه گرافیکی دو نرخی داده (GDDR) که در ابتدا برای جایگزینی طراحی شده بود، بسیار کوچک هستند. تراشه‌های حافظه 1 گیگابایتی GDDR فضایی معادل 672 میلی‌متر مربع را اشغال می‌کنند در حالی که 1 گیگابایت HBM فقط 35 میلی متر مربع را اشغال می‌کند.

به جای پخش ترانزیستورها، HBM  تا 12 لایه روی هم چیده شده و با فناوری اتصال به هم به نام TSV متصل میشود.

دیتا از میان لایه‌های تراشه‌های HBM مانند آسانسوری که از یک ساختمان عبور می‌کند، می‌گذرد و زمان لازم برای سفر بیت‌های داده را تا حد زیادی کاهش می‌دهد.

با قرار گرفتن HBM روی بستر درست در کنار CPU یا GPU، انرژی کمتری برای انتقال داده ها بین CPU/GPU و حافظه مورد نیاز است CPU و HBM مستقیماً با یکدیگر صحبت می‌کنند و نیاز به استیک‌های DIMM را از بین می‌برند.

کل ایده ای که در ابتدا ما برای عبور دادن دیتا داشتیم این بود که به جای اینکه خیلی باریک و خیلی سریع پیش برویم، خیلی عریض و خیلی آهسته پیش برویم.

پرش خریا، مدیر ارشد مدیریت محصول برای محاسبات سریع در انویدیا، می‌گوید که DRAM استاندارد برای استفاده از HPC مناسب نیست. حافظه DDR می‌تواند به عملکرد حافظه HBM نزدیک شود، اما “شما باید تعداد زیادی DIMM داشته باشید و از نظر بهره وری انرژی، بهینه نخواهد بود.”

در کجا از HBM استفاده می‌شود؟

اولین فروشنده‌ای که از HBM برای HPC استفاده کرد، فوجیتسو بود، با پردازنده A64FX مبتنی بر Arm خود که برای کارهای HPC طراحی شده بود. ابرکامپیوتر فوگاکو مجهز به A64FX در سال 2020 در صدر فهرست 500 ابررایانه برتر قرار گرفت و از آن زمان تاکنون در آنجا باقی مانده است. انویدیا از HBM3 در پردازنده گرافیکی Hopper آینده خود استفاده می‌کند، در حالی که پردازنده گرافیکی Grace آینده از فناوری LPDDR5X، مشتق DDR استفاده می‌کند AMD از HBM2E  در شتاب‌دهنده Instinct MI250X خود بر اساس فناوری GPU استفاده می‌کند و اینتل قصد دارد از HBM در برخی از نسل Sapphire Rapids پردازنده‌های سرور Xeon و همچنین شتاب‌دهنده GPU Ponte Vecchio برای شرکت استفاده کند.

آیا از HBM برای برنامه‌های اصلی استفاده می‌شود؟

فن آوری‌ها دارای سابقه‌ای هستند که از لبه حاشیه‌ای شروع می‌شوند و به جریان اصلی میرسند. خنک کننده مایع به عنوان یک مفهوم حاشیه‌ای شروع شد، که بیشتر توسط گیمرهایی استفاده می شد که سعی می‌کردند تا حد امکان عملکرد CPU را افزایش دهند. اکنون هر فروشنده سرور، خنک کننده مایع را برای پردازنده‌های خود، به ویژه پردازنده‌های هوش مصنوعی ارائه می‌دهد.

بنابراین آیا حافظه HBM می‌تواند به جریان اصلی تبدیل شود؟ Macri تخمین می‌زند که تفاوت قیمت بین HBM و DDR5  در ظرفیت یکسان بیش از 2 به 1 است. به عبارت دیگر، 1 گیگابایت HBM دو برابر 1 گیگابایت DDR5 قیمت دارد. بنابراین، او استدلال می‌کند که اگر می‌خواهید این حق بیمه را برای حافظه بپردازید، بازگشت سرمایه را می‌خواهید.

در مقاله رم سرور چیست به بررسی تمامی نسل‌های مموری پرداخته‌ایم که در اینجا مطالعه آن را توصیه می‌کنیم.

در معادله TCO، عملکرد در مخرج است، تمام هزینه‌ها در صورت شمار است. بنابراین اگر عملکرد مضاعف داشته باشید،TCO را دو برابر افزایش می‌دهید، پس عملکرد بهترین راه برای بهبود TCO است. او اضافه می‌کند که برای سادگی استدلال، فرض بر ثابت بودن هزینه هاست.

دانیل نیومن، تحلیلگر اصلی Futurum Research، به دو دلیل انتظار ندارد HBM به جریان اصلی تبدیل شود، اولی هزینه، مشکل دیگر گرما است. اکنون، علاوه بر یک CPU که باید خنک شود، پنج یا چند تراشه حافظه دارید که خنک‌کننده مشابهی دارند. هر پردازنده‌ای که از HBM استفاده می‌کند باید مدیریت حرارت فوق العاده‌ای داشته باشد.

شتاب‌دهنده‌های هوش مصنوعی و HPC، انتظار دارند هم نتایج و هم هزینه‌های خرید و بهره‌برداری مطابقت داشته باشند.

 آیا HBM نیاز به بازنویسی برنامه‌ها دارد؟

با این الگوی حافظه جدید، این سوال پیش می‌آید که آیا HPC و AI به طور خودکار از تمام حافظه HBM استفاده می‌کنند یا نیاز به معماری مجدد است؟ به گفته کارشناسان، همه چیز بستگی به نحوه ساخت برنامه‌های خود در اولین بار دارد.

اغلب توسعه‌دهندگان برنامه‌ها با محدودیت‌های موجود در سیستم کار می‌کنند. بنابراین، گاهی اوقات مجبور می‌شوید دوباره طراحی کنید، یا باید برنامه‌های خود را به‌روزرسانی کنید تا قابلیت‌های جدیدی را که در دسترس هستند، در نظر بگیرید. Macri گفت اگر برنامه‌ای محدود به پهنای باند حافظه باشد، بدون نیاز به بازنویسی سریع‌تر پیش می‌رود. اگر محدود به تأخیر حافظه باشد، به غیر از زمان تأخیر ذاتی بین HBM و حافظه‌ای که با آن مقایسه می‌کنید، سریع‌تر نخواهد رفت. این برنامه باید بازنویسی شود تا وابستگی‌هایی که باعث محدود شدن آن به تأخیر می‌شوند حذف شود.

همچنین، او گفت اگر سیستم با بسیاری از برنامه‌ها به طور همزمان بارگذاری شود، سیستم HBM احتمالاً عملکرد بهتری خواهد داشت حتی اگر برنامه‌ها محدود به تأخیر باشند. این به دلیل این واقعیت است که تأخیر بارگذاری شده برای HBM کمتر خواهد بود. خریا موافق است که بستگی به نحوه نگارش برنامه‌ها دارد. او گفت: اگر برنامه‌های موجود محدودیت‌های مختلفی مانند حافظه یا تأخیر را برطرف کنند، توسعه‌دهندگان باید برنامه‌های خود را دوباره طراحی یا به‌روزرسانی کنند تا قابلیت‌های جدیدی را که در دسترس هستند، در بر گیرند.

آیا HBM نیاز به تغییر از CPU به GPU دارد؟

موضوع دیگر معماری پردازنده است.

جیم هندی، تحلیلگر اصلی با Objective Analysis، یادآوری می‌کند که HBM با پردازنده‌های تک دستوری و چندگانه داده (SIMD) استفاده می‌شود که به طور کلی متفاوت از یک پردازنده سرور معمولی برنامه ریزی می‌شوند X86 و Arm مانند SIMD نیستند. اماGPU ها هستند. هر برنامه‌ای که قبلاً روی یک پردازنده معمولی اجرا می‌شد باید دوباره پیکربندی و کامپایل شود تا از معماری SIMD استفاده کند. این HBM نیست که همه چیز را تغییر می‌دهد، بلکه نوع پردازنده است. فناوری HBM به پیشرفت خود ادامه می‌دهد نسخه فعلی HBM در بازار HBM2E است، اما در ژانویه  JEDECمشخصات نهایی HBM3 را منتشر کرد HBM3 در دمای پایین‌تری نسبت به HBM2E در همان سطح ولتاژ کاری کار می‌کند. HBM3 همچنین با نرخ داده تا 6.4 گیگابیت بر ثانیه، نرخ داده هر پین را نسبت به HBM2 دو برابر می‌کند. همچنین تعداد کانال‌های مستقل را از هشت به 16 دوبرابر می‌کند و بهبودهای عملکرد دیگری نیز وجود دارد.

همه بازیکنان اصلی حافظه Hynix، سامسونگ و Micron در حال کار بر روی HBM3 هستند و محصولات به آرامی در سال جاری وارد بازار خواهند شد و با پردازنده گرافیکی Hopper انویدیا شروع می‌شود. در حال حاضر به نظر می‌رسد استفاده از HBM در بالاترین سطح از موارد استفاده عملکرد باقی مانده است.

Kharya گفت: تعدادی از کارها وجود دارد که ما این CPU [Grace] را برای آنها طراحی کرده‌ایم و برای مثال برای اجرای Excel و Microsoft Office طراحی نشده است، بلکه برای “درخشش در فضای برنامه‌های کاربردی مرکز داده طراحی شده است.”

 

منبع خبر: https://www.networkworld.com/article/high-bandwidth-memory-hdm-delivers-impressive-performance-gains.html

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیشنهاد ویژه نتسا