GeekAlerts

جایی برای گیک‌ها

بررسی کامل ال کاپیتان؛ سریع‌ترین ابرکامپیوتر اگزاسکیل جهان

بررسی کامل ال کاپیتان؛ سریع‌ترین ابرکامپیوتر اگزاسکیل جهان

خلاصه

  • ال کاپیتان رسماً قدرتمندترین ابرکامپیوتر دنیا شد و رکورد ۱.۷۴۲ اگزافلاپس رو ثبت کرد.
  • این غول محاسباتی برای برنامه امنیت هسته‌ای آمریکا و انجام شبیه‌سازی‌های خیلی پیچیده ساخته شده.
  • ال کاپیتان از پردازنده‌های AMD EPYC و GPUهای AMD Instinct MI300A با معماری APU استفاده می‌کنه که CPU و GPU رو روی یه چیپ قرار می‌ده.
  • با شبکه داخلی پیشرفته Slingshot و سیستم خنک‌کننده مایع، خیلی سریع و در عین حال بهینه عمل می‌کنه.
  • فقط ۶۰۰ میلیون دلار هزینه داشته که در مقایسه با سیستم‌های هوش مصنوعی دیگه، از نظر عملکرد به ازای هزینه به‌صرفه‌تره.
  • نقش مهمی در پیشرفت هوش مصنوعی و مدل‌های زبان بزرگ داره و می‌تونه کاربردهای علمی زیادی داشته باشه.
  • فضایی به اندازه دو زمین تنیس رو اشغال کرده و طول کابل‌هاش به ۱۴۵ کیلومتر می‌رسه!
  • این پروژه حاصل سال‌ها کار و همکاری بین وزارت انرژی آمریکا، HPE و AMD بوده.

حتما شنیدی که میگن فلان کامپیوتر خیلی سریعه، اما تا حالا به این فکر کردی که سریع‌ترین کامپیوتر دنیا چه شکلیه و چه کارایی میکنه؟ امروز میخوایم در مورد یه غول واقعی صحبت کنیم، یه ابرکامپیوتر به اسم «ال کاپیتان» (El Capitan) که رسما لقب قدرتمندترین کامپیوتر جهان رو به خودش اختصاص داده. این دستگاه اونقدر سریعه که مغز آدم سوت میکشه و کارهایی انجام میده که تا همین چند سال پیش بیشتر شبیه داستان‌های علمی تخیلی بود. پس اگه آماده‌ای، بیا با هم سفری به دنیای اگزافلاپ‌ها و پتابایت‌ها داشته باشیم و ببینیم این هیولای محاسباتی چی تو چنته داره.

ال کاپیتان: پادشاه جدید دنیای ابرکامپیوترها

ال کاپیتان یه ابرکامپیوتر در مقیاس اگزاسکیل هست که توسط شرکت «هیولت پاکارد اینترپرایز» یا همون HPE ساخته شده. این سیستم غول‌پیکر در «آزمایشگاه ملی لارنس لیورمور» (Lawrence Livermore National Laboratory) توی شهر لیورمور کالیفرنیا در آمریکا قرار داره و از سال ۲۰۲۴ کار خودش رو شروع کرده. معماری اصلی این دستگاه بر پایه پلتفرم معروف «کری ای‌ایکس شستا» (Cray EX Shasta) طراحی شده.

شاید برات جالب باشه که بدونی ال کاپیتان در شصت و چهارمین دوره از لیست معتبر TOP500 که در نوامبر ۲۰۲۴ منتشر شد، تونست ابرکامپیوتر «فرانتیر» (Frontier) رو کنار بزنه و رسما به عنوان سریع‌ترین ابرکامپیوتر جهان معرفی بشه. این سومین سیستم اگزاسکیل هست که توسط ایالات متحده راه‌اندازی شده و نشون میده که رقابت در دنیای محاسبات سطح بالا چقدر جدیه.

اصلا چرا همچین هیولایی ساخته شده؟

شاید بپرسی این همه قدرت و سرعت به چه دردی میخوره؟ هدف اصلی و شماره یک ال کاپیتان، پشتیبانی از یه برنامه خیلی مهم به اسم «برنامه نظارت بر ذخایر استراتژیک» (stockpile stewardship program) هست که توسط «اداره ملی امنیت هسته‌ای» آمریکا (NNSA) مدیریت میشه. به زبان ساده‌تر، این ابرکامپیوتر برای اطمینان از ایمنی، امنیت و قابل اعتماد بودن ذخایر هسته‌ای این کشور بدون نیاز به انجام آزمایش‌های هسته‌ای زیرزمینی استفاده میشه. ال کاپیتان این قابلیت رو به محقق‌ها میده که با شبیه‌سازی‌های فوق‌العاده دقیق، عملکرد این سلاح‌ها رو بررسی و تحلیل کنن.

این دستگاه برای طراحی و نگهداری از زرادخانه مدرن‌شده و همینطور انجام ماموریت‌های حیاتی دیگه در حوزه امنیت ملی ضروریه. اما کار ال کاپیتان فقط به مسائل طبقه‌بندی شده محدود نمیشه. تحقیقاتی که روی این سیستم انجام میشه، از حوزه‌های غیرمحرمانه دیگه‌ای که برای امنیت ملی مهمن هم پشتیبانی میکنه. این حوزه‌ها شامل کشف مواد جدید، فیزیک با چگالی انرژی بالا، داده‌های هسته‌ای، معادلات حالت مواد و حتی طراحی سلاح‌های متعارف میشه.

برای اینکه این سیستم بتونه از تمام پتانسیل محاسباتی خودش استفاده کنه، آزمایشگاه لارنس لیورمور داره روی قابلیت‌های شبیه‌سازی شناختی مثل هوش مصنوعی (AI) و یادگیری ماشین (ML) هم سرمایه‌گذاری میکنه. این تکنیک‌ها هم برای ماموریت‌های طبقه‌بندی شده و هم غیر طبقه‌بندی شده حسابی به کار میان.

نگاهی به قلب تپنده ال کاپیتان: مشخصات فنی

بیا یه کم فنی‌تر به ماجرا نگاه کنیم و ببینیم چه قطعاتی دست به دست هم دادن تا این غول محاسباتی متولد بشه.

پردازنده‌ها: ترکیبی از CPU و GPU

ال کاپیتان از یه ترکیب عظیم شامل ۱۱,۰۳۹,۶۱۶ هسته پردازشی CPU و GPU استفاده میکنه. این مجموعه غول‌پیکر از دو بخش اصلی تشکیل شده:

  • ۴۳,۸۰۸ پردازنده مرکزی (CPU) از نوع AMD EPYC نسل چهارم مدل «Genoa». هر کدوم از این سی‌پی‌یوها ۲۴ هسته با فرکانس ۱.۸ گیگاهرتز دارن که در مجموع میشه ۱,۰۵۱,۳۹۲ هسته سی‌پی‌یو.
  • ۴۳,۸۰۸ پردازنده گرافیکی (GPU) از نوع AMD Instinct MI300A. هر کدوم از این جی‌پی‌یوها ۲۲۸ واحد محاسباتی دارن که در کل میشه ۹,۹۸۸,۲۲۴ واحد محاسباتی. این واحدها خودشون شامل ۶۳۹,۲۴۶,۳۳۶ پردازنده جریانی (stream processors) هستن (هر کدوم ۱۴,۵۹۲ تا).

یکی از ویژگی‌های خیلی خاص ال کاپیتان، استفاده از معماری APU هست. APU مخفف Accelerated Processing Unit یا «واحد پردازش شتاب‌یافته» است. مدل MI300A که در این سیستم استفاده شده، یه طراحی چیپلت سه‌بعدی داره که در اون، هم هسته‌های سی‌پی‌یو مبتنی بر معماری Zen4 (دقیقا ۲۴ هسته) و هم یه جی‌پی‌یو مبتنی بر معماری CDNA3 روی یه پکیج واحد و یکپارچه قرار گرفتن. این یعنی سی‌پی‌یو و جی‌پی‌یو به هم خیلی نزدیکن و میتونن با سرعت فوق‌العاده‌ای با هم ارتباط برقرار کنن. در واقع، اونها یه فضای حافظه مشترک دارن. هر کدوم از این دستگاه‌های MI300A، به ۱۲۸ گیگابایت حافظه HBM3 مجهز شده که با فرکانس ۵.۲ گیگاهرتز کار میکنه و پهنای باند ترکیبی ۵.۳ ترابایت بر ثانیه رو برای سی‌پی‌یو و جی‌پی‌یو فراهم میکنه.

سرعت و عملکرد: دنیای اگزافلاپ‌ها

خب، این همه سخت‌افزار در عمل چقدر سرعت داره؟ ال کاپیتان در بنچمارک استاندارد Linpack تونسته به سرعت ۱.۷۴۲ اگزافلاپس (Rmax) برسه. Rmax به معنی حداکثر عملکرد پایدار در اجرای این بنچمارک هست. اما حداکثر توان تئوری این دستگاه یا همون Rpeak، حتی از این هم بیشتره و به ۲.۷۴۶ اگزافلاپس (طبق یک منبع) یا ۲.۷۹ اگزافلاپس (طبق منبعی دیگر) میرسه.

شاید بپرسی اگزافلاپس یعنی چی؟ یک اگزافلاپس یعنی یک کوئینتیلیون (یک میلیارد میلیارد یا ۱۰ به توان ۱۸) عملیات ممیز شناور در هر ثانیه. برای اینکه درک بهتری داشته باشی، تصور کن که هر آدم روی کره زمین (حدود ۸ میلیارد نفر) یک ماشین حساب داشته باشه و هر ثانیه یک محاسبه انجام بده. برای اینکه همه با هم بتونن به اندازه یک اگزافلاپس محاسبه انجام بدن، باید حدود ۴ سال بی‌وقفه کار کنن! ال کاپیتان این حجم از محاسبات رو در یک ثانیه انجام میده.

جالبه بدونی که ال کاپیتان حدود ۲۲ برابر قدرتمندتر از سریع‌ترین ابرکامپیوتر قبلی آزمایشگاه لارنس لیورمور، یعنی «سیرا» (Sierra) هست. شبیه‌سازی‌های سه‌بعدی پیچیده و با وضوح بالا که روی سیرا هفته‌ها یا حتی ماه‌ها طول میکشید، روی ال کاپیتان فقط در چند ساعت یا چند روز انجام میشه. این یک جهش فوق‌العاده بزرگ در توانایی‌های محاسباتیه.

جزئیات بیشتر از معماری و ساختار ال کاپیتان

ویژگیمشخصات
حامیان مالیوزارت انرژی ایالات متحده (U.S. Department of Energy)
اپراتورهاآزمایشگاه ملی لارنس لیورمور و وزارت انرژی
مکانمجموعه محاسباتی لیورمور (Livermore Computing Complex)
معماریHPE Cray Shasta
مصرف برقحدود ۳۰ مگاوات (MW)
سیستم عاملTOSS (Tri-Lab Operating System Software)
حافظه۵.۴۳۷۵ پتابایت
سرعت (Rmax)۱.۷۴۲ اگزافلاپس
سرعت (Rpeak)۲.۷۴۶ اگزافلاپس
هزینهحدود ۶۰۰ میلیون دلار
رتبه در TOP500رتبه ۱ (ژوئن ۲۰۲۵)

نحوه اتصال قطعات: شبکه اسلینگ‌شات

این همه پردازنده چطوری با هم حرف میزنن؟ بخش‌های مختلف یا همون «تیغه‌ها» (Blades) در ال کاپیتان از طریق یه سوییچ ۶۴ پورت به اسم HPE Slingshot به هم وصل شدن. هر کدوم از این سوییچ‌ها میتونه پهنای باندی معادل ۱۲.۸ ترابیت بر ثانیه رو فراهم کنه. گروه‌های مختلف تیغه‌ها با یه توپولوژی خاص به اسم «سنجاقک» (dragonfly) به هم متصل شدن. این طراحی باعث میشه که بین هر دو نود در کل سیستم، حداکثر سه پرش یا «هاپ» وجود داشته باشه که ارتباط رو خیلی سریع میکنه.

برای این اتصالات از کابل‌های نوری و مسی استفاده شده که طولشون برای به حداقل رسوندن تاخیر، به صورت سفارشی طراحی شده. در مجموع، طول کابل‌کشی در این ابرکامپیوتر به ۱۴۵ کیلومتر میرسه!

ابعاد فیزیکی و خنک‌کنندگی

ال کاپیتان فضای زمینی به مساحت ۷۰۰ متر مربع (۷۵۰۰ فوت مربع) رو اشغال کرده که تقریبا معادل مساحت دو تا زمین تنیسه. این سیستم از حداقل ۸۷ رک محاسباتی تشکیل شده. این رک‌ها شامل آرایه‌های ذخیره‌سازی سریع NVM-Express به اسم «ربیت» (Rabbit) و همچنین نودهای محاسباتی هستن.

با این حجم از پردازش، گرما یه چالش بزرگه. ال کاپیتان از فناوری خنک‌کننده مایع مستقیم و ۱۰۰ درصد بدون فن شرکت HPE استفاده میکنه. این سیستم پیشرفته باعث شده که ال کاپیتان یکی از بهینه‌ترین ابرکامپیوترهای جهان از نظر مصرف انرژی باشه و در لیست Green500 در بین ۲۰ سیستم برتر قرار بگیره. با اینکه مصرف برقش در حالت پیک به حدود ۳۰ مگاوات میرسه (که برای تامین برق یه شهر متوسط کافیه)، اما بازدهی بالایی داره.

سفری در زمان: از ایده تا اجرا

پروژه CORAL-2 و قرارداد ۶۰۰ میلیون دلاری

ال کاپیتان به عنوان بخشی از طرح CORAL-2 وزارت انرژی سفارش داده شد. هدف این طرح، جایگزینی ابرکامپیوتر «سیرا» بود که در سال ۲۰۱۸ توسط IBM و Nvidia ساخته شده بود. در آگوست ۲۰۱۹، وزارت انرژی و NNSA قراردادی به ارزش ۶۰۰ میلیون دلار با شرکت Cray (که بعدا توسط HPE خریداری شد) برای ساخت این ابرکامپیوتر امضا کردن. در اون زمان پیش‌بینی میشد که این سیستم حداقل ۱.۵ اگزافلاپس عملکرد پایدار داشته باشه.

آزمایشگاه لارنس لیورمور برای ساخت این سیستم با HPE Cray و AMD همکاری کرد. این همکاری نشون میده که ساخت ابرکامپیوترهای پیشرفته نیازمند تخصص شرکت‌های مختلف در زمینه‌های گوناگونه.

نمونه‌های اولیه و نصب نهایی

قبل از ساخت سیستم اصلی، چند نمونه اولیه یا «سیستم‌های دسترسی اولیه» ساخته شدن تا تکنولوژی‌های جدید تست بشن. سه تا از این نمونه‌ها به اسم‌های rzVernal، Tioga و Tenaya اونقدر قدرتمند بودن که خودشون در لیست TOP500 ژوئن ۲۰۲۳ قرار گرفتن. برای مثال، rzVernal به سرعت ۴.۱ پتافلاپس رسیده بود.

نصب اولین قطعات ال کاپیتان در اوایل ژوئیه ۲۰۲۳ در آزمایشگاه لارنس لیورمور شروع شد و انتظار میرفت که تا اواسط سال ۲۰۲۴ نصب کامل بشه. در نهایت، تا ۱۸ نوامبر ۲۰۲۴، ال کاپیتان عملیاتی شد و به عنوان سریع‌ترین ابرکامپیوتر جهان تایید شد. مراسم رونمایی و وقف رسمی این ابرکامپیوتر هم در ۹ ژانویه ۲۰۲۵ با حضور مدیران عامل شرکت‌های HPE و AMD، یعنی آنتونیو نری و لیسا سو، برگزار شد.

خواهر و برادرهای ال کاپیتان: سیستم‌های جانبی

  • Tuolumne و RZAdams: این دو سیستم «خواهر و برادر» ال کاپیتان به حساب میان و غیر طبقه‌بندی شده هستن. اونها هم تحت قرارداد ال کاپیتان خریداری شدن و در سال ۲۰۲۴ رسیدن. سیستم Tuolumne که بزرگ‌ترین اونهاست، برای پشتیبانی از پروژه‌های علمی باز مثل امنیت انرژی، شبیه‌سازی زلزله، کشف داروهای سرطان و بقیه حوزه‌های مورد علاقه عموم استفاده میشه. این سیستم با توان ۲۸۸ پتافلاپس، تونسته در رتبه ۱۰ لیست TOP500 قرار بگیره. سیستم RZAdams هم از ماموریت‌های تسلیحاتی و غیرتسلیحاتی پشتیبانی میکنه.
  • El Dorado: این سیستم هم که یه جورایی از خانواده ال کاپیتان محسوب میشه، در «آزمایشگاه‌های ملی ساندیا» (Sandia National Laboratories) نصب شده.

نرم‌افزار: یک استراتژی جدید

یکی از نوآوری‌های ال کاپیتان در بخش نرم‌افزاره. این اولین سیستم از کلاس «سیستم‌های فناوری پیشرفته» برنامه ASC هست که از TOSS یا Tri-Lab Operating System Software استفاده میکنه. TOSS همون محیط و سیستم عاملیه که ماشین‌های معمولی‌تر و تجاری برنامه ASC هم ازش استفاده میکنن. این پیشرفت باعث میشه مدیریت سیستم ساده‌تر بشه و تجربه کاربری برای محقق‌ها بهتر و یکپارچه‌تر باشه.

ال کاپیتان و دنیای هوش مصنوعی

در مراسم رونمایی از ال کاپیتان، مدیران عامل HPE و AMD در مورد تاثیر این ابرکامپیوتر روی طرح‌های هوش مصنوعی شرکت‌هاشون صحبت کردن. آنتونیو نری، مدیرعامل HPE، با اشاره به شباهت‌های بین ال کاپیتان و سیستم‌هایی که برای آموزش هوش مصنوعی استفاده میشن، گفت: «یک اهرم کامل وجود داره». لیسا سو، مدیرعامل AMD، هم این موضوع رو تایید کرد و گفت: «اینها اساسا همون بلوک‌های ساختمانی هستن که به شکل متفاوتی پیکربندی شدن». این حرف‌ها نشون میده که فناوری توسعه داده شده برای ال کاپیتان میتونه به طور مستقیم در تقویت تلاش‌های این شرکت‌ها در حوزه هوش مصنوعی هم به کار بره.

در واقع، ال کاپیتان یه ماشینه که به طور خاص برای اجرای پیچیده‌ترین و سنگین‌ترین شبیه‌سازی‌ها و مدل‌سازی‌ها ساخته شده، اما از قضا در اجرای مدل‌های زبان بزرگ (LLM) که قلب انقلاب هوش مصنوعی مولد (GenAI) هستن هم خیلی خوب عمل میکنه.

یک معامله خوب؟ مقایسه هزینه

یکی از نکات جالبی که کارشناس‌ها بهش اشاره میکنن، هزینه ال کاپیتان در مقایسه با غول‌های فناوریه. در حالی که شرکت‌های بزرگ مثل مایکروسافت، متا و xAI دارن هزینه‌های سرسام‌آوری برای ساخت خوشه‌های هوش مصنوعی با پردازنده‌های گرافیکی «هاپر» انویدیا پرداخت میکنن، به نظر میرسه که آزمایشگاه لارنس لیورمور تونسته یه ابرکامپیوتر فوق‌العاده قدرتمند در حوزه محاسبات علمی و هوش مصنوعی رو با هزینه خیلی کمتری به دست بیاره.

بر اساس برخی محاسبات اولیه، هزینه ال کاپیتان به ازای هر واحد عملکرد FP16 (یکی از معیارهای سنجش توانایی در هوش مصنوعی) تقریبا نصف خوشه‌های بزرگ H100 هست. این نشون میده که سرمایه‌گذاری در معماری‌های جدید و پیشرفته مثل چیزی که در ال کاپیتان میبینیم، میتونه از نظر اقتصادی هم خیلی به صرفه باشه.

نگاهی دقیق‌تر به گره‌های محاسباتی

بیایید یه کم عمیق‌تر به ساختار یک «نود» یا گره محاسباتی در ال کاپیتان نگاه کنیم. هر نود در این سیستم شامل چهار دستگاه MI300A هست. این چهار دستگاه از طریق چهار پورت Infinity Fabric x16 به هم متصل شدن. این اتصال حافظه منسجم (memory coherent) رو بین این چهار APU فراهم میکنه و هر پورت پهنای باند ترکیبی ۱۲۸ گیگابایت بر ثانیه داره.

علاوه بر این، از هر APU یک پورت دیگه هم خارج میشه که میتونه به عنوان یه اسلات PCI-Express 5.0 x16 یا یه اسلات Infinity Fabric x16 پیکربندی بشه. در ال کاپیتان، این پورت‌ها به عنوان PCI-Express تنظیم شدن تا کارت‌های شبکه اسلینگ‌شات ۱۱ به اونها وصل بشن و ارتباط بین APUها در کل سیستم رو برقرار کنن.

یک نکته جالب در طراحی اینه که نسبت یک به یک بین سی‌پی‌یو و شتاب‌دهنده حفظ شده. در ابرکامپیوتر «فرانتیر» هم همین نسبت وجود داشت. این تعادل در طراحی، احتمالا تصادفی نیست و در نسل‌های مختلف ابرکامپیوترهای Cray دیده شده. به نوعی، میشه گفت هر دستگاه MI300A مثل یک سرور ۶ مسیره با سی‌پی‌یو X86 هست که به یه سیستم ۶ مسیره با جی‌پی‌یو متصل شده.

آیا ال کاپیتان از این هم سریع‌تر میشه؟

وقتی ال کاپیتان در بنچمارک Linpack تست شد، از ۴۳,۸۰۸ دستگاه APU از مجموع ۴۴,۵۴۴ دستگاه موجود در ماشین استفاده شد. این یعنی حدود ۹۸.۳ درصد از ظرفیت فیزیکی دستگاه به کار گرفته شد و به سرعت ۱.۷۴۲ اگزافلاپس رسید. جالبه بدونی اون بخش کوچیکی از عملکرد که در روند گرد کردن اعداد حذف میشه، خودش به اندازه یه ابرکامپیوتر بزرگه. مثلا ۴۶ پتافلاپس آخر عملکرد این سیستم، از ۳۴ تا از ابرکامپیوترهای لیست TOP500 نوامبر ۲۰۲۴ بزرگ‌تره!

کارشناس‌ها معتقدن اگه آزمایشگاه لارنس لیورمور بتونه بنچمارک HPL رو روی تمام APUهای سیستم اجرا کنه، عملکرد دستگاه حدود ۱.۶۵ درصد دیگه افزایش پیدا میکنه. علاوه بر این، با بهبود هماهنگی بین محاسبات، حافظه و شبکه، ممکنه بشه عملکرد رو حدود ۵ درصد دیگه هم بالا برد. اگه در مجموع بشه این بهبودها رو تا ۷.۵ درصد رسوند، ظرفیت HPL این ماشین از مرز ۳ اگزافلاپس عبور خواهد کرد. رسیدن به این عدد، یعنی دو برابر عملکردی که پنج سال پیش در ابتدای پروژه انتظار میرفت، اون هم در زمان و بودجه تعیین شده، که یک دستاورد فوق‌العاده محسوب میشه.

منابع

  • [۲] “El Capitan” Supercomputer Blazes The Trail for Converged CPU-GPU Compute
  • [۴] El Capitan | HPC @ LLNL
  • [۶] El Capitan Supercomputer at Lawrence Livermore National Lab | HPE India
  • [۸] www.livescience.com
  • [۱۰] DOE’s NNSA signs $600 million contract to build its first exascale supercomputer | Department of Energy
  • [۱] El Capitan (supercomputer) – Wikipedia
  • [۳] El Capitan: NNSA’s first exascale machine | Advanced Simulation and Computing
  • [۵] Lawrence Livermore National Laboratory’s El Capitan verified as world’s fastest supercomputer | Lawrence Livermore National Laboratory
  • [۷] El Capitan ranked the most powerful supercomputer in the world : r/technology
  • [۹] El Capitan Supercomputer at Lawrence Livermore National Lab | HPE

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *