خلاصه
- ال کاپیتان رسماً قدرتمندترین ابرکامپیوتر دنیا شد و رکورد ۱.۷۴۲ اگزافلاپس رو ثبت کرد.
- این غول محاسباتی برای برنامه امنیت هستهای آمریکا و انجام شبیهسازیهای خیلی پیچیده ساخته شده.
- ال کاپیتان از پردازندههای AMD EPYC و GPUهای AMD Instinct MI300A با معماری APU استفاده میکنه که CPU و GPU رو روی یه چیپ قرار میده.
- با شبکه داخلی پیشرفته Slingshot و سیستم خنککننده مایع، خیلی سریع و در عین حال بهینه عمل میکنه.
- فقط ۶۰۰ میلیون دلار هزینه داشته که در مقایسه با سیستمهای هوش مصنوعی دیگه، از نظر عملکرد به ازای هزینه بهصرفهتره.
- نقش مهمی در پیشرفت هوش مصنوعی و مدلهای زبان بزرگ داره و میتونه کاربردهای علمی زیادی داشته باشه.
- فضایی به اندازه دو زمین تنیس رو اشغال کرده و طول کابلهاش به ۱۴۵ کیلومتر میرسه!
- این پروژه حاصل سالها کار و همکاری بین وزارت انرژی آمریکا، HPE و AMD بوده.
حتما شنیدی که میگن فلان کامپیوتر خیلی سریعه، اما تا حالا به این فکر کردی که سریعترین کامپیوتر دنیا چه شکلیه و چه کارایی میکنه؟ امروز میخوایم در مورد یه غول واقعی صحبت کنیم، یه ابرکامپیوتر به اسم «ال کاپیتان» (El Capitan) که رسما لقب قدرتمندترین کامپیوتر جهان رو به خودش اختصاص داده. این دستگاه اونقدر سریعه که مغز آدم سوت میکشه و کارهایی انجام میده که تا همین چند سال پیش بیشتر شبیه داستانهای علمی تخیلی بود. پس اگه آمادهای، بیا با هم سفری به دنیای اگزافلاپها و پتابایتها داشته باشیم و ببینیم این هیولای محاسباتی چی تو چنته داره.
ال کاپیتان: پادشاه جدید دنیای ابرکامپیوترها
ال کاپیتان یه ابرکامپیوتر در مقیاس اگزاسکیل هست که توسط شرکت «هیولت پاکارد اینترپرایز» یا همون HPE ساخته شده. این سیستم غولپیکر در «آزمایشگاه ملی لارنس لیورمور» (Lawrence Livermore National Laboratory) توی شهر لیورمور کالیفرنیا در آمریکا قرار داره و از سال ۲۰۲۴ کار خودش رو شروع کرده. معماری اصلی این دستگاه بر پایه پلتفرم معروف «کری ایایکس شستا» (Cray EX Shasta) طراحی شده.
شاید برات جالب باشه که بدونی ال کاپیتان در شصت و چهارمین دوره از لیست معتبر TOP500 که در نوامبر ۲۰۲۴ منتشر شد، تونست ابرکامپیوتر «فرانتیر» (Frontier) رو کنار بزنه و رسما به عنوان سریعترین ابرکامپیوتر جهان معرفی بشه. این سومین سیستم اگزاسکیل هست که توسط ایالات متحده راهاندازی شده و نشون میده که رقابت در دنیای محاسبات سطح بالا چقدر جدیه.
اصلا چرا همچین هیولایی ساخته شده؟
شاید بپرسی این همه قدرت و سرعت به چه دردی میخوره؟ هدف اصلی و شماره یک ال کاپیتان، پشتیبانی از یه برنامه خیلی مهم به اسم «برنامه نظارت بر ذخایر استراتژیک» (stockpile stewardship program) هست که توسط «اداره ملی امنیت هستهای» آمریکا (NNSA) مدیریت میشه. به زبان سادهتر، این ابرکامپیوتر برای اطمینان از ایمنی، امنیت و قابل اعتماد بودن ذخایر هستهای این کشور بدون نیاز به انجام آزمایشهای هستهای زیرزمینی استفاده میشه. ال کاپیتان این قابلیت رو به محققها میده که با شبیهسازیهای فوقالعاده دقیق، عملکرد این سلاحها رو بررسی و تحلیل کنن.
این دستگاه برای طراحی و نگهداری از زرادخانه مدرنشده و همینطور انجام ماموریتهای حیاتی دیگه در حوزه امنیت ملی ضروریه. اما کار ال کاپیتان فقط به مسائل طبقهبندی شده محدود نمیشه. تحقیقاتی که روی این سیستم انجام میشه، از حوزههای غیرمحرمانه دیگهای که برای امنیت ملی مهمن هم پشتیبانی میکنه. این حوزهها شامل کشف مواد جدید، فیزیک با چگالی انرژی بالا، دادههای هستهای، معادلات حالت مواد و حتی طراحی سلاحهای متعارف میشه.
برای اینکه این سیستم بتونه از تمام پتانسیل محاسباتی خودش استفاده کنه، آزمایشگاه لارنس لیورمور داره روی قابلیتهای شبیهسازی شناختی مثل هوش مصنوعی (AI) و یادگیری ماشین (ML) هم سرمایهگذاری میکنه. این تکنیکها هم برای ماموریتهای طبقهبندی شده و هم غیر طبقهبندی شده حسابی به کار میان.
نگاهی به قلب تپنده ال کاپیتان: مشخصات فنی
بیا یه کم فنیتر به ماجرا نگاه کنیم و ببینیم چه قطعاتی دست به دست هم دادن تا این غول محاسباتی متولد بشه.
پردازندهها: ترکیبی از CPU و GPU
ال کاپیتان از یه ترکیب عظیم شامل ۱۱,۰۳۹,۶۱۶ هسته پردازشی CPU و GPU استفاده میکنه. این مجموعه غولپیکر از دو بخش اصلی تشکیل شده:
- ۴۳,۸۰۸ پردازنده مرکزی (CPU) از نوع AMD EPYC نسل چهارم مدل «Genoa». هر کدوم از این سیپییوها ۲۴ هسته با فرکانس ۱.۸ گیگاهرتز دارن که در مجموع میشه ۱,۰۵۱,۳۹۲ هسته سیپییو.
- ۴۳,۸۰۸ پردازنده گرافیکی (GPU) از نوع AMD Instinct MI300A. هر کدوم از این جیپییوها ۲۲۸ واحد محاسباتی دارن که در کل میشه ۹,۹۸۸,۲۲۴ واحد محاسباتی. این واحدها خودشون شامل ۶۳۹,۲۴۶,۳۳۶ پردازنده جریانی (stream processors) هستن (هر کدوم ۱۴,۵۹۲ تا).
یکی از ویژگیهای خیلی خاص ال کاپیتان، استفاده از معماری APU هست. APU مخفف Accelerated Processing Unit یا «واحد پردازش شتابیافته» است. مدل MI300A که در این سیستم استفاده شده، یه طراحی چیپلت سهبعدی داره که در اون، هم هستههای سیپییو مبتنی بر معماری Zen4 (دقیقا ۲۴ هسته) و هم یه جیپییو مبتنی بر معماری CDNA3 روی یه پکیج واحد و یکپارچه قرار گرفتن. این یعنی سیپییو و جیپییو به هم خیلی نزدیکن و میتونن با سرعت فوقالعادهای با هم ارتباط برقرار کنن. در واقع، اونها یه فضای حافظه مشترک دارن. هر کدوم از این دستگاههای MI300A، به ۱۲۸ گیگابایت حافظه HBM3 مجهز شده که با فرکانس ۵.۲ گیگاهرتز کار میکنه و پهنای باند ترکیبی ۵.۳ ترابایت بر ثانیه رو برای سیپییو و جیپییو فراهم میکنه.
سرعت و عملکرد: دنیای اگزافلاپها
خب، این همه سختافزار در عمل چقدر سرعت داره؟ ال کاپیتان در بنچمارک استاندارد Linpack تونسته به سرعت ۱.۷۴۲ اگزافلاپس (Rmax) برسه. Rmax به معنی حداکثر عملکرد پایدار در اجرای این بنچمارک هست. اما حداکثر توان تئوری این دستگاه یا همون Rpeak، حتی از این هم بیشتره و به ۲.۷۴۶ اگزافلاپس (طبق یک منبع) یا ۲.۷۹ اگزافلاپس (طبق منبعی دیگر) میرسه.
شاید بپرسی اگزافلاپس یعنی چی؟ یک اگزافلاپس یعنی یک کوئینتیلیون (یک میلیارد میلیارد یا ۱۰ به توان ۱۸) عملیات ممیز شناور در هر ثانیه. برای اینکه درک بهتری داشته باشی، تصور کن که هر آدم روی کره زمین (حدود ۸ میلیارد نفر) یک ماشین حساب داشته باشه و هر ثانیه یک محاسبه انجام بده. برای اینکه همه با هم بتونن به اندازه یک اگزافلاپس محاسبه انجام بدن، باید حدود ۴ سال بیوقفه کار کنن! ال کاپیتان این حجم از محاسبات رو در یک ثانیه انجام میده.
جالبه بدونی که ال کاپیتان حدود ۲۲ برابر قدرتمندتر از سریعترین ابرکامپیوتر قبلی آزمایشگاه لارنس لیورمور، یعنی «سیرا» (Sierra) هست. شبیهسازیهای سهبعدی پیچیده و با وضوح بالا که روی سیرا هفتهها یا حتی ماهها طول میکشید، روی ال کاپیتان فقط در چند ساعت یا چند روز انجام میشه. این یک جهش فوقالعاده بزرگ در تواناییهای محاسباتیه.
جزئیات بیشتر از معماری و ساختار ال کاپیتان
ویژگی | مشخصات |
---|---|
حامیان مالی | وزارت انرژی ایالات متحده (U.S. Department of Energy) |
اپراتورها | آزمایشگاه ملی لارنس لیورمور و وزارت انرژی |
مکان | مجموعه محاسباتی لیورمور (Livermore Computing Complex) |
معماری | HPE Cray Shasta |
مصرف برق | حدود ۳۰ مگاوات (MW) |
سیستم عامل | TOSS (Tri-Lab Operating System Software) |
حافظه | ۵.۴۳۷۵ پتابایت |
سرعت (Rmax) | ۱.۷۴۲ اگزافلاپس |
سرعت (Rpeak) | ۲.۷۴۶ اگزافلاپس |
هزینه | حدود ۶۰۰ میلیون دلار |
رتبه در TOP500 | رتبه ۱ (ژوئن ۲۰۲۵) |
نحوه اتصال قطعات: شبکه اسلینگشات
این همه پردازنده چطوری با هم حرف میزنن؟ بخشهای مختلف یا همون «تیغهها» (Blades) در ال کاپیتان از طریق یه سوییچ ۶۴ پورت به اسم HPE Slingshot به هم وصل شدن. هر کدوم از این سوییچها میتونه پهنای باندی معادل ۱۲.۸ ترابیت بر ثانیه رو فراهم کنه. گروههای مختلف تیغهها با یه توپولوژی خاص به اسم «سنجاقک» (dragonfly) به هم متصل شدن. این طراحی باعث میشه که بین هر دو نود در کل سیستم، حداکثر سه پرش یا «هاپ» وجود داشته باشه که ارتباط رو خیلی سریع میکنه.
برای این اتصالات از کابلهای نوری و مسی استفاده شده که طولشون برای به حداقل رسوندن تاخیر، به صورت سفارشی طراحی شده. در مجموع، طول کابلکشی در این ابرکامپیوتر به ۱۴۵ کیلومتر میرسه!
ابعاد فیزیکی و خنککنندگی
ال کاپیتان فضای زمینی به مساحت ۷۰۰ متر مربع (۷۵۰۰ فوت مربع) رو اشغال کرده که تقریبا معادل مساحت دو تا زمین تنیسه. این سیستم از حداقل ۸۷ رک محاسباتی تشکیل شده. این رکها شامل آرایههای ذخیرهسازی سریع NVM-Express به اسم «ربیت» (Rabbit) و همچنین نودهای محاسباتی هستن.
با این حجم از پردازش، گرما یه چالش بزرگه. ال کاپیتان از فناوری خنککننده مایع مستقیم و ۱۰۰ درصد بدون فن شرکت HPE استفاده میکنه. این سیستم پیشرفته باعث شده که ال کاپیتان یکی از بهینهترین ابرکامپیوترهای جهان از نظر مصرف انرژی باشه و در لیست Green500 در بین ۲۰ سیستم برتر قرار بگیره. با اینکه مصرف برقش در حالت پیک به حدود ۳۰ مگاوات میرسه (که برای تامین برق یه شهر متوسط کافیه)، اما بازدهی بالایی داره.
سفری در زمان: از ایده تا اجرا
پروژه CORAL-2 و قرارداد ۶۰۰ میلیون دلاری
ال کاپیتان به عنوان بخشی از طرح CORAL-2 وزارت انرژی سفارش داده شد. هدف این طرح، جایگزینی ابرکامپیوتر «سیرا» بود که در سال ۲۰۱۸ توسط IBM و Nvidia ساخته شده بود. در آگوست ۲۰۱۹، وزارت انرژی و NNSA قراردادی به ارزش ۶۰۰ میلیون دلار با شرکت Cray (که بعدا توسط HPE خریداری شد) برای ساخت این ابرکامپیوتر امضا کردن. در اون زمان پیشبینی میشد که این سیستم حداقل ۱.۵ اگزافلاپس عملکرد پایدار داشته باشه.
آزمایشگاه لارنس لیورمور برای ساخت این سیستم با HPE Cray و AMD همکاری کرد. این همکاری نشون میده که ساخت ابرکامپیوترهای پیشرفته نیازمند تخصص شرکتهای مختلف در زمینههای گوناگونه.
نمونههای اولیه و نصب نهایی
قبل از ساخت سیستم اصلی، چند نمونه اولیه یا «سیستمهای دسترسی اولیه» ساخته شدن تا تکنولوژیهای جدید تست بشن. سه تا از این نمونهها به اسمهای rzVernal، Tioga و Tenaya اونقدر قدرتمند بودن که خودشون در لیست TOP500 ژوئن ۲۰۲۳ قرار گرفتن. برای مثال، rzVernal به سرعت ۴.۱ پتافلاپس رسیده بود.
نصب اولین قطعات ال کاپیتان در اوایل ژوئیه ۲۰۲۳ در آزمایشگاه لارنس لیورمور شروع شد و انتظار میرفت که تا اواسط سال ۲۰۲۴ نصب کامل بشه. در نهایت، تا ۱۸ نوامبر ۲۰۲۴، ال کاپیتان عملیاتی شد و به عنوان سریعترین ابرکامپیوتر جهان تایید شد. مراسم رونمایی و وقف رسمی این ابرکامپیوتر هم در ۹ ژانویه ۲۰۲۵ با حضور مدیران عامل شرکتهای HPE و AMD، یعنی آنتونیو نری و لیسا سو، برگزار شد.
خواهر و برادرهای ال کاپیتان: سیستمهای جانبی
- Tuolumne و RZAdams: این دو سیستم «خواهر و برادر» ال کاپیتان به حساب میان و غیر طبقهبندی شده هستن. اونها هم تحت قرارداد ال کاپیتان خریداری شدن و در سال ۲۰۲۴ رسیدن. سیستم Tuolumne که بزرگترین اونهاست، برای پشتیبانی از پروژههای علمی باز مثل امنیت انرژی، شبیهسازی زلزله، کشف داروهای سرطان و بقیه حوزههای مورد علاقه عموم استفاده میشه. این سیستم با توان ۲۸۸ پتافلاپس، تونسته در رتبه ۱۰ لیست TOP500 قرار بگیره. سیستم RZAdams هم از ماموریتهای تسلیحاتی و غیرتسلیحاتی پشتیبانی میکنه.
- El Dorado: این سیستم هم که یه جورایی از خانواده ال کاپیتان محسوب میشه، در «آزمایشگاههای ملی ساندیا» (Sandia National Laboratories) نصب شده.
نرمافزار: یک استراتژی جدید
یکی از نوآوریهای ال کاپیتان در بخش نرمافزاره. این اولین سیستم از کلاس «سیستمهای فناوری پیشرفته» برنامه ASC هست که از TOSS یا Tri-Lab Operating System Software استفاده میکنه. TOSS همون محیط و سیستم عاملیه که ماشینهای معمولیتر و تجاری برنامه ASC هم ازش استفاده میکنن. این پیشرفت باعث میشه مدیریت سیستم سادهتر بشه و تجربه کاربری برای محققها بهتر و یکپارچهتر باشه.
ال کاپیتان و دنیای هوش مصنوعی
در مراسم رونمایی از ال کاپیتان، مدیران عامل HPE و AMD در مورد تاثیر این ابرکامپیوتر روی طرحهای هوش مصنوعی شرکتهاشون صحبت کردن. آنتونیو نری، مدیرعامل HPE، با اشاره به شباهتهای بین ال کاپیتان و سیستمهایی که برای آموزش هوش مصنوعی استفاده میشن، گفت: «یک اهرم کامل وجود داره». لیسا سو، مدیرعامل AMD، هم این موضوع رو تایید کرد و گفت: «اینها اساسا همون بلوکهای ساختمانی هستن که به شکل متفاوتی پیکربندی شدن». این حرفها نشون میده که فناوری توسعه داده شده برای ال کاپیتان میتونه به طور مستقیم در تقویت تلاشهای این شرکتها در حوزه هوش مصنوعی هم به کار بره.
در واقع، ال کاپیتان یه ماشینه که به طور خاص برای اجرای پیچیدهترین و سنگینترین شبیهسازیها و مدلسازیها ساخته شده، اما از قضا در اجرای مدلهای زبان بزرگ (LLM) که قلب انقلاب هوش مصنوعی مولد (GenAI) هستن هم خیلی خوب عمل میکنه.
یک معامله خوب؟ مقایسه هزینه
یکی از نکات جالبی که کارشناسها بهش اشاره میکنن، هزینه ال کاپیتان در مقایسه با غولهای فناوریه. در حالی که شرکتهای بزرگ مثل مایکروسافت، متا و xAI دارن هزینههای سرسامآوری برای ساخت خوشههای هوش مصنوعی با پردازندههای گرافیکی «هاپر» انویدیا پرداخت میکنن، به نظر میرسه که آزمایشگاه لارنس لیورمور تونسته یه ابرکامپیوتر فوقالعاده قدرتمند در حوزه محاسبات علمی و هوش مصنوعی رو با هزینه خیلی کمتری به دست بیاره.
بر اساس برخی محاسبات اولیه، هزینه ال کاپیتان به ازای هر واحد عملکرد FP16 (یکی از معیارهای سنجش توانایی در هوش مصنوعی) تقریبا نصف خوشههای بزرگ H100 هست. این نشون میده که سرمایهگذاری در معماریهای جدید و پیشرفته مثل چیزی که در ال کاپیتان میبینیم، میتونه از نظر اقتصادی هم خیلی به صرفه باشه.
نگاهی دقیقتر به گرههای محاسباتی
بیایید یه کم عمیقتر به ساختار یک «نود» یا گره محاسباتی در ال کاپیتان نگاه کنیم. هر نود در این سیستم شامل چهار دستگاه MI300A هست. این چهار دستگاه از طریق چهار پورت Infinity Fabric x16 به هم متصل شدن. این اتصال حافظه منسجم (memory coherent) رو بین این چهار APU فراهم میکنه و هر پورت پهنای باند ترکیبی ۱۲۸ گیگابایت بر ثانیه داره.
علاوه بر این، از هر APU یک پورت دیگه هم خارج میشه که میتونه به عنوان یه اسلات PCI-Express 5.0 x16 یا یه اسلات Infinity Fabric x16 پیکربندی بشه. در ال کاپیتان، این پورتها به عنوان PCI-Express تنظیم شدن تا کارتهای شبکه اسلینگشات ۱۱ به اونها وصل بشن و ارتباط بین APUها در کل سیستم رو برقرار کنن.
یک نکته جالب در طراحی اینه که نسبت یک به یک بین سیپییو و شتابدهنده حفظ شده. در ابرکامپیوتر «فرانتیر» هم همین نسبت وجود داشت. این تعادل در طراحی، احتمالا تصادفی نیست و در نسلهای مختلف ابرکامپیوترهای Cray دیده شده. به نوعی، میشه گفت هر دستگاه MI300A مثل یک سرور ۶ مسیره با سیپییو X86 هست که به یه سیستم ۶ مسیره با جیپییو متصل شده.
آیا ال کاپیتان از این هم سریعتر میشه؟
وقتی ال کاپیتان در بنچمارک Linpack تست شد، از ۴۳,۸۰۸ دستگاه APU از مجموع ۴۴,۵۴۴ دستگاه موجود در ماشین استفاده شد. این یعنی حدود ۹۸.۳ درصد از ظرفیت فیزیکی دستگاه به کار گرفته شد و به سرعت ۱.۷۴۲ اگزافلاپس رسید. جالبه بدونی اون بخش کوچیکی از عملکرد که در روند گرد کردن اعداد حذف میشه، خودش به اندازه یه ابرکامپیوتر بزرگه. مثلا ۴۶ پتافلاپس آخر عملکرد این سیستم، از ۳۴ تا از ابرکامپیوترهای لیست TOP500 نوامبر ۲۰۲۴ بزرگتره!
کارشناسها معتقدن اگه آزمایشگاه لارنس لیورمور بتونه بنچمارک HPL رو روی تمام APUهای سیستم اجرا کنه، عملکرد دستگاه حدود ۱.۶۵ درصد دیگه افزایش پیدا میکنه. علاوه بر این، با بهبود هماهنگی بین محاسبات، حافظه و شبکه، ممکنه بشه عملکرد رو حدود ۵ درصد دیگه هم بالا برد. اگه در مجموع بشه این بهبودها رو تا ۷.۵ درصد رسوند، ظرفیت HPL این ماشین از مرز ۳ اگزافلاپس عبور خواهد کرد. رسیدن به این عدد، یعنی دو برابر عملکردی که پنج سال پیش در ابتدای پروژه انتظار میرفت، اون هم در زمان و بودجه تعیین شده، که یک دستاورد فوقالعاده محسوب میشه.
منابع
- [۲] “El Capitan” Supercomputer Blazes The Trail for Converged CPU-GPU Compute
- [۴] El Capitan | HPC @ LLNL
- [۶] El Capitan Supercomputer at Lawrence Livermore National Lab | HPE India
- [۸] www.livescience.com
- [۱۰] DOE’s NNSA signs $600 million contract to build its first exascale supercomputer | Department of Energy
- [۱] El Capitan (supercomputer) – Wikipedia
- [۳] El Capitan: NNSA’s first exascale machine | Advanced Simulation and Computing
- [۵] Lawrence Livermore National Laboratory’s El Capitan verified as world’s fastest supercomputer | Lawrence Livermore National Laboratory
- [۷] El Capitan ranked the most powerful supercomputer in the world : r/technology
- [۹] El Capitan Supercomputer at Lawrence Livermore National Lab | HPE
دیدگاهتان را بنویسید