معرفی خانواده مدل‌های GLM-4.5

مدت زمان مطالعه: حدود ۱۸ دقیقه
اهداف:
- آشنایی کامل با مدل‌های GLM-4.5 و GLM-4.5-Air
- درک قابلیت‌های اصلی این مدل‌ها در استدلال، کدنویسی و کارهای ایجنت‌محور
- آشنایی با معماری فنی، فرایند آموزش و نحوه ارزیابی عملکرد آنها

سلام به همه علاقه‌مندان به دنیای هوش مصنوعی. امروز قراره با هم سراغ یکی از مدل‌های جدید و مهم بریم و تمام جزئیاتش رو کالبدشکافی کنیم. صحبت از خانواده مدل‌های GLM-4.5 هست که توسط آزمایشگاه هوش مصنوعی Z.ai (که قبلا با اسم Zhipu AI می‌شناختیمش) معرفی شده. این مدل‌ها با هدف مشخصی طراحی شدن و حرف‌های زیادی برای گفتن دارن. پس بیاید بدون معطلی بریم سر اصل مطلب و ببینیم این خانواده جدید چه چیزهایی در چنته داره.

فصل اول: معرفی کلی و رونمایی از خانواده GLM-4.5

شرکت Z.ai به تازگی دو عضو جدید از خانواده مدل‌های زبانی خودش رو معرفی کرده: GLM-4.5 و GLM-4.5-Air. اینها مدل‌های پرچمدار جدید این شرکت به حساب میان و برای کارهای پیچیده‌ای مثل کاربردهای ایجنت‌های هوشمند (Intelligent Agents) طراحی شدن.

برای اینکه یه دید کلی از اندازه این مدل‌ها داشته باشیم، بهتره به اعداد و ارقامشون نگاه کنیم:

GLM-4.5: این مدل در مجموع ۳۵۵ میلیارد پارامتر داره که از این تعداد، ۳۲ میلیارد پارامتر در هر لحظه فعال هستن.
GLM-4.5-Air: این مدل طراحی فشرده‌تری داره و در مجموع شامل ۱۰۶ میلیارد پارامتره که ۱۲ میلیارد از اونها فعال هستن.

هدف اصلی از ساخت این دو مدل، ترکیب کردن قابلیت‌های کلیدی مثل استدلال، کدنویسی و توانایی‌های ایجنت‌محور در یک مدل واحد بوده. این کار برای پاسخگویی به نیازهای پیچیده و روزافزون برنامه‌های مبتنی بر ایجنت انجام شده.

یکی از ویژگی‌های جالب این دو مدل اینه که هر دو مدل‌های استدلال ترکیبی یا «Hybrid Reasoning» هستن. این یعنی دو حالت کاری مختلف ارائه میدن:

حالت تفکر (Thinking mode): برای کارهای پیچیده که نیاز به استدلال و استفاده از ابزار دارن.
حالت بدون تفکر (Non-thinking mode): برای پاسخ‌های سریع و فوری.

خبر خوب برای توسعه‌دهنده‌ها اینه که مدل‌های پایه، مدل‌های استدلال ترکیبی و حتی نسخه‌های FP8 این مدل‌ها به صورت متن‌باز (Open-Source) و تحت مجوز MIT منتشر شدن. این یعنی هر کسی میتونه به صورت تجاری از اونها استفاده کنه یا بر اساس اونها مدل‌های جدیدی توسعه بده. این یه تغییر بزرگ نسبت به مجوزهای سفارشی و غیر متن‌باز قدیمی این شرکت محسوب میشه.

فصل دوم: چرا اصلا GLM-4.5 ساخته شد؟ (هدف و پس‌زمینه)

برای اینکه درک کنیم چرا مدلی مثل GLM-4.5 مهمه، باید یه قدم به عقب برگردیم. هدف نهایی مدل‌های زبانی بزرگ (LLM) همیشه رسیدن به توانایی‌های شناختی در سطح انسانه؛ یعنی بتونن طیف وسیعی از مسائل رو حل کنن، نه اینکه فقط برای یک کار خاص طراحی شده باشن. یک مدل زبانی خوب باید بتونه از پس حل مسئله عمومی، تعمیم دادن، استدلال بر اساس عقل سلیم و حتی خودبهبودی بربیاد.

در طول پنج سال گذشته، مدل‌هایی مثل GPT-3 از OpenAI تلاش کردن تا دانش عقل سلیم رو یاد بگیرن و مدل o1 هم از یادگیری تقویتی استفاده کرد تا قبل از جواب دادن «فکر کنه». این کارها مهارت‌های استدلال رو در زمینه‌هایی مثل کدنویسی، تحلیل داده و ریاضیات پیچیده خیلی بهتر کرد. اما مشکل اینجا بود که مدل‌های حاصل هنوز واقعا «عمومی» نبودن. بعضی‌هاشون در کدنویسی عالی بودن، بعضی در ریاضیات و بعضی در استدلال، اما هیچکدوم نمیتونست در تمام این زمینه‌ها بهترین عملکرد رو داشته باشه. مدل GLM-4.5 تلاشی در جهت یکپارچه کردن تمام این قابلیت‌های مختلف در یک مدل واحد به حساب میاد.

فصل سوم: بررسی عملکرد در بنچمارک‌ها

حالا میرسیم به بخش هیجان‌انگیز ماجرا یعنی مقایسه و ارزیابی. تیم Z.ai مدل‌های خودش رو در ۱۲ بنچمارک استاندارد صنعتی با مدل‌های مختلفی از شرکت‌هایی مثل OpenAI، Anthropic، Google DeepMind، xAI، Alibaba، Moonshot و DeepSeek مقایسه کرده. این بنچمارک‌ها سه حوزه اصلی رو پوشش میدن: کارهای ایجنت‌محور (۳ بنچمارک)، استدلال (۷ بنچمارک) و کدنویسی (۲ بنچمارک).

در رده‌بندی کلی، GLM-4.5 تونسته رتبه سوم رو در بین تمام مدل‌های متن‌باز و اختصاصی کسب کنه. مدل سبک‌تر یعنی GLM-4.5-Air هم با کسب رتبه ششم، عملکرد رقابتی‌ای از خودش نشون داده. جالبه بدونید که در این مقایسه‌ها، مدل‌های مهمی مثل سری Llama از شرکت Meta یا مدل‌های Mistral حضور نداشتن. این موضوع این سوال رو ایجاد میکنه که آیا این شرکت عمدا فقط خودش رو با مدل‌های متن‌باز آزمایشگاه‌های هوش مصنوعی چینی مقایسه کرده یا نه.

بیاین جزئیات عملکرد رو در هر حوزه جداگانه بررسی کنیم.

۱. کارهای ایجنت‌محور (Agentic Tasks)

مدل GLM-4.5 به عنوان یک مدل پایه برای کارهای ایجنت‌محور بهینه‌سازی شده. این مدل از طول محتوای (Context Length) ۱۲۸ هزار توکن و قابلیت فراخوانی تابع (Function Calling) به صورت بومی پشتیبانی میکنه. این دو ویژگی امروزه برای هر مدلی که در سال ۲۰۲۵ منتشر میشه، تقریبا از موارد استاندارد و اولیه به حساب میاد.

برای سنجش توانایی ایجنت این مدل، از دو بنچمارک 𝜏-bench و BFCL-v3 استفاده شده. در هر دوی این بنچمارک‌ها، GLM-4.5 عملکردی مشابه مدل Claude 4 Sonnet داشته.

یکی از کاربردهای محبوب ایجنت‌ها، وب‌گردی (Web browsing) هست که به استدلال پیچیده و استفاده چند مرحله‌ای از ابزارها نیاز داره. برای ارزیابی این قابلیت، از بنچمارک BrowseComp استفاده شده. این بنچمارک شامل سوالات پیچیده‌ای هست که انتظار جواب‌های کوتاه رو دارن. در این آزمون، GLM-4.5 با دسترسی به ابزار وب‌گردی تونست به ۲۶.۴ درصد از سوالات پاسخ صحیح بده. این نتیجه به وضوح از Claude-4-Opus (با ۱۸.۸ درصد) بهتره و به o4-mini-high (با ۲۸.۳ درصد) نزدیکه.

نتایج کامل مقایسه در کارهای ایجنت‌محور در جدول زیر اومده:

بنچمارک	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Qwen3 235B Thinking 2507	DeepSeek-R1-0528	DeepSeek V3 0324	Kimi K2	Grok 4
TAU-bench	۷۰.۱	۶۹.۴	۶۱.۲	۵۷.۴	۶۲.۰	۷۰.۵	۷۰.۳	۶۲.۵	۷۳.۲	۵۸.۷	۵۷.۶	۶۲.۶	۶۷.۵
BFCL v3 (Full)	۷۷.۸	۷۶.۴	۷۲.۴	۶۷.۲	۶۸.۹	۶۱.۸	۷۵.۲	۶۱.۲	۷۲.۴	۶۳.۸	۶۴.۷	۷۱.۱	۶۶.۲
BrowseComp	۲۶.۴	۲۱.۳	۴۹.۷	۲۸.۳	۴.۱	۱۸.۸	۱۴.۷	۷.۶	۴.۶	۳.۲	۱.۵	۷.۹	۳۲.۶

۲. استدلال (Reasoning)

وقتی مدل‌های GLM-4.5 و GLM-4.5-Air در «حالت تفکر» قرار میگیرن، میتونن مسائل استدلالی پیچیده در زمینه‌هایی مثل ریاضیات، علوم و منطق رو حل کنن.

نتایج این بخش در جدول زیر خلاصه شده:

بنچمارک	GLM-4.5	GLM-4.5-Air	o3	Claude 4 Opus	Gemini 2.5 Pro	DeepSeek-R1-0528	Qwen3-235B-Thinking 2507	Grok 4
MMLU Pro	۸۴.۶	۸۱.۴	۸۵.۳	۸۷.۳	۸۶.۲	۸۴.۹	۸۴.۵	۸۶.۶
AIME24	۹۱.۰	۸۹.۴	۹۰.۳	۷۵.۷	۸۸.۷	۸۹.۳	۹۴.۱	۹۴.۳
MATH 500	۹۸.۲	۹۸.۱	۹۹.۲	۹۸.۲	۹۶.۷	۹۸.۳	۹۸.۰	۹۹.۰
SciCode	۴۱.۷	۳۷.۳	۴۱.۰	۳۹.۸	۴۲.۸	۴۰.۳	۴۲.۹	۴۵.۷
GPQA	۷۹.۱	۷۵.۰	۸۲.۷	۷۹.۶	۸۴.۴	۸۱.۳	۸۱.۱	۸۷.۷
HLE	۱۴.۴	۱۰.۶	۲۰.۰	۱۱.۷	۲۱.۱	۱۴.۹	۱۵.۸	۲۳.۹
LiveCodeBench (2407-2501)	۷۲.۹	۷۰.۷	۷۸.۴	۶۳.۶	۸۰.۱	۷۷.۰	۷۸.۲	۸۱.۹
AA-Index (Estimated)	۶۷.۷	۶۴.۸	۷۰.۰	۶۴.۴	۷۰.۵	۶۸.۳	۶۹.۴	۷۳.۲

چند نکته در مورد این ارزیابی‌ها وجود داره:

برای بنچمارک‌های AIME و GPQA، برای کاهش واریانس نتایج، میانگین دقت روی ۳۲ و ۸ نمونه گزارش شده (Avg@32 و Avg@8).
برای بنچمارک HLE، فقط سوالات مبتنی بر متن ارزیابی شدن و درستی جواب‌ها توسط مدل gpt-4o قضاوت شده.

۳. کدنویسی (Coding)

مدل GLM-4.5 در کدنویسی هم توانایی‌های خوبی داره. این توانایی‌ها هم شامل ساخت پروژه‌های کدنویسی از صفر میشه و هم حل مسائل کدنویسی به صورت ایجنت‌محور در پروژه‌های موجود. این مدل میتونه به راحتی با ابزارهای کدنویسی مثل Claude Code، Roo Code و CodeGeex ترکیب بشه.

برای ارزیابی توانایی کدنویسی، مدل‌ها در دو بنچمارک SWE-bench Verified و Terminal Bench مقایسه شدن. نتایج در جدول زیر اومده:

بنچمارک	GLM-4.5	GLM-4.5-Air	o3	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	DeepSeek-R1-0528	Kimi K2
SWE-bench Verified¹	۶۴.۲	۵۷.۶	۶۹.۱	۴۸.۶	۶۷.۸	۷۰.۴	۴۹.۰	۴۱.۴	۶۵.۴
Terminal-Bench²	۳۷.۵	۳۰	۳۰.۲	۳۰.۳	۴۳.۲	۳۵.۵	۲۵.۳	۱۷.۵	۲۵.۰

نکات مربوط به این ارزیابی‌ها:

برای SWE-bench Verified، از OpenHands نسخه ۰.۳۴.۰ استفاده شده و اجرای هر تسک به ۱۰۰ تکرار محدود شده تا از حد ۱۲۸ هزار توکنی محتوا فراتر نره.
برای Terminal-Bench، از فریمورک Terminus برای ارزیابی استفاده شده و به جای پرامپت مستقیم، از فراخوانی تابع استاندارد استفاده شده.

یک تحلیل به نام «Pareto Frontier» هم انجام شده که نشون میده مدل‌های GLM-4.5 و GLM-4.5-Air در مقایسه با مدل‌هایی با مقیاس مشابه، عملکرد بهتری دارن و بهینه‌ترین بازدهی رو در مرز مقایسه عملکرد-مقیاس به دست میارن.

فصل چهارم: تحلیل و توانایی‌های ویژه در کدنویسی

فراتر از بنچمارک‌های استاندارد، GLM-4.5 توانایی‌های عملی جالبی در کدنویسی داره. این مدل میتونه قابلیت‌های توسعه فول-استک (Full-stack) رو به صورت جامع انجام بده؛ یعنی میتونه یک اپلیکیشن وب کامل رو با پیاده‌سازی فرانت‌اند، مدیریت دیتابیس و استقرار بک‌اند بسازه. رابط‌های کاربری فرانت‌اندی که این مدل تولید میکنه، عملکرد و زیبایی‌شناسی خوبی دارن و با ترجیحات طراحی انسان هماهنگ هستن.

برای سنجش توانایی‌های کدنویسی ایجنت‌محور GLM-4.5، از ابزار Claude Code استفاده شده تا عملکردش در مقابل Claude-4-Sonnet، Kimi K2 و Qwen3-Coder در ۵۲ تسک کدنویسی مختلف مقایسه بشه. این تسک‌ها شامل توسعه فرانت‌اند، ساخت ابزار، تحلیل داده، تست و پیاده‌سازی الگوریتم بودن. همه ارزیابی‌ها در محیط‌های تست ایزوله و با تعامل انسانی چند مرحله‌ای انجام شده تا نتایج ثابت و قابل تکرار باشن.

نتایج این مقایسه نشون میده که:

GLM-4.5 در مقابل Kimi K2 به نرخ برد ۵۳.۹ درصد دست پیدا کرده.
در مقابل Qwen3-Coder عملکرد غالبی داشته و نرخ موفقیت ۸۰.۸ درصد رو ثبت کرده.
در مقایسه با Claude-4-Sonnet، عملکرد رقابتی‌ای داره اما هنوز جای بهینه‌سازی وجود داره.

یک نکته قابل توجه، موفقیت در فراخوانی ابزار (Tool Calling) هست. GLM-4.5 با نرخ موفقیت ۹۰.۶ درصد، بالاترین میانگین رو در این زمینه کسب کرده و از Claude-4-Sonnet (با ۸۹.۵ درصد)، Kimi-K2 (با ۸۶.۲ درصد) و Qwen3-Coder (با ۷۷.۱ درصد) بهتر عمل کرده. این نشون دهنده قابلیت اطمینان و کارایی بالای این مدل در تسک‌های کدنویسی ایجنت‌محور هست. تمام جزئیات مربوط به این ۵۲ تسک کدنویسی با نام zai-org/CC-Bench-trajectories در Hugging Face منتشر شده تا جامعه هوش مصنوعی بتونه اونها رو مطالعه کنه.

GLM-4.5 همچنین قابلیت‌های تولید کدهای پیچیده رو بهبود داده و میتونه مصنوعات (artifacts) مستقل و پیچیده‌ای مثل مینی‌گیم‌های تعاملی یا شبیه‌سازی‌های فیزیک رو در فرمت‌های HTML، SVG، پایتون و غیره ایجاد کنه. با استفاده از همین قابلیت‌ها، یک ایجنت بومی برای ساخت پاورپوینت و پوستر توسعه داده شده که کاربر میتونه ازش طرح‌های ساده یا پیچیده بخواد و ایجنت به صورت خودکار در وب جستجو میکنه یا تصاویر رو بازیابی میکنه و اسلایدها رو میسازه.

فصل پنجم: معماری و جزئیات فنی (زیر کاپوت چه خبره؟)

حالا بیاید کمی فنی‌تر بشیم و ببینیم معماری این مدل‌ها چطوریه.
در سری GLM-4.5 از معماری MoE (Mixture of Experts) یا «ترکیب متخصصان» استفاده شده. این معماری بازدهی محاسباتی رو هم در حین آموزش و هم در حین استنتاج (Inference) بهبود میده. برای لایه‌های MoE از مسیریابی متعادل بدون اتلاف (loss-free balance routing) و گیت‌های سیگموئید استفاده شده.

یک تفاوت کلیدی در طراحی این مدل با مدل‌هایی مثل DeepSeek-V3 و Kimi K2 وجود داره. در GLM-4.5، به جای افزایش «عرض» مدل (یعنی ابعاد پنهان و تعداد متخصصان)، «ارتفاع» مدل (یعنی تعداد لایه‌ها) افزایش داده شده. دلیل این کار این بوده که طراحان به این نتیجه رسیدن که مدل‌های عمیق‌تر، ظرفیت استدلال بهتری دارن.

در بخش توجه خودی (self-attention)، از Grouped-Query Attention با RoPE جزئی استفاده شده. همچنین، تعداد هدهای توجه (attention heads) ۲.۵ برابر بیشتر شده (۹۶ هد برای یک بعد پنهان ۵۱۲۰). نکته جالب و شاید برخلاف انتظار اینه که این افزایش تعداد هدها، اگرچه باعث بهبود معیار loss در حین آموزش نمیشه، اما به طور مداوم عملکرد رو در بنچمارک‌های استدلال مثل MMLU و BBH بهتر میکنه.

سایر جزئیات فنی عبارتند از:

بهینه‌ساز (Optimizer): از بهینه‌ساز Muon استفاده شده که همگرایی رو تسریع میکنه و اندازه بچ (batch size) بزرگ‌تری رو تحمل میکنه.
پایداری: از QK-Norm برای پایدار کردن دامنه لاجیت‌های توجه استفاده شده.
استنتاج: یک لایه MTP (Multi-Token Prediction) برای پشتیبانی از رمزگشایی گمانه‌زن (speculative decoding) در حین استنتاج اضافه شده.

فصل ششم: فرایند آموزش مدل

آموزش این مدل‌ها در چند مرحله انجام شده.

۱. پیش‌آموزش (Pre-training)

این مرحله خودش دو بخش داشته:

ابتدا مدل روی ۱۵ تریلیون توکن از یک مجموعه داده عمومی آموزش دیده.
سپس روی ۷ تریلیون توکن اضافی از یک مجموعه داده تخصصی شامل کد و داده‌های استدلالی آموزش دیده.

۲. مراحل تکمیلی

بعد از پیش‌آموزش، مراحل دیگه‌ای برای تقویت عملکرد مدل در حوزه‌های کلیدی پایین‌دستی اضافه شده. در این مراحل، از دیتاست‌های تخصصی با اندازه متوسط، از جمله داده‌های دستوری (instruction data) استفاده شده.

۳. آموزش تقویتی و زیرساخت `slime`

برای آموزش تقویتی (Reinforcement Learning یا RL) کارآمد در مدل‌های بزرگی مثل GLM-4.5، یک زیرساخت RL به نام slime طراحی، توسعه و به صورت متن‌باز منتشر شده. این زیرساخت در گیت‌هاب با شناسه THUDM/slime در دسترسه. (THUDM گروه مهندسی دانش در دانشگاه Tsinghua هست که Zhipu AI از اونجا منشعب شده).

نوآوری‌های اصلی slime برای غلبه بر گلوگاه‌های رایج در RL طراحی شدن:

معماری آموزش ترکیبی انعطاف‌پذیر: slime از هر دو حالت آموزش همزمان (synchronous) و غیرهمزمان (asynchronous) پشتیبانی میکنه. حالت غیرهمزمان برای RL ایجنت‌محور پیشرفته که تولید داده میتونه یک فرایند خارجی و کند باشه، حیاتیه.
طراحی جداشده مبتنی بر ایجنت: slime موتورهای تولید داده (rollout engines) رو از موتورهای آموزش جدا میکنه. این دو بخش روی سخت‌افزارهای مجزا کار میکنن و گلوگاه تولید داده رو به یک فرایند موازی و غیرمسدودکننده تبدیل میکنن.
تولید داده سریع با دقت ترکیبی (Mixed Precision): برای افزایش سرعت، slime از فرمت بسیار کارآمد FP8 برای تولید داده و از فرمت پایدار BF16 برای حلقه آموزش مدل استفاده میکنه.

۴. مرحله پس از آموزش (Post-training)

این مرحله برای بهبود قابلیت‌های ایجنت‌محور، از جمله کدنویسی ایجنتی، جستجوی عمیق و استفاده عمومی از ابزار، بسیار مهمه. فرایند با تنظیم دقیق نظارت شده (supervised fine-tuning) روی داده‌های استدلالی و سناریوهای ایجنتی مصنوعی شروع میشه و با یک فاز RL تخصصی ادامه پیدا میکنه.

برای استدلال: یک مرحله RL روی کل زمینه ۶۴ هزار توکنی با یک برنامه درسی مبتنی بر سختی انجام شده.
برای کارهای ایجنتی: آموزش روی دو وظیفه قابل تایید انجام شده: پرسش و پاسخ مبتنی بر جستجوی اطلاعات و مهندسی نرم‌افزار.

اگرچه این برنامه درسی RL فقط مجموعه محدودی از وظایف رو هدف قرار میده، اما بهبودهای حاصل شده به توانایی‌های مجاور مثل استفاده عمومی از ابزار هم منتقل میشه.

فصل هفتم: چطور از این مدل‌ها استفاده کنیم؟

راه‌های مختلفی برای دسترسی و استفاده از این مدل‌ها وجود داره:

چت در Z.ai: میتونید به پلتفرم Z.ai برید و با انتخاب گزینه مدل GLM-4.5 باهاش چت کنید. این پلتفرم از قابلیت‌های تولید مصنوعات، ساخت اسلاید و توسعه فول-استک پشتیبانی میکنه.
استفاده از API: پلتفرم Z.ai API (برای کاربران جهانی) و Zhipu AI Open Platform (برای کاربران چین) رابط‌های سازگار با OpenAI رو برای هر دو مدل GLM-4.5 و GLM-4.5-Air ارائه میدن.
ادغام با ایجنت‌های کدنویسی: مستندات دقیق برای ادغام GLM-4.5 با Claude Code و سایر فریمورک‌های ایجنت کدنویسی در Z.ai API موجوده.
اجرای محلی (Locally): وزن‌های مدل برای هر دو نسخه پایه و چت در Hugging Face و ModelScope در دسترسه. برای استقرار محلی، GLM-4.5 از فریمورک‌های استنتاجی مثل vLLM و SGLang پشتیبانی میکنه.

فصل هشتم: نگاهی از بیرون (تحلیل‌ها و مشاهدات)

انتشار این مدل‌ها توجه تحلیلگران رو هم به خودش جلب کرده. برای مثال، سایمون ویلیسون در تحلیلی به این مدل‌ها پرداخته و اونها رو «یک انتشار مهم دیگر از مدل‌های متن‌باز از یک آزمایشگاه هوش مصنوعی پیشرو در چین» توصیف کرده.

او در چت Z.ai که دسترسی رایگان و بدون نیاز به حساب کاربری رو به هر دو مدل میده، یک تست ساده انجام داده و از مدل‌ها خواسته تا «یک SVG از یک پلیکان در حال دوچرخه‌سواری» تولید کنن. در خروجی مدل GLM-4.5، پلیکان بال‌هایش رو روی فرمان دوچرخه گذاشته بود.

همچنین ایوان فیوراونتی ویدیویی از نسخه کوانتایز شده GLM-4.5-Air-4bit رو به اشتراک گذاشته که روی یک کامپیوتر مک M4 با ۱۲۸ گیگابایت رم اجرا میشد. این ویدیو نشون میده که این مدل یک رقیب خیلی قوی برای مدل‌های محلیه که میتونن کدهای مفیدی بنویسن. این نشون میده که مدل‌های کدنویسی متن‌باز و باکیفیت دارن به تدریج به ماشین‌های مصرفی با قیمت مناسب (در این مورد حدود ۳۵۰۰ دلار) نزدیک‌تر میشن.

منابع

[۱] zai-org/GLM-4.5 · Hugging Face
[۲] GLM-4.5: Reasoning, Coding, and Agentic Abililties
[۳] reuters.com
[۴] GLM-4.5: Reasoning, Coding, and Agentic Abililties

معرفی خانواده مدل‌های GLM-4.5

فصل اول: معرفی کلی و رونمایی از خانواده GLM-4.5

فصل دوم: چرا اصلا GLM-4.5 ساخته شد؟ (هدف و پس‌زمینه)

فصل سوم: بررسی عملکرد در بنچمارک‌ها

۱. کارهای ایجنت‌محور (Agentic Tasks)

۲. استدلال (Reasoning)

۳. کدنویسی (Coding)

فصل چهارم: تحلیل و توانایی‌های ویژه در کدنویسی

فصل پنجم: معماری و جزئیات فنی (زیر کاپوت چه خبره؟)

فصل ششم: فرایند آموزش مدل

۱. پیش‌آموزش (Pre-training)

۲. مراحل تکمیلی

۳. آموزش تقویتی و زیرساخت `slime`

۴. مرحله پس از آموزش (Post-training)

فصل هفتم: چطور از این مدل‌ها استفاده کنیم؟

فصل هشتم: نگاهی از بیرون (تحلیل‌ها و مشاهدات)

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

معرفی خانواده مدل‌های GLM-4.5

فصل اول: معرفی کلی و رونمایی از خانواده GLM-4.5

فصل دوم: چرا اصلا GLM-4.5 ساخته شد؟ (هدف و پس‌زمینه)

فصل سوم: بررسی عملکرد در بنچمارک‌ها

۱. کارهای ایجنت‌محور (Agentic Tasks)

۲. استدلال (Reasoning)

۳. کدنویسی (Coding)

فصل چهارم: تحلیل و توانایی‌های ویژه در کدنویسی

فصل پنجم: معماری و جزئیات فنی (زیر کاپوت چه خبره؟)

فصل ششم: فرایند آموزش مدل

۱. پیش‌آموزش (Pre-training)

۲. مراحل تکمیلی

۳. آموزش تقویتی و زیرساخت slime

۴. مرحله پس از آموزش (Post-training)

فصل هفتم: چطور از این مدل‌ها استفاده کنیم؟

فصل هشتم: نگاهی از بیرون (تحلیل‌ها و مشاهدات)

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ

۳. آموزش تقویتی و زیرساخت `slime`