یه استارتاپ تحقیقاتی هوش مصنوعی به اسم Deep Cogito که در سانفرانسیسکو مستقر هست و توسط بچههای سابق گوگل تاسیس شده، از چهار مدل زبان بزرگ (LLM) جدید رونمایی کرده. این مدلها که خانواده Cogito v2 نام دارن، تلاش میکنن کاری رو انجام بدن که کمتر مدلی انجام میده: یاد بگیرن که چطور با گذشت زمان بهتر استدلال کنن و به صورت خودکار پیشرفت کنن.
این شرکت چهار مدل استدلال هیبریدی رو با مجوز باز (open source) منتشر کرده که شامل این موارد میشن:
- دو مدل سایز متوسط: یه مدل ۷۰ میلیارد پارامتری (70B dense) و یه مدل ۱۰۹ میلیارد پارامتری (109B MoE)
- دو مدل بزرگ: یه مدل ۴۰۵ میلیارد پارامتری (405B dense) و یه مدل ۶۷۱ میلیارد پارامتری (671B MoE)
مدل 671B MoE به عنوان بزرگترین مدل این مجموعه، جزو قویترین مدلهای اپن سورس در دنیا به حساب میاد. عملکردش با جدیدترین مدلهای DeepSeek v3 و DeepSeek R1 برابری میکنه یا حتی ازشون بهتره و به مدلهای سورس بسته مثل o3 و Claude 4 Opus نزدیک شده.
تفاوت مدلها در چیه؟
این مدلها به دو دسته Dense و MoE تقسیم میشن که هر کدوم برای نیازهای متفاوتی مناسب هستن.
- مدلهای Dense (فشرده): مدلهای 70B و 405B از نوع Dense هستن. این یعنی در هر بار پردازش، همه پارامترهای مدل فعال میشن. این ویژگی باعث میشه عملکردشون قابل پیشبینیتر باشه و روی سختافزارهای متنوعی راحتتر اجرا بشن. برای کارهایی که به سرعت بالا و تاخیر کم نیاز دارن یا برای محیطهایی با ظرفیت GPU محدود، گزینههای خوبی به حساب میان.
- مدلهای MoE (ترکیبی از متخصصها): مدلهای 109B و 671B از نوع MoE هستن. این مدلها از یک مکانیزم هوشمند استفاده میکنن که در هر لحظه فقط چند زیرشبکه «متخصص» رو فعال میکنه. اینطوری میشه مدلهای خیلی بزرگتری ساخت بدون اینکه هزینه محاسباتی به همون نسبت زیاد بشه. این مدلها برای کارهای سنگین، تحقیقات روی استدلالهای پیچیده و رسیدن به دقت بالا با هزینه اجرایی کمتر، مناسبن.
راز اصلی: یاد دادن «شهود» به ماشین
هر چهار مدل Cogito v2 به عنوان سیستمهای استدلال هیبریدی طراحی شدن. یعنی میتونن به یه سوال فوری جواب بدن یا اگه لازم باشه، قبل از جواب دادن یه کم با خودشون فکر کنن و جوانب رو بسنجن.
نکته مهم اینه که این فکر کردن فقط یه رفتار موقع اجرا نیست، بلکه توی خود فرایند آموزش مدل گنجونده شده. این مدلها آموزش دیدن تا فرایند استدلال خودشون رو درونی کنن. یعنی مسیری که برای رسیدن به جواب طی میکنن – به اصطلاح مراحل ذهنیشون – دوباره به خود مدل تزریق میشه. این کار باعث میشه مدل به مرور زمان یاد بگیره که کدوم مسیرهای فکری واقعا مهم هستن و کدومها به درد نمیخورن.
طبق گفته Deep Cogito، اونها مدل رو تشویق نمیکنن که برای رسیدن به جواب «بیشتر سردرگم بشه»، بلکه کمکش میکنن تا یه «شهود» یا «بینش» قویتر برای پیدا کردن مسیر درست استدلال پیدا کنه. نتیجه این کار، استدلال سریعتر و بهینهتر و بهبود عملکرد کلی مدل، حتی در حالت استاندارد (بدون فکر کردن) هست.
چون مدلهای Cogito یاد میگیرن که موقع جستجو برای جواب، مسیر بهتری رو حدس بزنن، در مقایسه با مدل Deepseek R1، ۶۰ درصد زنجیرههای استدلال کوتاهتری دارن.
دستور پخت ساخت هوش فراانسان
رویکرد Deep Cogito برای ساخت هوش فراانسان یه مشکل قابل حل در یادگیری ماشینه و دو مرحله اصلی داره:
- مرحله اول: توسعه یه دستورالعمل آموزشی مقیاسپذیر برای بهبود نامحدود و تکرارشونده هوش.
- مرحله دوم: استفاده از توان محاسباتی بیشتر برای بزرگتر کردن تلاشها و بهبود هوش به سطحی فراتر از عملکرد انسان.
این شرکت برای رسیدن به این هدف از روشی به نام «تقطیر و تقویت تکراری» یا (Iterated Distillation & Amplification – IDA) استفاده میکنه. این ایده شبیه به کاریه که AlphaGo برای بهتر شدن در بازی Go انجام داد. AlphaGo هم از یه چرخه دو مرحلهای استفاده میکرد:
- استدلال در زمان اجرا: با صرف توان محاسباتی، دنبال یه راه حل میگرده (مثل جستجوی درخت مونت کارلو در بازی).
- بهبود تکراری سیاست: کشفیات اون جستجو رو دوباره به پارامترهای مدل برمیگردونه تا دفعه بعد، جستجو رو از نقطه بهتری شروع کنه.
مدلهای زبان بزرگ (LLM) هم میتونن شبیه به چنین سیستمی باشن. اونها قبل از دادن جواب، یه فرایند فکری دارن. اما برای اینکه این چرخه کامل بشه و هوش مدل به صورت تکراری بهتر بشه، به مرحله دوم یعنی «بهبود تکراری سیاست» نیاز داریم. یعنی باید فرایند استدلال دوباره به مدل تزریق بشه تا مدل بتونه نتایج استدلالهای بعدی رو بدون انجام دادنشون حدس بزنه.
بیشتر پیشرفتهای اخیر در زمینه استدلال LLMها به خاطر طولانیتر کردن فرایند فکر کردن بوده، نه اینکه خود هوش اصلی مدل ارتقا پیدا کنه. اما بهبود خود هوش مدل یه مشکل خیلی سختتره. Cogito v2 قدم بعدی در این مسیر محسوب میشه.
یک قابلیت جالب: فکر کردن درباره عکسها
یکی از نتایج جالب فرایند آموزشی این مدلها اینه که با وجود اینکه فقط با متن آموزش دیدن، یاد گرفتن که روی تصاویر هم استدلال کنن. این قابلیت از طریق «یادگیری انتقالی» (transfer learning) به دست اومده، چون مدل پایهای که روی اون ساخته شدن، چندوجهی (multimodal) بوده.
برای مثال، به مدل دو تا عکس نشون داده شده و ازش خواسته شده که اونها رو مقایسه کنه. اینم مراحل فکری مدل:
ورودی مدل:
این دو عکس را با هم مقایسه کن. شباهتها و تفاوتهاشون چیه؟فکر کردن مدل:
<فکر> خب، باید این دو تا عکس رو مقایسه کنم. بذار با دقت نگاهشون کنم. عکس اول یه اردک کلهسبز در حال شنا توی آبه. اردک یه سر سبز، یه نوک زرد و یه بدن قهوهای و سفید داره. آب دورش آبیه با کمی موج. انعکاس اردک توی آب مشخصه که یه تقارن خوبی به عکس داده. عکس دوم یه شیر نر هست که توی علفهای بلند و خشک نشسته. شیر یه یال بزرگ و پفکرده داره که ترکیبی از قهوهای و سیاهه و مستقیم به دوربین نگاه میکنه. پسزمینه یه دشت از علفهای طلاییه. حالا بریم سراغ شباهتها. هر دو عکس از حیوانات در محیط طبیعیشون هستن. اردک توی آبه که محیط طبیعیشه و شیر توی دشت یا ساوانا. هر دو حیوان نر هستن، که از ویژگیهاشون مشخصه — سر سبز اردک و یال شیر. هر دو عکس تمرکز قوی روی حیوان دارن و پسزمینه تا حدی محوه. در مورد تفاوتها، محیطها کاملا متفاوتن. یکی آبی، اون یکی خاکی. اردک کوچیکه و شیر خیلی بزرگتره. رنگهای اردک شادابتر و متنوعتره (سبز، زرد، قهوهای، سفید)، در حالی که رنگهای شیر بیشتر خاکی هستن (قهوهای، سیاه، طلایی). اردک در حال حرکته (شنا)، در حالی که شیر ثابته (نشسته). نگاه شیر جدیتر و باشکوهتره، در حالی که اردک آروم به نظر میرسه. انعکاس اردک هم یه عنصر منحصر به فرده که توی عکس شیر نیست. باید حس و حال هر عکس رو هم در نظر بگیرم. عکس اردک حس صلح و آرامش داره، با آب آروم و حالت ریلکس اردک. عکس شیر حس قدرت و ابهت رو منتقل میکنه، با یال با شکوهش و نگاه مستقیمش. نورپردازی هم متفاوته — نور خورشید روشن روی شیر، و شاید نور ملایمتر روی اردک. فکر کنم نکات اصلی رو پوشش دادم. بذار مطمئن بشم چیزی رو از قلم ننداختم. شاید هدف عکسها؟ عکس اردک ممکنه برای یه مستند طبیعت یا نمایشگاه عکاسی حیات وحش باشه، در حالی که عکس شیر میتونه برای هدف مشابهی باشه اما با تاکید بر شکوه گربههای بزرگ. </فکر>پاسخ نهایی مدل:
بذارید این دو عکس حیات وحش رو مقایسه کنم:
شباهتها:
- هر دو حیوانات نر را در زیستگاه طبیعیشان نشان میدهند.
- هر دو عکسهای با کیفیت حیات وحش با تمرکز بر حیوان هستند.
- هر دو سوژه در شرایط نوری طبیعی ثبت شدهاند.
- هر دو حیوان در حالتی آرام و ساکن نشان داده شدهاند.
تفاوتها:
- محیط: اردک در یک محیط آبی با آبهای آبی و موجدار است، در حالی که شیر در یک محیط زمینی با علفهای بلند و طلایی است.
- اندازه و مقیاس: اردک کوچک و جمعوجور است، در حالی که شیر بزرگ و با ابهت است.
- پالت رنگی: اردک رنگهای زندهای دارد (سر سبز، نوک زرد)، در حالی که شیر رنگهای خاکی دارد (قهوهای، سیاه و طلایی).
- حرکت: اردک در حال حرکت (شنا) ثبت شده، در حالی که شیر ثابت است.
- ترکیببندی: تصویر اردک شامل انعکاس در آب است که تقارن ایجاد میکند، در حالی که شیر در برابر پسزمینهای از چمنزار باز قرار دارد.
- حس و حال: تصویر اردک حس آرامش و سکون را القا میکند، در حالی که تصویر شیر قدرت و ابهت را منتقل میکند.
این قابلیتها به صورت خود به خودی و بدون اینکه هیچ داده چندوجهی در فرایند آموزش وجود داشته باشه، به وجود اومدن که از نظر تحقیقاتی خیلی جالبه.
عملکرد و بهینهسازی در مقیاس بزرگ
با وجود اندازه بزرگ مدلهای جدید، Deep Cogito ادعا میکنه که تمام هشت مدل Cogito رو (شامل مدلهای کوچکتر v1) با هزینهای کمتر از ۳.۵ میلیون دلار آموزش داده. این هزینه شامل تولید داده، زیرساخت و بیش از هزار آزمایش آموزشی میشه. در مقایسه با بودجههای صدها میلیون دلاری مدلهای پیشرو دیگه، این رقم خیلی کمه.
این صرفهجویی به خاطر تز اصلی شرکته: مدلهای هوشمندتر به پیشفرضهای بهتر نیاز دارن، نه توکنهای بیشتر. با یاد دادن به مدل که مسیرهای استدلال اضافی یا گمراهکننده رو نادیده بگیره، Cogito v2 عملکرد قویتری رو با هزینه و تاخیر کمتر ارائه میده.
عملکرد مدلها در بنچمارکها:
Cogito 70B Dense
بنچمارک | امتیاز |
---|---|
MMLU | ۷۹.۸ |
GSM8K | ۸۹.۲ |
HumanEval | ۸۳.۱ |
MATH | ۴۵.۳ |
Cogito 109B MoE
بنچمارک | امتیاز |
---|---|
MMLU | ۸۱.۱ |
GSM8K | ۹۰.۵ |
HumanEval | ۸۵.۴ |
MATH | ۴۸.۷ |
Cogito 405B Dense
بنچمارک | امتیاز |
---|---|
MMLU | ۸۳.۵ |
GSM8K | ۹۲.۱ |
HumanEval | ۸۸.۹ |
MATH | ۵۵.۴ |
Cogito 671B MoE (حالت بدون استدلال)
بنچمارک | امتیاز |
---|---|
MMLU | ۸۴.۱ |
GSM8K | ۹۳.۳ |
HumanEval | ۹۰.۱ |
MATH | ۵۷.۲ |
Cogito 671B MoE (حالت استدلال)
بنچمارک | امتیاز |
---|---|
MMLU | ۸۵.۸ |
GSM8K | ۹۵.۸ |
HumanEval | ۹۲.۴ |
MATH | ۶۵.۱ |
چطوری میشه از این مدلها استفاده کرد؟
این مدلها از طریق چند راه مختلف در دسترس هستن:
- دانلود مستقیم: میشه مدلها رو از Hugging Face دانلود کرد.
- API: شرکتهایی مثل Together AI، Baseten و RunPod اونها رو از طریق API ارائه میدن.
- اجرای محلی: با استفاده از Unsloth میشه این مدلها رو به صورت کوانتایز شده (quantized) و بهینه روی سختافزار شخصی اجرا کرد. Unsloth نسخههای مختلفی از ۱.۵۸ بیت تا ۱۶ بیت رو برای هر چهار مدل فراهم کرده.
- استفاده با llama.cpp: برای اجرای محلی، به خصوص برای مدلهای بزرگ مثل 671B MoE، میشه از `llama.cpp` استفاده کرد. این ابزار به شما اجازه میده مدل رو حتی روی سیستمهایی با GPU محدود اجرا کنید. برای مثال، میشه لایههای MoE رو به CPU منتقل کرد تا حافظه VRAM کمتری مصرف بشه و سرعت تولید متن بهتر بشه.
قدم بعدی چیه؟
انتشار Cogito v2 یه محصول نهایی نیست، بلکه یه قدم تکرارشونده در یک مسیر طولانیه. این شرکت برنامهش رو «صعود از تپه» (hill climbing) توصیف میکنه: مدلها رو اجرا میکنن، از ردپاهای استدلالشون یاد میگیرن، اونها رو به مدل تزریق میکنن و این چرخه رو تکرار میکنن. هر مدلی که این شرکت منتشر کرده اپن سورس بوده و گفته شده که این روند برای نسخههای آینده هم ادامه پیدا میکنه.
این کار حمایت سرمایهگذارانی مثل اریک ویشریا از Benchmark و آدیتیا آگاروال از South Park Commons رو به خودش جلب کرده و با تیمها و پروژههایی مثل Llama، DeepSeek، Hugging Face، Anthromind، RunPod، Together AI، Baseten، Ollama، Nebius، LM Studio و Unsloth همکاری داشته.
دیدگاهتان را بنویسید