معرفی مدل‌های خانواده Cogito v2 از استارتاپی که کارمندان سابق گوگل تاسیس کرده‌اند

یه استارتاپ تحقیقاتی هوش مصنوعی به اسم Deep Cogito که در سانفرانسیسکو مستقر هست و توسط بچه‌های سابق گوگل تاسیس شده، از چهار مدل زبان بزرگ (LLM) جدید رونمایی کرده. این مدل‌ها که خانواده Cogito v2 نام دارن، تلاش میکنن کاری رو انجام بدن که کمتر مدلی انجام میده: یاد بگیرن که چطور با گذشت زمان بهتر استدلال کنن و به صورت خودکار پیشرفت کنن.

این شرکت چهار مدل استدلال هیبریدی رو با مجوز باز (open source) منتشر کرده که شامل این موارد میشن:

دو مدل سایز متوسط: یه مدل ۷۰ میلیارد پارامتری (70B dense) و یه مدل ۱۰۹ میلیارد پارامتری (109B MoE)
دو مدل بزرگ: یه مدل ۴۰۵ میلیارد پارامتری (405B dense) و یه مدل ۶۷۱ میلیارد پارامتری (671B MoE)

مدل 671B MoE به عنوان بزرگترین مدل این مجموعه، جزو قوی‌ترین مدل‌های اپن سورس در دنیا به حساب میاد. عملکردش با جدیدترین مدل‌های DeepSeek v3 و DeepSeek R1 برابری میکنه یا حتی ازشون بهتره و به مدل‌های سورس بسته مثل o3 و Claude 4 Opus نزدیک شده.

تفاوت مدل‌ها در چیه؟

این مدل‌ها به دو دسته Dense و MoE تقسیم میشن که هر کدوم برای نیازهای متفاوتی مناسب هستن.

مدل‌های Dense (فشرده): مدل‌های 70B و 405B از نوع Dense هستن. این یعنی در هر بار پردازش، همه پارامترهای مدل فعال میشن. این ویژگی باعث میشه عملکردشون قابل پیش‌بینی‌تر باشه و روی سخت‌افزارهای متنوعی راحت‌تر اجرا بشن. برای کارهایی که به سرعت بالا و تاخیر کم نیاز دارن یا برای محیط‌هایی با ظرفیت GPU محدود، گزینه‌های خوبی به حساب میان.
مدل‌های MoE (ترکیبی از متخصص‌ها): مدل‌های 109B و 671B از نوع MoE هستن. این مدل‌ها از یک مکانیزم هوشمند استفاده میکنن که در هر لحظه فقط چند زیرشبکه «متخصص» رو فعال میکنه. اینطوری میشه مدل‌های خیلی بزرگ‌تری ساخت بدون اینکه هزینه محاسباتی به همون نسبت زیاد بشه. این مدل‌ها برای کارهای سنگین، تحقیقات روی استدلال‌های پیچیده و رسیدن به دقت بالا با هزینه اجرایی کمتر، مناسبن.

راز اصلی: یاد دادن «شهود» به ماشین

هر چهار مدل Cogito v2 به عنوان سیستم‌های استدلال هیبریدی طراحی شدن. یعنی میتونن به یه سوال فوری جواب بدن یا اگه لازم باشه، قبل از جواب دادن یه کم با خودشون فکر کنن و جوانب رو بسنجن.

نکته مهم اینه که این فکر کردن فقط یه رفتار موقع اجرا نیست، بلکه توی خود فرایند آموزش مدل گنجونده شده. این مدل‌ها آموزش دیدن تا فرایند استدلال خودشون رو درونی کنن. یعنی مسیری که برای رسیدن به جواب طی میکنن – به اصطلاح مراحل ذهنی‌شون – دوباره به خود مدل تزریق میشه. این کار باعث میشه مدل به مرور زمان یاد بگیره که کدوم مسیرهای فکری واقعا مهم هستن و کدوم‌ها به درد نمیخورن.

طبق گفته Deep Cogito، اونها مدل رو تشویق نمیکنن که برای رسیدن به جواب «بیشتر سردرگم بشه»، بلکه کمکش میکنن تا یه «شهود» یا «بینش» قوی‌تر برای پیدا کردن مسیر درست استدلال پیدا کنه. نتیجه این کار، استدلال سریع‌تر و بهینه‌تر و بهبود عملکرد کلی مدل، حتی در حالت استاندارد (بدون فکر کردن) هست.

چون مدل‌های Cogito یاد میگیرن که موقع جستجو برای جواب، مسیر بهتری رو حدس بزنن، در مقایسه با مدل Deepseek R1، ۶۰ درصد زنجیره‌های استدلال کوتاه‌تری دارن.

دستور پخت ساخت هوش فراانسان

رویکرد Deep Cogito برای ساخت هوش فراانسان یه مشکل قابل حل در یادگیری ماشینه و دو مرحله اصلی داره:

مرحله اول: توسعه یه دستورالعمل آموزشی مقیاس‌پذیر برای بهبود نامحدود و تکرارشونده هوش.
مرحله دوم: استفاده از توان محاسباتی بیشتر برای بزرگ‌تر کردن تلاش‌ها و بهبود هوش به سطحی فراتر از عملکرد انسان.

این شرکت برای رسیدن به این هدف از روشی به نام «تقطیر و تقویت تکراری» یا (Iterated Distillation & Amplification – IDA) استفاده میکنه. این ایده شبیه به کاریه که AlphaGo برای بهتر شدن در بازی Go انجام داد. AlphaGo هم از یه چرخه دو مرحله‌ای استفاده میکرد:

استدلال در زمان اجرا: با صرف توان محاسباتی، دنبال یه راه حل میگرده (مثل جستجوی درخت مونت کارلو در بازی).
بهبود تکراری سیاست: کشفیات اون جستجو رو دوباره به پارامترهای مدل برمیگردونه تا دفعه بعد، جستجو رو از نقطه بهتری شروع کنه.

مدل‌های زبان بزرگ (LLM) هم میتونن شبیه به چنین سیستمی باشن. اونها قبل از دادن جواب، یه فرایند فکری دارن. اما برای اینکه این چرخه کامل بشه و هوش مدل به صورت تکراری بهتر بشه، به مرحله دوم یعنی «بهبود تکراری سیاست» نیاز داریم. یعنی باید فرایند استدلال دوباره به مدل تزریق بشه تا مدل بتونه نتایج استدلال‌های بعدی رو بدون انجام دادنشون حدس بزنه.

بیشتر پیشرفت‌های اخیر در زمینه استدلال LLMها به خاطر طولانی‌تر کردن فرایند فکر کردن بوده، نه اینکه خود هوش اصلی مدل ارتقا پیدا کنه. اما بهبود خود هوش مدل یه مشکل خیلی سخت‌تره. Cogito v2 قدم بعدی در این مسیر محسوب میشه.

یک قابلیت جالب: فکر کردن درباره عکس‌ها

یکی از نتایج جالب فرایند آموزشی این مدل‌ها اینه که با وجود اینکه فقط با متن آموزش دیدن، یاد گرفتن که روی تصاویر هم استدلال کنن. این قابلیت از طریق «یادگیری انتقالی» (transfer learning) به دست اومده، چون مدل پایه‌ای که روی اون ساخته شدن، چندوجهی (multimodal) بوده.

برای مثال، به مدل دو تا عکس نشون داده شده و ازش خواسته شده که اونها رو مقایسه کنه. اینم مراحل فکری مدل:

ورودی مدل:
این دو عکس را با هم مقایسه کن. شباهت‌ها و تفاوت‌هاشون چیه؟

فکر کردن مدل:
<فکر>
خب، باید این دو تا عکس رو مقایسه کنم. بذار با دقت نگاهشون کنم.
عکس اول یه اردک کله‌سبز در حال شنا توی آبه. اردک یه سر سبز، یه نوک زرد و یه بدن قهوه‌ای و سفید داره. آب دورش آبیه با کمی موج. انعکاس اردک توی آب مشخصه که یه تقارن خوبی به عکس داده.
عکس دوم یه شیر نر هست که توی علف‌های بلند و خشک نشسته. شیر یه یال بزرگ و پف‌کرده داره که ترکیبی از قهوه‌ای و سیاهه و مستقیم به دوربین نگاه میکنه. پس‌زمینه یه دشت از علف‌های طلاییه.

حالا بریم سراغ شباهت‌ها. هر دو عکس از حیوانات در محیط طبیعی‌شون هستن. اردک توی آبه که محیط طبیعیشه و شیر توی دشت یا ساوانا. هر دو حیوان نر هستن، که از ویژگی‌هاشون مشخصه — سر سبز اردک و یال شیر. هر دو عکس تمرکز قوی روی حیوان دارن و پس‌زمینه تا حدی محوه.

در مورد تفاوت‌ها، محیط‌ها کاملا متفاوتن. یکی آبی، اون یکی خاکی. اردک کوچیکه و شیر خیلی بزرگ‌تره. رنگ‌های اردک شاداب‌تر و متنوع‌تره (سبز، زرد، قهوه‌ای، سفید)، در حالی که رنگ‌های شیر بیشتر خاکی هستن (قهوه‌ای، سیاه، طلایی). اردک در حال حرکته (شنا)، در حالی که شیر ثابته (نشسته). نگاه شیر جدی‌تر و باشکوه‌تره، در حالی که اردک آروم به نظر میرسه. انعکاس اردک هم یه عنصر منحصر به فرده که توی عکس شیر نیست.

باید حس و حال هر عکس رو هم در نظر بگیرم. عکس اردک حس صلح و آرامش داره، با آب آروم و حالت ریلکس اردک. عکس شیر حس قدرت و ابهت رو منتقل میکنه، با یال با شکوه‌ش و نگاه مستقیمش. نورپردازی هم متفاوته — نور خورشید روشن روی شیر، و شاید نور ملایم‌تر روی اردک.

فکر کنم نکات اصلی رو پوشش دادم. بذار مطمئن بشم چیزی رو از قلم ننداختم. شاید هدف عکس‌ها؟ عکس اردک ممکنه برای یه مستند طبیعت یا نمایشگاه عکاسی حیات وحش باشه، در حالی که عکس شیر میتونه برای هدف مشابهی باشه اما با تاکید بر شکوه گربه‌های بزرگ.
</فکر>
پاسخ نهایی مدل:
بذارید این دو عکس حیات وحش رو مقایسه کنم:
شباهت‌ها:

هر دو حیوانات نر را در زیستگاه طبیعی‌شان نشان میدهند.

هر دو عکس‌های با کیفیت حیات وحش با تمرکز بر حیوان هستند.

هر دو سوژه در شرایط نوری طبیعی ثبت شده‌اند.

هر دو حیوان در حالتی آرام و ساکن نشان داده شده‌اند.

تفاوت‌ها:

محیط: اردک در یک محیط آبی با آب‌های آبی و موج‌دار است، در حالی که شیر در یک محیط زمینی با علف‌های بلند و طلایی است.

اندازه و مقیاس: اردک کوچک و جمع‌وجور است، در حالی که شیر بزرگ و با ابهت است.

پالت رنگی: اردک رنگ‌های زنده‌ای دارد (سر سبز، نوک زرد)، در حالی که شیر رنگ‌های خاکی دارد (قهوه‌ای، سیاه و طلایی).

حرکت: اردک در حال حرکت (شنا) ثبت شده، در حالی که شیر ثابت است.

ترکیب‌بندی: تصویر اردک شامل انعکاس در آب است که تقارن ایجاد میکند، در حالی که شیر در برابر پس‌زمینه‌ای از چمنزار باز قرار دارد.

حس و حال: تصویر اردک حس آرامش و سکون را القا میکند، در حالی که تصویر شیر قدرت و ابهت را منتقل میکند.

این قابلیت‌ها به صورت خود به خودی و بدون اینکه هیچ داده چندوجهی در فرایند آموزش وجود داشته باشه، به وجود اومدن که از نظر تحقیقاتی خیلی جالبه.

عملکرد و بهینه‌سازی در مقیاس بزرگ

با وجود اندازه بزرگ مدل‌های جدید، Deep Cogito ادعا میکنه که تمام هشت مدل Cogito رو (شامل مدل‌های کوچک‌تر v1) با هزینه‌ای کمتر از ۳.۵ میلیون دلار آموزش داده. این هزینه شامل تولید داده، زیرساخت و بیش از هزار آزمایش آموزشی میشه. در مقایسه با بودجه‌های صدها میلیون دلاری مدل‌های پیشرو دیگه، این رقم خیلی کمه.

این صرفه‌جویی به خاطر تز اصلی شرکته: مدل‌های هوشمندتر به پیش‌فرض‌های بهتر نیاز دارن، نه توکن‌های بیشتر. با یاد دادن به مدل که مسیرهای استدلال اضافی یا گمراه‌کننده رو نادیده بگیره، Cogito v2 عملکرد قوی‌تری رو با هزینه و تاخیر کمتر ارائه میده.

عملکرد مدل‌ها در بنچمارک‌ها:

Cogito 70B Dense

بنچمارک	امتیاز
MMLU	۷۹.۸
GSM8K	۸۹.۲
HumanEval	۸۳.۱
MATH	۴۵.۳

Cogito 109B MoE

بنچمارک	امتیاز
MMLU	۸۱.۱
GSM8K	۹۰.۵
HumanEval	۸۵.۴
MATH	۴۸.۷

Cogito 405B Dense

بنچمارک	امتیاز
MMLU	۸۳.۵
GSM8K	۹۲.۱
HumanEval	۸۸.۹
MATH	۵۵.۴

Cogito 671B MoE (حالت بدون استدلال)

بنچمارک	امتیاز
MMLU	۸۴.۱
GSM8K	۹۳.۳
HumanEval	۹۰.۱
MATH	۵۷.۲

Cogito 671B MoE (حالت استدلال)

بنچمارک	امتیاز
MMLU	۸۵.۸
GSM8K	۹۵.۸
HumanEval	۹۲.۴
MATH	۶۵.۱

چطوری میشه از این مدل‌ها استفاده کرد؟

این مدل‌ها از طریق چند راه مختلف در دسترس هستن:

دانلود مستقیم: میشه مدل‌ها رو از Hugging Face دانلود کرد.
API: شرکت‌هایی مثل Together AI، Baseten و RunPod اونها رو از طریق API ارائه میدن.
اجرای محلی: با استفاده از Unsloth میشه این مدل‌ها رو به صورت کوانتایز شده (quantized) و بهینه روی سخت‌افزار شخصی اجرا کرد. Unsloth نسخه‌های مختلفی از ۱.۵۸ بیت تا ۱۶ بیت رو برای هر چهار مدل فراهم کرده.
استفاده با llama.cpp: برای اجرای محلی، به خصوص برای مدل‌های بزرگ مثل 671B MoE، میشه از `llama.cpp` استفاده کرد. این ابزار به شما اجازه میده مدل رو حتی روی سیستم‌هایی با GPU محدود اجرا کنید. برای مثال، میشه لایه‌های MoE رو به CPU منتقل کرد تا حافظه VRAM کمتری مصرف بشه و سرعت تولید متن بهتر بشه.

قدم بعدی چیه؟

انتشار Cogito v2 یه محصول نهایی نیست، بلکه یه قدم تکرارشونده در یک مسیر طولانیه. این شرکت برنامه‌ش رو «صعود از تپه» (hill climbing) توصیف میکنه: مدل‌ها رو اجرا میکنن، از ردپاهای استدلال‌شون یاد میگیرن، اونها رو به مدل تزریق میکنن و این چرخه رو تکرار میکنن. هر مدلی که این شرکت منتشر کرده اپن سورس بوده و گفته شده که این روند برای نسخه‌های آینده هم ادامه پیدا میکنه.

این کار حمایت سرمایه‌گذارانی مثل اریک ویشریا از Benchmark و آدیتیا آگاروال از South Park Commons رو به خودش جلب کرده و با تیم‌ها و پروژه‌هایی مثل Llama، DeepSeek، Hugging Face، Anthromind، RunPod، Together AI، Baseten، Ollama، Nebius، LM Studio و Unsloth همکاری داشته.

منابع

[۱] Introducing Cogito v2 Preview
[۲] Cogito v2: How to Run Locally | Unsloth Documentation
[۳] Deep Cogito v2 open source models have self-improving intuition | VentureBeat
[۴] Cogito v2 671B | Model library