۷ مهر ۱۴۰۴

مدل Claude Sonnet 4.5 معرفی شد

شرکت انتروپیک (Anthropic) از جدیدترین مدل هوش مصنوعی خودش به اسم Claude Sonnet 4.5 رونمایی کرده. این شرکت ادعا میکنه که این مدل، بهترین مدل کدنویسی در جهان تا به امروزه. این ادعا بر اساس نتایج بنچمارک‌ها یا همون معیارهای سنجشه که توی اونها، Sonnet 4.5 نه تنها از مدل‌های قبلی خود انتروپیک، بلکه از رقبای سرسختی مثل Gemini 2.5 Pro گوگل و GPT-5 از شرکت OpenAI هم بهتر عمل کرده.

این مدل کمتر از شش ماه بعد از معرفی دو مدل Opus 4 و Sonnet 4 در ماه می، به بازار عرضه شده. Sonnet 4.5 در واقع نسخه جدید و پیشرفته‌تر همون مدل Sonnet 4 به حساب میاد.

عملکردی که در بنچمارک‌ها ثبت شده

برای اینکه ببینیم این ادعاها چقدر به واقعیت نزدیکه، میشه به چند تا از این بنچمارک‌ها نگاه کرد. برای مثال، توی بنچمارک OSWorld که توانایی مدل‌های هوش مصنوعی رو در انجام کارهای واقعی کامپیوتری میسنجه، Sonnet 4.5 تونسته امتیاز رکوردشکن ۶۱.۴ درصد رو ثبت کنه. این امتیاز حدود ۱۷ درصد از مدل گرون‌تر همین شرکت یعنی Opus 4.1 بالاتره. جالبه که فقط چهار ماه پیش، مدل Sonnet 4 با امتیاز ۴۲.۲ درصد در صدر این بنچمارک قرار داشت.

این مدل روی معیار سنجش دیگه‌ای به اسم SWE-Bench Verified که توانایی‌های واقعی کدنویسی نرم‌افزار رو اندازه میگیره هم عملکرد خیلی خوبی داشته. انتروپیک میگه Sonnet 4.5 میتونه برنامه‌های «آماده برای تولید» بسازه، نه فقط نمونه‌های اولیه، که این نشون دهنده یک جهش در قابلیت اطمینان نسبت به مدل‌های قبلیه.

دیوید هرشی، یکی از محققان هوش مصنوعی در انتروپیک، گفته که سخته عملکرد واقعی Sonnet 4.5 رو فقط با بنچمارک‌ها نشون داد. به گفته اون، در آزمایش‌های اولیه با بعضی از مشتریان سازمانی، دیده که این مدل تا ۳۰ ساعت به صورت خودکار کدنویسی کرده.

۳۰ ساعت کار بدون توقف و خودکار

یکی از مهم‌ترین ویژگی‌های Sonnet 4.5، توانایی کار کردن برای مدت طولانیه. این مدل میتونه بیشتر از ۳۰ ساعت به صورت خودکار روی پروژه‌های چند مرحله‌ای کار کنه. این یک پیشرفت خیلی بزرگ نسبت به مدل Opus 4 محسوب میشه که موقع عرضه فقط میتونست حدود هفت ساعت به صورت خودکار کار کنه.

این توانایی برای ساخت سیستم‌های عامل‌گونه یا (agentic) که انتروپیک دنبال ساختشونه، یک نقطه عطف خیلی مهمه. دیوید هرشی تعریف میکنه که در این ۳۰ ساعت، دیده که مدل هوش مصنوعی نه تنها یک اپلیکیشن رو ساخته، بلکه سرویس‌های دیتابیس رو راه‌اندازی کرده، دامنه خریده و حتی یک ممیزی امنیتی SOC 2 انجام داده تا مطمئن بشه محصول امنه.

این قابلیت‌ها میتونه برای کسب‌وکارها خیلی مهم باشه. عامل‌های خودکار میتونن نیاز به نظارت مداوم انسان رو کم کنن، هزینه‌های کارهای تکراری رو پایین بیارن و سرعت عملیات یک شرکت رو بالا ببرن.

امن‌ترین مدل انتروپیک تا امروز

انتروپیک ادعا میکنه Sonnet 4.5 امن‌ترین سیستم هوش مصنوعی این شرکت تا به امروز هست. این مدل آموزش‌های ایمنی گسترده‌ای دیده تا رفتارهای نگران‌کننده‌ای مثل «چاپلوسی، فریبکاری، قدرت‌طلبی و تمایل به تشویق تفکر توهمی» رو به میزان قابل توجهی کمتر نشون بده. اینها همون ویژگی‌هایی هستن که در ماه‌های اخیر برای شرکت OpenAI دردسرساز شدن.

همچنین، انتروپیک محافظت‌های Sonnet 4.5 رو در برابر حملات تزریق پرامپت (prompt injection) قوی‌تر کرده. این مدل تحت چارچوب سطح ایمنی ۳ هوش مصنوعی (ASL-3) این شرکت منتشر شده. این یعنی فیلترهایی داره که جلوی خروجی‌های بالقوه خطرناک مربوط به موضوعات شیمیایی، بیولوژیکی و سلاح‌های هسته‌ای رو میگیره.

بهبودها و ابزارهای جدید برای همه

Claude Code: این ابزار کدنویسی محبوب حالا یک رابط کاربری ترمینال جدید داره و یک ویژگی به اسم «چک‌پوینت» (checkpoints) بهش اضافه شده. این ویژگی به شما اجازه میده پیشرفت کارتون رو ذخیره کنید و اگه مدل یک کد عجیب و غریب نوشت، به راحتی به حالت قبلی برگردید.
ساخت فایل: قابلیت ساخت فایل که از اول ماه شروع به عرضه شده بود، حالا مستقیما داخل مکالمات با چت‌بات در دسترسه و میشه فایل‌هایی مثل صفحه گسترده، اسلاید و اسناد متنی ساخت.
Claude for Chrome: کسانی که برای این افزونه در لیست انتظار بودن، حالا میتونن ازش استفاده کنن.
Claude Agent SDK: انتروپیک زیرساختی که برای ساخت Claude Code استفاده میکنه رو در قالب یک SDK در اختیار توسعه‌دهنده‌ها قرار داده تا اونها هم بتونن عامل‌های هوش مصنوعی خودشون رو بسازن.
Imagine with Claude: یک پیش‌نمایش تحقیقاتی موقتی برای مشترکین Max که نشون میده مدل چطور به صورت زنده و در لحظه نرم‌افزار تولید میکنه.

قیمت‌گذاری و جایگاه در بازار

قیمت استفاده از API مدل Sonnet 4.5 مثل مدل قبلی یعنی Sonnet 4 باقی مونده: ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای همین مقدار توکن خروجی.

مدل‌های کلاد انتروپیک در سال گذشته بین توسعه‌دهنده‌ها و شرکت‌ها خیلی محبوب شدن، مخصوصا به خاطر عملکرد خوبشون در کارهای مهندسی نرم‌افزار. گزارش شده که شرکت‌هایی مثل اپل و متا به صورت داخلی از مدل‌های کلاد استفاده میکنن. همچنین انتروپیک از طریق فروش دسترسی API به اپلیکیشن‌های کدنویسی مثل Cursor، Windsurf و Replit کسب‌وکار خوبی راه انداخته.

بر اساس یک تحقیق، بیشتر کاربران کلاد از این مدل برای کارهای مربوط به محل کار یا افزایش بهره‌وری استفاده میکنن. کارهای ریاضی و کدنویسی با ۳۶ درصد، بیشترین موارد استفاده از Claude.ai در سطح جهان بودن. همچنین حدود ۷۷ درصد از درخواست‌هایی که از طریق API به این مدل فرستاده میشه، برای انجام خودکار کارهاست، نه فقط برای گرفتن مشاوره.

بازخورد مشتریان اولیه

مایکل ترول، مدیرعامل Cursor: «عملکرد کدنویسی Sonnet 4.5 در سطح بهترین‌های دنیاست، مخصوصا در کارهایی که زمان بیشتری میبرن.»
جف وانگ، مدیرعامل Windsurf: «Sonnet 4.5 نماینده نسل جدیدی از مدل‌های کدنویسیه.»
GitHub Copilot: «ارزیابی‌های اولیه ما پیشرفت‌های قابل توجهی رو در استدلال چند مرحله‌ای و درک کد نشون میده.»
Canva: «این مدل به شکل محسوسی هوشمندتره و یک جهش بزرگ به جلو محسوب میشه که به ما کمک میکنه تا امکانات بیشتری رو برای بیش از ۲۴۰ میلیون کاربرمون فراهم کنیم.»
Devin: «Sonnet 4.5 عملکرد برنامه‌ریزی رو ۱۸ درصد و امتیازهای ارزیابی کلی رو ۱۲ درصد افزایش داد. این بزرگترین جهشیه که از زمان عرضه Claude Sonnet 3.6 دیدیم.»

منابع

[۲] Anthropic’s Claude Sonnet 4.5 is better at coding, finance, cybersecurity
[۴] Anthropic releases Claude 4.5, a model it says can build software and accomplish business tasks autonomously | Fortune

[۱] Claude Sonnet 4.5 is Anthropic’s safest AI model yet
[۳] Introducing Claude Sonnet 4.5 \ Anthropic
[۵] Anthropic launches Claude Sonnet 4.5, its best AI model for coding | TechCrunch

آنتروپیک چت‌بات