شرکت انتروپیک (Anthropic) از جدیدترین مدل هوش مصنوعی خودش به اسم Claude Sonnet 4.5 رونمایی کرده. این شرکت ادعا میکنه که این مدل، بهترین مدل کدنویسی در جهان تا به امروزه. این ادعا بر اساس نتایج بنچمارکها یا همون معیارهای سنجشه که توی اونها، Sonnet 4.5 نه تنها از مدلهای قبلی خود انتروپیک، بلکه از رقبای سرسختی مثل Gemini 2.5 Pro گوگل و GPT-5 از شرکت OpenAI هم بهتر عمل کرده.
این مدل کمتر از شش ماه بعد از معرفی دو مدل Opus 4 و Sonnet 4 در ماه می، به بازار عرضه شده. Sonnet 4.5 در واقع نسخه جدید و پیشرفتهتر همون مدل Sonnet 4 به حساب میاد.
عملکردی که در بنچمارکها ثبت شده
برای اینکه ببینیم این ادعاها چقدر به واقعیت نزدیکه، میشه به چند تا از این بنچمارکها نگاه کرد. برای مثال، توی بنچمارک OSWorld که توانایی مدلهای هوش مصنوعی رو در انجام کارهای واقعی کامپیوتری میسنجه، Sonnet 4.5 تونسته امتیاز رکوردشکن ۶۱.۴ درصد رو ثبت کنه. این امتیاز حدود ۱۷ درصد از مدل گرونتر همین شرکت یعنی Opus 4.1 بالاتره. جالبه که فقط چهار ماه پیش، مدل Sonnet 4 با امتیاز ۴۲.۲ درصد در صدر این بنچمارک قرار داشت.
این مدل روی معیار سنجش دیگهای به اسم SWE-Bench Verified که تواناییهای واقعی کدنویسی نرمافزار رو اندازه میگیره هم عملکرد خیلی خوبی داشته. انتروپیک میگه Sonnet 4.5 میتونه برنامههای «آماده برای تولید» بسازه، نه فقط نمونههای اولیه، که این نشون دهنده یک جهش در قابلیت اطمینان نسبت به مدلهای قبلیه.
دیوید هرشی، یکی از محققان هوش مصنوعی در انتروپیک، گفته که سخته عملکرد واقعی Sonnet 4.5 رو فقط با بنچمارکها نشون داد. به گفته اون، در آزمایشهای اولیه با بعضی از مشتریان سازمانی، دیده که این مدل تا ۳۰ ساعت به صورت خودکار کدنویسی کرده.
۳۰ ساعت کار بدون توقف و خودکار
یکی از مهمترین ویژگیهای Sonnet 4.5، توانایی کار کردن برای مدت طولانیه. این مدل میتونه بیشتر از ۳۰ ساعت به صورت خودکار روی پروژههای چند مرحلهای کار کنه. این یک پیشرفت خیلی بزرگ نسبت به مدل Opus 4 محسوب میشه که موقع عرضه فقط میتونست حدود هفت ساعت به صورت خودکار کار کنه.
این توانایی برای ساخت سیستمهای عاملگونه یا (agentic) که انتروپیک دنبال ساختشونه، یک نقطه عطف خیلی مهمه. دیوید هرشی تعریف میکنه که در این ۳۰ ساعت، دیده که مدل هوش مصنوعی نه تنها یک اپلیکیشن رو ساخته، بلکه سرویسهای دیتابیس رو راهاندازی کرده، دامنه خریده و حتی یک ممیزی امنیتی SOC 2 انجام داده تا مطمئن بشه محصول امنه.
این قابلیتها میتونه برای کسبوکارها خیلی مهم باشه. عاملهای خودکار میتونن نیاز به نظارت مداوم انسان رو کم کنن، هزینههای کارهای تکراری رو پایین بیارن و سرعت عملیات یک شرکت رو بالا ببرن.
امنترین مدل انتروپیک تا امروز
انتروپیک ادعا میکنه Sonnet 4.5 امنترین سیستم هوش مصنوعی این شرکت تا به امروز هست. این مدل آموزشهای ایمنی گستردهای دیده تا رفتارهای نگرانکنندهای مثل «چاپلوسی، فریبکاری، قدرتطلبی و تمایل به تشویق تفکر توهمی» رو به میزان قابل توجهی کمتر نشون بده. اینها همون ویژگیهایی هستن که در ماههای اخیر برای شرکت OpenAI دردسرساز شدن.
همچنین، انتروپیک محافظتهای Sonnet 4.5 رو در برابر حملات تزریق پرامپت (prompt injection) قویتر کرده. این مدل تحت چارچوب سطح ایمنی ۳ هوش مصنوعی (ASL-3) این شرکت منتشر شده. این یعنی فیلترهایی داره که جلوی خروجیهای بالقوه خطرناک مربوط به موضوعات شیمیایی، بیولوژیکی و سلاحهای هستهای رو میگیره.
بهبودها و ابزارهای جدید برای همه
- Claude Code: این ابزار کدنویسی محبوب حالا یک رابط کاربری ترمینال جدید داره و یک ویژگی به اسم «چکپوینت» (checkpoints) بهش اضافه شده. این ویژگی به شما اجازه میده پیشرفت کارتون رو ذخیره کنید و اگه مدل یک کد عجیب و غریب نوشت، به راحتی به حالت قبلی برگردید.
- ساخت فایل: قابلیت ساخت فایل که از اول ماه شروع به عرضه شده بود، حالا مستقیما داخل مکالمات با چتبات در دسترسه و میشه فایلهایی مثل صفحه گسترده، اسلاید و اسناد متنی ساخت.
- Claude for Chrome: کسانی که برای این افزونه در لیست انتظار بودن، حالا میتونن ازش استفاده کنن.
- Claude Agent SDK: انتروپیک زیرساختی که برای ساخت Claude Code استفاده میکنه رو در قالب یک SDK در اختیار توسعهدهندهها قرار داده تا اونها هم بتونن عاملهای هوش مصنوعی خودشون رو بسازن.
- Imagine with Claude: یک پیشنمایش تحقیقاتی موقتی برای مشترکین Max که نشون میده مدل چطور به صورت زنده و در لحظه نرمافزار تولید میکنه.
قیمتگذاری و جایگاه در بازار
قیمت استفاده از API مدل Sonnet 4.5 مثل مدل قبلی یعنی Sonnet 4 باقی مونده: ۳ دلار برای هر یک میلیون توکن ورودی و ۱۵ دلار برای همین مقدار توکن خروجی.
مدلهای کلاد انتروپیک در سال گذشته بین توسعهدهندهها و شرکتها خیلی محبوب شدن، مخصوصا به خاطر عملکرد خوبشون در کارهای مهندسی نرمافزار. گزارش شده که شرکتهایی مثل اپل و متا به صورت داخلی از مدلهای کلاد استفاده میکنن. همچنین انتروپیک از طریق فروش دسترسی API به اپلیکیشنهای کدنویسی مثل Cursor، Windsurf و Replit کسبوکار خوبی راه انداخته.
بر اساس یک تحقیق، بیشتر کاربران کلاد از این مدل برای کارهای مربوط به محل کار یا افزایش بهرهوری استفاده میکنن. کارهای ریاضی و کدنویسی با ۳۶ درصد، بیشترین موارد استفاده از Claude.ai در سطح جهان بودن. همچنین حدود ۷۷ درصد از درخواستهایی که از طریق API به این مدل فرستاده میشه، برای انجام خودکار کارهاست، نه فقط برای گرفتن مشاوره.
بازخورد مشتریان اولیه
- مایکل ترول، مدیرعامل Cursor: «عملکرد کدنویسی Sonnet 4.5 در سطح بهترینهای دنیاست، مخصوصا در کارهایی که زمان بیشتری میبرن.»
- جف وانگ، مدیرعامل Windsurf: «Sonnet 4.5 نماینده نسل جدیدی از مدلهای کدنویسیه.»
- GitHub Copilot: «ارزیابیهای اولیه ما پیشرفتهای قابل توجهی رو در استدلال چند مرحلهای و درک کد نشون میده.»
- Canva: «این مدل به شکل محسوسی هوشمندتره و یک جهش بزرگ به جلو محسوب میشه که به ما کمک میکنه تا امکانات بیشتری رو برای بیش از ۲۴۰ میلیون کاربرمون فراهم کنیم.»
- Devin: «Sonnet 4.5 عملکرد برنامهریزی رو ۱۸ درصد و امتیازهای ارزیابی کلی رو ۱۲ درصد افزایش داد. این بزرگترین جهشیه که از زمان عرضه Claude Sonnet 3.6 دیدیم.»
دیدگاهتان را بنویسید