۱۴ مرداد ۱۴۰۴

مدل Claude Opus 4.1 از آنتروپیک معرفی شد، پیشرفت در کدنویسی و استدلال

شرکت هوش مصنوعی آنتروپیک (Anthropic) از جدیدترین مدل خودش به اسم Claude Opus 4.1 رونمایی کرده. این شرکت حدود سه ماه پیش، در ماه می، خانواده مدل‌های Claude 4 رو با تمرکز روی بهتر کردن کدنویسی، استدلال و دنبال کردن دستورات معرفی کرده بود. حالا، مدل جدید یعنی Opus 4.1 اومده تا این قابلیت‌ها رو یک پله بالاتر ببره، مخصوصا توی زمینه‌هایی مثل «کارهای مامورمحور (agentic tasks)، کدنویسی در دنیای واقعی و استدلال».

این مدل جدید هوش مصنوعی به طور خاص برای بهتر کردن بهره‌وری توی جریان‌های کاری مهندسی نرم‌افزار طراحی شده و از همین الان در دسترس کاربرهای پولی Claude و توسعه‌دهنده‌های API قرار گرفته.

جهش بزرگ در عملکرد کدنویسی

یکی از مهمترین پیشرفت‌های Claude Opus 4.1، عملکردش توی حوزه کدنویسیه. طبق گفته آنتروپیک، دقت این مدل در مهندسی نرم‌افزار به ۷۴.۵ درصد رسیده. این عدد در مقایسه با مدل Claude Sonnet 3.7 که دقت ۶۲.۳ درصدی داشت و مدل قبلی یعنی Claude Opus 4 با دقت ۷۲.۵ درصدی، یک پیشرفت قابل توجه به حساب میاد.

به زبان ساده‌تر، این مدل توی کارهایی مثل «مهارت‌های تحقیق عمیق و تحلیل داده، به خصوص در زمینه دنبال کردن جزئیات و جستجوی مامورمحور» بهتر عمل میکنه. این مدل تونسته توی بنچمارک SWE-bench Verified، که برای ارزیابی کارهای مهندسی نرم‌افزار طراحی شده، به امتیاز ۷۴.۵ درصد برسه.

شرکت‌های مختلفی که از این مدل استفاده کردن، نظرشون رو گفتن:

گیت‌هاب (GitHub) اشاره کرده که Claude Opus 4.1 نسبت به Opus 4 توی بیشتر قابلیت‌ها بهتر شده و به طور مشخص، پیشرفت قابل توجهی در زمینه بازسازی کدهای چند فایلی (multi-file code refactoring) داشته.
گروه راکوتن (Rakuten Group) متوجه شده که Opus 4.1 در پیدا کردن اصلاحات دقیق توی کدهای خیلی بزرگ عالی عمل میکنه، بدون اینکه تغییرات غیرضروری ایجاد کنه یا باگ جدیدی به وجود بیاره. تیمشون این دقت بالا رو برای کارهای روزمره عیب‌یابی (debugging) ترجیح میده.
شرکت ویندسرف (Windsurf) گزارش داده که Opus 4.1 در بنچمارک مخصوص توسعه‌دهنده‌های تازه‌کارشون، یک انحراف معیار کامل نسبت به Opus 4 بهبود داشته. این جهش عملکردی تقریبا به اندازه پرش از مدل Sonnet 3.7 به Sonnet 4 بوده.

ویژگی‌های کلیدی که عملکرد این مدل رو برای توسعه‌دهنده‌ها بهتر کرده شامل این موارد میشه:

قابلیت‌های بازسازی کد چند فایلی دقیق‌تر
کاهش نرخ توهم‌زایی (hallucination) در وظایف کدنویسی مبتنی بر منطق
دقت بیشتر در شناسایی راه‌حل باگ‌ها در پایگاه‌ کدهای عظیم

چطور به Claude Opus 4.1 دسترسی داشته باشیم؟

این مدل جدید از امروز برای کاربرهای پولی Claude و از طریق Claude Code در دسترسه. علاوه بر این، میشه از طریق API خود آنتروپیک، پلتفرم Amazon Bedrock و Vertex AI گوگل کلاد هم بهش دسترسی داشت. خبر خوب اینه که قیمت‌گذاری این مدل جدید با مدل قبلی یعنی Opus 4 یکسانه. آنتروپیک به همه کاربرها پیشنهاد کرده که از Opus 4 به Opus 4.1 مهاجرت کنن.

توسعه‌دهنده‌ها میتونن به سادگی با استفاده از شناسه claude-opus-4-1-20250805 از طریق API به این مدل دسترسی پیدا کنن.

یکپارچگی با گیت‌هاب کوپایلت (GitHub Copilot)

یکی از خبرهای هیجان‌انگیز برای توسعه‌دهنده‌ها، اضافه شدن Claude Opus 4.1 به گیت‌هاب کوپایلت هست. این مدل الان به عنوان یک نسخه پیش‌نمایش عمومی برای کاربرهای پلن‌های Copilot Enterprise و Pro+ در دسترسه. کاربرها میتونن این مدل رو از طریق انتخابگر مدل چت در GitHub Copilot Chat روی سایت github.com، در ویژوال استودیو کد و اپلیکیشن موبایل گیت‌هاب انتخاب کنن.

یک نکته مهم اینه که در ویژوال استودیو کد، مدل Opus 4.1 فعلا فقط در حالت «ask mode» در دسترسه. این حالت به توسعه‌دهنده‌ها اجازه میده سوال‌ها یا درخواست‌های مستقیم‌تری بپرسن.

مدیران Copilot Enterprise باید از طریق یک سیاست جدید در تنظیمات کوپایلت، دسترسی به این مدل رو فعال کنن. این عرضه به صورت تدریجی انجام میشه، پس اگه هنوز بهش دسترسی ندارید، باید کمی صبر کنید. در ضمن، مدل قبلی یعنی Claude Opus 4 همچنان در دسترس خواهد بود، اما تا ۱۵ روز دیگه از رده خارج میشه و این موضوع نشون میده که آنتروپیک میخواد کاربرها هرچه سریعتر به نسخه جدید آپدیت کنن.

نگاهی به روش‌شناسی بنچمارک‌ها

مدل‌های Claude به عنوان مدل‌های استدلال ترکیبی (hybrid reasoning models) شناخته میشن. امتیازهای بنچمارک‌هایی که اعلام شده، بالاترین امتیازهایی هستن که با یا بدون «تفکر گسترده» (extended thinking) به دست اومدن.

بنچمارک‌هایی که بدون تفکر گسترده انجام شدن: SWE-bench Verified, Terminal-Bench
بنچمارک‌هایی که با تفکر گسترده (تا ۶۴ هزار توکن) انجام شدن: TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME

برای بنچمارک TAU-bench، یک دستورالعمل اضافی به مدل داده شده تا از توانایی‌های استدلالش بهتر استفاده کنه. همچنین حداکثر تعداد مراحل از ۳۰ به ۱۰۰ افزایش داده شده. برای بنچمارک SWE-bench هم، برای خانواده مدل‌های Claude 4 از همون چارچوب ساده قبلی استفاده شده که فقط دو ابزار در اختیار مدل قرار میده: یک ابزار bash و یک ابزار ویرایش فایل. ابزار سوم یعنی «ابزار برنامه‌ریزی» که در Claude 3.7 Sonnet استفاده میشد، دیگه حذف شده.

آینده برای آنتروپیک چه شکلیه؟

آنتروپیک اعلام کرده که قصد دارد «در هفته‌های آینده بهبودهای به مراتب بزرگتری برای مدل‌هاش منتشر کند». این نشون میده که این شرکت میخواد در زمینه ساخت نسل بعدی دستیارهای هوش مصنوعی پیشرو باشه؛ ابزارهایی که نه تنها کد رو کامل میکنن، بلکه میتونن کل یک جریان کاری رو تحلیل و استدلال کنن.

در همین حین، رقیب این شرکت یعنی OpenAI هم قراره به زودی خبرهای جدیدی رو اعلام کنه که نشون از داغ بودن رقابت در این حوزه داره. کاربرهای مک هم میتونن اپلیکیشن Claude رو برای macOS دانلود کنن و این پلتفرم برای آیفون و آیپد هم اپلیکیشن اختصاصی داره.

منابع

[۱] Anthropic rolls out Claude Opus 4.1 with improved software engineering accuracy – 9to5Mac
[۲] Claude Opus 4.1 \ Anthropic
[۳] Claude Opus 4.1 Launches with Major Coding Boosts and GitHub Copilot Integration – Bangla news
[۴] Anthropic Claude Opus 4.1 is now in public preview in GitHub Copilot – GitHub Changelog
[۵] Anthropic says releasing Claude Opus 4.1, an upgrade to Claude Opus 4 | MarketScreener

آنتروپیک مدل‌های هوش‌مصنوعی