شرکت هوش مصنوعی آنتروپیک (Anthropic) از جدیدترین مدل خودش به اسم Claude Opus 4.1 رونمایی کرده. این شرکت حدود سه ماه پیش، در ماه می، خانواده مدلهای Claude 4 رو با تمرکز روی بهتر کردن کدنویسی، استدلال و دنبال کردن دستورات معرفی کرده بود. حالا، مدل جدید یعنی Opus 4.1 اومده تا این قابلیتها رو یک پله بالاتر ببره، مخصوصا توی زمینههایی مثل «کارهای مامورمحور (agentic tasks)، کدنویسی در دنیای واقعی و استدلال».
این مدل جدید هوش مصنوعی به طور خاص برای بهتر کردن بهرهوری توی جریانهای کاری مهندسی نرمافزار طراحی شده و از همین الان در دسترس کاربرهای پولی Claude و توسعهدهندههای API قرار گرفته.
جهش بزرگ در عملکرد کدنویسی
یکی از مهمترین پیشرفتهای Claude Opus 4.1، عملکردش توی حوزه کدنویسیه. طبق گفته آنتروپیک، دقت این مدل در مهندسی نرمافزار به ۷۴.۵ درصد رسیده. این عدد در مقایسه با مدل Claude Sonnet 3.7 که دقت ۶۲.۳ درصدی داشت و مدل قبلی یعنی Claude Opus 4 با دقت ۷۲.۵ درصدی، یک پیشرفت قابل توجه به حساب میاد.
به زبان سادهتر، این مدل توی کارهایی مثل «مهارتهای تحقیق عمیق و تحلیل داده، به خصوص در زمینه دنبال کردن جزئیات و جستجوی مامورمحور» بهتر عمل میکنه. این مدل تونسته توی بنچمارک SWE-bench Verified، که برای ارزیابی کارهای مهندسی نرمافزار طراحی شده، به امتیاز ۷۴.۵ درصد برسه.
شرکتهای مختلفی که از این مدل استفاده کردن، نظرشون رو گفتن:
- گیتهاب (GitHub) اشاره کرده که Claude Opus 4.1 نسبت به Opus 4 توی بیشتر قابلیتها بهتر شده و به طور مشخص، پیشرفت قابل توجهی در زمینه بازسازی کدهای چند فایلی (multi-file code refactoring) داشته.
- گروه راکوتن (Rakuten Group) متوجه شده که Opus 4.1 در پیدا کردن اصلاحات دقیق توی کدهای خیلی بزرگ عالی عمل میکنه، بدون اینکه تغییرات غیرضروری ایجاد کنه یا باگ جدیدی به وجود بیاره. تیمشون این دقت بالا رو برای کارهای روزمره عیبیابی (debugging) ترجیح میده.
- شرکت ویندسرف (Windsurf) گزارش داده که Opus 4.1 در بنچمارک مخصوص توسعهدهندههای تازهکارشون، یک انحراف معیار کامل نسبت به Opus 4 بهبود داشته. این جهش عملکردی تقریبا به اندازه پرش از مدل Sonnet 3.7 به Sonnet 4 بوده.
ویژگیهای کلیدی که عملکرد این مدل رو برای توسعهدهندهها بهتر کرده شامل این موارد میشه:
- قابلیتهای بازسازی کد چند فایلی دقیقتر
- کاهش نرخ توهمزایی (hallucination) در وظایف کدنویسی مبتنی بر منطق
- دقت بیشتر در شناسایی راهحل باگها در پایگاه کدهای عظیم
چطور به Claude Opus 4.1 دسترسی داشته باشیم؟
این مدل جدید از امروز برای کاربرهای پولی Claude و از طریق Claude Code در دسترسه. علاوه بر این، میشه از طریق API خود آنتروپیک، پلتفرم Amazon Bedrock و Vertex AI گوگل کلاد هم بهش دسترسی داشت. خبر خوب اینه که قیمتگذاری این مدل جدید با مدل قبلی یعنی Opus 4 یکسانه. آنتروپیک به همه کاربرها پیشنهاد کرده که از Opus 4 به Opus 4.1 مهاجرت کنن.
توسعهدهندهها میتونن به سادگی با استفاده از شناسه claude-opus-4-1-20250805
از طریق API به این مدل دسترسی پیدا کنن.
یکپارچگی با گیتهاب کوپایلت (GitHub Copilot)
یکی از خبرهای هیجانانگیز برای توسعهدهندهها، اضافه شدن Claude Opus 4.1 به گیتهاب کوپایلت هست. این مدل الان به عنوان یک نسخه پیشنمایش عمومی برای کاربرهای پلنهای Copilot Enterprise و Pro+ در دسترسه. کاربرها میتونن این مدل رو از طریق انتخابگر مدل چت در GitHub Copilot Chat روی سایت github.com، در ویژوال استودیو کد و اپلیکیشن موبایل گیتهاب انتخاب کنن.
یک نکته مهم اینه که در ویژوال استودیو کد، مدل Opus 4.1 فعلا فقط در حالت «ask mode» در دسترسه. این حالت به توسعهدهندهها اجازه میده سوالها یا درخواستهای مستقیمتری بپرسن.
مدیران Copilot Enterprise باید از طریق یک سیاست جدید در تنظیمات کوپایلت، دسترسی به این مدل رو فعال کنن. این عرضه به صورت تدریجی انجام میشه، پس اگه هنوز بهش دسترسی ندارید، باید کمی صبر کنید. در ضمن، مدل قبلی یعنی Claude Opus 4 همچنان در دسترس خواهد بود، اما تا ۱۵ روز دیگه از رده خارج میشه و این موضوع نشون میده که آنتروپیک میخواد کاربرها هرچه سریعتر به نسخه جدید آپدیت کنن.
نگاهی به روششناسی بنچمارکها
مدلهای Claude به عنوان مدلهای استدلال ترکیبی (hybrid reasoning models) شناخته میشن. امتیازهای بنچمارکهایی که اعلام شده، بالاترین امتیازهایی هستن که با یا بدون «تفکر گسترده» (extended thinking) به دست اومدن.
- بنچمارکهایی که بدون تفکر گسترده انجام شدن: SWE-bench Verified, Terminal-Bench
- بنچمارکهایی که با تفکر گسترده (تا ۶۴ هزار توکن) انجام شدن: TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME
برای بنچمارک TAU-bench، یک دستورالعمل اضافی به مدل داده شده تا از تواناییهای استدلالش بهتر استفاده کنه. همچنین حداکثر تعداد مراحل از ۳۰ به ۱۰۰ افزایش داده شده. برای بنچمارک SWE-bench هم، برای خانواده مدلهای Claude 4 از همون چارچوب ساده قبلی استفاده شده که فقط دو ابزار در اختیار مدل قرار میده: یک ابزار bash و یک ابزار ویرایش فایل. ابزار سوم یعنی «ابزار برنامهریزی» که در Claude 3.7 Sonnet استفاده میشد، دیگه حذف شده.
آینده برای آنتروپیک چه شکلیه؟
آنتروپیک اعلام کرده که قصد دارد «در هفتههای آینده بهبودهای به مراتب بزرگتری برای مدلهاش منتشر کند». این نشون میده که این شرکت میخواد در زمینه ساخت نسل بعدی دستیارهای هوش مصنوعی پیشرو باشه؛ ابزارهایی که نه تنها کد رو کامل میکنن، بلکه میتونن کل یک جریان کاری رو تحلیل و استدلال کنن.
در همین حین، رقیب این شرکت یعنی OpenAI هم قراره به زودی خبرهای جدیدی رو اعلام کنه که نشون از داغ بودن رقابت در این حوزه داره. کاربرهای مک هم میتونن اپلیکیشن Claude رو برای macOS دانلود کنن و این پلتفرم برای آیفون و آیپد هم اپلیکیشن اختصاصی داره.
منابع
- [۱] Anthropic rolls out Claude Opus 4.1 with improved software engineering accuracy – 9to5Mac
- [۲] Claude Opus 4.1 \ Anthropic
- [۳] Claude Opus 4.1 Launches with Major Coding Boosts and GitHub Copilot Integration – Bangla news
- [۴] Anthropic Claude Opus 4.1 is now in public preview in GitHub Copilot – GitHub Changelog
- [۵] Anthropic says releasing Claude Opus 4.1, an upgrade to Claude Opus 4 | MarketScreener
دیدگاهتان را بنویسید