شرکت انتروپیک (Anthropic) در تاریخ ۲۱ نوامبر ۲۰۲۳ از جدیدترین مدل زبان بزرگ خودش یعنی کلاد ۲.۱ (Claude 2.1) رونمایی کرد. این مدل جدید از طریق API در کنسول انتروپیک و همچنین در چتبات وبسایت claude.ai در دسترس قرار گرفته و بهبودهای قابل توجهی رو در چند زمینه کلیدی، به خصوص برای کاربران تجاری و سازمانی، به همراه داشته. از جمله این بهبودها میشه به پنجره زمینه (Context Window) بسیار بزرگ ۲۰۰ هزار توکنی، کاهش چشمگیر نرخ توهمزایی یا همان اطلاعات غلط (Hallucination)، معرفی پرامپتهای سیستمی (System Prompts) و یک قابلیت بتا به نام «استفاده از ابزار» (Tool Use) اشاره کرد. در کنار این موارد، ساختار قیمتگذاری مدلها هم برای بهینهتر شدن هزینهها برای مشتریان تغییر کرده.
پنجره زمینه ۲۰۰ هزار توکنی: یک جهش بزرگ در پردازش اطلاعات
یکی از بزرگترین و مهمترین ویژگیهای کلاد ۲.۱، پنجره زمینه ۲۰۰ هزار توکنی اون هست. این ویژگی در پاسخ به درخواست مکرر کاربرانی توسعه داده شده که نیاز به کار با اسناد طولانی و دریافت خروجیهای دقیقتر داشتند. این پنجره زمینه جدید، ظرفیت پردازش اطلاعات کلاد رو دو برابر کرده و به کاربران اجازه میده تا حجم عظیمی از اطلاعات رو به مدل بدن.
برای اینکه درک بهتری از این عدد داشته باشیم، ۲۰۰ هزار توکن تقریبا معادل ۱۵۰ هزار کلمه یا بیش از ۵۰۰ صفحه متن هست. این یعنی کاربران حالا میتونن اسناد بسیار طولانی مثل موارد زیر رو به طور کامل به کلاد بدن و باهاش گفتگو کنن:
- مستندات فنی کامل یک نرمافزار یا یک پایگاه کد (Codebase)
- صورتهای مالی دقیق مثل گزارشهای S-1
- آثار ادبی طولانی و کلاسیک مثل ایلیاد یا ادیسه
با این قابلیت، کلاد میتونه وظایف پیچیدهای مثل خلاصهسازی، پاسخ به پرسشها، پیشبینی روندها، و مقایسه بین چندین سند مختلف رو با دقت بیشتری انجام بده. این ویژگی کلاد ۲.۱ رو به ابزاری قدرتمند برای تحلیل قراردادهای پیچیده حقوقی، تدوین طرحهای تجاری و کاربردهای مشابه تبدیل میکنه.
پردازش چنین حجمی از اطلاعات (۲۰۰ هزار توکن) یک دستاورد فنی پیچیده و برای اولین بار در صنعت هوش مصنوعی هست. به همین دلیل، انجام کارهایی که برای یک انسان ساعتها طول میکشه، ممکنه برای کلاد چند دقیقه زمان ببره. البته انتروپیک اعلام کرده که با پیشرفت فناوری، انتظار داره این تاخیر (Latency) به شکل قابل توجهی کاهش پیدا کنه.
چالش «گم شدن در میانه» در پنجرههای زمینه بزرگ
با وجود اینکه پنجره زمینه بزرگ یک قابلیت مهم به حساب میاد، اما هم کلاد ۲.۱ و هم مدلهای رقیب مثل GPT-4 Turbo با پدیدهای به نام «گم شدن در میانه» (Lost in the middle) روبرو هستند. این پدیده به این معنیه که مدلهای زبان، اطلاعاتی که در ابتدا و انتهای یک متن طولانی قرار داره رو بهتر به خاطر میارن، اما اطلاعاتی که در بخشهای میانی سند وجود داره رو ممکنه نادیده بگیرن.
یک محقق به نام گرگ کامرادت (Greg Kamradt) آزمایشی رو برای بررسی این موضوع روی کلاد ۲.۱ انجام داد. او مقالات پل گراهام (Paul Graham) رو به سیستم داد و جملات مشخصی رو در نقاط مختلف این اسناد طولانی قرار داد. سپس سعی کرد این جملات رو از مدل استخراج کنه. نتایج این آزمایش نشون داد که:
- کلاد ۲.۱ تونست با دقت نزدیک به ۱۰۰ درصد، اطلاعاتی که در ابتدا و انتهای یک سند قرار داشت رو در ۳۵ درخواست مختلف استخراج کنه.
- اما عملکرد مدل وقتی حجم متن از حدود ۹۰ هزار توکن فراتر میرفت، به شدت افت میکرد، به خصوص برای اطلاعاتی که در میانه و انتهای سند قرار داشتند.
این نتیجه مشابه آزمایشی بود که روی GPT-4 Turbo با پنجره زمینه ۱۲۸ هزار توکنی انجام شده بود، هرچند GPT-4 Turbo در اون آزمایش عملکرد بهتری نسبت به کلاد ۲.۱ از خودش نشون داد. این آزمایشها نشون میده که پنجرههای زمینه بزرگ هنوز به قابلیت اطمینان کامل نرسیدن و برای کاربردهایی که دقت بالا در اونها حیاتی هست، نمیشه به طور کامل به اونها برای پیدا کردن تمام حقایق در یک سند طولانی اتکا کرد. برای افزایش دقت، بهتره اطلاعات در واحدهای کوچکتر (مثلا ۸ تا ۱۶ هزار توکن) به مدل داده بشه یا از پایگاههای داده وکتور (Vector Databases) استفاده بشه.
کاهش ۲ برابری اشتباهات و توهمها: قدمی به سوی اطمینان بیشتر
یکی دیگه از پیشرفتهای مهم کلاد ۲.۱، افزایش قابل توجه «صداقت» مدل و کاهش ۲ برابری بیانیههای نادرست در مقایسه با مدل قبلی یعنی کلاد ۲.۰ هست. این ویژگی به شرکتها و سازمانها اجازه میده تا برنامههای هوش مصنوعی با عملکرد بالا بسازن که مشکلات تجاری مشخصی رو حل میکنن و میتونن با اعتماد و اطمینان بیشتری از هوش مصنوعی در عملیات خودشون استفاده کنن.
برای سنجش این بهبود، انتروپیک مجموعهای بزرگ از سوالات پیچیده و مبتنی بر واقعیت رو طراحی کرد که نقاط ضعف شناخته شده مدلهای فعلی رو هدف میگرفت. با استفاده از یک معیار مشخص که بین ادعاهای نادرست (مثلا «پنجمین شهر پرجمعیت بولیوی مونترو است») و پذیرش عدم قطعیت (مثلا «مطمئن نیستم پنجمین شهر پرجمعیت بولیوی کدام است») تمایز قائل میشد، کلاد ۲.۱ به شکل قابل توجهی بیشتر احتمال داشت که به جای ارائه اطلاعات غلط، عدم اطلاع خودش رو اعلام کنه.
این بهبودها در درک مطلب و خلاصهسازی هم دیده میشه، به خصوص در مورد اسناد طولانی و پیچیدهای که نیاز به دقت بالایی دارن، مثل اسناد حقوقی، گزارشهای مالی و مشخصات فنی. ارزیابیهای انجام شده نشون میده که کلاد ۲.۱ موارد زیر رو به دست آورده:
- ۳۰ درصد کاهش در پاسخهای نادرست.
- ۳ تا ۴ برابر نرخ کمتر در نتیجهگیری اشتباه مبنی بر اینکه یک سند از یک ادعای خاص پشتیبانی میکنه.
با این وجود، تیمهای محصول و تحقیقاتی انتروپیک همچنان افزایش دقت و قابلیت اطمینان خروجیها رو یکی از اولویتهای اصلی خودشون میدونن.
استفاده از ابزار (Tool Use): اتصال کلاد به دنیای بیرون
در پاسخ به درخواست زیاد کاربران، یک قابلیت بتای جدید به نام «استفاده از ابزار» به کلاد ۲.۱ اضافه شده. این ویژگی به کلاد اجازه میده تا با فرآیندها، محصولات و APIهای موجود کاربران ادغام بشه. هدف از این قابلیت، افزایش کارایی کلاد در عملیات روزمره کاربران هست.
حالا کلاد میتونه بین توابع یا APIهای تعریف شده توسط توسعهدهندگان هماهنگی ایجاد کنه، در منابع وب جستجو کنه و اطلاعات رو از پایگاههای دانش خصوصی بازیابی کنه. کاربران میتونن مجموعهای از ابزارها رو برای کلاد تعریف کنن و یک درخواست مشخص رو بهش بدن. سپس مدل تصمیم میگیره که برای انجام اون وظیفه به کدوم ابزار نیاز داره و یک اقدام رو از طرف کاربر اجرا میکنه. برخی از این اقدامات عبارتند از:
- استفاده از ماشین حساب برای استدلالهای عددی پیچیده.
- ترجمه درخواستهای زبان طبیعی به فراخوانیهای API ساختاریافته.
- پاسخ به سوالات از طریق جستجو در پایگاههای داده یا استفاده از یک API جستجوی وب.
- انجام اقدامات ساده در نرمافزار از طریق APIهای خصوصی.
- اتصال به پایگاههای داده محصول برای ارائه پیشنهاد و کمک به کاربران برای تکمیل خرید.
این قابلیت در حال حاضر در مراحل اولیه توسعه قرار داره و انتروپیک در حال ساخت ویژگیهای بیشتر برای توسعهدهندگان و راهنماهای پرامپتنویسی برای ادغام سادهتر اون در برنامهها هست.
بهبود تجربه توسعهدهندگان: ورکبنچ و پرامپتهای سیستمی
انتروپیک برای سادهتر کردن کار با API کلاد، کنسول توسعهدهندگان خودش رو هم بهبود داده. محصول جدیدی به نام ورکبنچ (Workbench) معرفی شده که به توسعهدهندگان اجازه میده در یک محیط شبه-زمینبازی (Playground-style) پرامپتهای خودشون رو تکرار و آزمایش کنن و به تنظیمات جدید مدل برای بهینهسازی رفتار کلاد دسترسی داشته باشن. اونها میتونن چندین پرامپت برای پروژههای مختلف ایجاد کنن و بین اونها جابجا بشن و تغییرات به صورت خودکار ذخیره میشه تا سوابق قبلی از دست نره. توسعهدهندگان همچنین میتونن قطعه کدهای آماده (Code Snippets) تولید کنن تا از پرامپتهاشون به طور مستقیم در یکی از SDKهای انتروپیک استفاده کنن.
ویژگی مهم دیگه، معرفی پرامپتهای سیستمی (System Prompts) هست. این پرامپتها به کاربران اجازه میدن دستورالعملهای سفارشی رو به کلاد بدن تا عملکردش رو بهبود ببخشن. پرامپتهای سیستمی، یک زمینه مفید رو تنظیم میکنن که توانایی کلاد رو برای پذیرش شخصیتها و نقشهای مشخص یا ساختاردهی پاسخها به روشی قابل تنظیم و سازگارتر با نیازهای کاربر افزایش میده. با استفاده از این پرامپتها میشه اهداف رو تعیین کرد، قوانین و محدودیتها رو مشخص کرد و استانداردهایی برای تایید خروجیها تعریف کرد.
برای مثال، یک پرامپت سیستمی میتونه به این شکل باشه:
Here are some documents for you to reference for your task:
<documents>
<document index="1">
<document_content>
(the text content of the document - could be a passage, web page, article, etc)
</document_content>
<document index="2">
<source>https://mycompany.repository/userguide/what-is-it.html</source>
</document>
...
</documents>
You are Larry, and you are a customer advisor with deep knowledge of your company's products. Larry has a great deal of patience with his customers, even when they say nonsense or are sarcastic. Larry's answers are polite but sometimes funny. However, he only answers questions about the company's products and doesn't know much about other questions. Use the provided documentation to answer user questions.
Human: Your product is making a weird stuttering sound when I operate. What might be the problem?
در این مثال، به مدل گفته شده که نقش یک مشاور مشتری به نام «لری» رو با ویژگیهای شخصیتی خاص بازی کنه و فقط بر اساس اسناد ارائه شده پاسخ بده.
دسترسی، پلتفرمها و قیمتگذاری
کلاد ۲.۱ در حال حاضر از طریق API انتروپیک و همچنین در چتبات وبسایت claude.ai
برای هر دو سطح رایگان و پرو (Pro) در دسترسه. استفاده از پنجره زمینه ۲۰۰ هزار توکنی در حال حاضر به کاربران کلاد پرو اختصاص داره که اشتراک ماهانه اون ۲۰ دلار هست.
علاوه بر پلتفرم اصلی انتروپیک، کلاد ۲.۱ در پلتفرمهای دیگه هم در دسترس قرار گرفته:
- آمازون بدراک (Amazon Bedrock): کلاد ۲.۱ در سرویس آمازون بدراک در مناطق US East (N. Virginia) و US West (Oregon) موجوده. کاربران میتونن از طریق کنسول AWS به این مدل دسترسی پیدا کنن و از اون برای ساخت برنامههای هوش مصنوعی سازمانی استفاده کنن. برای استفاده از طریق AWS CLI هم میشه از دستوری مشابه این استفاده کرد:
aws bedrock-runtime invoke-model \
--model-id anthropic.claude-v2:1 \
--body '{"prompt":"\n\nHuman: Tell me funny joke about outer space\n\nAssistant:\n","max_tokens_to_sample":300,"temperature":1,"top_k":250,"top_p":0.999,"stop_sequences":["\n\nHuman:"],"anthropic_version":"bedrock-2023-05-31"}' \
--cli-binary-format raw-in-base64-out \
invoke-model-output.txt
- پرپلکسیتی پرو (Perplexity Pro): مشترکین این سرویس هم میتونن با تغییر مدل در تنظیمات، از کلاد ۲.۱ استفاده کنن.
- پو (Poe): این احتمال وجود داره که کلاد ۲.۱ برای مشترکین پریمیوم Poe هم در دسترس قرار بگیره و کاربران بتونن از اون به عنوان «بات پایه» برای ساخت رباتهای سفارشی خودشون استفاده کنن.
مقایسه قیمتگذاری
انتروپیک قیمتگذاری مدلهای کلاد رو هم بهروز کرده و اون رو پایینتر از مدل GPT-4 شرکت OpenAI تعیین کرده. این اقدام، کلاد رو به عنوان یک جایگزین پیشرفته و با مزیت قیمتی قابل توجه مطرح میکنه.
- کلاد ۲.۰ و ۲.۱:
- ورودی (Input): ۰.۰۰۸ دلار برای هر ۱۰۰۰ توکن
- خروجی (Output): ۰.۰۲۴ دلار برای هر ۱۰۰۰ توکن
- OpenAI GPT-4 Turbo:
- ورودی: ۰.۰۱ دلار برای هر ۱۰۰۰ توکن
- خروجی: ۰.۰۳ دلار برای هر ۱۰۰۰ توکن
- OpenAI GPT-4:
- ورودی: ۰.۰۳ دلار برای هر ۱۰۰۰ توکن
- خروجی: ۰.۰۶ دلار برای هر ۱۰۰۰ توکن
- OpenAI GPT-3.5 Turbo:
- ورودی: ۰.۰۰۱ دلار برای هر ۱۰۰۰ توکن
- خروجی: ۰.۰۰۲ دلار برای هر ۱۰۰۰ توکن
این قیمتگذاری نشون میده که هزینه استفاده از کلاد ۲.۱ حدود ۲۰ درصد کمتر از قدرتمندترین مدلهای OpenAI هست، اما همچنان به مراتب بالاتر از مدل کمتر قدرتمند GPT-3.5 Turbo قرار داره.
جایگاه انتروپیک در بازار هوش مصنوعی
انتروپیک که در سال ۲۰۲۱ تاسیس شده، با تمرکز بر ایمنی، صداقت و کنترل، به سرعت در حال تبدیل شدن به یکی از بازیگران اصلی در حوزه هوش مصنوعیه. این شرکت اخیرا سرمایهگذاری بزرگی به مبلغ ۴ میلیارد دلار از آمازون و ۲.۵ میلیارد دلار از گوگل دریافت کرده. این حمایتها و همچنین تبلیغ مدلهای کلاد توسط AWS و Google Cloud، انتروپیک رو به عنوان جایگزین اصلی OpenAI و اکوسیستم ابری Azure مطرح کرده.
انتشار کلاد ۲.۱ با ویژگیهای پیشرفته و قیمت رقابتی، به خصوص در زمان چالشهای داخلی شرکت OpenAI، این جایگاه رو بیش از پیش تقویت میکنه و توجه شرکتها و توسعهدهندگانی که به دنبال یک جایگزین قابل اعتماد برای کاهش ریسک محصولاتشون هستن رو به خودش جلب کرده.
منابع
- Introducing Claude 2.1 \ Anthropic
- Anthropic Introduces Claude 2.1 With 200K Context Window
- Anthropic’s Claude 2.1 LLM Has a 200K Context Window, API Tools and Poses a New Challenge to OpenAI
- Weights & Biases
- Amazon Bedrock now provides access to Anthropic’s latest model, Claude 2.1 | AWS News Blog
- Anthropic Unveils Claude 2.1 with 200K Context Capability and Reduced Hallucination
- Anthropic Launches Claude 2.1, Surpasses GPT-4 Turbo in Context Length
- Claude 2.1 foundation model from Anthropic is now generally available in Amazon Bedrock – AWS
- Anthropic’s best Claude 2.1 feature suffers the same fate as GPT-4 Turbo
- Run Claude 2.1 with an API on Clarifai’s Python SDK
دیدگاهتان را بنویسید