GeekAlerts

جایی برای گیک‌ها

·

بررسی مدل هوش‌مصنوعی Claude 2.1 از انتروپیک

شرکت انتروپیک (Anthropic) در تاریخ ۲۱ نوامبر ۲۰۲۳ از جدیدترین مدل زبان بزرگ خودش یعنی کلاد ۲.۱ (Claude 2.1) رونمایی کرد. این مدل جدید از طریق API در کنسول انتروپیک و همچنین در چت‌بات وب‌سایت claude.ai در دسترس قرار گرفته و بهبودهای قابل توجهی رو در چند زمینه کلیدی، به خصوص برای کاربران تجاری و سازمانی، به همراه داشته. از جمله این بهبودها میشه به پنجره زمینه (Context Window) بسیار بزرگ ۲۰۰ هزار توکنی، کاهش چشمگیر نرخ توهم‌زایی یا همان اطلاعات غلط (Hallucination)، معرفی پرامپت‌های سیستمی (System Prompts) و یک قابلیت بتا به نام «استفاده از ابزار» (Tool Use) اشاره کرد. در کنار این موارد، ساختار قیمت‌گذاری مدل‌ها هم برای بهینه‌تر شدن هزینه‌ها برای مشتریان تغییر کرده.

پنجره زمینه ۲۰۰ هزار توکنی: یک جهش بزرگ در پردازش اطلاعات

یکی از بزرگترین و مهم‌ترین ویژگی‌های کلاد ۲.۱، پنجره زمینه ۲۰۰ هزار توکنی اون هست. این ویژگی در پاسخ به درخواست مکرر کاربرانی توسعه داده شده که نیاز به کار با اسناد طولانی و دریافت خروجی‌های دقیق‌تر داشتند. این پنجره زمینه جدید، ظرفیت پردازش اطلاعات کلاد رو دو برابر کرده و به کاربران اجازه میده تا حجم عظیمی از اطلاعات رو به مدل بدن.

برای اینکه درک بهتری از این عدد داشته باشیم، ۲۰۰ هزار توکن تقریبا معادل ۱۵۰ هزار کلمه یا بیش از ۵۰۰ صفحه متن هست. این یعنی کاربران حالا میتونن اسناد بسیار طولانی مثل موارد زیر رو به طور کامل به کلاد بدن و باهاش گفتگو کنن:

  • مستندات فنی کامل یک نرم‌افزار یا یک پایگاه کد (Codebase)
  • صورت‌های مالی دقیق مثل گزارش‌های S-1
  • آثار ادبی طولانی و کلاسیک مثل ایلیاد یا ادیسه

با این قابلیت، کلاد میتونه وظایف پیچیده‌ای مثل خلاصه‌سازی، پاسخ به پرسش‌ها، پیش‌بینی روندها، و مقایسه بین چندین سند مختلف رو با دقت بیشتری انجام بده. این ویژگی کلاد ۲.۱ رو به ابزاری قدرتمند برای تحلیل قراردادهای پیچیده حقوقی، تدوین طرح‌های تجاری و کاربردهای مشابه تبدیل میکنه.

پردازش چنین حجمی از اطلاعات (۲۰۰ هزار توکن) یک دستاورد فنی پیچیده و برای اولین بار در صنعت هوش مصنوعی هست. به همین دلیل، انجام کارهایی که برای یک انسان ساعت‌ها طول میکشه، ممکنه برای کلاد چند دقیقه زمان ببره. البته انتروپیک اعلام کرده که با پیشرفت فناوری، انتظار داره این تاخیر (Latency) به شکل قابل توجهی کاهش پیدا کنه.

چالش «گم شدن در میانه» در پنجره‌های زمینه بزرگ

با وجود اینکه پنجره زمینه بزرگ یک قابلیت مهم به حساب میاد، اما هم کلاد ۲.۱ و هم مدل‌های رقیب مثل GPT-4 Turbo با پدیده‌ای به نام «گم شدن در میانه» (Lost in the middle) روبرو هستند. این پدیده به این معنیه که مدل‌های زبان، اطلاعاتی که در ابتدا و انتهای یک متن طولانی قرار داره رو بهتر به خاطر میارن، اما اطلاعاتی که در بخش‌های میانی سند وجود داره رو ممکنه نادیده بگیرن.

یک محقق به نام گرگ کامرادت (Greg Kamradt) آزمایشی رو برای بررسی این موضوع روی کلاد ۲.۱ انجام داد. او مقالات پل گراهام (Paul Graham) رو به سیستم داد و جملات مشخصی رو در نقاط مختلف این اسناد طولانی قرار داد. سپس سعی کرد این جملات رو از مدل استخراج کنه. نتایج این آزمایش نشون داد که:

  • کلاد ۲.۱ تونست با دقت نزدیک به ۱۰۰ درصد، اطلاعاتی که در ابتدا و انتهای یک سند قرار داشت رو در ۳۵ درخواست مختلف استخراج کنه.
  • اما عملکرد مدل وقتی حجم متن از حدود ۹۰ هزار توکن فراتر میرفت، به شدت افت میکرد، به خصوص برای اطلاعاتی که در میانه و انتهای سند قرار داشتند.

این نتیجه مشابه آزمایشی بود که روی GPT-4 Turbo با پنجره زمینه ۱۲۸ هزار توکنی انجام شده بود، هرچند GPT-4 Turbo در اون آزمایش عملکرد بهتری نسبت به کلاد ۲.۱ از خودش نشون داد. این آزمایش‌ها نشون میده که پنجره‌های زمینه بزرگ هنوز به قابلیت اطمینان کامل نرسیدن و برای کاربردهایی که دقت بالا در اون‌ها حیاتی هست، نمیشه به طور کامل به اون‌ها برای پیدا کردن تمام حقایق در یک سند طولانی اتکا کرد. برای افزایش دقت، بهتره اطلاعات در واحدهای کوچکتر (مثلا ۸ تا ۱۶ هزار توکن) به مدل داده بشه یا از پایگاه‌های داده‌ وکتور (Vector Databases) استفاده بشه.

کاهش ۲ برابری اشتباهات و توهم‌ها: قدمی به سوی اطمینان بیشتر

یکی دیگه از پیشرفت‌های مهم کلاد ۲.۱، افزایش قابل توجه «صداقت» مدل و کاهش ۲ برابری بیانیه‌های نادرست در مقایسه با مدل قبلی یعنی کلاد ۲.۰ هست. این ویژگی به شرکت‌ها و سازمان‌ها اجازه میده تا برنامه‌های هوش مصنوعی با عملکرد بالا بسازن که مشکلات تجاری مشخصی رو حل میکنن و میتونن با اعتماد و اطمینان بیشتری از هوش مصنوعی در عملیات خودشون استفاده کنن.

برای سنجش این بهبود، انتروپیک مجموعه‌ای بزرگ از سوالات پیچیده و مبتنی بر واقعیت رو طراحی کرد که نقاط ضعف شناخته شده مدل‌های فعلی رو هدف میگرفت. با استفاده از یک معیار مشخص که بین ادعاهای نادرست (مثلا «پنجمین شهر پرجمعیت بولیوی مونترو است») و پذیرش عدم قطعیت (مثلا «مطمئن نیستم پنجمین شهر پرجمعیت بولیوی کدام است») تمایز قائل میشد، کلاد ۲.۱ به شکل قابل توجهی بیشتر احتمال داشت که به جای ارائه اطلاعات غلط، عدم اطلاع خودش رو اعلام کنه.

این بهبودها در درک مطلب و خلاصه‌سازی هم دیده میشه، به خصوص در مورد اسناد طولانی و پیچیده‌ای که نیاز به دقت بالایی دارن، مثل اسناد حقوقی، گزارش‌های مالی و مشخصات فنی. ارزیابی‌های انجام شده نشون میده که کلاد ۲.۱ موارد زیر رو به دست آورده:

  • ۳۰ درصد کاهش در پاسخ‌های نادرست.
  • ۳ تا ۴ برابر نرخ کمتر در نتیجه‌گیری اشتباه مبنی بر اینکه یک سند از یک ادعای خاص پشتیبانی میکنه.

با این وجود، تیم‌های محصول و تحقیقاتی انتروپیک همچنان افزایش دقت و قابلیت اطمینان خروجی‌ها رو یکی از اولویت‌های اصلی خودشون میدونن.

استفاده از ابزار (Tool Use): اتصال کلاد به دنیای بیرون

در پاسخ به درخواست زیاد کاربران، یک قابلیت بتای جدید به نام «استفاده از ابزار» به کلاد ۲.۱ اضافه شده. این ویژگی به کلاد اجازه میده تا با فرآیندها، محصولات و APIهای موجود کاربران ادغام بشه. هدف از این قابلیت، افزایش کارایی کلاد در عملیات روزمره کاربران هست.

حالا کلاد میتونه بین توابع یا APIهای تعریف شده توسط توسعه‌دهندگان هماهنگی ایجاد کنه، در منابع وب جستجو کنه و اطلاعات رو از پایگاه‌های دانش خصوصی بازیابی کنه. کاربران میتونن مجموعه‌ای از ابزارها رو برای کلاد تعریف کنن و یک درخواست مشخص رو بهش بدن. سپس مدل تصمیم میگیره که برای انجام اون وظیفه به کدوم ابزار نیاز داره و یک اقدام رو از طرف کاربر اجرا میکنه. برخی از این اقدامات عبارتند از:

  • استفاده از ماشین حساب برای استدلال‌های عددی پیچیده.
  • ترجمه درخواست‌های زبان طبیعی به فراخوانی‌های API ساختاریافته.
  • پاسخ به سوالات از طریق جستجو در پایگاه‌های داده یا استفاده از یک API جستجوی وب.
  • انجام اقدامات ساده در نرم‌افزار از طریق APIهای خصوصی.
  • اتصال به پایگاه‌های داده محصول برای ارائه پیشنهاد و کمک به کاربران برای تکمیل خرید.

این قابلیت در حال حاضر در مراحل اولیه توسعه قرار داره و انتروپیک در حال ساخت ویژگی‌های بیشتر برای توسعه‌دهندگان و راهنماهای پرامپت‌نویسی برای ادغام ساده‌تر اون در برنامه‌ها هست.

بهبود تجربه توسعه‌دهندگان: ورک‌بنچ و پرامپت‌های سیستمی

انتروپیک برای ساده‌تر کردن کار با API کلاد، کنسول توسعه‌دهندگان خودش رو هم بهبود داده. محصول جدیدی به نام ورک‌بنچ (Workbench) معرفی شده که به توسعه‌دهندگان اجازه میده در یک محیط شبه-زمین‌بازی (Playground-style) پرامپت‌های خودشون رو تکرار و آزمایش کنن و به تنظیمات جدید مدل برای بهینه‌سازی رفتار کلاد دسترسی داشته باشن. اون‌ها میتونن چندین پرامپت برای پروژه‌های مختلف ایجاد کنن و بین اون‌ها جابجا بشن و تغییرات به صورت خودکار ذخیره میشه تا سوابق قبلی از دست نره. توسعه‌دهندگان همچنین میتونن قطعه کدهای آماده (Code Snippets) تولید کنن تا از پرامپت‌هاشون به طور مستقیم در یکی از SDKهای انتروپیک استفاده کنن.

ویژگی مهم دیگه، معرفی پرامپت‌های سیستمی (System Prompts) هست. این پرامپت‌ها به کاربران اجازه میدن دستورالعمل‌های سفارشی رو به کلاد بدن تا عملکردش رو بهبود ببخشن. پرامپت‌های سیستمی، یک زمینه مفید رو تنظیم میکنن که توانایی کلاد رو برای پذیرش شخصیت‌ها و نقش‌های مشخص یا ساختاردهی پاسخ‌ها به روشی قابل تنظیم و سازگارتر با نیازهای کاربر افزایش میده. با استفاده از این پرامپت‌ها میشه اهداف رو تعیین کرد، قوانین و محدودیت‌ها رو مشخص کرد و استانداردهایی برای تایید خروجی‌ها تعریف کرد.

برای مثال، یک پرامپت سیستمی میتونه به این شکل باشه:

Here are some documents for you to reference for your task:
<documents>
 <document index="1">
  <document_content>
  (the text content of the document - could be a passage, web page, article, etc)
   </document_content>
<document index="2">
  <source>https://mycompany.repository/userguide/what-is-it.html</source>
</document>
...
</documents>

You are Larry, and you are a customer advisor with deep knowledge of your company's products. Larry has a great deal of patience with his customers, even when they say nonsense or are sarcastic. Larry's answers are polite but sometimes funny. However, he only answers questions about the company's products and doesn't know much about other questions. Use the provided documentation to answer user questions.

Human: Your product is making a weird stuttering sound when I operate. What might be the problem?

در این مثال، به مدل گفته شده که نقش یک مشاور مشتری به نام «لری» رو با ویژگی‌های شخصیتی خاص بازی کنه و فقط بر اساس اسناد ارائه شده پاسخ بده.

دسترسی، پلتفرم‌ها و قیمت‌گذاری

کلاد ۲.۱ در حال حاضر از طریق API انتروپیک و همچنین در چت‌بات وب‌سایت claude.ai برای هر دو سطح رایگان و پرو (Pro) در دسترسه. استفاده از پنجره زمینه ۲۰۰ هزار توکنی در حال حاضر به کاربران کلاد پرو اختصاص داره که اشتراک ماهانه اون ۲۰ دلار هست.

علاوه بر پلتفرم اصلی انتروپیک، کلاد ۲.۱ در پلتفرم‌های دیگه هم در دسترس قرار گرفته:

  • آمازون بدراک (Amazon Bedrock): کلاد ۲.۱ در سرویس آمازون بدراک در مناطق US East (N. Virginia) و US West (Oregon) موجوده. کاربران میتونن از طریق کنسول AWS به این مدل دسترسی پیدا کنن و از اون برای ساخت برنامه‌های هوش مصنوعی سازمانی استفاده کنن. برای استفاده از طریق AWS CLI هم میشه از دستوری مشابه این استفاده کرد:
aws bedrock-runtime invoke-model \
      --model-id anthropic.claude-v2:1 \
      --body '{"prompt":"\n\nHuman: Tell me funny joke about outer space\n\nAssistant:\n","max_tokens_to_sample":300,"temperature":1,"top_k":250,"top_p":0.999,"stop_sequences":["\n\nHuman:"],"anthropic_version":"bedrock-2023-05-31"}' \
      --cli-binary-format raw-in-base64-out \
      invoke-model-output.txt
  • پرپلکسیتی پرو (Perplexity Pro): مشترکین این سرویس هم میتونن با تغییر مدل در تنظیمات، از کلاد ۲.۱ استفاده کنن.
  • پو (Poe): این احتمال وجود داره که کلاد ۲.۱ برای مشترکین پریمیوم Poe هم در دسترس قرار بگیره و کاربران بتونن از اون به عنوان «بات پایه» برای ساخت ربات‌های سفارشی خودشون استفاده کنن.

مقایسه قیمت‌گذاری

انتروپیک قیمت‌گذاری مدل‌های کلاد رو هم به‌روز کرده و اون رو پایین‌تر از مدل GPT-4 شرکت OpenAI تعیین کرده. این اقدام، کلاد رو به عنوان یک جایگزین پیشرفته و با مزیت قیمتی قابل توجه مطرح میکنه.

  • کلاد ۲.۰ و ۲.۱:
  • ورودی (Input): ۰.۰۰۸ دلار برای هر ۱۰۰۰ توکن
  • خروجی (Output): ۰.۰۲۴ دلار برای هر ۱۰۰۰ توکن
  • OpenAI GPT-4 Turbo:
  • ورودی: ۰.۰۱ دلار برای هر ۱۰۰۰ توکن
  • خروجی: ۰.۰۳ دلار برای هر ۱۰۰۰ توکن
  • OpenAI GPT-4:
  • ورودی: ۰.۰۳ دلار برای هر ۱۰۰۰ توکن
  • خروجی: ۰.۰۶ دلار برای هر ۱۰۰۰ توکن
  • OpenAI GPT-3.5 Turbo:
  • ورودی: ۰.۰۰۱ دلار برای هر ۱۰۰۰ توکن
  • خروجی: ۰.۰۰۲ دلار برای هر ۱۰۰۰ توکن

این قیمت‌گذاری نشون میده که هزینه استفاده از کلاد ۲.۱ حدود ۲۰ درصد کمتر از قدرتمندترین مدل‌های OpenAI هست، اما همچنان به مراتب بالاتر از مدل کمتر قدرتمند GPT-3.5 Turbo قرار داره.

جایگاه انتروپیک در بازار هوش مصنوعی

انتروپیک که در سال ۲۰۲۱ تاسیس شده، با تمرکز بر ایمنی، صداقت و کنترل، به سرعت در حال تبدیل شدن به یکی از بازیگران اصلی در حوزه هوش مصنوعیه. این شرکت اخیرا سرمایه‌گذاری بزرگی به مبلغ ۴ میلیارد دلار از آمازون و ۲.۵ میلیارد دلار از گوگل دریافت کرده. این حمایت‌ها و همچنین تبلیغ مدل‌های کلاد توسط AWS و Google Cloud، انتروپیک رو به عنوان جایگزین اصلی OpenAI و اکوسیستم ابری Azure مطرح کرده.

انتشار کلاد ۲.۱ با ویژگی‌های پیشرفته و قیمت رقابتی، به خصوص در زمان چالش‌های داخلی شرکت OpenAI، این جایگاه رو بیش از پیش تقویت میکنه و توجه شرکت‌ها و توسعه‌دهندگانی که به دنبال یک جایگزین قابل اعتماد برای کاهش ریسک محصولاتشون هستن رو به خودش جلب کرده.

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *