GeekAlerts

جایی برای گیک‌ها

معرفی کامل GPT-5 برای توسعه‌دهندگان

معرفی کامل GPT-5 برای توسعه‌دهندگان

خب GPT-5 برای توسعه‌دهنده‌ها از طریق پلتفرم API عرضه شده که به عنوان بهترین مدل OpenAI تا به امروز برای کدنویسی و انجام وظایف مستقل و خودکار (که بهشون میگن وظایف ایجنتیک) معرفی شده. این مدل در معیارهای کلیدی کدنویسی، به اصطلاح در لبه علم و فناوری یا «state-of-the-art» قرار داره. برای مثال، در بنچمارک SWE-bench Verified تونسته امتیاز ۷۴.۹ درصد رو کسب کنه و در بنچمارک Aider polyglot به امتیاز ۸۸ درصد رسیده. هدف از آموزش GPT-5 این بوده که به یک همکار واقعی برای کدنویسی تبدیل بشه. این مدل توانایی بالایی در تولید کد با کیفیت داره و میتونه کارهایی مثل رفع باگ، ویرایش کد و جواب دادن به سوالات در مورد پایگاه‌های کد پیچیده رو به خوبی انجام بده.

یکی از ویژگی‌های مهم GPT-5 اینه که قابل هدایت و همکاره. یعنی میتونه دستورالعمل‌های خیلی دقیق رو با دقت بالا دنبال کنه و قبل از اینکه ابزاری رو فراخوانی کنه یا در حین استفاده از ابزارها، توضیحات اولیه‌ای در مورد کارهایی که میخواد انجام بده ارائه کنه. این مدل در کدنویسی فرانت‌اند (بخش ظاهری وب‌سایت‌ها و اپلیکیشن‌ها) هم عملکرد خیلی خوبی داره. در تست‌های داخلی، در ۷۰ درصد موارد تونسته مدل قبلی یعنی OpenAI o3 رو در زمینه توسعه وب فرانت‌اند شکست بده. این نشون میده که تمرکز ویژه‌ای روی این حوزه وجود داشته و تلاش شده تا مدل در تولید کدهای مربوط به ظاهر و تجربه کاربری، هم از نظر زیبایی‌شناسی و هم از نظر کیفیت کد، در سطح بالاتری قرار بگیره.

برای آموزش GPT-5 از وظایف کدنویسی دنیای واقعی استفاده شده و این کار با همکاری آزمایش‌کننده‌های اولیه در استارتاپ‌ها و شرکت‌های بزرگ انجام شده. برای مثال، شرکت Cursor گفته که GPT-5 «هوشمندترین مدلیه که تا حالا استفاده کردن» و اضافه کرده که این مدل «به طرز قابل توجهی باهوش، راحت برای هدایت کردن و حتی دارای شخصیتیه که در مدل‌های دیگه ندیدن». شرکت Windsurf هم اعلام کرده که GPT-5 در ارزیابی‌های اونها در سطح بالایی قرار گرفته و «نرخ خطای فراخوانی ابزارش نصف مدل‌های پیشرفته دیگه است». شرکت Vercel هم نظرش اینه که GPT-5 «بهترین مدل هوش مصنوعی برای فرانت‌اند محسوب میشه و در هر دو زمینه حس زیبایی‌شناسی و کیفیت کد، به بالاترین عملکرد رسیده و اون رو در دسته‌بندی خاص خودش قرار میده». این بازخوردها از شرکت‌هایی که به صورت تخصصی در زمینه ابزارهای توسعه و زیرساخت وب فعالیت میکنن، نشون‌دهنده تاثیر بالقوه این مدل بر فرایندهای کاری توسعه‌دهنده‌هاست.

توانایی‌های ایجنتیک و هوش ابزاری در GPT-5

علاوه بر کدنویسی، GPT-5 در انجام وظایف ایجنتیک طولانی‌مدت هم عملکرد فوق‌العاده‌ای داره. وظایف ایجنتیک به کارهایی گفته میشه که مدل باید به صورت مستقل، مجموعه‌ای از اقدامات رو برای رسیدن به یک هدف نهایی انجام بده. در این زمینه، GPT-5 تونسته در بنچمارک τ۲-bench telecom که فقط دو ماه از انتشارش میگذره، به نتایج پیشرفته‌ای با امتیاز ۹۶.۷ درصد دست پیدا کنه. این بنچمارک به طور خاص برای ارزیابی توانایی مدل در استفاده از ابزارها طراحی شده.

هوش ابزاری بهبود یافته GPT-5 بهش اجازه میده که ده‌ها فراخوانی ابزار رو به صورت قابل اعتماد و پشت سر هم، چه به شکل متوالی و چه به شکل موازی، زنجیروار به هم متصل کنه بدون اینکه مسیرش رو گم کنه. این ویژگی باعث شده که در اجرای وظایف پیچیده دنیای واقعی از ابتدا تا انتها، خیلی بهتر از مدل‌های قبلی عمل کنه. علاوه بر این، GPT-5 دستورالعمل‌های مربوط به ابزارها رو با دقت بیشتری دنبال میکنه، در مدیریت خطاهای ابزارها بهتر عمل میکنه و در بازیابی محتوا از متون طولانی (long-context) هم برتری داره.

شرکت Manus در این مورد گفته که GPT-5 «بهترین عملکردی که تا به حال از یک مدل واحد در بنچمارک‌های داخلی خودشون دیدن رو به دست آورده». شرکت Notion هم اشاره کرده که «پاسخ‌های سریع این مدل، به خصوص در حالت استدلال پایین (low reasoning)، GPT-5 رو به یک مدل ایده‌آل برای زمانی تبدیل میکنه که نیاز دارید وظایف پیچیده در یک مرحله حل بشن». شرکت Inditex هم به این نکته اشاره کرده که «چیزی که واقعا GPT-5 رو متمایز میکنه، عمق استدلال اونه: جواب‌های ظریف و چندلایه‌ای که درک واقعی از موضوع رو منعکس میکنن». این بازخوردها نشون میده که توانایی‌های ایجنتیک مدل فقط به اجرای دستورات محدود نمیشه، بلکه شامل درک عمیق‌تر و ارائه راه‌حل‌های هوشمندانه‌تر هم هست.

ویژگی‌های جدید در API برای کنترل بیشتر توسعه‌دهنده‌ها

برای اینکه توسعه‌دهنده‌ها کنترل بیشتری روی پاسخ‌های مدل داشته باشن، ویژگی‌های جدیدی در API معرفی شده.

  • پارامتر verbosity: این پارامتر جدید به توسعه‌دهنده‌ها اجازه میده تا میزان پرحرفی یا خلاصه‌گویی مدل رو کنترل کنن. این پارامتر میتونه سه مقدار داشته باشه: low، medium و high. با تنظیم این پارامتر، میشه مشخص کرد که جواب‌ها کوتاه و سرراست باشن یا طولانی و جامع.
  • پارامتر reasoning_effort: این پارامتر که از قبل هم وجود داشته، حالا میتونه یک مقدار جدید به نام minimal رو هم بپذیره. با تنظیم این مقدار، مدل بدون اینکه اول استدلال گسترده‌ای انجام بده، سریع‌تر جواب میده. این ویژگی برای کاربردهایی که سرعت پاسخ‌دهی اهمیت زیادی داره، میتونه خیلی مفید باشه.
  • ابزارهای سفارشی (Custom Tools): یک نوع ابزار جدید به نام «ابزارهای سفارشی» اضافه شده که به GPT-5 اجازه میده ابزارها رو با استفاده از متن ساده (plaintext) به جای فرمت JSON فراخوانی کنه. این یک تغییر مهمه چون قبلا مدل‌ها برای فراخوانی ابزارها حتما باید از فرمت JSON استفاده میکردن که گاهی اوقات باعث بروز خطا میشد. ابزارهای سفارشی این مشکل رو با ساده‌سازی فرایند حل میکنن و توسعه‌دهنده‌ها میتونن با استفاده از گرامرهای مستقل از متن (context-free grammars) که خودشون ارائه میدن، فرمت فراخوانی رو محدود و مشخص کنن.

مدل‌ها، اندازه‌ها و ساختار سیستم GPT-5

GPT-5 در سه اندازه مختلف در API عرضه شده تا به توسعه‌دهنده‌ها انعطاف‌پذیری بیشتری برای انتخاب بین عملکرد، هزینه و تاخیر بده:

  1. gpt-5: مدل اصلی و بزرگترین مدل.
  2. gpt-5-mini: مدل کوچکتر با هزینه و تاخیر کمتر.
  3. gpt-5-nano: کوچکترین و سریع‌ترین مدل.

نکته مهم اینه که سیستمی که در ChatGPT استفاده میشه با مدلی که در API ارائه میشه، تفاوت‌هایی داره. در حالی که GPT-5 در ChatGPT یک سیستم متشکل از مدل‌های استدلالی، غیراستدلالی و یک مدل مسیریاب (router) هست، مدلی که در پلتفرم API با نام GPT-5 ارائه میشه، همون مدل استدلالیه که حداکثر عملکرد رو در ChatGPT ارائه میده. جالبه بدونید که مدل gpt-5 با reasoning_effort روی حالت minimal با مدل غیراستدلالی که در ChatGPT استفاده میشه، متفاوته و برای توسعه‌دهنده‌ها بهتر تنظیم شده. مدل غیراستدلالی که در ChatGPT به کار میره، با نام gpt-5-chat-latest در API در دسترسه.

برای درک بهتر ساختار این سیستم، میشه مدل‌های GPT-5 رو به عنوان جانشین مدل‌های قبلی در نظر گرفت:

مدل قبلیمدل GPT-5
GPT-4ogpt-5-main
GPT-4o-minigpt-5-main-mini
OpenAI o3gpt-5-thinking
OpenAI o4-minigpt-5-thinking-mini
GPT-4.1-nanogpt-5-thinking-nano
OpenAI o3 Progpt-5-thinking-pro

این سیستم یکپارچه شامل یک مدل هوشمند و سریع (gpt-5-main) برای پاسخ به اکثر سوالات، یک مدل با استدلال عمیق‌تر (gpt-5-thinking) برای مشکلات سخت‌تر، و یک مسیریاب بلادرنگه که به سرعت تصمیم میگیره از کدوم مدل بر اساس نوع مکالمه، پیچیدگی، نیاز به ابزار و قصد صریح کاربر استفاده کنه. مثلا اگه شما در پرامپت بنویسید «در مورد این موضوع عمیق فکر کن»، مسیریاب این رو به عنوان یک سیگنال برای استفاده از مدل استدلالی در نظر میگیره. این مسیریاب به طور مداوم با استفاده از سیگنال‌های واقعی، مثل زمانی که کاربرها مدل‌ها رو عوض میکنن یا نرخ ترجیح پاسخ‌ها، آموزش میبینه و در طول زمان بهتر میشه.

نگاهی دقیق‌تر به عملکرد GPT-5 در کدنویسی

GPT-5 قوی‌ترین مدلیه که تا به امروز برای کدنویسی عرضه شده. این مدل در بنچمارک‌های کدنویسی و موارد استفاده واقعی، از مدل قبلی یعنی o3 بهتر عمل میکنه و برای درخشیدن در محصولات کدنویسی ایجنتیک مثل Cursor، Windsurf، GitHub Copilot و Codex CLI بهینه‌سازی شده. این مدل تونسته آزمایش‌کننده‌های آلفا رو تحت تاثیر قرار بده و در بسیاری از ارزیابی‌های داخلی و خصوصی اونها، رکوردهای جدیدی ثبت کنه.

یکی از آزمایش‌کننده‌های اولیه، تیم Cursor، بازخورد جالبی در مورد این مدل داده. اونها گفتن:

«GPT-5 هوشمندترین مدل کدنویسیه که ما استفاده کردیم. تیم ما متوجه شده که این مدل به طرز چشمگیری باهوش، راحت برای هدایت کردن و حتی دارای شخصیتیه که در هیچ مدل دیگه‌ای ندیدیم. این مدل نه تنها باگ‌های پیچیده و عمیقا پنهان رو پیدا میکنه، بلکه میتونه ایجنت‌های پس‌زمینه طولانی و چند مرحله‌ای رو برای به سرانجام رسوندن وظایف پیچیده اجرا کنه؛ از همون نوع مشکلاتی که قبلا مدل‌های دیگه رو گیر مینداخت. این مدل به ابزار روزمره ما برای همه کارها، از مشخص کردن محدوده و برنامه‌ریزی برای PRها گرفته تا تکمیل ساخت‌های کامل (end-to-end builds)، تبدیل شده».

در ادامه به بررسی عملکرد این مدل در چند بنچمارک استاندارد می‌پردازیم:

  • SWE-bench Verified: این یک ارزیابی بر اساس وظایف مهندسی نرم‌افزار در دنیای واقعیه. GPT-5 در این بنچمارک امتیاز ۷۴.۹ درصد رو کسب کرده که نسبت به امتیاز ۶۹.۱ درصدی مدل o3 یک پیشرفت محسوب میشه. نکته قابل توجه اینه که GPT-5 این امتیاز بالا رو با کارایی و سرعت بیشتری به دست آورده. در مقایسه با مدل o3 با سطح استدلال بالا، GPT-5 از ۲۲ درصد توکن خروجی کمتر و ۴۵ درصد فراخوانی ابزار کمتری استفاده کرده.
  • Aider polyglot: این بنچمارک برای ارزیابی توانایی ویرایش کد طراحی شده. GPT-5 در این زمینه رکورد جدیدی با امتیاز ۸۸ درصد ثبت کرده که به معنی کاهش یک سومی نرخ خطا در مقایسه با مدل o3 است.

علاوه بر این، مشخص شده که GPT-5 در بررسی عمیق پایگاه‌های کد برای پاسخ به سوالات در مورد نحوه کار یا تعامل بخش‌های مختلف، عملکرد بسیار خوبی داره. برای مثال، در یک پایگاه کد پیچیده مثل پشته یادگیری تقویتی خود OpenAI، این مدل تونسته به تیم کمک کنه تا در مورد کد خودشون استدلال و به سوالات پاسخ بدن و در نتیجه، کارهای روزمره اونها رو تسریع ببخشه.

در زمینه تولید کد فرانت‌اند برای اپلیکیشن‌های وب، GPT-5 زیبایی‌شناس‌تر، جاه‌طلبانه‌تر و دقیق‌تر عمل میکنه. در مقایسه‌های رودررو با مدل o3، GPT-5 در ۷۰ درصد موارد توسط آزمایش‌کننده‌ها ترجیح داده شده. این مدل میتونه با یک پرامپت واحد، کارهای جالبی انجام بده.

GPT-5 یک همکار بهتره، به خصوص در محصولات کدنویسی ایجنتیک مثل Cursor، Windsurf، GitHub Copilot و Codex CLI. در حین کار، این مدل میتونه بین فراخوانی‌های ابزار، برنامه‌ها، به‌روزرسانی‌ها و خلاصه‌ها رو تولید کنه. در مقایسه با مدل‌های قبلی، GPT-5 در تکمیل وظایف جاه‌طلبانه بدون اینکه منتظر تایید شما بمونه یا از پیچیدگی بالا بترسه، فعال‌تره. برای مثال، در یک نمونه نمایشی، این مدل وظیفه ایجاد یک وب‌سایت برای یک رستوران رو بر عهده میگیره و در حین انجام کار، به طور مداوم برنامه‌ها و به‌روزرسانی‌های خودش رو به کاربر گزارش میده.

توانایی‌های پیشرفته در وظایف ایجنتیک و استفاده از ابزار

فراتر از کدنویسی ایجنتیک، GPT-5 به طور کلی در وظایف ایجنتیک بهتر عمل میکنه. این مدل رکوردهای جدیدی در بنچمارک‌های دنبال کردن دستورالعمل (۶۹.۶ درصد در Scale MultiChallenge، با ارزیابی توسط o3-mini) و فراخوانی ابزار (۹۶.۷ درصد در τ۲-bench telecom) ثبت کرده. هوش ابزاری بهبود یافته به GPT-5 اجازه میده تا اقدامات رو به طور قابل اعتمادتری برای انجام وظایف دنیای واقعی به هم زنجیروار متصل کنه.

شرکت Manus که یکی از آزمایش‌کننده‌های اولیه بوده، گفته:

«GPT-5 یک گام بزرگ رو به جلوست. این مدل بهترین عملکردی که ما تا به حال از یک مدل واحد در بنچمارک‌های داخلی خودمون دیدیم رو به دست آورد. GPT-5 در وظایف مختلف ایجنتیک عالی عمل کرد، حتی قبل از اینکه ما یک خط کد رو تغییر بدیم یا یک پرامپت رو تنظیم کنیم. توضیحات اولیه جدید (preambles) و کنترل دقیق‌تر بر استفاده از ابزار، یک جهش قابل توجه در پایداری و قابلیت هدایت ایجنت‌های ما ایجاد کرد».

GPT-5 دستورالعمل‌ها رو با اطمینان بیشتری نسبت به هر یک از پیشینیان خود دنبال میکنه و در ارزیابی‌های COLLIE، Scale MultiChallenge و ارزیابی داخلی دنبال کردن دستورالعمل، امتیازات بالایی کسب کرده.

تلاش زیادی برای بهبود فراخوانی ابزار به روش‌هایی که برای توسعه‌دهنده‌ها اهمیت داره، انجام شده. GPT-5 در دنبال کردن دستورالعمل‌های ابزار، مدیریت خطاهای ابزار و انجام فعالانه بسیاری از فراخوانی‌های ابزار به صورت متوالی یا موازی، بهتر عمل میکنه. در صورت درخواست، GPT-5 میتونه قبل و بین فراخوانی‌های ابزار، پیام‌های توضیحی (preamble) قابل مشاهده برای کاربر تولید کنه تا کاربرها رو در طول وظایف ایجنتیک طولانی‌تر، از پیشرفت کار مطلع کنه.

دو ماه پیش، بنچمارک τ۲-bench telecom توسط Sierra.ai به عنوان یک بنچمارک چالش‌برانگیز برای استفاده از ابزار منتشر شد که نشون میداد عملکرد مدل‌های زبانی هنگام تعامل با یک محیط که وضعیت اون میتونه توسط کاربر تغییر کنه، به طور قابل توجهی کاهش پیدا میکنه. در مقاله اونها، هیچ مدلی امتیازی بالاتر از ۴۹ درصد کسب نکرده بود. GPT-5 در این بنچمارک امتیاز ۹۷ درصد رو به دست آورده.

بهبود در عملکرد با زمینه طولانی (Long Context)

GPT-5 بهبودهای قابل توجهی در عملکرد با زمینه طولانی هم نشون میده. در بنچمارک OpenAI-MRCR، که معیاری برای بازیابی اطلاعات از متون طولانیه، GPT-5 از مدل‌های o3 و GPT-4.1 بهتر عمل میکنه و این اختلاف با افزایش طول ورودی، به طور قابل توجهی بیشتر میشه.

همچنین یک بنچمارک جدید برای ارزیابی پرسش و پاسخ با زمینه طولانی به نام BrowseComp Long Context به صورت متن‌باز منتشر شده. در این بنچمارک، به مدل یک درخواست کاربر، یک لیست طولانی از نتایج جستجوی مرتبط داده میشه و مدل باید بر اساس این نتایج به سوال پاسخ بده. این بنچمارک طوری طراحی شده که واقع‌گرایانه، دشوار و دارای پاسخ‌های صحیح و قابل اعتماد باشه. در ورودی‌هایی با طول ۱۲۸ هزار تا ۲۵۶ هزار توکن، GPT-5 در ۸۹ درصد موارد پاسخ صحیح میده.

در API، تمام مدل‌های GPT-5 میتونن حداکثر ۲۷۲,۰۰۰ توکن ورودی رو بپذیرن و حداکثر ۱۲۸,۰۰۰ توکن استدلال و خروجی تولید کنن، که مجموعا یک طول زمینه (context length) ۴۰۰,۰۰۰ توکنی رو فراهم میکنه.

افزایش اعتمادپذیری و کاهش توهم (Hallucination)

GPT-5 نسبت به مدل‌های قبلی قابل اعتمادتره. در پرامپت‌هایی از بنچمارک‌های LongFact و FactScore، GPT-5 حدود ۸۰ درصد خطاهای واقعی (factual errors) کمتری نسبت به مدل o3 داره. این ویژگی اون رو برای موارد استفاده ایجنتیک که در اونها صحت اطلاعات اهمیت داره، به خصوص در کد، داده‌ها و تصمیم‌گیری، مناسب‌تر میکنه.

به طور کلی، GPT-5 طوری آموزش دیده که از محدودیت‌های خودش آگاه‌تر باشه و بتونه با مشکلات غیرمنتظره بهتر کنار بیاد. این مدل همچنین برای پاسخگویی بسیار دقیق‌تر به سوالات مربوط به سلامت آموزش دیده. مثل همه مدل‌های زبانی، توصیه میشه که وقتی موضوعات مهمی در میونه، کارهای GPT-5 رو تایید کنید.

کنترل‌های جدید برای توسعه‌دهنده‌ها: reasoning_effort و verbosity

توسعه‌دهنده‌ها میتونن زمان تفکر GPT-5 رو از طریق پارامتر reasoning_effort در API کنترل کنن. علاوه بر مقادیر قبلی یعنی low، medium (پیش‌فرض) و high، GPT-5 حالا از مقدار minimal هم پشتیبانی میکنه که استدلال مدل رو به حداقل میرسونه تا جواب رو سریع‌تر برگردونه.

مقادیر بالاتر reasoning_effort کیفیت رو به حداکثر میرسونن و مقادیر پایین‌تر سرعت رو به حداکثر میرسونن. همه وظایف به یک اندازه از استدلال اضافی سود نمیبرن، بنابراین توصیه میشه آزمایش کنید تا ببینید کدوم مقدار برای موارد استفاده شما بهتر جواب میده. برای مثال، استدلال بالاتر از low تاثیر کمی روی بازیابی اطلاعات از متون طولانی نسبتا ساده داره، اما چند درصد به امتیاز بنچمارک استدلال بصری CharXiv Reasoning اضافه میکنه.

برای کمک به هدایت طول پیش‌فرض پاسخ‌های GPT-5، یک پارامتر API جدید به نام verbosity معرفی شده که مقادیر low، medium (پیش‌فرض) و high رو میپذیره. اگه دستورالعمل‌های صریح با پارامتر verbosity در تضاد باشن، دستورالعمل‌های صریح اولویت دارن. برای مثال، اگه از GPT-5 بخواید «یک مقاله ۵ پاراگرافی بنویس»، پاسخ مدل همیشه باید ۵ پاراگراف باشه، صرف نظر از سطح verbosity (اما خود پاراگراف‌ها ممکنه بلندتر یا کوتاه‌تر باشن).

ابزارهای سفارشی و پیام‌های توضیحی

اگه به GPT-5 دستور داده بشه، این مدل پیام‌های توضیحی قابل مشاهده برای کاربر رو قبل و بین فراخوانی‌های ابزار تولید میکنه. بر خلاف پیام‌های استدلال پنهان، این پیام‌های قابل مشاهده به GPT-5 اجازه میدن تا برنامه‌ها و پیشرفت کار رو به کاربر اطلاع بده و به کاربر نهایی کمک میکنه تا رویکرد و قصد مدل از فراخوانی ابزارها رو درک کنه.

یک نوع ابزار جدید به نام «ابزارهای سفارشی» (Custom Tools) معرفی شده که به GPT-5 اجازه میده یک ابزار رو با متن ساده (plaintext) به جای JSON فراخوانی کنه. برای محدود کردن GPT-5 به دنبال کردن فرمت‌های ابزار سفارشی، توسعه‌دهنده‌ها میتونن یک عبارت منظم (regex) یا حتی یک گرامر مستقل از متن (context-free grammar) کاملا مشخص ارائه بدن.

قبلا، رابط کاربری برای ابزارهای تعریف شده توسط توسعه‌دهنده، نیاز داشت که اونها با JSON فراخوانی بشن که یک فرمت رایج مورد استفاده توسط APIهای وب و توسعه‌دهنده‌هاست. با این حال، تولید JSON معتبر نیاز داره که مدل به طور کامل تمام علامت‌های نقل قول، بک‌اسلش‌ها، خطوط جدید و سایر کاراکترهای کنترلی رو escape کنه. اگرچه مدل‌ها به خوبی برای تولید JSON آموزش دیدن، اما در ورودی‌های طولانی مثل صدها خط کد یا یک گزارش ۵ صفحه‌ای، احتمال خطا افزایش پیدا میکنه. با ابزارهای سفارشی، GPT-5 میتونه ورودی‌های ابزار رو به صورت متن ساده بنویسه، بدون اینکه نیاز به escape کردن تمام کاراکترهایی که نیاز به escape دارن، داشته باشه. جالبه که در بنچمارک SWE-bench Verified، استفاده از ابزارهای سفارشی به جای ابزارهای JSON، امتیاز GPT-5 رو تقریبا تغییری نداده.

ایمنی و رویکرد جدید «تکمیل‌های ایمن»

GPT-5 مرزهای ایمنی رو پیش برده و یک مدل قوی‌تر، قابل اعتمادتر و مفیدتره. این مدل به طور قابل توجهی کمتر از مدل‌های قبلی دچار توهم (hallucination) میشه، صادقانه‌تر اقدامات و توانایی‌های خودش رو به کاربر اطلاع میده و در عین حال که در محدوده‌های ایمنی باقی میمونه، مفیدترین پاسخ ممکن رو ارائه میده.

یک رویکرد جدید آموزش ایمنی به نام «تکمیل‌های ایمن» (safe-completions) در GPT-5 معرفی شده تا مفید بودن مدل رو در چارچوب محدودیت‌های ایمنی به حداکثر برسونه. در مقایسه با آموزش مبتنی بر امتناع (refusal-based training)، تکمیل‌های ایمن هم ایمنی و هم مفید بودن رو بهبود میبخشن، به خصوص در حوزه‌های با کاربرد دوگانه (dual-use).

یک سوال با کاربرد دوگانه، سوالی با قصد نامشخصه که اطلاعات اون میتونه به روش‌های بی‌خطر یا مخرب استفاده بشه. برای مثال اگه کاربری در مورد حداقل انرژی لازم برای روشن کردن یک نمایش آتش‌بازی بپرسه، این میتونه برای یک جشن یا یک پروژه تحقیقاتی باشه، یا برای ساخت مواد منفجره. در گذشته، مدل‌های مبتنی بر امتناع، یک تصمیم باینری میگرفتن: یا به طور کامل پاسخ میدادن (که میتونست خطرناک باشه) یا امتناع میکردن (که مفید نبود).

تکمیل‌های ایمن، آموزش ایمنی رو بر ایمنی خروجی مدل متمرکز میکنه. این کار از طریق دو پارامتر آموزشی پیاده‌سازی میشه:

  • محدودیت ایمنی: در طول پس‌آموزش، پاداش تکمیل ایمن، پاسخ‌های مدلی که سیاست‌های ایمنی رو نقض میکنن، جریمه میکنه.
  • حداکثرسازی مفید بودن: برای پاسخ‌های ایمن، مدل بر اساس مفید بودنش پاداش میگیره.

این رویکرد به طور قابل توجهی هم ایمنی و هم مفید بودن رو در مقایسه با آموزش مبتنی بر امتناع بهبود داده. با کنار گذاشتن تصمیم باینری «پاسخ بده/امتناع کن»، آموزش تکمیل ایمن مدل‌ها رو تشویق میکنه تا حتی زمانی که پاسخ میدن، در مورد محتوای بالقوه ناامن محتاط‌تر باشن. در آزمایش‌ها، مشخص شده که وقتی مدل‌های تکمیل ایمن اشتباه میکنن، خروجی‌های ناامن اونها شدت کمتری نسبت به خروجی‌های ناامن مدل‌های آموزش‌دیده با امتناع دارن.

قیمت‌گذاری و دسترسی

GPT-5 در حال حاضر در پلتفرم API در سه اندازه موجوده: gpt-5، gpt-5-mini و gpt-5-nano. این مدل‌ها در Responses API و Chat Completions API در دسترس هستن و مدل پیش‌فرض در Codex CLI محسوب میشن. قیمت‌گذاری به شرح زیره:

  • GPT-5: ۱.۲۵ دلار برای هر ۱ میلیون توکن ورودی و ۱۰ دلار برای هر ۱ میلیون توکن خروجی.
  • GPT-5 mini: ۰.۲۵ دلار برای هر ۱ میلیون توکن ورودی و ۲ دلار برای هر ۱ میلیون توکن خروجی.
  • GPT-5 nano: ۰.۰۵ دلار برای هر ۱ میلیون توکن ورودی و ۰.۴۰ دلار برای هر ۱ میلیون توکن خروجی.

نسخه غیراستدلالی GPT-5 که در ChatGPT استفاده میشه، با نام gpt-5-chat-latest در API موجوده و قیمت اون هم ۱.۲۵ دلار برای هر ۱ میلیون توکن ورودی و ۱۰ دلار برای هر ۱ میلیون توکن خروجی است. GPT-5 همچنین در پلتفرم‌های مایکروسافت از جمله Microsoft 365 Copilot، Copilot، GitHub Copilot و Azure AI Foundry عرضه میشه.

جزئیات عملکرد در بنچمارک‌ها

در ادامه، جداول عملکرد GPT-5 و مدل‌های دیگر در بنچمارک‌های مختلف آورده شده. این اعداد نشان‌دهنده پیشرفت‌های قابل توجه در حوزه‌های مختلف هستن.

هوش (Intelligence)

مدلAIME ’۲۵ (بدون ابزار)FrontierMath (فقط با ابزار پایتون)GPQA diamond (بدون ابزار)HLE[1] (بدون ابزار)HMMT 2025 (بدون ابزار)
GPT-5(high)۹۴.۶%۲۶.۳%۸۵.۷%۲۴.۸%۹۳.۳%
GPT-5 mini(high)۹۱.۱%۲۲.۱%۸۲.۳%۱۶.۷%۸۷.۸%
GPT-5 nano(high)۸۵.۲%۹.۶%۷۱.۲%۸.۷%۷۵.۶%
OpenAI o3(high)۸۶.۴%۱۵.۸%۸۳.۳%۲۰.۲%۸۱.۷%
OpenAI o4-mini(high)۹۲.۷%۱۵.۴%۸۱.۴%۱۴.۷%۸۵.۰%

[۱] یک اختلاف جزئی با اعداد گزارش شده در پست وبلاگ قبلی وجود داره، چون اونها روی نسخه قبلی HLE اجرا شده بودن.

چندوجهی (Multimodal)

مدلMMMUMMMU-ProCharXiv reasoning (پایتون فعال)VideoMMMUERQA
GPT-5(high)۸۴.۲%۷۸.۴%۸۱.۱%۸۴.۶%۶۵.۷%
GPT-5 mini(high)۸۱.۶%۷۴.۱%۷۵.۵%۸۲.۵%۶۲.۹%
GPT-5 nano(high)۷۵.۶%۶۲.۶%۶۲.۷%۶۶.۸%۵۰.۱%
OpenAI o3(high)۸۲.۹%۷۶.۴%۷۸.۶%۸۳.۳%۶۴.۰%
OpenAI o4-mini(high)۸۱.۶%۷۳.۴%۷۲.۰%۷۹.۴%۵۶.۵%

کدنویسی (Coding)

مدلSWE-LancerSWE-bench Verified[2]Aider polyglot (diff)
GPT-5(high)$112K۷۴.۹%۸۸.۰%
GPT-5 mini(high)$75K۷۱.۰%۷۱.۶%
GPT-5 nano(high)$49K۵۴.۷%۴۸.۴%
OpenAI o3(high)$86K۶۹.۱%۷۹.۶%
OpenAI o4-mini(high)$66K۶۸.۱%۵۸.۲%

[۲] ۲۳ مسئله از ۵۰۰ مسئله که روی زیرساخت قابل اجرا نبودن، حذف شدن.

دنبال کردن دستورالعمل (Instruction Following)

مدلScale multichallenge[3]Internal API instruction following eval (hard)COLLIE
GPT-5(high)۶۹.۶%۶۴.۰%۹۹.۰%
GPT-5 mini(high)۶۲.۳%۶۵.۸%۹۸.۵%
GPT-5 nano(high)۵۴.۹%۵۶.۱%۹۶.۹%
OpenAI o3(high)۶۰.۴%۴۷.۴%۹۸.۴%
OpenAI o4-mini(high)۵۷.۵%۴۴.۷%۹۶.۱%

[۳] ارزیاب پیش‌فرض در MultiChallenge (GPT-4o) اغلب پاسخ‌های مدل رو اشتباه امتیازدهی میکنه. تغییر ارزیاب به یک مدل استدلالی مثل o3-mini، دقت امتیازدهی رو به طور قابل توجهی بهبود میبخشه.

فراخوانی تابع (Function Calling)

مدلTau2-bench airlineTau2-bench retailTau2-bench telecom
GPT-5(high)۶۲.۶%۸۱.۱%۹۶.۷%
GPT-5 mini(high)۶۰.۰%۷۸.۳%۷۴.۱%
GPT-5 nano(high)۴۱.۰%۶۲.۳%۳۵.۵%
OpenAI o3(high)۶۴.۸%۸۰.۲%۵۸.۲%
OpenAI o4-mini(high)۶۰.۲%۷۰.۵%۴۰.۵%

زمینه طولانی (Long Context)

مدلOpenAI-MRCR: 2 needle 128kOpenAI-MRCR: 2 needle 256kBrowseComp Long Context 256k
GPT-5(high)۹۵.۲%۸۶.۸%۸۸.۸%
GPT-5 mini(high)۸۴.۳%۵۸.۸%۸۶.۰%
GPT-5 nano(high)۴۳.۲%۳۴.۹%۶۸.۴%
OpenAI o3(high)۵۵.۰%
OpenAI o4-mini(high)۵۶.۴%

توهم (Hallucinations) [پایین‌تر بهتر است]

مدلLongFact-Concepts hallucination rateLongFact-Objects hallucination rateFActScore hallucination rate
GPT-5(high)۱.۰%۱.۲%۲.۸%
GPT-5 mini(high)۰.۷%۱.۳%۳.۵%
GPT-5 nano(high)۱.۰%۲.۸%۷.۳%
OpenAI o3(high)۵.۲%۶.۸%۲۳.۵%
OpenAI o4-mini(high)۳.۰%۸.۹%۳۸.۷%

GPT-5 و دوره جدید کار

معرفی GPT-5 به عنوان هوشمندترین، سریع‌ترین و مفیدترین مدل OpenAI تا به امروز، یک گام بزرگ به سوی قرار دادن هوش در مرکز هر کسب‌وکاریه. این مدل پیشرفت‌های قبلی OpenAI در هوش پیشرفته، شامل سری o، استدلال، ایجنت‌ها و قابلیت‌های ریاضی پیشرفته رو یکپارچه کرده و از اونها فراتر میره. این عرضه در زمانی اتفاق میفته که سازمان‌هایی مثل BNY Mellon، دانشگاه ایالتی کالیفرنیا، Figma، Intercom، Lowe’s، Morgan Stanley، SoftBank و T-Mobile در حال حاضر نیروهای کاری خودشون رو با هوش مصنوعی مجهز کردن و ۵ میلیون کاربر پولی از محصولات تجاری ChatGPT استفاده میکنن.

GPT-5 جهش‌هایی در دقت، سرعت، استدلال، تشخیص زمینه، تفکر ساختاریافته و حل مسئله ارائه میده. اما جادوی واقعی زمانی اتفاق میفته که کسب‌وکارها شروع به استفاده از GPT-5 برای تصور موارد استفاده جدید کنن. شرکت Amgen که در زمینه مبارزه با بیماری‌های سخت فعالیت میکنه، گفته:

«ما هوش مصنوعی رو با بالاترین استاندارد برای دقت و کیفیت علمی میسنجیم. هنوز زوده، اما بر اساس ارزیابی داخلی ما، GPT-5 به این استاندارد رسیده و در موقعیت‌های مبهم که زمینه اهمیت داره، بهتر عمل میکنه. ما نتایج اولیه امیدوارکننده‌ای از استقرار GPT-5 در سراسر گردش‌های کاری در Amgen، از جمله افزایش دقت و قابلیت اطمینان، خروجی‌های با کیفیت بالاتر و سرعت‌های بیشتر در مقایسه با مدل‌های قبلی، مشاهده میکنیم».

عرضه GPT-5 همچنین با استفاده هفتگی نزدیک به ۷۰۰ میلیون نفر از ChatGPT همزمان شده. هوش مصنوعی قدرتمند حالا عمیق‌تر در نحوه زندگی و کار ما تنیده شده و راحتی روزافزون مصرف‌کننده‌ها با این فناوری، شرکت‌ها رو تشویق میکنه تا دسترسی مستقیم به OpenAI رو برای کارمندان خودشون فراهم کنن تا بهره‌وری، کارایی و خروجی خلاقانه بیشتری داشته باشن. با GPT-5، شرکت‌هایی که هوش مصنوعی رو پذیرفتن، به سرعت از تجربه یکپارچه ChatGPT و در موارد استفاده پیشرفته‌تر، از عملکرد بهبود یافته API اون در ایجنت‌ها و کدنویسی بهره‌مند خواهند شد.

مشتریان ChatGPT Team از امروز میتونن به GPT-5 دسترسی داشته باشن و نسخه‌های Enterprise و Edu هفته آینده عرضه میشن. GPT-5 در API هم موجوده و توسعه‌دهنده‌ها میتونن از اون استفاده کنن. مشتریان Team، Enterprise و Edu به زودی به GPT-5 Pro هم دسترسی پیدا خواهند کرد که نسخه‌ای با استدلال گسترده برای پاسخ‌های قابل اعتمادتر و دقیق‌تره.


منابع

  • [۱] Introducing GPT‑۵ for developers | OpenAI
  • [۲] GPT-5 and the new era of work | OpenAI
  • [۳] From hard refusals to safe-completions: toward output-centric safety training | OpenAI
  • [۴] GPT-5 System Card | OpenAI

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *