خب GPT-5 برای توسعهدهندهها از طریق پلتفرم API عرضه شده که به عنوان بهترین مدل OpenAI تا به امروز برای کدنویسی و انجام وظایف مستقل و خودکار (که بهشون میگن وظایف ایجنتیک) معرفی شده. این مدل در معیارهای کلیدی کدنویسی، به اصطلاح در لبه علم و فناوری یا «state-of-the-art» قرار داره. برای مثال، در بنچمارک SWE-bench Verified تونسته امتیاز ۷۴.۹ درصد رو کسب کنه و در بنچمارک Aider polyglot به امتیاز ۸۸ درصد رسیده. هدف از آموزش GPT-5 این بوده که به یک همکار واقعی برای کدنویسی تبدیل بشه. این مدل توانایی بالایی در تولید کد با کیفیت داره و میتونه کارهایی مثل رفع باگ، ویرایش کد و جواب دادن به سوالات در مورد پایگاههای کد پیچیده رو به خوبی انجام بده.
یکی از ویژگیهای مهم GPT-5 اینه که قابل هدایت و همکاره. یعنی میتونه دستورالعملهای خیلی دقیق رو با دقت بالا دنبال کنه و قبل از اینکه ابزاری رو فراخوانی کنه یا در حین استفاده از ابزارها، توضیحات اولیهای در مورد کارهایی که میخواد انجام بده ارائه کنه. این مدل در کدنویسی فرانتاند (بخش ظاهری وبسایتها و اپلیکیشنها) هم عملکرد خیلی خوبی داره. در تستهای داخلی، در ۷۰ درصد موارد تونسته مدل قبلی یعنی OpenAI o3 رو در زمینه توسعه وب فرانتاند شکست بده. این نشون میده که تمرکز ویژهای روی این حوزه وجود داشته و تلاش شده تا مدل در تولید کدهای مربوط به ظاهر و تجربه کاربری، هم از نظر زیباییشناسی و هم از نظر کیفیت کد، در سطح بالاتری قرار بگیره.
برای آموزش GPT-5 از وظایف کدنویسی دنیای واقعی استفاده شده و این کار با همکاری آزمایشکنندههای اولیه در استارتاپها و شرکتهای بزرگ انجام شده. برای مثال، شرکت Cursor گفته که GPT-5 «هوشمندترین مدلیه که تا حالا استفاده کردن» و اضافه کرده که این مدل «به طرز قابل توجهی باهوش، راحت برای هدایت کردن و حتی دارای شخصیتیه که در مدلهای دیگه ندیدن». شرکت Windsurf هم اعلام کرده که GPT-5 در ارزیابیهای اونها در سطح بالایی قرار گرفته و «نرخ خطای فراخوانی ابزارش نصف مدلهای پیشرفته دیگه است». شرکت Vercel هم نظرش اینه که GPT-5 «بهترین مدل هوش مصنوعی برای فرانتاند محسوب میشه و در هر دو زمینه حس زیباییشناسی و کیفیت کد، به بالاترین عملکرد رسیده و اون رو در دستهبندی خاص خودش قرار میده». این بازخوردها از شرکتهایی که به صورت تخصصی در زمینه ابزارهای توسعه و زیرساخت وب فعالیت میکنن، نشوندهنده تاثیر بالقوه این مدل بر فرایندهای کاری توسعهدهندههاست.
تواناییهای ایجنتیک و هوش ابزاری در GPT-5
علاوه بر کدنویسی، GPT-5 در انجام وظایف ایجنتیک طولانیمدت هم عملکرد فوقالعادهای داره. وظایف ایجنتیک به کارهایی گفته میشه که مدل باید به صورت مستقل، مجموعهای از اقدامات رو برای رسیدن به یک هدف نهایی انجام بده. در این زمینه، GPT-5 تونسته در بنچمارک τ۲-bench telecom که فقط دو ماه از انتشارش میگذره، به نتایج پیشرفتهای با امتیاز ۹۶.۷ درصد دست پیدا کنه. این بنچمارک به طور خاص برای ارزیابی توانایی مدل در استفاده از ابزارها طراحی شده.
هوش ابزاری بهبود یافته GPT-5 بهش اجازه میده که دهها فراخوانی ابزار رو به صورت قابل اعتماد و پشت سر هم، چه به شکل متوالی و چه به شکل موازی، زنجیروار به هم متصل کنه بدون اینکه مسیرش رو گم کنه. این ویژگی باعث شده که در اجرای وظایف پیچیده دنیای واقعی از ابتدا تا انتها، خیلی بهتر از مدلهای قبلی عمل کنه. علاوه بر این، GPT-5 دستورالعملهای مربوط به ابزارها رو با دقت بیشتری دنبال میکنه، در مدیریت خطاهای ابزارها بهتر عمل میکنه و در بازیابی محتوا از متون طولانی (long-context) هم برتری داره.
شرکت Manus در این مورد گفته که GPT-5 «بهترین عملکردی که تا به حال از یک مدل واحد در بنچمارکهای داخلی خودشون دیدن رو به دست آورده». شرکت Notion هم اشاره کرده که «پاسخهای سریع این مدل، به خصوص در حالت استدلال پایین (low reasoning)، GPT-5 رو به یک مدل ایدهآل برای زمانی تبدیل میکنه که نیاز دارید وظایف پیچیده در یک مرحله حل بشن». شرکت Inditex هم به این نکته اشاره کرده که «چیزی که واقعا GPT-5 رو متمایز میکنه، عمق استدلال اونه: جوابهای ظریف و چندلایهای که درک واقعی از موضوع رو منعکس میکنن». این بازخوردها نشون میده که تواناییهای ایجنتیک مدل فقط به اجرای دستورات محدود نمیشه، بلکه شامل درک عمیقتر و ارائه راهحلهای هوشمندانهتر هم هست.
ویژگیهای جدید در API برای کنترل بیشتر توسعهدهندهها
برای اینکه توسعهدهندهها کنترل بیشتری روی پاسخهای مدل داشته باشن، ویژگیهای جدیدی در API معرفی شده.
- پارامتر
verbosity
: این پارامتر جدید به توسعهدهندهها اجازه میده تا میزان پرحرفی یا خلاصهگویی مدل رو کنترل کنن. این پارامتر میتونه سه مقدار داشته باشه:low
،medium
وhigh
. با تنظیم این پارامتر، میشه مشخص کرد که جوابها کوتاه و سرراست باشن یا طولانی و جامع. - پارامتر
reasoning_effort
: این پارامتر که از قبل هم وجود داشته، حالا میتونه یک مقدار جدید به نامminimal
رو هم بپذیره. با تنظیم این مقدار، مدل بدون اینکه اول استدلال گستردهای انجام بده، سریعتر جواب میده. این ویژگی برای کاربردهایی که سرعت پاسخدهی اهمیت زیادی داره، میتونه خیلی مفید باشه. - ابزارهای سفارشی (Custom Tools): یک نوع ابزار جدید به نام «ابزارهای سفارشی» اضافه شده که به GPT-5 اجازه میده ابزارها رو با استفاده از متن ساده (plaintext) به جای فرمت JSON فراخوانی کنه. این یک تغییر مهمه چون قبلا مدلها برای فراخوانی ابزارها حتما باید از فرمت JSON استفاده میکردن که گاهی اوقات باعث بروز خطا میشد. ابزارهای سفارشی این مشکل رو با سادهسازی فرایند حل میکنن و توسعهدهندهها میتونن با استفاده از گرامرهای مستقل از متن (context-free grammars) که خودشون ارائه میدن، فرمت فراخوانی رو محدود و مشخص کنن.
مدلها، اندازهها و ساختار سیستم GPT-5
GPT-5 در سه اندازه مختلف در API عرضه شده تا به توسعهدهندهها انعطافپذیری بیشتری برای انتخاب بین عملکرد، هزینه و تاخیر بده:
- gpt-5: مدل اصلی و بزرگترین مدل.
- gpt-5-mini: مدل کوچکتر با هزینه و تاخیر کمتر.
- gpt-5-nano: کوچکترین و سریعترین مدل.
نکته مهم اینه که سیستمی که در ChatGPT استفاده میشه با مدلی که در API ارائه میشه، تفاوتهایی داره. در حالی که GPT-5 در ChatGPT یک سیستم متشکل از مدلهای استدلالی، غیراستدلالی و یک مدل مسیریاب (router) هست، مدلی که در پلتفرم API با نام GPT-5 ارائه میشه، همون مدل استدلالیه که حداکثر عملکرد رو در ChatGPT ارائه میده. جالبه بدونید که مدل gpt-5
با reasoning_effort
روی حالت minimal
با مدل غیراستدلالی که در ChatGPT استفاده میشه، متفاوته و برای توسعهدهندهها بهتر تنظیم شده. مدل غیراستدلالی که در ChatGPT به کار میره، با نام gpt-5-chat-latest
در API در دسترسه.
برای درک بهتر ساختار این سیستم، میشه مدلهای GPT-5 رو به عنوان جانشین مدلهای قبلی در نظر گرفت:
مدل قبلی | مدل GPT-5 |
---|---|
GPT-4o | gpt-5-main |
GPT-4o-mini | gpt-5-main-mini |
OpenAI o3 | gpt-5-thinking |
OpenAI o4-mini | gpt-5-thinking-mini |
GPT-4.1-nano | gpt-5-thinking-nano |
OpenAI o3 Pro | gpt-5-thinking-pro |
این سیستم یکپارچه شامل یک مدل هوشمند و سریع (gpt-5-main
) برای پاسخ به اکثر سوالات، یک مدل با استدلال عمیقتر (gpt-5-thinking
) برای مشکلات سختتر، و یک مسیریاب بلادرنگه که به سرعت تصمیم میگیره از کدوم مدل بر اساس نوع مکالمه، پیچیدگی، نیاز به ابزار و قصد صریح کاربر استفاده کنه. مثلا اگه شما در پرامپت بنویسید «در مورد این موضوع عمیق فکر کن»، مسیریاب این رو به عنوان یک سیگنال برای استفاده از مدل استدلالی در نظر میگیره. این مسیریاب به طور مداوم با استفاده از سیگنالهای واقعی، مثل زمانی که کاربرها مدلها رو عوض میکنن یا نرخ ترجیح پاسخها، آموزش میبینه و در طول زمان بهتر میشه.
نگاهی دقیقتر به عملکرد GPT-5 در کدنویسی
GPT-5 قویترین مدلیه که تا به امروز برای کدنویسی عرضه شده. این مدل در بنچمارکهای کدنویسی و موارد استفاده واقعی، از مدل قبلی یعنی o3 بهتر عمل میکنه و برای درخشیدن در محصولات کدنویسی ایجنتیک مثل Cursor، Windsurf، GitHub Copilot و Codex CLI بهینهسازی شده. این مدل تونسته آزمایشکنندههای آلفا رو تحت تاثیر قرار بده و در بسیاری از ارزیابیهای داخلی و خصوصی اونها، رکوردهای جدیدی ثبت کنه.
یکی از آزمایشکنندههای اولیه، تیم Cursor، بازخورد جالبی در مورد این مدل داده. اونها گفتن:
«GPT-5 هوشمندترین مدل کدنویسیه که ما استفاده کردیم. تیم ما متوجه شده که این مدل به طرز چشمگیری باهوش، راحت برای هدایت کردن و حتی دارای شخصیتیه که در هیچ مدل دیگهای ندیدیم. این مدل نه تنها باگهای پیچیده و عمیقا پنهان رو پیدا میکنه، بلکه میتونه ایجنتهای پسزمینه طولانی و چند مرحلهای رو برای به سرانجام رسوندن وظایف پیچیده اجرا کنه؛ از همون نوع مشکلاتی که قبلا مدلهای دیگه رو گیر مینداخت. این مدل به ابزار روزمره ما برای همه کارها، از مشخص کردن محدوده و برنامهریزی برای PRها گرفته تا تکمیل ساختهای کامل (end-to-end builds)، تبدیل شده».
در ادامه به بررسی عملکرد این مدل در چند بنچمارک استاندارد میپردازیم:
- SWE-bench Verified: این یک ارزیابی بر اساس وظایف مهندسی نرمافزار در دنیای واقعیه. GPT-5 در این بنچمارک امتیاز ۷۴.۹ درصد رو کسب کرده که نسبت به امتیاز ۶۹.۱ درصدی مدل o3 یک پیشرفت محسوب میشه. نکته قابل توجه اینه که GPT-5 این امتیاز بالا رو با کارایی و سرعت بیشتری به دست آورده. در مقایسه با مدل o3 با سطح استدلال بالا، GPT-5 از ۲۲ درصد توکن خروجی کمتر و ۴۵ درصد فراخوانی ابزار کمتری استفاده کرده.
- Aider polyglot: این بنچمارک برای ارزیابی توانایی ویرایش کد طراحی شده. GPT-5 در این زمینه رکورد جدیدی با امتیاز ۸۸ درصد ثبت کرده که به معنی کاهش یک سومی نرخ خطا در مقایسه با مدل o3 است.
علاوه بر این، مشخص شده که GPT-5 در بررسی عمیق پایگاههای کد برای پاسخ به سوالات در مورد نحوه کار یا تعامل بخشهای مختلف، عملکرد بسیار خوبی داره. برای مثال، در یک پایگاه کد پیچیده مثل پشته یادگیری تقویتی خود OpenAI، این مدل تونسته به تیم کمک کنه تا در مورد کد خودشون استدلال و به سوالات پاسخ بدن و در نتیجه، کارهای روزمره اونها رو تسریع ببخشه.
در زمینه تولید کد فرانتاند برای اپلیکیشنهای وب، GPT-5 زیباییشناستر، جاهطلبانهتر و دقیقتر عمل میکنه. در مقایسههای رودررو با مدل o3، GPT-5 در ۷۰ درصد موارد توسط آزمایشکنندهها ترجیح داده شده. این مدل میتونه با یک پرامپت واحد، کارهای جالبی انجام بده.
GPT-5 یک همکار بهتره، به خصوص در محصولات کدنویسی ایجنتیک مثل Cursor، Windsurf، GitHub Copilot و Codex CLI. در حین کار، این مدل میتونه بین فراخوانیهای ابزار، برنامهها، بهروزرسانیها و خلاصهها رو تولید کنه. در مقایسه با مدلهای قبلی، GPT-5 در تکمیل وظایف جاهطلبانه بدون اینکه منتظر تایید شما بمونه یا از پیچیدگی بالا بترسه، فعالتره. برای مثال، در یک نمونه نمایشی، این مدل وظیفه ایجاد یک وبسایت برای یک رستوران رو بر عهده میگیره و در حین انجام کار، به طور مداوم برنامهها و بهروزرسانیهای خودش رو به کاربر گزارش میده.
تواناییهای پیشرفته در وظایف ایجنتیک و استفاده از ابزار
فراتر از کدنویسی ایجنتیک، GPT-5 به طور کلی در وظایف ایجنتیک بهتر عمل میکنه. این مدل رکوردهای جدیدی در بنچمارکهای دنبال کردن دستورالعمل (۶۹.۶ درصد در Scale MultiChallenge، با ارزیابی توسط o3-mini) و فراخوانی ابزار (۹۶.۷ درصد در τ۲-bench telecom) ثبت کرده. هوش ابزاری بهبود یافته به GPT-5 اجازه میده تا اقدامات رو به طور قابل اعتمادتری برای انجام وظایف دنیای واقعی به هم زنجیروار متصل کنه.
شرکت Manus که یکی از آزمایشکنندههای اولیه بوده، گفته:
«GPT-5 یک گام بزرگ رو به جلوست. این مدل بهترین عملکردی که ما تا به حال از یک مدل واحد در بنچمارکهای داخلی خودمون دیدیم رو به دست آورد. GPT-5 در وظایف مختلف ایجنتیک عالی عمل کرد، حتی قبل از اینکه ما یک خط کد رو تغییر بدیم یا یک پرامپت رو تنظیم کنیم. توضیحات اولیه جدید (preambles) و کنترل دقیقتر بر استفاده از ابزار، یک جهش قابل توجه در پایداری و قابلیت هدایت ایجنتهای ما ایجاد کرد».
GPT-5 دستورالعملها رو با اطمینان بیشتری نسبت به هر یک از پیشینیان خود دنبال میکنه و در ارزیابیهای COLLIE، Scale MultiChallenge و ارزیابی داخلی دنبال کردن دستورالعمل، امتیازات بالایی کسب کرده.
تلاش زیادی برای بهبود فراخوانی ابزار به روشهایی که برای توسعهدهندهها اهمیت داره، انجام شده. GPT-5 در دنبال کردن دستورالعملهای ابزار، مدیریت خطاهای ابزار و انجام فعالانه بسیاری از فراخوانیهای ابزار به صورت متوالی یا موازی، بهتر عمل میکنه. در صورت درخواست، GPT-5 میتونه قبل و بین فراخوانیهای ابزار، پیامهای توضیحی (preamble) قابل مشاهده برای کاربر تولید کنه تا کاربرها رو در طول وظایف ایجنتیک طولانیتر، از پیشرفت کار مطلع کنه.
دو ماه پیش، بنچمارک τ۲-bench telecom توسط Sierra.ai به عنوان یک بنچمارک چالشبرانگیز برای استفاده از ابزار منتشر شد که نشون میداد عملکرد مدلهای زبانی هنگام تعامل با یک محیط که وضعیت اون میتونه توسط کاربر تغییر کنه، به طور قابل توجهی کاهش پیدا میکنه. در مقاله اونها، هیچ مدلی امتیازی بالاتر از ۴۹ درصد کسب نکرده بود. GPT-5 در این بنچمارک امتیاز ۹۷ درصد رو به دست آورده.
بهبود در عملکرد با زمینه طولانی (Long Context)
GPT-5 بهبودهای قابل توجهی در عملکرد با زمینه طولانی هم نشون میده. در بنچمارک OpenAI-MRCR، که معیاری برای بازیابی اطلاعات از متون طولانیه، GPT-5 از مدلهای o3 و GPT-4.1 بهتر عمل میکنه و این اختلاف با افزایش طول ورودی، به طور قابل توجهی بیشتر میشه.
همچنین یک بنچمارک جدید برای ارزیابی پرسش و پاسخ با زمینه طولانی به نام BrowseComp Long Context به صورت متنباز منتشر شده. در این بنچمارک، به مدل یک درخواست کاربر، یک لیست طولانی از نتایج جستجوی مرتبط داده میشه و مدل باید بر اساس این نتایج به سوال پاسخ بده. این بنچمارک طوری طراحی شده که واقعگرایانه، دشوار و دارای پاسخهای صحیح و قابل اعتماد باشه. در ورودیهایی با طول ۱۲۸ هزار تا ۲۵۶ هزار توکن، GPT-5 در ۸۹ درصد موارد پاسخ صحیح میده.
در API، تمام مدلهای GPT-5 میتونن حداکثر ۲۷۲,۰۰۰ توکن ورودی رو بپذیرن و حداکثر ۱۲۸,۰۰۰ توکن استدلال و خروجی تولید کنن، که مجموعا یک طول زمینه (context length) ۴۰۰,۰۰۰ توکنی رو فراهم میکنه.
افزایش اعتمادپذیری و کاهش توهم (Hallucination)
GPT-5 نسبت به مدلهای قبلی قابل اعتمادتره. در پرامپتهایی از بنچمارکهای LongFact و FactScore، GPT-5 حدود ۸۰ درصد خطاهای واقعی (factual errors) کمتری نسبت به مدل o3 داره. این ویژگی اون رو برای موارد استفاده ایجنتیک که در اونها صحت اطلاعات اهمیت داره، به خصوص در کد، دادهها و تصمیمگیری، مناسبتر میکنه.
به طور کلی، GPT-5 طوری آموزش دیده که از محدودیتهای خودش آگاهتر باشه و بتونه با مشکلات غیرمنتظره بهتر کنار بیاد. این مدل همچنین برای پاسخگویی بسیار دقیقتر به سوالات مربوط به سلامت آموزش دیده. مثل همه مدلهای زبانی، توصیه میشه که وقتی موضوعات مهمی در میونه، کارهای GPT-5 رو تایید کنید.
کنترلهای جدید برای توسعهدهندهها: reasoning_effort
و verbosity
توسعهدهندهها میتونن زمان تفکر GPT-5 رو از طریق پارامتر reasoning_effort
در API کنترل کنن. علاوه بر مقادیر قبلی یعنی low
، medium
(پیشفرض) و high
، GPT-5 حالا از مقدار minimal
هم پشتیبانی میکنه که استدلال مدل رو به حداقل میرسونه تا جواب رو سریعتر برگردونه.
مقادیر بالاتر reasoning_effort
کیفیت رو به حداکثر میرسونن و مقادیر پایینتر سرعت رو به حداکثر میرسونن. همه وظایف به یک اندازه از استدلال اضافی سود نمیبرن، بنابراین توصیه میشه آزمایش کنید تا ببینید کدوم مقدار برای موارد استفاده شما بهتر جواب میده. برای مثال، استدلال بالاتر از low
تاثیر کمی روی بازیابی اطلاعات از متون طولانی نسبتا ساده داره، اما چند درصد به امتیاز بنچمارک استدلال بصری CharXiv Reasoning اضافه میکنه.
برای کمک به هدایت طول پیشفرض پاسخهای GPT-5، یک پارامتر API جدید به نام verbosity
معرفی شده که مقادیر low
، medium
(پیشفرض) و high
رو میپذیره. اگه دستورالعملهای صریح با پارامتر verbosity
در تضاد باشن، دستورالعملهای صریح اولویت دارن. برای مثال، اگه از GPT-5 بخواید «یک مقاله ۵ پاراگرافی بنویس»، پاسخ مدل همیشه باید ۵ پاراگراف باشه، صرف نظر از سطح verbosity
(اما خود پاراگرافها ممکنه بلندتر یا کوتاهتر باشن).
ابزارهای سفارشی و پیامهای توضیحی
اگه به GPT-5 دستور داده بشه، این مدل پیامهای توضیحی قابل مشاهده برای کاربر رو قبل و بین فراخوانیهای ابزار تولید میکنه. بر خلاف پیامهای استدلال پنهان، این پیامهای قابل مشاهده به GPT-5 اجازه میدن تا برنامهها و پیشرفت کار رو به کاربر اطلاع بده و به کاربر نهایی کمک میکنه تا رویکرد و قصد مدل از فراخوانی ابزارها رو درک کنه.
یک نوع ابزار جدید به نام «ابزارهای سفارشی» (Custom Tools) معرفی شده که به GPT-5 اجازه میده یک ابزار رو با متن ساده (plaintext) به جای JSON فراخوانی کنه. برای محدود کردن GPT-5 به دنبال کردن فرمتهای ابزار سفارشی، توسعهدهندهها میتونن یک عبارت منظم (regex) یا حتی یک گرامر مستقل از متن (context-free grammar) کاملا مشخص ارائه بدن.
قبلا، رابط کاربری برای ابزارهای تعریف شده توسط توسعهدهنده، نیاز داشت که اونها با JSON فراخوانی بشن که یک فرمت رایج مورد استفاده توسط APIهای وب و توسعهدهندههاست. با این حال، تولید JSON معتبر نیاز داره که مدل به طور کامل تمام علامتهای نقل قول، بکاسلشها، خطوط جدید و سایر کاراکترهای کنترلی رو escape کنه. اگرچه مدلها به خوبی برای تولید JSON آموزش دیدن، اما در ورودیهای طولانی مثل صدها خط کد یا یک گزارش ۵ صفحهای، احتمال خطا افزایش پیدا میکنه. با ابزارهای سفارشی، GPT-5 میتونه ورودیهای ابزار رو به صورت متن ساده بنویسه، بدون اینکه نیاز به escape کردن تمام کاراکترهایی که نیاز به escape دارن، داشته باشه. جالبه که در بنچمارک SWE-bench Verified، استفاده از ابزارهای سفارشی به جای ابزارهای JSON، امتیاز GPT-5 رو تقریبا تغییری نداده.
ایمنی و رویکرد جدید «تکمیلهای ایمن»
GPT-5 مرزهای ایمنی رو پیش برده و یک مدل قویتر، قابل اعتمادتر و مفیدتره. این مدل به طور قابل توجهی کمتر از مدلهای قبلی دچار توهم (hallucination) میشه، صادقانهتر اقدامات و تواناییهای خودش رو به کاربر اطلاع میده و در عین حال که در محدودههای ایمنی باقی میمونه، مفیدترین پاسخ ممکن رو ارائه میده.
یک رویکرد جدید آموزش ایمنی به نام «تکمیلهای ایمن» (safe-completions) در GPT-5 معرفی شده تا مفید بودن مدل رو در چارچوب محدودیتهای ایمنی به حداکثر برسونه. در مقایسه با آموزش مبتنی بر امتناع (refusal-based training)، تکمیلهای ایمن هم ایمنی و هم مفید بودن رو بهبود میبخشن، به خصوص در حوزههای با کاربرد دوگانه (dual-use).
یک سوال با کاربرد دوگانه، سوالی با قصد نامشخصه که اطلاعات اون میتونه به روشهای بیخطر یا مخرب استفاده بشه. برای مثال اگه کاربری در مورد حداقل انرژی لازم برای روشن کردن یک نمایش آتشبازی بپرسه، این میتونه برای یک جشن یا یک پروژه تحقیقاتی باشه، یا برای ساخت مواد منفجره. در گذشته، مدلهای مبتنی بر امتناع، یک تصمیم باینری میگرفتن: یا به طور کامل پاسخ میدادن (که میتونست خطرناک باشه) یا امتناع میکردن (که مفید نبود).
تکمیلهای ایمن، آموزش ایمنی رو بر ایمنی خروجی مدل متمرکز میکنه. این کار از طریق دو پارامتر آموزشی پیادهسازی میشه:
- محدودیت ایمنی: در طول پسآموزش، پاداش تکمیل ایمن، پاسخهای مدلی که سیاستهای ایمنی رو نقض میکنن، جریمه میکنه.
- حداکثرسازی مفید بودن: برای پاسخهای ایمن، مدل بر اساس مفید بودنش پاداش میگیره.
این رویکرد به طور قابل توجهی هم ایمنی و هم مفید بودن رو در مقایسه با آموزش مبتنی بر امتناع بهبود داده. با کنار گذاشتن تصمیم باینری «پاسخ بده/امتناع کن»، آموزش تکمیل ایمن مدلها رو تشویق میکنه تا حتی زمانی که پاسخ میدن، در مورد محتوای بالقوه ناامن محتاطتر باشن. در آزمایشها، مشخص شده که وقتی مدلهای تکمیل ایمن اشتباه میکنن، خروجیهای ناامن اونها شدت کمتری نسبت به خروجیهای ناامن مدلهای آموزشدیده با امتناع دارن.
قیمتگذاری و دسترسی
GPT-5 در حال حاضر در پلتفرم API در سه اندازه موجوده: gpt-5
، gpt-5-mini
و gpt-5-nano
. این مدلها در Responses API و Chat Completions API در دسترس هستن و مدل پیشفرض در Codex CLI محسوب میشن. قیمتگذاری به شرح زیره:
- GPT-5: ۱.۲۵ دلار برای هر ۱ میلیون توکن ورودی و ۱۰ دلار برای هر ۱ میلیون توکن خروجی.
- GPT-5 mini: ۰.۲۵ دلار برای هر ۱ میلیون توکن ورودی و ۲ دلار برای هر ۱ میلیون توکن خروجی.
- GPT-5 nano: ۰.۰۵ دلار برای هر ۱ میلیون توکن ورودی و ۰.۴۰ دلار برای هر ۱ میلیون توکن خروجی.
نسخه غیراستدلالی GPT-5 که در ChatGPT استفاده میشه، با نام gpt-5-chat-latest
در API موجوده و قیمت اون هم ۱.۲۵ دلار برای هر ۱ میلیون توکن ورودی و ۱۰ دلار برای هر ۱ میلیون توکن خروجی است. GPT-5 همچنین در پلتفرمهای مایکروسافت از جمله Microsoft 365 Copilot، Copilot، GitHub Copilot و Azure AI Foundry عرضه میشه.
جزئیات عملکرد در بنچمارکها
در ادامه، جداول عملکرد GPT-5 و مدلهای دیگر در بنچمارکهای مختلف آورده شده. این اعداد نشاندهنده پیشرفتهای قابل توجه در حوزههای مختلف هستن.
هوش (Intelligence)
مدل | AIME ’۲۵ (بدون ابزار) | FrontierMath (فقط با ابزار پایتون) | GPQA diamond (بدون ابزار) | HLE[1] (بدون ابزار) | HMMT 2025 (بدون ابزار) |
---|---|---|---|---|---|
GPT-5(high) | ۹۴.۶% | ۲۶.۳% | ۸۵.۷% | ۲۴.۸% | ۹۳.۳% |
GPT-5 mini(high) | ۹۱.۱% | ۲۲.۱% | ۸۲.۳% | ۱۶.۷% | ۸۷.۸% |
GPT-5 nano(high) | ۸۵.۲% | ۹.۶% | ۷۱.۲% | ۸.۷% | ۷۵.۶% |
OpenAI o3(high) | ۸۶.۴% | ۱۵.۸% | ۸۳.۳% | ۲۰.۲% | ۸۱.۷% |
OpenAI o4-mini(high) | ۹۲.۷% | ۱۵.۴% | ۸۱.۴% | ۱۴.۷% | ۸۵.۰% |
[۱] یک اختلاف جزئی با اعداد گزارش شده در پست وبلاگ قبلی وجود داره، چون اونها روی نسخه قبلی HLE اجرا شده بودن.
چندوجهی (Multimodal)
مدل | MMMU | MMMU-Pro | CharXiv reasoning (پایتون فعال) | VideoMMMU | ERQA |
---|---|---|---|---|---|
GPT-5(high) | ۸۴.۲% | ۷۸.۴% | ۸۱.۱% | ۸۴.۶% | ۶۵.۷% |
GPT-5 mini(high) | ۸۱.۶% | ۷۴.۱% | ۷۵.۵% | ۸۲.۵% | ۶۲.۹% |
GPT-5 nano(high) | ۷۵.۶% | ۶۲.۶% | ۶۲.۷% | ۶۶.۸% | ۵۰.۱% |
OpenAI o3(high) | ۸۲.۹% | ۷۶.۴% | ۷۸.۶% | ۸۳.۳% | ۶۴.۰% |
OpenAI o4-mini(high) | ۸۱.۶% | ۷۳.۴% | ۷۲.۰% | ۷۹.۴% | ۵۶.۵% |
کدنویسی (Coding)
مدل | SWE-Lancer | SWE-bench Verified[2] | Aider polyglot (diff) |
---|---|---|---|
GPT-5(high) | $112K | ۷۴.۹% | ۸۸.۰% |
GPT-5 mini(high) | $75K | ۷۱.۰% | ۷۱.۶% |
GPT-5 nano(high) | $49K | ۵۴.۷% | ۴۸.۴% |
OpenAI o3(high) | $86K | ۶۹.۱% | ۷۹.۶% |
OpenAI o4-mini(high) | $66K | ۶۸.۱% | ۵۸.۲% |
[۲] ۲۳ مسئله از ۵۰۰ مسئله که روی زیرساخت قابل اجرا نبودن، حذف شدن.
دنبال کردن دستورالعمل (Instruction Following)
مدل | Scale multichallenge[3] | Internal API instruction following eval (hard) | COLLIE |
---|---|---|---|
GPT-5(high) | ۶۹.۶% | ۶۴.۰% | ۹۹.۰% |
GPT-5 mini(high) | ۶۲.۳% | ۶۵.۸% | ۹۸.۵% |
GPT-5 nano(high) | ۵۴.۹% | ۵۶.۱% | ۹۶.۹% |
OpenAI o3(high) | ۶۰.۴% | ۴۷.۴% | ۹۸.۴% |
OpenAI o4-mini(high) | ۵۷.۵% | ۴۴.۷% | ۹۶.۱% |
[۳] ارزیاب پیشفرض در MultiChallenge (GPT-4o) اغلب پاسخهای مدل رو اشتباه امتیازدهی میکنه. تغییر ارزیاب به یک مدل استدلالی مثل o3-mini، دقت امتیازدهی رو به طور قابل توجهی بهبود میبخشه.
فراخوانی تابع (Function Calling)
مدل | Tau2-bench airline | Tau2-bench retail | Tau2-bench telecom |
---|---|---|---|
GPT-5(high) | ۶۲.۶% | ۸۱.۱% | ۹۶.۷% |
GPT-5 mini(high) | ۶۰.۰% | ۷۸.۳% | ۷۴.۱% |
GPT-5 nano(high) | ۴۱.۰% | ۶۲.۳% | ۳۵.۵% |
OpenAI o3(high) | ۶۴.۸% | ۸۰.۲% | ۵۸.۲% |
OpenAI o4-mini(high) | ۶۰.۲% | ۷۰.۵% | ۴۰.۵% |
زمینه طولانی (Long Context)
مدل | OpenAI-MRCR: 2 needle 128k | OpenAI-MRCR: 2 needle 256k | BrowseComp Long Context 256k |
---|---|---|---|
GPT-5(high) | ۹۵.۲% | ۸۶.۸% | ۸۸.۸% |
GPT-5 mini(high) | ۸۴.۳% | ۵۸.۸% | ۸۶.۰% |
GPT-5 nano(high) | ۴۳.۲% | ۳۴.۹% | ۶۸.۴% |
OpenAI o3(high) | ۵۵.۰% | – | – |
OpenAI o4-mini(high) | ۵۶.۴% | – | – |
توهم (Hallucinations) [پایینتر بهتر است]
مدل | LongFact-Concepts hallucination rate | LongFact-Objects hallucination rate | FActScore hallucination rate |
---|---|---|---|
GPT-5(high) | ۱.۰% | ۱.۲% | ۲.۸% |
GPT-5 mini(high) | ۰.۷% | ۱.۳% | ۳.۵% |
GPT-5 nano(high) | ۱.۰% | ۲.۸% | ۷.۳% |
OpenAI o3(high) | ۵.۲% | ۶.۸% | ۲۳.۵% |
OpenAI o4-mini(high) | ۳.۰% | ۸.۹% | ۳۸.۷% |
GPT-5 و دوره جدید کار
معرفی GPT-5 به عنوان هوشمندترین، سریعترین و مفیدترین مدل OpenAI تا به امروز، یک گام بزرگ به سوی قرار دادن هوش در مرکز هر کسبوکاریه. این مدل پیشرفتهای قبلی OpenAI در هوش پیشرفته، شامل سری o، استدلال، ایجنتها و قابلیتهای ریاضی پیشرفته رو یکپارچه کرده و از اونها فراتر میره. این عرضه در زمانی اتفاق میفته که سازمانهایی مثل BNY Mellon، دانشگاه ایالتی کالیفرنیا، Figma، Intercom، Lowe’s، Morgan Stanley، SoftBank و T-Mobile در حال حاضر نیروهای کاری خودشون رو با هوش مصنوعی مجهز کردن و ۵ میلیون کاربر پولی از محصولات تجاری ChatGPT استفاده میکنن.
GPT-5 جهشهایی در دقت، سرعت، استدلال، تشخیص زمینه، تفکر ساختاریافته و حل مسئله ارائه میده. اما جادوی واقعی زمانی اتفاق میفته که کسبوکارها شروع به استفاده از GPT-5 برای تصور موارد استفاده جدید کنن. شرکت Amgen که در زمینه مبارزه با بیماریهای سخت فعالیت میکنه، گفته:
«ما هوش مصنوعی رو با بالاترین استاندارد برای دقت و کیفیت علمی میسنجیم. هنوز زوده، اما بر اساس ارزیابی داخلی ما، GPT-5 به این استاندارد رسیده و در موقعیتهای مبهم که زمینه اهمیت داره، بهتر عمل میکنه. ما نتایج اولیه امیدوارکنندهای از استقرار GPT-5 در سراسر گردشهای کاری در Amgen، از جمله افزایش دقت و قابلیت اطمینان، خروجیهای با کیفیت بالاتر و سرعتهای بیشتر در مقایسه با مدلهای قبلی، مشاهده میکنیم».
عرضه GPT-5 همچنین با استفاده هفتگی نزدیک به ۷۰۰ میلیون نفر از ChatGPT همزمان شده. هوش مصنوعی قدرتمند حالا عمیقتر در نحوه زندگی و کار ما تنیده شده و راحتی روزافزون مصرفکنندهها با این فناوری، شرکتها رو تشویق میکنه تا دسترسی مستقیم به OpenAI رو برای کارمندان خودشون فراهم کنن تا بهرهوری، کارایی و خروجی خلاقانه بیشتری داشته باشن. با GPT-5، شرکتهایی که هوش مصنوعی رو پذیرفتن، به سرعت از تجربه یکپارچه ChatGPT و در موارد استفاده پیشرفتهتر، از عملکرد بهبود یافته API اون در ایجنتها و کدنویسی بهرهمند خواهند شد.
مشتریان ChatGPT Team از امروز میتونن به GPT-5 دسترسی داشته باشن و نسخههای Enterprise و Edu هفته آینده عرضه میشن. GPT-5 در API هم موجوده و توسعهدهندهها میتونن از اون استفاده کنن. مشتریان Team، Enterprise و Edu به زودی به GPT-5 Pro هم دسترسی پیدا خواهند کرد که نسخهای با استدلال گسترده برای پاسخهای قابل اعتمادتر و دقیقتره.
دیدگاهتان را بنویسید