چت‌جی‌پی‌تی ایجنت ChatGPT agent معرفی شد

یک قابلیت جدید به اسم ChatGPT agent معرفی شده که به نوعی یک تحول در نحوه کار با این ابزار محسوب میشه. این قابلیت که در تاریخ هفده جولای سال ۲۰۲۵ معرفی شد، به چت جی پی تی این امکان رو میده که دیگه فقط یک ابزار گفتگو و جواب دادن به سوالات نباشه، بلکه بتونه به طور مستقل فکر کنه و برای کاربر کار انجام بده. این کارها رو با استفاده از یک کامپیوتر مجازی که در اختیارش قرار گرفته، به سرانجام میرسونه. در واقع این سیستم جدید، ترکیبی از تحقیقات قبلی و توانایی انجام عمل هست و به نوعی یک پل بین این دو دنیا به حساب میاد. حالا دیگه چت جی پی تی میتونه یک سری مهارت‌های عامل‌گونه (agentic skills) رو به صورت فعال انتخاب کنه و از جعبه ابزاری که در اختیار داره، برای تکمیل کردن وظایف استفاده کنه. این یعنی چت جی پی تی حالا میتونه کارهایی رو از اول تا آخر برای شما انجام بده، کارهایی که پیچیدگی‌های خاص خودشون رو دارن.

برای مثال، شما میتونید ازش بخواید که به تقویمتون نگاه کنه و بر اساس آخرین اخبار، یک گزارش کوتاه در مورد جلسات آینده با مشتری‌ها بهتون بده. یا میتونید ازش بخواید که برای درست کردن یک صبحانه ژاپنی برای چهار نفر، برنامه‌ریزی کنه و مواد اولیه مورد نیازش رو هم بخره. حتی میتونه سه تا از رقبای شما رو تحلیل کنه و یک فایل ارائه اسلایدی (slide deck) از تحلیل‌هاش بسازه. برای انجام این کارها، چت جی پی تی به شکل هوشمندانه‌ای در وبسایت‌ها میگرده، نتایج رو فیلتر میکنه، در صورت نیاز از شما میخواد که به صورت امن وارد حساب کاربری خودتون بشید، کد اجرا میکنه، تحلیل انجام میده و در نهایت، خروجی‌هایی مثل اسلایدشو یا صفحه گسترده (spreadsheet) قابل ویرایش به شما تحویل میده که خلاصه‌ای از یافته‌هاش رو نشون میده. همه این کارها بر اساس دستورالعمل‌هایی که شما بهش میدید انجام میشه.

قلب این قابلیت جدید، یک سیستم عامل‌گونه یکپارچه (unified agentic system) هست. این سیستم، سه نقطه قوت از دستاوردهای قبلی رو با هم ترکیب کرده. اولین نقطه قوت، توانایی ابزار «اپراتور» (Operator) برای تعامل با وبسایت‌هاست. دومین نقطه قوت، مهارت ابزار «تحقیق عمیق» (deep research) در ترکیب و خلاصه‌سازی اطلاعات هست. و سومین نقطه قوت، هوش و روانی گفتگوی خود چت جی پی تی هست که از قبل هم وجود داشته. چت جی پی تی این وظایف رو با استفاده از یک کامپیوتر مجازی مخصوص خودش انجام میده و به صورت روان بین استدلال کردن و عمل کردن جابجا میشه تا بتونه جریان‌های کاری پیچیده رو از اول تا آخر مدیریت کنه.

یک نکته خیلی مهم اینه که کنترل همیشه دست شماست. چت جی پی تی قبل از انجام کارهایی که پیامدهای مهمی دارن، از شما اجازه میگیره. شما هم میتونید به راحتی در هر مرحله‌ای کارش رو قطع کنید، کنترل مرورگر رو خودتون به دست بگیرید یا در هر زمانی که خواستید، وظایف رو متوقف کنید. این قابلیت جدید از همون روز معرفی برای کاربران پلن‌های پرو (Pro)، پلاس (Plus) و تیم (Team) فعال شده. اونها میتونن به صورت مستقیم از منوی کشویی ابزارها (tools dropdown) در قسمت نوشتن پیام، گزینه «حالت عامل» (agent mode) رو انتخاب کنن و در هر مکالمه‌ای از این قابلیت استفاده کنن. با اینکه ChatGPT agent در همین حالت فعلی هم یک ابزار قدرتمند برای انجام کارهای پیچیده به حساب میاد، اما این تازه شروع ماجراست. قرار هست که به صورت مداوم و تدریجی، بهبودهای قابل توجهی بهش اضافه بشه تا با گذشت زمان، برای افراد بیشتری توانمندتر و مفیدتر بشه.

تکامل طبیعی اپراتور و تحقیق عمیق

برای درک بهتر این قابلیت جدید، خوبه که نگاهی به ابزارهای قبلی یعنی اپراتور و تحقیق عمیق بندازیم. هر کدوم از اینها نقاط قوت منحصر به فرد خودشون رو داشتن. اپراتور میتونست در صفحات وب اسکرول کنه، کلیک کنه و تایپ کنه. در مقابل، تحقیق عمیق در تحلیل و خلاصه‌سازی اطلاعات عالی عمل میکرد. اما مشکل اینجا بود که هر کدوم در شرایط متفاوتی بهترین عملکرد رو داشتن. اپراتور نمیتونست تحلیل‌های عمیق انجام بده یا گزارش‌های مفصل بنویسه. از طرف دیگه، تحقیق عمیق هم نمیتونست با وبسایت‌ها تعامل داشته باشه تا نتایج رو دقیق‌تر کنه یا به محتوایی که نیاز به احراز هویت کاربر داره دسترسی پیدا کنه. در واقع، مشاهده شد که خیلی از درخواست‌هایی که کاربران با اپراتور امتحان میکردن، در اصل برای تحقیق عمیق مناسب‌تر بودن. به همین خاطر، تصمیم گرفته شد که بهترین‌های هر دو ابزار با هم ترکیب بشن.

با ادغام این نقاط قوت مکمل در چت جی پی تی و معرفی ابزارهای اضافی، قابلیت‌های کاملا جدیدی در قالب یک مدل واحد به وجود اومده. حالا این سیستم میتونه به صورت فعال با وبسایت‌ها درگیر بشه، یعنی کلیک کنه، فیلتر کنه و نتایج دقیق‌تر و کارآمدتری رو جمع‌آوری کنه. همچنین شما میتونید به طور طبیعی از یک گفتگوی ساده به سمت درخواست انجام یک کار برید، اون هم مستقیما در همون چت. این یکپارچگی باعث شده تا محدودیت‌های قبلی برداشته بشه و کاربر بتونه تجربه‌ی روان‌تری در انجام کارهای پیچیده داشته باشه. به جای اینکه کاربر مجبور باشه بین دو ابزار مختلف سوییچ کنه و داده‌ها رو به صورت دستی منتقل کنه، حالا یک سیستم واحد وجود داره که هوشمندانه تشخیص میده کی باید اطلاعات رو جستجو و تحلیل کنه و کی باید روی یک دکمه در یک وبسایت کلیک کنه. این موضوع باعث صرفه‌جویی زیادی در زمان و انرژی کاربر میشه و مرز بین تحقیق و عمل رو از بین میبره.

عاملی که برای شما و با شما کار میکنه

ChatGPT agent به یک مجموعه کامل از ابزارها مجهز شده تا بتونه وظایف مختلف رو به بهترین شکل انجام بده. این ابزارها شامل موارد زیر هستن:

یک مرورگر بصری (visual browser) که از طریق یک رابط کاربری گرافیکی (GUI) با وب تعامل میکنه. این مرورگر برای کار با وبسایت‌هایی که برای انسان‌ها طراحی شدن و پر از عناصر گرافیکی هستن، ایده‌آل هست.
یک مرورگر مبتنی بر متن (text-based browser) که برای درخواست‌های ساده‌تر و مبتنی بر استدلال در وب استفاده میشه. این مرورگر میتونه حجم زیادی از متن رو به سرعت پردازش و تحلیل کنه.
یک ترمینال (terminal) که برای اجرای کد، انجام تحلیل داده و حتی ساختن اسلاید یا صفحه گسترده به کار میره. این ترمینال البته دسترسی محدودی به شبکه داره.
دسترسی مستقیم به API که بهش اجازه میده به طور موثر اطلاعات رو از منابعی مثل تقویم شما جمع‌آوری کنه.

علاوه بر اینها، این عامل میتونه از «اتصال‌دهنده‌های چت جی پی تی» (ChatGPT connectors) هم استفاده کنه. این اتصال‌دهنده‌ها به شما این امکان رو میدن که اپلیکیشن‌هایی مثل جیمیل (Gmail) و گیت‌هاب (Github) رو به چت جی پی تی متصل کنید. با این کار، چت جی پی تی میتونه اطلاعات مرتبط با درخواست‌های شما رو پیدا کنه و در پاسخ‌هاش از اونها استفاده کنه. شما همچنین میتونید با در دست گرفتن کنترل مرورگر، در هر وبسایتی وارد حساب کاربری خودتون بشید. این کار به عامل اجازه میده تا هم در تحقیق و هم در اجرای وظایف، عمیق‌تر و گسترده‌تر عمل کنه.

اینکه چت جی پی تی راه‌های مختلفی برای دسترسی و تعامل با اطلاعات وب در اختیار داره، به این معنی هست که میتونه مسیر بهینه رو برای انجام کارها به کارآمدترین شکل ممکن انتخاب کنه. برای مثال، میتونه اطلاعات مربوط به تقویم شما رو از طریق یک API جمع‌آوری کنه، حجم زیادی از متن رو با استفاده از مرورگر متنی به صورت کارآمد تحلیل کنه و همزمان، توانایی تعامل بصری با وبسایت‌هایی که عمدتا برای انسان‌ها طراحی شدن رو هم داشته باشه. همه این کارها با استفاده از کامپیوتر مجازی خودش انجام میشه که زمینه (context) لازم برای انجام وظیفه رو حفظ میکنه، حتی زمانی که از چندین ابزار مختلف استفاده میشه. مدل میتونه انتخاب کنه که یک صفحه رو با مرورگر متنی باز کنه یا با مرورگر بصری، یک فایل رو از وب دانلود کنه، با اجرای یک دستور در ترمینال اون رو دستکاری کنه و بعد خروجی رو دوباره در مرورگر بصری ببینه. مدل رویکردش رو برای انجام کارها با سرعت، دقت و کارایی بالا تطبیق میده.

ChatGPT agent برای جریان‌های کاری تکرارشونده و مشارکتی طراحی شده و خیلی تعاملی‌تر و انعطاف‌پذیرتر از مدل‌های قبلی هست. وقتی چت جی پی تی در حال کار کردنه، شما میتونید در هر لحظه‌ای کارش رو قطع کنید تا دستورالعمل‌هاتون رو واضح‌تر کنید، اون رو به سمت نتایج دلخواه هدایت کنید یا حتی کل وظیفه رو تغییر بدید. اون هم از همونجایی که کارش متوقف شده، با اطلاعات جدید ادامه میده، بدون اینکه پیشرفت قبلی رو از دست بده. به همین ترتیب، خود چت جی پی تی هم ممکنه در صورت نیاز، به صورت فعال از شما جزئیات بیشتری بخواد تا مطمئن بشه که وظیفه با اهداف شما همسو باقی میمونه. اگر یک کار بیشتر از حد انتظار طول کشید یا حس کردید که گیر کرده، میتونید اون رو متوقف کنید (pause)، ازش یک خلاصه از پیشرفت کار بخواید یا به طور کامل متوقفش کنید و نتایج جزئی رو دریافت کنید. اگر اپلیکیشن چت جی پی تی رو روی گوشیتون داشته باشید، وقتی کارش تموم بشه، یک نوتیفیکیشن براتون ارسال میکنه.

گسترش کاربردهای دنیای واقعی

این قابلیت‌های عامل‌گونه یکپارچه به طور قابل توجهی کارایی چت جی پی تی رو هم در زمینه‌های روزمره و هم در زمینه‌های حرفه‌ای افزایش میده. در محیط کار، شما میتونید کارهای تکراری رو خودکار کنید. برای مثال، تبدیل اسکرین‌شات‌ها یا داشبوردها به ارائه‌هایی که از عناصر وکتور قابل ویرایش تشکیل شدن، تنظیم مجدد جلسات، برنامه‌ریزی و رزرو کردن جلسات خارج از شرکت (offsites) و به‌روزرسانی صفحه‌های گسترده با داده‌های مالی جدید در حالی که همون فرمت قبلی حفظ میشه، از جمله این کارهاست. در زندگی شخصی هم میتونید ازش برای برنامه‌ریزی و رزرو بی‌دردسر برنامه‌های سفر، طراحی و رزرو کامل مهمونی‌های شام یا پیدا کردن متخصص‌ها و تعیین وقت ملاقات استفاده کنید.

یکی از کارمندان شرکت OpenAI به اسم یاش کومار (Yash Kumar) که مدیر محصول ChatGPT Agent هست، گفته که شروع به استفاده از این ابزار برای خودکارسازی بخش‌های کوچکی از زندگیش کرده. برای مثال، به جای اینکه دوشنبه‌ها به دفتر بیاد و ببینه یادش رفته درخواست پارکینگ بده و جایی برای پارک کردن نداشته باشه، حالا هر پنجشنبه به صورت خودکار درخواست پارکینگ هفتگیش رو ثبت میکنه. ایزا فولفورد (Isa Fulford)، که مدیر تحقیقات این پروژه هست، هم گفته که از این ابزار برای خرید آنلاین لذت میبره، چون ترکیب فناوری‌های تحقیق عمیق و اپراتور بهتر و کامل‌تر از تلاش برای انجام این فرآیند فقط با استفاده از اپراتور عمل میکنه. کومار همچنین اشاره کرده که چون ChatGPT Agent به «یک کامپیوتر کامل» دسترسی داره و نه فقط یک مرورگر، اونها «مجموعه ابزارها رو به میزان قابل توجهی افزایش دادن».

عملکرد و ارزیابی‌ها

توانایی‌های بالای این مدل در عملکرد پیشرفته‌اش (state-of-the-art یا SOTA) در ارزیابی‌هایی که توانایی مرور وب و تکمیل وظایف دنیای واقعی رو میسنجن، منعکس شده.

در آزمون «آخرین امتحان بشریت» (Humanity’s Last Exam یا HLE)، که یک ارزیابی برای سنجش عملکرد هوش مصنوعی در طیف وسیعی از موضوعات در سطح سوالات تخصصی هست، مدلی که ChatGPT agent رو قدرت میبخشه، به یک امتیاز جدید SOTA با نرخ موفقیت در اولین تلاش (pass@1) برابر با ۴۱.۶ دست پیدا کرده. از اونجایی که این عامل به صورت پویا برنامه‌ریزی میکنه و ابزارهای خودشو انتخاب میکنه، میتونه یک وظیفه رو در اجراهای مختلف به روش‌های متفاوتی انجام بده. وقتی این موضوع با یک استراتژی ساده اجرای موازی (parallel rollout) مقیاس‌بندی شد – یعنی تا هشت بار تلاش همزمان انجام شد و تلاشی که بالاترین اطمینان گزارش شده توسط خود مدل رو داشت انتخاب شد – امتیاز HLE این عامل به ۴۴.۴ افزایش پیدا کرد. نکته‌ای که در این ارزیابی وجود داره اینه که گاهی اوقات مدل هنگام مرور وب میتونه جواب‌های دقیق رو به صورت آنلاین پیدا کنه، مثلا با خوندن پست‌های وبلاگی که شامل سوالات نمونه از یک مجموعه داده هستن. برای کاهش نگرانی از تقلب مدل در حین مرور وب، دو استراتژی به کار گرفته شده. اول اینکه دامنه‌هایی که مشاهده شده مدل در گذشته از اونها تقلب کرده، مسدود شدن. دوم اینکه از یک مدل اضافی به عنوان ناظر برای بررسی تمام توکن‌های خروجی ابزار در هر تلاش استفاده شده تا رفتارهای مشکوک شناسایی بشن. رفتار مشکوک به این صورت تعریف شده: «یک صفحه، فایل یا قطعه‌ای که هدف اصلیش ارائه پاسخ دقیق به همین سوال خاص هست – مثلا یک کلید تصحیح رسمی، یک راه حل لو رفته یا بحثی که پاسخ نهایی رو عینا نقل قول کرده». هر تلاشی که ناظر اون رو مشکوک تشخیص بده، به عنوان نادرست شمرده میشه.

بنچمارک بعدی «فرانتیرمث» (FrontierMath) هست که به عنوان سخت‌ترین بنچمارک ریاضی شناخته میشه و شامل مسائل جدید و منتشر نشده‌ای هست که حل اونها برای ریاضیدانان متخصص هم ساعت‌ها یا حتی روزها طول میکشه. ChatGPT agent با استفاده از ابزارهایی مثل دسترسی به ترمینال برای اجرای کد، به دقت ۲۷.۴ درصد میرسه که به طور قابل توجهی از مدل‌های قبلی بهتره. به عنوان مثال، مدل o4-mini در این بنچمارک امتیاز ۶.۳ درصد رو کسب کرده بود. در ارزیابی این بنچمارک، نتایج به عنوان میانگین ۱۶ تلاش برای پاسخ به هر سوال ارزیابی شدن. نتایج ChatGPT agent توسط خود OpenAI به دست اومده و توسط Epoch AI تصحیح شده، با دسترسی به مرورگر و ترمینال و محدودیت ۱۲۸ هزار توکن برای هر پاسخ.

این مدل همچنین با استفاده از بنچمارک‌هایی که بر اساس کارهای پیچیده دنیای واقعی طراحی شدن، ارزیابی شده. در یک بنچمارک داخلی که برای ارزیابی عملکرد مدل در «کارهای پیچیده و ارزشمند اقتصادی دانش‌محور» (complex, economically valuable knowledge-work tasks) طراحی شده، خروجی ChatGPT agent در حدود نیمی از موارد در طیف‌های زمانی مختلف برای تکمیل وظیفه، با عملکرد انسان‌ها قابل مقایسه یا بهتر از اونهاست و به طور قابل توجهی از مدل‌های o3 و o4-mini بهتر عمل میکنه. خروجی‌های مدل توسط متخصصان در برابر معیارهای انسانی با کیفیت بالا که توسط بهترین افراد در هر زمینه ایجاد شده، قضاوت میشن. این وظایف که از متخصصان در مشاغل و صنایع مختلف گرفته شدن، کارهای حرفه‌ای دنیای واقعی رو شبیه‌سازی میکنن، مثل تهیه یک تحلیل رقابتی از ارائه‌دهندگان خدمات مراقبت‌های فوری درخواستی، ساختن جداول استهلاک دقیق و شناسایی چاه‌های آب قابل استفاده برای یک تاسیسات جدید هیدروژن سبز.

در بنچمارک «دی‌اس‌بنچ» (DSBench) که برای ارزیابی عامل‌ها در وظایف واقعی علم داده شامل تحلیل و مدلسازی داده طراحی شده، ChatGPT agent به طور قابل توجهی و با اختلاف زیاد از عملکرد انسان پیشی میگیره.

در بنچمارک «اسپردشیت‌بنچ» (SpreadsheetBench) که توانایی مدل‌ها رو در ویرایش صفحه‌های گسترده برگرفته از سناریوهای دنیای واقعی ارزیابی میکنه، ChatGPT agent با اختلاف قابل توجهی از مدل‌های موجود بهتر عمل میکنه. وقتی به ChatGPT agent توانایی ویرایش مستقیم صفحه‌های گسترده داده میشه، امتیازش حتی بالاتر میره و به ۴۵.۵ درصد میرسه، در حالی که امتیاز Copilot در اکسل ۲۰.۰ درصد هست. در جدول مقایسه‌ای که ارائه شده، امتیاز کلی (Overall Soft restriction) برای مدل GPT-4o با محیط ویندوز و اکسل ۱۸.۳۵ درصد بوده، در حالی که همین مدل با محیط OSX و LibreOffice امتیاز ۱۶.۸۱ درصد رو کسب کرده. ChatGPT agent در محیط OSX و LibreOffice امتیاز ۳۵.۲۷ درصد رو به دست آورده و وقتی بهش اجازه داده شده مستقیما با فایل‌های .xlsx کار کنه، این امتیاز به ۴۵.۵۴ درصد افزایش پیدا کرده. عملکرد انسان در این بنچمارک ۷۱.۳۳ درصد گزارش شده.

در یک بنچمارک داخلی دیگه که توانایی مدل رو در انجام «وظایف مدلسازی تحلیلگران سرمایه‌گذاری بانکی» (investment banking analyst modeling tasks) سال اول تا سوم میسنجه – مثل ساختن یک مدل مالی سه صورتی برای یک شرکت Fortune 500 با فرمت‌بندی و استنادات مناسب، یا ساختن یک مدل خرید اهرمی (leveraged buyout) برای یک شرکت خصوصی – مدلی که ChatGPT agent رو قدرت میبخشه، به طور قابل توجهی از تحقیق عمیق و o3 بهتر عمل میکنه. هر وظیفه بر اساس صدها معیار مرتبط با صحت و استفاده از فرمول‌ها درجه‌بندی میشه.

همچنین ChatGPT agent در بنچمارک «براوزکامپ» (BrowseComp) که اوایل امسال منتشر شد و توانایی عامل‌های مرورگر رو در پیدا کردن اطلاعات سخت‌یاب در وب میسنجه، ارزیابی شده. این مدل با کسب امتیاز ۶۸.۹ درصد یک رکورد جدید SOTA ثبت کرده که ۱۷.۴ واحد درصد بالاتر از تحقیق عمیق هست.

در نهایت، در بنچمارک «وب‌آرنا» (WebArena) که برای ارزیابی عملکرد عامل‌های مرورگر وب در تکمیل وظایف واقعی وب طراحی شده، این مدل نسبت به CUA مجهز به o3 (مدلی که اپراتور رو قدرت میبخشید) بهبود پیدا کرده.

نحوه استفاده از قابلیت جدید

شما میتونید قابلیت‌های عامل‌گونه جدید چت جی پی تی رو مستقیما از طریق منوی کشویی ابزارها در قسمت نوشتن پیام با انتخاب «حالت عامل» (agent mode) در هر مکالمه‌ای فعال کنید. یا به سادگی میتونید دستور «/agent» رو تایپ کنید تا به این حالت دسترسی پیدا کنید. فقط کافیه وظیفه مورد نظرتون رو توصیف کنید – چه تحقیق عمیق باشه، چه ساختن یک اسلایدشو یا ثبت هزینه‌ها. وقتی که در حال انجام وظیفه شماست، یک روایت روی صفحه به شما نشون میده که چت جی پی تی دقیقا در حال انجام چه کاری هست. شما میتونید هر زمان که لازم بود کارش رو قطع کنید و کنترل مرورگر رو به دست بگیرید تا مطمئن بشید که وظایف با اهداف شما همسو باقی میمونن.

ChatGPT agent میتونه به اتصال‌دهنده‌های شما دسترسی داشته باشه و این بهش اجازه میده تا با جریان‌های کاری شما یکپارچه بشه و به اطلاعات مرتبط و قابل اجرا دسترسی پیدا کنه. پس از احراز هویت، این اتصال‌دهنده‌ها به چت جی پی تی اجازه میدن تا اطلاعات رو ببینه و کارهایی مثل خلاصه‌ کردن ایمیل‌های دریافتی روز یا پیدا کردن زمان‌های خالی شما برای یک جلسه رو انجام بده. با این حال، برای انجام دادن کار در این سایت‌ها، هنوز هم از شما خواسته میشه که با در دست گرفتن کنترل مرورگر، وارد حساب کاربری خودتون بشید. علاوه بر این، شما میتونید کارهای تکمیل شده رو طوری برنامه‌ریزی کنید که به صورت خودکار تکرار بشن، مثلا هر دوشنبه صبح یک گزارش هفتگی از معیارها تولید کنه.

قابلیت‌های جدید، ریسک‌های جدید

این عرضه، اولین باری هست که کاربران میتونن از چت جی پی تی بخوان که در وب کارهایی رو انجام بده. این موضوع ریسک‌های جدیدی رو به وجود میاره، به خصوص به این دلیل که ChatGPT agent میتونه مستقیما با داده‌های شما کار کنه، چه اطلاعاتی که از طریق اتصال‌دهنده‌ها به دست میاد و چه وبسایت‌هایی که شما از طریق حالت در دست گرفتن کنترل (takeover mode) وارد اونها شدید. کنترل‌های قوی که در نسخه پیش‌نمایش تحقیقاتی اپراتور وجود داشت، تقویت شدن و محافظت‌های بیشتری برای چالش‌هایی مثل مدیریت اطلاعات حساس در وب زنده، دسترسی گسترده‌تر کاربران و دسترسی (محدود) ترمینال به شبکه اضافه شده. با اینکه این اقدامات کاهشی به طور قابل توجهی ریسک رو کم میکنن، اما ابزارهای گسترش یافته و دسترسی وسیع‌تر کاربران در ChatGPT agent به این معنی هست که پروفایل ریسک کلی اون بالاتر هست.

یک تاکید ویژه روی محافظت از ChatGPT agent در برابر «دستکاری خصمانه از طریق تزریق پرامپت» (adversarial manipulation through prompt injection) قرار داده شده. این یک ریسک کلی برای سیستم‌های عامل‌گونه هست و به همین دلیل، اقدامات کاهشی گسترده‌تری برای اون آماده شده. تزریق پرامپت، تلاش‌هایی از طرف اشخاص ثالث برای دستکاری رفتار عامل از طریق دستورالعمل‌های مخربی هست که ChatGPT agent ممکنه در حین انجام یک کار در وب با اونها مواجه بشه. برای مثال، یک پرامپت مخرب که در یک صفحه وب پنهان شده، مثلا در عناصر نامرئی یا متادیتا، میتونه عامل رو فریب بده تا کارهای ناخواسته‌ای انجام بده، مثل به اشتراک گذاشتن داده‌های خصوصی از یک اتصال‌دهنده با مهاجم یا انجام یک اقدام مضر در سایتی که کاربر به اون وارد شده. از اونجایی که ChatGPT agent میتونه اقدامات مستقیم انجام بده، حملات موفقیت‌آمیز میتونن تاثیر بیشتری داشته باشن و ریسک‌های بالاتری ایجاد کنن.

برای مقابله با این موضوع، این عامل برای شناسایی و مقاومت در برابر تزریق پرامپت آموزش دیده و تست شده. علاوه بر این، از نظارت برای شناسایی و پاسخ سریع به حملات تزریق پرامپت استفاده میشه. الزام به تایید صریح کاربر قبل از اقدامات مهم، ریسک آسیب ناشی از این حملات رو بیشتر کاهش میده و کاربران میتونن در صورت نیاز با در دست گرفتن کنترل یا متوقف کردن کار، در وظایف مداخله کنن. کاربران باید هنگام تصمیم‌گیری در مورد اینکه چه اطلاعاتی رو در اختیار عامل قرار بدن، این بده‌بستان‌ها رو در نظر بگیرن و اقداماتی رو برای به حداقل رسوندن قرار گرفتن در معرض این ریسک‌ها انجام بدن، مثل غیرفعال کردن اتصال‌دهنده‌ها وقتی که برای یک کار به اونها نیازی نیست.

همچنین اقداماتی برای مقابله با «اشتباهات مدل» (model mistakes) پیاده‌سازی شده، به خصوص از اونجایی که مدل حالا میتونه کارهایی رو انجام بده که بر دنیای واقعی تاثیر میذارن:

تایید صریح کاربر: چت جی پی تی آموزش دیده که قبل از انجام کارهایی با پیامدهای دنیای واقعی، مثل انجام یک خرید، به صراحت از شما اجازه بگیره.
نظارت فعال («حالت تماشا» یا Watch Mode): برخی وظایف حیاتی، مثل ارسال ایمیل، نیاز به نظارت فعال شما دارن. همچنین وقتی کاربر به دسته‌بندی خاصی از صفحات وب، مثل سایت‌های مالی، میره، باید در همون تبی که ChatGPT Agent در حال کار هست باقی بمونه وگرنه ابزار کارش رو متوقف میکنه.
کاهش ریسک فعال: چت جی پی تی آموزش دیده که به طور فعال از انجام کارهای پرریسک مثل انتقال بانکی خودداری کنه. گفته شده که تراکنش‌های مالی «فعلا» محدود شدن.

در نهایت، کنترل‌های اضافی برای «محدود کردن داده‌هایی» که مدل به اونها دسترسی داره، معرفی شده:

کنترل‌های حریم خصوصی: با یک کلیک در تنظیمات چت جی پی تی، میتونید تمام داده‌های مرور رو حذف کنید و فورا از تمام جلسات فعال وبسایت خارج بشید. در غیر این صورت، کوکی‌ها بر اساس سیاست‌های کوکی هر وبسایت بازدید شده باقی میمونن که میتونه بازدیدهای مکرر از سایت‌ها رو کارآمدتر کنه.
حالت امن در دست گرفتن مرورگر: وقتی شما با استفاده از مرورگر چت جی پی تی با وب تعامل میکنید (حالت takeover)، ورودی‌های شما خصوصی باقی میمونن. چت جی پی تی هیچ داده‌ای که شما در طول این جلسات وارد میکنید، مثل رمزهای عبور، رو جمع‌آوری یا ذخیره نمیکنه، چون مدل به اونها نیازی نداره و امن‌تره که هرگز اونها رو نبینه.

یک نکته‌ی جالب دیگر که در مورد ایمنی این محصول مطرح شده، غیرفعال کردن قابلیت «حافظه» (memory feature) چت جی پی تی برای این عامل هست. در بخش‌های دیگر چت جی پی تی، این قابلیت به چت‌بات اجازه میده تا به اطلاعات چت‌های قبلی کاربر ارجاع بده. اما گفته شده که افراد سودجو میتونن از این قابلیت در ChatGPT agent برای استخراج داده‌های حساس از طریق حملات تزریق پرامپت استفاده کنن. به همین دلیل این قابلیت فعلا غیرفعال شده، هرچند ممکنه در آینده اضافه کردن مجدد اون بررسی بشه.

قوی‌ترین مجموعه ایمنی تا به امروز برای ریسک بیولوژیکی

با توجه به افزایش قابلیت‌های مدل، تصمیم گرفته شده که ChatGPT agent تحت «**چارچوب آمادگی» (Preparedness Framework) شرکت، در حوزه قابلیت‌های بیولوژیکی و شیمیایی به عنوان «**قابلیت بالا» (High Capability) در نظر گرفته بشه و محافظت‌های مرتبط با اون فعال بشه. اگرچه شواهد قطعی مبنی بر اینکه این مدل بتونه به طور معناداری به یک فرد تازه‌کار برای ایجاد آسیب بیولوژیکی شدید کمک کنه – که آستانه تعریف شده برای قابلیت بالا هست – وجود نداره، اما رویکرد احتیاطی در پیش گرفته شده و محافظت‌های لازم از همین حالا پیاده‌سازی شده. در نتیجه، این مدل جامع‌ترین مجموعه ایمنی شرکت تا به امروز رو برای حوزه بیولوژی داره که شامل مدل‌سازی جامع تهدید، آموزش برای رد درخواست‌های با کاربرد دوگانه، طبقه‌بندهای همیشه فعال و ناظران استدلال و خطوط اجرایی واضح برای برخورد با تخلفات هست.

علاوه بر این، یک سیستم نظارتی در لحظه برای این عامل وجود داره. یک طبقه‌بند (classifier) روی هر درخواستی که به ChatGPT agent داده میشه اجرا میشه تا مشخص کنه آیا درخواست مربوط به حوزه بیولوژی هست یا نه. اگر اینطور باشه، پاسخ ChatGPT agent از طریق یک ناظر دوم بررسی میشه تا مشخص بشه آیا محتوا میتونه برای ایجاد یک تهدید بیولوژیکی استفاده بشه یا نه. همچنین، شرکت OpenAI با مقایسه این اقدام با حرکت مشابه شرکت انتروپیک (Anthropic) برای مدل کلاد (Claude) خودش به اسم اوپس ۴ (Opus 4) در ماه می، نشون میده که این یک رویکرد مسئولانه در صنعت هست.

علاوه بر کارهایی که برای ایمن‌سازی ChatGPT agent انجام شده، این شرکت میدونه که ایمنی بیولوژیکی لایه‌لایه وقتی بهترین عملکرد رو داره که محافظت‌ها فراتر از یک آزمایشگاه باشن. به همین دلیل، در سراسر اکوسیستم برای تقویت دفاع همکاری میشه. از روز اول با متخصصان امنیت زیستی خارجی، موسسات ایمنی و محققان دانشگاهی برای شکل دادن به مدل تهدید، ارزیابی‌ها و سیاست‌ها همکاری شده. بازبین‌های آموزش دیده در حوزه بیولوژی، داده‌های ارزیابی رو تایید کردن و تیم‌های قرمز متخصص در این حوزه، محافظت‌ها رو در سناریوهای واقع‌گرایانه تحت فشار قرار دادن. اوایل ماه جولای ۲۰۲۵، یک کارگاه دفاع بیولوژیکی (Biodefense) با حضور متخصصانی از دولت، دانشگاه‌ها، آزمایشگاه‌های ملی و سازمان‌های غیردولتی برگزار شد تا همکاری‌ها تسریع بشه و تحقیقات دفاع بیولوژیکی با قدرت هوش مصنوعی پیشرفت کنه. این همکاری‌های جهانی برای جلوتر بودن از ریسک‌های نوظهور ادامه خواهد داشت. همچنین یک «**برنامه جایزه در ازای کشف باگ» (bug bounty program) راه‌اندازی شده تا ریسک‌های دنیای واقعی پیدا و برطرف بشن.

در دسترس بودن

ChatGPT agent از روز هفدهم جولای ۲۰۲۵ برای کاربران پلن‌های پرو، پلاس و تیم شروع به عرضه کرده. کاربران پرو تا پایان همون روز بهش دسترسی پیدا کردن، در حالی که کاربران پلاس و تیم طی چند روز بعد بهش دسترسی میکنن. کاربران پلن‌های اینترپرایز (Enterprise) و اجوکیشن (Education) هم در هفته‌های آینده بهش دسترسی خواهند داشت. هنوز تاریخی برای عرضه در منطقه اقتصادی اروپا و سوئیس اعلام نشده.

کاربران پرو ماهانه ۴۰۰ پیام برای استفاده از این قابلیت دارن، در حالی که سایر کاربران پولی ماهانه ۴۰ پیام دریافت میکنن. البته امکان استفاده بیشتر از طریق گزینه‌های اعتباری انعطاف‌پذیر وجود داره.

سایت پیش‌نمایش تحقیقاتی اپراتور برای چند هفته دیگه فعال باقی میمونه و بعد از اون غیرفعال میشه. تحقیق عمیق حالا بخشی از قابلیت‌های ChatGPT agent هست. اگر شما ویژگی اصلی تحقیق عمیق رو ترجیح میدید – که ممکنه اجرای اون بیشتر طول بکشه اما به طور پیش‌فرض پاسخ‌های دقیق‌تر و عمیق‌تری ارائه میده – هنوز هم میتونید با انتخاب «تحقیق عمیق» از منوی کشویی در قسمت نوشتن پیام بهش دسترسی داشته باشید.

محدودیت‌ها و نگاه به آینده

ChatGPT agent هنوز در مراحل اولیه خودش قرار داره. با اینکه میتونه طیف وسیعی از کارهای پیچیده رو انجام بده، اما هنوز هم ممکنه اشتباه کنه. در یک دمو که به رسانه‌ها نشون داده شد، مشخص بود که این ابزار میتونه کمی کند باشه. وقتی در مورد تاخیر (latency) از تیم سازنده سوال شد، یاش کومار گفت که تیمشون بیشتر روی «بهینه‌سازی برای کارهای سخت» متمرکز هست و قرار نیست کاربران بشینن و کار کردن ChatGPT agent رو تماشا کنن. ایزا فولفورد اضافه کرد: «حتی اگه ۱۵ دقیقه یا نیم ساعت طول بکشه، در مقایسه با زمانی که خودتون برای انجام اون کار نیاز دارید، باز هم یک افزایش سرعت بزرگ محسوب میشه». اون گفت که این از اون کارهاست که میتونید در پس‌زمینه شروعش کنید و بعدا بهش سر بزنید.

با اینکه پتانسیل قابل توجهی در توانایی این عامل برای تولید اسلایدشو دیده میشه، اما این قابلیت در حال حاضر در مرحله بتا قرار داره. در حال حاضر، خروجی‌ها گاهی اوقات در فرمت‌بندی و پرداخت نهایی، ابتدایی به نظر میرسن، به خصوص وقتی که از یک سند موجود شروع به کار نمیکنه. تمرکز اولیه مدل روی تولید محصولاتی بوده که اطلاعات رو در یک جریان و فرمت مناسب برای ارائه‌ها سازماندهی میکنن، با عناصری مثل متن، نمودار، تصویر و اشکال که به صورت بومی و به راحتی پس از خروجی گرفتن قابل ویرایش هستن. در واقع بهینه‌سازی برای ساختار و انعطاف‌پذیری انجام شده. در حال حاضر، گاهی اوقات مغایرت‌هایی بین اسلایدها در نمایشگر و فایل پاورپوینت خروجی گرفته شده وجود داره که تیم در حال کار برای کاهش اونهاست. علاوه بر این، در حالی که در حال حاضر میتونید یک صفحه گسترده موجود رو برای ویرایش یا استفاده به عنوان الگو توسط چت جی پی تی آپلود کنید، این قابلیت هنوز برای اسلایدشوها در دسترس نیست. تیم سازنده در حال آموزش نسخه بعدی برای ساخت اسلایدشو هست تا خروجی‌های پرداخت‌شده‌تر و پیچیده‌تری با قابلیت‌های گسترده‌تر و فرمت‌بندی بهتر تولید کنه.

به طور کلی، انتظار میره که با گذشت زمان، بهبودهای مستمری در کارایی، عمق و تطبیق‌پذیری ChatGPT agent ایجاد بشه، از جمله تعاملات روان‌تر، همزمان با اینکه میزان نظارت مورد نیاز از طرف کاربر تنظیم میشه تا مفیدتر بشه و در عین حال استفاده از اون ایمن باشه.

صنعت و چشم‌انداز

عرضه ChatGPT agent بخشی از یک روند بزرگتر در صنعت هوش مصنوعی هست، جایی که شرکت‌های بزرگ و کوچیک به دنبال ساختن عامل‌های هوش مصنوعی هستن که توجه مصرف‌کنندگان رو جلب کنن و در حالت ایده‌آل به یک عادت تبدیل بشن. مفهوم عامل‌های هوش مصنوعی سال‌هاست که در این صنعت یک موضوع داغ و پر سر و صدا بوده. ایده‌آلی که توسعه‌دهندگان به دنبال اون هستن، چیزی شبیه به **J.A.R.V.I.S.** در فیلم مرد آهنی هست؛ ابزاری که میتونه وظایف شغلی خاصی رو انجام بده، تقویم افراد رو برای پیدا کردن بهترین زمان برای برنامه‌ریزی یک رویداد بررسی کنه، بر اساس ترجیحات یک دوست براش هدیه بخره و کارهای دیگه. اما در حال حاضر، این عامل‌ها تا حدودی به کمک در کدنویسی و گردآوری گزارش‌های تحقیقاتی محدود هستن.

اصطلاح «عامل هوش مصنوعی» در سال ۲۰۲۳ بین سرمایه‌گذاران و مدیران فناوری رایج‌تر شد و به سرعت رشد کرد، به خصوص بعد از اینکه شرکت فین‌تک کلارنا (Klarna) در فوریه ۲۰۲۴ اعلام کرد که عامل هوش مصنوعی خودش فقط در یک ماه فعالیت، دو سوم چت‌های خدمات مشتریانش رو مدیریت کرده – که معادل کار ۷۰۰ کارمند انسانی تمام‌وقت هست. از اون به بعد، مدیران در شرکت‌هایی مثل آمازون، متا، گوگل و غیره شروع به صحبت در مورد اهدافشون برای ساخت عامل‌های هوش مصنوعی در گزارش‌های مالیشون کردن. از اون زمان، شرکت‌های هوش مصنوعی به صورت استراتژیک برای رسیدن به این اهداف در حال استخدام هستن. برای مثال، گوگل هفته گذشته مدیرعامل, هم‌بنیان‌گذار و برخی از اعضای تیم تحقیق و توسعه شرکت Windsurf رو استخدام کرد تا به پیشبرد پروژه‌های هوش مصنوعی عامل‌گونه خودش کمک کنه.

معرفی ChatGPT Agent توسط OpenAI به دنبال عرضه اپراتور در ماه ژانویه صورت میگیره که به عنوان «عاملی که میتونه برای انجام کارها به وب بره» معرفی شد، چون برای کار با دکمه‌ها، فیلدهای متنی و سایر عناصر اینترنت آموزش دیده بود. همچنین شرکت‌های دیگه هم ابزارهای مشابهی رو عرضه کردن. در ماه اکتبر گذشته، انتروپیک، استارتاپ هوش مصنوعی تحت حمایت آمازون و سازنده کلاد، ابزار مشابهی به اسم «**استفاده از کامپیوتر» (Computer Use) رو منتشر کرد که میتونست مثل یک انسان از کامپیوتر برای انجام کارها استفاده کنه. چندین شرکت هوش مصنوعی، از جمله OpenAI، گوگل و پرپلکسیتی (Perplexity) هم ابزاری رو ارائه میدن که هر سه به اون اسم تحقیق عمیق رو دادن و نشون‌دهنده یک عامل هوش مصنوعی هست که میتونه تحلیل‌ها و گزارش‌های تحقیقاتی بزرگی در مورد هر چیزی که کاربر بخواد بنویسه. با این حال، کارشناسان معتقدند که نسخه‌های اولیه این عامل‌های هوش مصنوعی با کارهای پیچیده مشکل داشتن و به عنوان محصول، کمتر از چشم‌انداز نهایی که مدیران فناوری در مورد عامل‌های هوش مصنوعی ترسیم میکنن، جذاب به نظر میرسن. با این حال، OpenAI میگه که ChatGPT agent بسیار توانمندتر از محصولات قبلیش هست و میتونه به وعده‌هایی که در مورد عامل‌های هوش مصنوعی داده شده، عمل کنه. اینکه این ابزار در دنیای واقعی چقدر توانمند هست، باید منتظر موند و دید.

منابع