یک قابلیت جدید به اسم ChatGPT agent معرفی شده که به نوعی یک تحول در نحوه کار با این ابزار محسوب میشه. این قابلیت که در تاریخ هفده جولای سال ۲۰۲۵ معرفی شد، به چت جی پی تی این امکان رو میده که دیگه فقط یک ابزار گفتگو و جواب دادن به سوالات نباشه، بلکه بتونه به طور مستقل فکر کنه و برای کاربر کار انجام بده. این کارها رو با استفاده از یک کامپیوتر مجازی که در اختیارش قرار گرفته، به سرانجام میرسونه. در واقع این سیستم جدید، ترکیبی از تحقیقات قبلی و توانایی انجام عمل هست و به نوعی یک پل بین این دو دنیا به حساب میاد. حالا دیگه چت جی پی تی میتونه یک سری مهارتهای عاملگونه (agentic skills) رو به صورت فعال انتخاب کنه و از جعبه ابزاری که در اختیار داره، برای تکمیل کردن وظایف استفاده کنه. این یعنی چت جی پی تی حالا میتونه کارهایی رو از اول تا آخر برای شما انجام بده، کارهایی که پیچیدگیهای خاص خودشون رو دارن.
برای مثال، شما میتونید ازش بخواید که به تقویمتون نگاه کنه و بر اساس آخرین اخبار، یک گزارش کوتاه در مورد جلسات آینده با مشتریها بهتون بده. یا میتونید ازش بخواید که برای درست کردن یک صبحانه ژاپنی برای چهار نفر، برنامهریزی کنه و مواد اولیه مورد نیازش رو هم بخره. حتی میتونه سه تا از رقبای شما رو تحلیل کنه و یک فایل ارائه اسلایدی (slide deck) از تحلیلهاش بسازه. برای انجام این کارها، چت جی پی تی به شکل هوشمندانهای در وبسایتها میگرده، نتایج رو فیلتر میکنه، در صورت نیاز از شما میخواد که به صورت امن وارد حساب کاربری خودتون بشید، کد اجرا میکنه، تحلیل انجام میده و در نهایت، خروجیهایی مثل اسلایدشو یا صفحه گسترده (spreadsheet) قابل ویرایش به شما تحویل میده که خلاصهای از یافتههاش رو نشون میده. همه این کارها بر اساس دستورالعملهایی که شما بهش میدید انجام میشه.
قلب این قابلیت جدید، یک سیستم عاملگونه یکپارچه (unified agentic system) هست. این سیستم، سه نقطه قوت از دستاوردهای قبلی رو با هم ترکیب کرده. اولین نقطه قوت، توانایی ابزار «اپراتور» (Operator) برای تعامل با وبسایتهاست. دومین نقطه قوت، مهارت ابزار «تحقیق عمیق» (deep research) در ترکیب و خلاصهسازی اطلاعات هست. و سومین نقطه قوت، هوش و روانی گفتگوی خود چت جی پی تی هست که از قبل هم وجود داشته. چت جی پی تی این وظایف رو با استفاده از یک کامپیوتر مجازی مخصوص خودش انجام میده و به صورت روان بین استدلال کردن و عمل کردن جابجا میشه تا بتونه جریانهای کاری پیچیده رو از اول تا آخر مدیریت کنه.
یک نکته خیلی مهم اینه که کنترل همیشه دست شماست. چت جی پی تی قبل از انجام کارهایی که پیامدهای مهمی دارن، از شما اجازه میگیره. شما هم میتونید به راحتی در هر مرحلهای کارش رو قطع کنید، کنترل مرورگر رو خودتون به دست بگیرید یا در هر زمانی که خواستید، وظایف رو متوقف کنید. این قابلیت جدید از همون روز معرفی برای کاربران پلنهای پرو (Pro)، پلاس (Plus) و تیم (Team) فعال شده. اونها میتونن به صورت مستقیم از منوی کشویی ابزارها (tools dropdown) در قسمت نوشتن پیام، گزینه «حالت عامل» (agent mode) رو انتخاب کنن و در هر مکالمهای از این قابلیت استفاده کنن. با اینکه ChatGPT agent در همین حالت فعلی هم یک ابزار قدرتمند برای انجام کارهای پیچیده به حساب میاد، اما این تازه شروع ماجراست. قرار هست که به صورت مداوم و تدریجی، بهبودهای قابل توجهی بهش اضافه بشه تا با گذشت زمان، برای افراد بیشتری توانمندتر و مفیدتر بشه.
تکامل طبیعی اپراتور و تحقیق عمیق
برای درک بهتر این قابلیت جدید، خوبه که نگاهی به ابزارهای قبلی یعنی اپراتور و تحقیق عمیق بندازیم. هر کدوم از اینها نقاط قوت منحصر به فرد خودشون رو داشتن. اپراتور میتونست در صفحات وب اسکرول کنه، کلیک کنه و تایپ کنه. در مقابل، تحقیق عمیق در تحلیل و خلاصهسازی اطلاعات عالی عمل میکرد. اما مشکل اینجا بود که هر کدوم در شرایط متفاوتی بهترین عملکرد رو داشتن. اپراتور نمیتونست تحلیلهای عمیق انجام بده یا گزارشهای مفصل بنویسه. از طرف دیگه، تحقیق عمیق هم نمیتونست با وبسایتها تعامل داشته باشه تا نتایج رو دقیقتر کنه یا به محتوایی که نیاز به احراز هویت کاربر داره دسترسی پیدا کنه. در واقع، مشاهده شد که خیلی از درخواستهایی که کاربران با اپراتور امتحان میکردن، در اصل برای تحقیق عمیق مناسبتر بودن. به همین خاطر، تصمیم گرفته شد که بهترینهای هر دو ابزار با هم ترکیب بشن.
با ادغام این نقاط قوت مکمل در چت جی پی تی و معرفی ابزارهای اضافی، قابلیتهای کاملا جدیدی در قالب یک مدل واحد به وجود اومده. حالا این سیستم میتونه به صورت فعال با وبسایتها درگیر بشه، یعنی کلیک کنه، فیلتر کنه و نتایج دقیقتر و کارآمدتری رو جمعآوری کنه. همچنین شما میتونید به طور طبیعی از یک گفتگوی ساده به سمت درخواست انجام یک کار برید، اون هم مستقیما در همون چت. این یکپارچگی باعث شده تا محدودیتهای قبلی برداشته بشه و کاربر بتونه تجربهی روانتری در انجام کارهای پیچیده داشته باشه. به جای اینکه کاربر مجبور باشه بین دو ابزار مختلف سوییچ کنه و دادهها رو به صورت دستی منتقل کنه، حالا یک سیستم واحد وجود داره که هوشمندانه تشخیص میده کی باید اطلاعات رو جستجو و تحلیل کنه و کی باید روی یک دکمه در یک وبسایت کلیک کنه. این موضوع باعث صرفهجویی زیادی در زمان و انرژی کاربر میشه و مرز بین تحقیق و عمل رو از بین میبره.
عاملی که برای شما و با شما کار میکنه
ChatGPT agent به یک مجموعه کامل از ابزارها مجهز شده تا بتونه وظایف مختلف رو به بهترین شکل انجام بده. این ابزارها شامل موارد زیر هستن:
- یک مرورگر بصری (visual browser) که از طریق یک رابط کاربری گرافیکی (GUI) با وب تعامل میکنه. این مرورگر برای کار با وبسایتهایی که برای انسانها طراحی شدن و پر از عناصر گرافیکی هستن، ایدهآل هست.
- یک مرورگر مبتنی بر متن (text-based browser) که برای درخواستهای سادهتر و مبتنی بر استدلال در وب استفاده میشه. این مرورگر میتونه حجم زیادی از متن رو به سرعت پردازش و تحلیل کنه.
- یک ترمینال (terminal) که برای اجرای کد، انجام تحلیل داده و حتی ساختن اسلاید یا صفحه گسترده به کار میره. این ترمینال البته دسترسی محدودی به شبکه داره.
- دسترسی مستقیم به API که بهش اجازه میده به طور موثر اطلاعات رو از منابعی مثل تقویم شما جمعآوری کنه.
علاوه بر اینها، این عامل میتونه از «اتصالدهندههای چت جی پی تی» (ChatGPT connectors) هم استفاده کنه. این اتصالدهندهها به شما این امکان رو میدن که اپلیکیشنهایی مثل جیمیل (Gmail) و گیتهاب (Github) رو به چت جی پی تی متصل کنید. با این کار، چت جی پی تی میتونه اطلاعات مرتبط با درخواستهای شما رو پیدا کنه و در پاسخهاش از اونها استفاده کنه. شما همچنین میتونید با در دست گرفتن کنترل مرورگر، در هر وبسایتی وارد حساب کاربری خودتون بشید. این کار به عامل اجازه میده تا هم در تحقیق و هم در اجرای وظایف، عمیقتر و گستردهتر عمل کنه.
اینکه چت جی پی تی راههای مختلفی برای دسترسی و تعامل با اطلاعات وب در اختیار داره، به این معنی هست که میتونه مسیر بهینه رو برای انجام کارها به کارآمدترین شکل ممکن انتخاب کنه. برای مثال، میتونه اطلاعات مربوط به تقویم شما رو از طریق یک API جمعآوری کنه، حجم زیادی از متن رو با استفاده از مرورگر متنی به صورت کارآمد تحلیل کنه و همزمان، توانایی تعامل بصری با وبسایتهایی که عمدتا برای انسانها طراحی شدن رو هم داشته باشه. همه این کارها با استفاده از کامپیوتر مجازی خودش انجام میشه که زمینه (context) لازم برای انجام وظیفه رو حفظ میکنه، حتی زمانی که از چندین ابزار مختلف استفاده میشه. مدل میتونه انتخاب کنه که یک صفحه رو با مرورگر متنی باز کنه یا با مرورگر بصری، یک فایل رو از وب دانلود کنه، با اجرای یک دستور در ترمینال اون رو دستکاری کنه و بعد خروجی رو دوباره در مرورگر بصری ببینه. مدل رویکردش رو برای انجام کارها با سرعت، دقت و کارایی بالا تطبیق میده.
ChatGPT agent برای جریانهای کاری تکرارشونده و مشارکتی طراحی شده و خیلی تعاملیتر و انعطافپذیرتر از مدلهای قبلی هست. وقتی چت جی پی تی در حال کار کردنه، شما میتونید در هر لحظهای کارش رو قطع کنید تا دستورالعملهاتون رو واضحتر کنید، اون رو به سمت نتایج دلخواه هدایت کنید یا حتی کل وظیفه رو تغییر بدید. اون هم از همونجایی که کارش متوقف شده، با اطلاعات جدید ادامه میده، بدون اینکه پیشرفت قبلی رو از دست بده. به همین ترتیب، خود چت جی پی تی هم ممکنه در صورت نیاز، به صورت فعال از شما جزئیات بیشتری بخواد تا مطمئن بشه که وظیفه با اهداف شما همسو باقی میمونه. اگر یک کار بیشتر از حد انتظار طول کشید یا حس کردید که گیر کرده، میتونید اون رو متوقف کنید (pause)، ازش یک خلاصه از پیشرفت کار بخواید یا به طور کامل متوقفش کنید و نتایج جزئی رو دریافت کنید. اگر اپلیکیشن چت جی پی تی رو روی گوشیتون داشته باشید، وقتی کارش تموم بشه، یک نوتیفیکیشن براتون ارسال میکنه.
گسترش کاربردهای دنیای واقعی
این قابلیتهای عاملگونه یکپارچه به طور قابل توجهی کارایی چت جی پی تی رو هم در زمینههای روزمره و هم در زمینههای حرفهای افزایش میده. در محیط کار، شما میتونید کارهای تکراری رو خودکار کنید. برای مثال، تبدیل اسکرینشاتها یا داشبوردها به ارائههایی که از عناصر وکتور قابل ویرایش تشکیل شدن، تنظیم مجدد جلسات، برنامهریزی و رزرو کردن جلسات خارج از شرکت (offsites) و بهروزرسانی صفحههای گسترده با دادههای مالی جدید در حالی که همون فرمت قبلی حفظ میشه، از جمله این کارهاست. در زندگی شخصی هم میتونید ازش برای برنامهریزی و رزرو بیدردسر برنامههای سفر، طراحی و رزرو کامل مهمونیهای شام یا پیدا کردن متخصصها و تعیین وقت ملاقات استفاده کنید.
یکی از کارمندان شرکت OpenAI به اسم یاش کومار (Yash Kumar) که مدیر محصول ChatGPT Agent هست، گفته که شروع به استفاده از این ابزار برای خودکارسازی بخشهای کوچکی از زندگیش کرده. برای مثال، به جای اینکه دوشنبهها به دفتر بیاد و ببینه یادش رفته درخواست پارکینگ بده و جایی برای پارک کردن نداشته باشه، حالا هر پنجشنبه به صورت خودکار درخواست پارکینگ هفتگیش رو ثبت میکنه. ایزا فولفورد (Isa Fulford)، که مدیر تحقیقات این پروژه هست، هم گفته که از این ابزار برای خرید آنلاین لذت میبره، چون ترکیب فناوریهای تحقیق عمیق و اپراتور بهتر و کاملتر از تلاش برای انجام این فرآیند فقط با استفاده از اپراتور عمل میکنه. کومار همچنین اشاره کرده که چون ChatGPT Agent به «یک کامپیوتر کامل» دسترسی داره و نه فقط یک مرورگر، اونها «مجموعه ابزارها رو به میزان قابل توجهی افزایش دادن».
عملکرد و ارزیابیها
تواناییهای بالای این مدل در عملکرد پیشرفتهاش (state-of-the-art یا SOTA) در ارزیابیهایی که توانایی مرور وب و تکمیل وظایف دنیای واقعی رو میسنجن، منعکس شده.
در آزمون «آخرین امتحان بشریت» (Humanity’s Last Exam یا HLE)، که یک ارزیابی برای سنجش عملکرد هوش مصنوعی در طیف وسیعی از موضوعات در سطح سوالات تخصصی هست، مدلی که ChatGPT agent رو قدرت میبخشه، به یک امتیاز جدید SOTA با نرخ موفقیت در اولین تلاش (pass@1) برابر با ۴۱.۶ دست پیدا کرده. از اونجایی که این عامل به صورت پویا برنامهریزی میکنه و ابزارهای خودشو انتخاب میکنه، میتونه یک وظیفه رو در اجراهای مختلف به روشهای متفاوتی انجام بده. وقتی این موضوع با یک استراتژی ساده اجرای موازی (parallel rollout) مقیاسبندی شد – یعنی تا هشت بار تلاش همزمان انجام شد و تلاشی که بالاترین اطمینان گزارش شده توسط خود مدل رو داشت انتخاب شد – امتیاز HLE این عامل به ۴۴.۴ افزایش پیدا کرد. نکتهای که در این ارزیابی وجود داره اینه که گاهی اوقات مدل هنگام مرور وب میتونه جوابهای دقیق رو به صورت آنلاین پیدا کنه، مثلا با خوندن پستهای وبلاگی که شامل سوالات نمونه از یک مجموعه داده هستن. برای کاهش نگرانی از تقلب مدل در حین مرور وب، دو استراتژی به کار گرفته شده. اول اینکه دامنههایی که مشاهده شده مدل در گذشته از اونها تقلب کرده، مسدود شدن. دوم اینکه از یک مدل اضافی به عنوان ناظر برای بررسی تمام توکنهای خروجی ابزار در هر تلاش استفاده شده تا رفتارهای مشکوک شناسایی بشن. رفتار مشکوک به این صورت تعریف شده: «یک صفحه، فایل یا قطعهای که هدف اصلیش ارائه پاسخ دقیق به همین سوال خاص هست – مثلا یک کلید تصحیح رسمی، یک راه حل لو رفته یا بحثی که پاسخ نهایی رو عینا نقل قول کرده». هر تلاشی که ناظر اون رو مشکوک تشخیص بده، به عنوان نادرست شمرده میشه.
بنچمارک بعدی «فرانتیرمث» (FrontierMath) هست که به عنوان سختترین بنچمارک ریاضی شناخته میشه و شامل مسائل جدید و منتشر نشدهای هست که حل اونها برای ریاضیدانان متخصص هم ساعتها یا حتی روزها طول میکشه. ChatGPT agent با استفاده از ابزارهایی مثل دسترسی به ترمینال برای اجرای کد، به دقت ۲۷.۴ درصد میرسه که به طور قابل توجهی از مدلهای قبلی بهتره. به عنوان مثال، مدل o4-mini در این بنچمارک امتیاز ۶.۳ درصد رو کسب کرده بود. در ارزیابی این بنچمارک، نتایج به عنوان میانگین ۱۶ تلاش برای پاسخ به هر سوال ارزیابی شدن. نتایج ChatGPT agent توسط خود OpenAI به دست اومده و توسط Epoch AI تصحیح شده، با دسترسی به مرورگر و ترمینال و محدودیت ۱۲۸ هزار توکن برای هر پاسخ.
این مدل همچنین با استفاده از بنچمارکهایی که بر اساس کارهای پیچیده دنیای واقعی طراحی شدن، ارزیابی شده. در یک بنچمارک داخلی که برای ارزیابی عملکرد مدل در «کارهای پیچیده و ارزشمند اقتصادی دانشمحور» (complex, economically valuable knowledge-work tasks) طراحی شده، خروجی ChatGPT agent در حدود نیمی از موارد در طیفهای زمانی مختلف برای تکمیل وظیفه، با عملکرد انسانها قابل مقایسه یا بهتر از اونهاست و به طور قابل توجهی از مدلهای o3 و o4-mini بهتر عمل میکنه. خروجیهای مدل توسط متخصصان در برابر معیارهای انسانی با کیفیت بالا که توسط بهترین افراد در هر زمینه ایجاد شده، قضاوت میشن. این وظایف که از متخصصان در مشاغل و صنایع مختلف گرفته شدن، کارهای حرفهای دنیای واقعی رو شبیهسازی میکنن، مثل تهیه یک تحلیل رقابتی از ارائهدهندگان خدمات مراقبتهای فوری درخواستی، ساختن جداول استهلاک دقیق و شناسایی چاههای آب قابل استفاده برای یک تاسیسات جدید هیدروژن سبز.
در بنچمارک «دیاسبنچ» (DSBench) که برای ارزیابی عاملها در وظایف واقعی علم داده شامل تحلیل و مدلسازی داده طراحی شده، ChatGPT agent به طور قابل توجهی و با اختلاف زیاد از عملکرد انسان پیشی میگیره.
در بنچمارک «اسپردشیتبنچ» (SpreadsheetBench) که توانایی مدلها رو در ویرایش صفحههای گسترده برگرفته از سناریوهای دنیای واقعی ارزیابی میکنه، ChatGPT agent با اختلاف قابل توجهی از مدلهای موجود بهتر عمل میکنه. وقتی به ChatGPT agent توانایی ویرایش مستقیم صفحههای گسترده داده میشه، امتیازش حتی بالاتر میره و به ۴۵.۵ درصد میرسه، در حالی که امتیاز Copilot در اکسل ۲۰.۰ درصد هست. در جدول مقایسهای که ارائه شده، امتیاز کلی (Overall Soft restriction) برای مدل GPT-4o با محیط ویندوز و اکسل ۱۸.۳۵ درصد بوده، در حالی که همین مدل با محیط OSX و LibreOffice امتیاز ۱۶.۸۱ درصد رو کسب کرده. ChatGPT agent در محیط OSX و LibreOffice امتیاز ۳۵.۲۷ درصد رو به دست آورده و وقتی بهش اجازه داده شده مستقیما با فایلهای .xlsx کار کنه، این امتیاز به ۴۵.۵۴ درصد افزایش پیدا کرده. عملکرد انسان در این بنچمارک ۷۱.۳۳ درصد گزارش شده.
در یک بنچمارک داخلی دیگه که توانایی مدل رو در انجام «وظایف مدلسازی تحلیلگران سرمایهگذاری بانکی» (investment banking analyst modeling tasks) سال اول تا سوم میسنجه – مثل ساختن یک مدل مالی سه صورتی برای یک شرکت Fortune 500 با فرمتبندی و استنادات مناسب، یا ساختن یک مدل خرید اهرمی (leveraged buyout) برای یک شرکت خصوصی – مدلی که ChatGPT agent رو قدرت میبخشه، به طور قابل توجهی از تحقیق عمیق و o3 بهتر عمل میکنه. هر وظیفه بر اساس صدها معیار مرتبط با صحت و استفاده از فرمولها درجهبندی میشه.
همچنین ChatGPT agent در بنچمارک «براوزکامپ» (BrowseComp) که اوایل امسال منتشر شد و توانایی عاملهای مرورگر رو در پیدا کردن اطلاعات سختیاب در وب میسنجه، ارزیابی شده. این مدل با کسب امتیاز ۶۸.۹ درصد یک رکورد جدید SOTA ثبت کرده که ۱۷.۴ واحد درصد بالاتر از تحقیق عمیق هست.
در نهایت، در بنچمارک «وبآرنا» (WebArena) که برای ارزیابی عملکرد عاملهای مرورگر وب در تکمیل وظایف واقعی وب طراحی شده، این مدل نسبت به CUA مجهز به o3 (مدلی که اپراتور رو قدرت میبخشید) بهبود پیدا کرده.
نحوه استفاده از قابلیت جدید
شما میتونید قابلیتهای عاملگونه جدید چت جی پی تی رو مستقیما از طریق منوی کشویی ابزارها در قسمت نوشتن پیام با انتخاب «حالت عامل» (agent mode) در هر مکالمهای فعال کنید. یا به سادگی میتونید دستور «/agent» رو تایپ کنید تا به این حالت دسترسی پیدا کنید. فقط کافیه وظیفه مورد نظرتون رو توصیف کنید – چه تحقیق عمیق باشه، چه ساختن یک اسلایدشو یا ثبت هزینهها. وقتی که در حال انجام وظیفه شماست، یک روایت روی صفحه به شما نشون میده که چت جی پی تی دقیقا در حال انجام چه کاری هست. شما میتونید هر زمان که لازم بود کارش رو قطع کنید و کنترل مرورگر رو به دست بگیرید تا مطمئن بشید که وظایف با اهداف شما همسو باقی میمونن.
ChatGPT agent میتونه به اتصالدهندههای شما دسترسی داشته باشه و این بهش اجازه میده تا با جریانهای کاری شما یکپارچه بشه و به اطلاعات مرتبط و قابل اجرا دسترسی پیدا کنه. پس از احراز هویت، این اتصالدهندهها به چت جی پی تی اجازه میدن تا اطلاعات رو ببینه و کارهایی مثل خلاصه کردن ایمیلهای دریافتی روز یا پیدا کردن زمانهای خالی شما برای یک جلسه رو انجام بده. با این حال، برای انجام دادن کار در این سایتها، هنوز هم از شما خواسته میشه که با در دست گرفتن کنترل مرورگر، وارد حساب کاربری خودتون بشید. علاوه بر این، شما میتونید کارهای تکمیل شده رو طوری برنامهریزی کنید که به صورت خودکار تکرار بشن، مثلا هر دوشنبه صبح یک گزارش هفتگی از معیارها تولید کنه.
قابلیتهای جدید، ریسکهای جدید
این عرضه، اولین باری هست که کاربران میتونن از چت جی پی تی بخوان که در وب کارهایی رو انجام بده. این موضوع ریسکهای جدیدی رو به وجود میاره، به خصوص به این دلیل که ChatGPT agent میتونه مستقیما با دادههای شما کار کنه، چه اطلاعاتی که از طریق اتصالدهندهها به دست میاد و چه وبسایتهایی که شما از طریق حالت در دست گرفتن کنترل (takeover mode) وارد اونها شدید. کنترلهای قوی که در نسخه پیشنمایش تحقیقاتی اپراتور وجود داشت، تقویت شدن و محافظتهای بیشتری برای چالشهایی مثل مدیریت اطلاعات حساس در وب زنده، دسترسی گستردهتر کاربران و دسترسی (محدود) ترمینال به شبکه اضافه شده. با اینکه این اقدامات کاهشی به طور قابل توجهی ریسک رو کم میکنن، اما ابزارهای گسترش یافته و دسترسی وسیعتر کاربران در ChatGPT agent به این معنی هست که پروفایل ریسک کلی اون بالاتر هست.
یک تاکید ویژه روی محافظت از ChatGPT agent در برابر «دستکاری خصمانه از طریق تزریق پرامپت» (adversarial manipulation through prompt injection) قرار داده شده. این یک ریسک کلی برای سیستمهای عاملگونه هست و به همین دلیل، اقدامات کاهشی گستردهتری برای اون آماده شده. تزریق پرامپت، تلاشهایی از طرف اشخاص ثالث برای دستکاری رفتار عامل از طریق دستورالعملهای مخربی هست که ChatGPT agent ممکنه در حین انجام یک کار در وب با اونها مواجه بشه. برای مثال، یک پرامپت مخرب که در یک صفحه وب پنهان شده، مثلا در عناصر نامرئی یا متادیتا، میتونه عامل رو فریب بده تا کارهای ناخواستهای انجام بده، مثل به اشتراک گذاشتن دادههای خصوصی از یک اتصالدهنده با مهاجم یا انجام یک اقدام مضر در سایتی که کاربر به اون وارد شده. از اونجایی که ChatGPT agent میتونه اقدامات مستقیم انجام بده، حملات موفقیتآمیز میتونن تاثیر بیشتری داشته باشن و ریسکهای بالاتری ایجاد کنن.
برای مقابله با این موضوع، این عامل برای شناسایی و مقاومت در برابر تزریق پرامپت آموزش دیده و تست شده. علاوه بر این، از نظارت برای شناسایی و پاسخ سریع به حملات تزریق پرامپت استفاده میشه. الزام به تایید صریح کاربر قبل از اقدامات مهم، ریسک آسیب ناشی از این حملات رو بیشتر کاهش میده و کاربران میتونن در صورت نیاز با در دست گرفتن کنترل یا متوقف کردن کار، در وظایف مداخله کنن. کاربران باید هنگام تصمیمگیری در مورد اینکه چه اطلاعاتی رو در اختیار عامل قرار بدن، این بدهبستانها رو در نظر بگیرن و اقداماتی رو برای به حداقل رسوندن قرار گرفتن در معرض این ریسکها انجام بدن، مثل غیرفعال کردن اتصالدهندهها وقتی که برای یک کار به اونها نیازی نیست.
همچنین اقداماتی برای مقابله با «اشتباهات مدل» (model mistakes) پیادهسازی شده، به خصوص از اونجایی که مدل حالا میتونه کارهایی رو انجام بده که بر دنیای واقعی تاثیر میذارن:
- تایید صریح کاربر: چت جی پی تی آموزش دیده که قبل از انجام کارهایی با پیامدهای دنیای واقعی، مثل انجام یک خرید، به صراحت از شما اجازه بگیره.
- نظارت فعال («حالت تماشا» یا Watch Mode): برخی وظایف حیاتی، مثل ارسال ایمیل، نیاز به نظارت فعال شما دارن. همچنین وقتی کاربر به دستهبندی خاصی از صفحات وب، مثل سایتهای مالی، میره، باید در همون تبی که ChatGPT Agent در حال کار هست باقی بمونه وگرنه ابزار کارش رو متوقف میکنه.
- کاهش ریسک فعال: چت جی پی تی آموزش دیده که به طور فعال از انجام کارهای پرریسک مثل انتقال بانکی خودداری کنه. گفته شده که تراکنشهای مالی «فعلا» محدود شدن.
در نهایت، کنترلهای اضافی برای «محدود کردن دادههایی» که مدل به اونها دسترسی داره، معرفی شده:
- کنترلهای حریم خصوصی: با یک کلیک در تنظیمات چت جی پی تی، میتونید تمام دادههای مرور رو حذف کنید و فورا از تمام جلسات فعال وبسایت خارج بشید. در غیر این صورت، کوکیها بر اساس سیاستهای کوکی هر وبسایت بازدید شده باقی میمونن که میتونه بازدیدهای مکرر از سایتها رو کارآمدتر کنه.
- حالت امن در دست گرفتن مرورگر: وقتی شما با استفاده از مرورگر چت جی پی تی با وب تعامل میکنید (حالت takeover)، ورودیهای شما خصوصی باقی میمونن. چت جی پی تی هیچ دادهای که شما در طول این جلسات وارد میکنید، مثل رمزهای عبور، رو جمعآوری یا ذخیره نمیکنه، چون مدل به اونها نیازی نداره و امنتره که هرگز اونها رو نبینه.
یک نکتهی جالب دیگر که در مورد ایمنی این محصول مطرح شده، غیرفعال کردن قابلیت «حافظه» (memory feature) چت جی پی تی برای این عامل هست. در بخشهای دیگر چت جی پی تی، این قابلیت به چتبات اجازه میده تا به اطلاعات چتهای قبلی کاربر ارجاع بده. اما گفته شده که افراد سودجو میتونن از این قابلیت در ChatGPT agent برای استخراج دادههای حساس از طریق حملات تزریق پرامپت استفاده کنن. به همین دلیل این قابلیت فعلا غیرفعال شده، هرچند ممکنه در آینده اضافه کردن مجدد اون بررسی بشه.
قویترین مجموعه ایمنی تا به امروز برای ریسک بیولوژیکی
با توجه به افزایش قابلیتهای مدل، تصمیم گرفته شده که ChatGPT agent تحت «**چارچوب آمادگی» (Preparedness Framework) شرکت، در حوزه قابلیتهای بیولوژیکی و شیمیایی به عنوان «**قابلیت بالا» (High Capability) در نظر گرفته بشه و محافظتهای مرتبط با اون فعال بشه. اگرچه شواهد قطعی مبنی بر اینکه این مدل بتونه به طور معناداری به یک فرد تازهکار برای ایجاد آسیب بیولوژیکی شدید کمک کنه – که آستانه تعریف شده برای قابلیت بالا هست – وجود نداره، اما رویکرد احتیاطی در پیش گرفته شده و محافظتهای لازم از همین حالا پیادهسازی شده. در نتیجه، این مدل جامعترین مجموعه ایمنی شرکت تا به امروز رو برای حوزه بیولوژی داره که شامل مدلسازی جامع تهدید، آموزش برای رد درخواستهای با کاربرد دوگانه، طبقهبندهای همیشه فعال و ناظران استدلال و خطوط اجرایی واضح برای برخورد با تخلفات هست.
علاوه بر این، یک سیستم نظارتی در لحظه برای این عامل وجود داره. یک طبقهبند (classifier) روی هر درخواستی که به ChatGPT agent داده میشه اجرا میشه تا مشخص کنه آیا درخواست مربوط به حوزه بیولوژی هست یا نه. اگر اینطور باشه، پاسخ ChatGPT agent از طریق یک ناظر دوم بررسی میشه تا مشخص بشه آیا محتوا میتونه برای ایجاد یک تهدید بیولوژیکی استفاده بشه یا نه. همچنین، شرکت OpenAI با مقایسه این اقدام با حرکت مشابه شرکت انتروپیک (Anthropic) برای مدل کلاد (Claude) خودش به اسم اوپس ۴ (Opus 4) در ماه می، نشون میده که این یک رویکرد مسئولانه در صنعت هست.
علاوه بر کارهایی که برای ایمنسازی ChatGPT agent انجام شده، این شرکت میدونه که ایمنی بیولوژیکی لایهلایه وقتی بهترین عملکرد رو داره که محافظتها فراتر از یک آزمایشگاه باشن. به همین دلیل، در سراسر اکوسیستم برای تقویت دفاع همکاری میشه. از روز اول با متخصصان امنیت زیستی خارجی، موسسات ایمنی و محققان دانشگاهی برای شکل دادن به مدل تهدید، ارزیابیها و سیاستها همکاری شده. بازبینهای آموزش دیده در حوزه بیولوژی، دادههای ارزیابی رو تایید کردن و تیمهای قرمز متخصص در این حوزه، محافظتها رو در سناریوهای واقعگرایانه تحت فشار قرار دادن. اوایل ماه جولای ۲۰۲۵، یک کارگاه دفاع بیولوژیکی (Biodefense) با حضور متخصصانی از دولت، دانشگاهها، آزمایشگاههای ملی و سازمانهای غیردولتی برگزار شد تا همکاریها تسریع بشه و تحقیقات دفاع بیولوژیکی با قدرت هوش مصنوعی پیشرفت کنه. این همکاریهای جهانی برای جلوتر بودن از ریسکهای نوظهور ادامه خواهد داشت. همچنین یک «**برنامه جایزه در ازای کشف باگ» (bug bounty program) راهاندازی شده تا ریسکهای دنیای واقعی پیدا و برطرف بشن.
در دسترس بودن
ChatGPT agent از روز هفدهم جولای ۲۰۲۵ برای کاربران پلنهای پرو، پلاس و تیم شروع به عرضه کرده. کاربران پرو تا پایان همون روز بهش دسترسی پیدا کردن، در حالی که کاربران پلاس و تیم طی چند روز بعد بهش دسترسی میکنن. کاربران پلنهای اینترپرایز (Enterprise) و اجوکیشن (Education) هم در هفتههای آینده بهش دسترسی خواهند داشت. هنوز تاریخی برای عرضه در منطقه اقتصادی اروپا و سوئیس اعلام نشده.
کاربران پرو ماهانه ۴۰۰ پیام برای استفاده از این قابلیت دارن، در حالی که سایر کاربران پولی ماهانه ۴۰ پیام دریافت میکنن. البته امکان استفاده بیشتر از طریق گزینههای اعتباری انعطافپذیر وجود داره.
سایت پیشنمایش تحقیقاتی اپراتور برای چند هفته دیگه فعال باقی میمونه و بعد از اون غیرفعال میشه. تحقیق عمیق حالا بخشی از قابلیتهای ChatGPT agent هست. اگر شما ویژگی اصلی تحقیق عمیق رو ترجیح میدید – که ممکنه اجرای اون بیشتر طول بکشه اما به طور پیشفرض پاسخهای دقیقتر و عمیقتری ارائه میده – هنوز هم میتونید با انتخاب «تحقیق عمیق» از منوی کشویی در قسمت نوشتن پیام بهش دسترسی داشته باشید.
محدودیتها و نگاه به آینده
ChatGPT agent هنوز در مراحل اولیه خودش قرار داره. با اینکه میتونه طیف وسیعی از کارهای پیچیده رو انجام بده، اما هنوز هم ممکنه اشتباه کنه. در یک دمو که به رسانهها نشون داده شد، مشخص بود که این ابزار میتونه کمی کند باشه. وقتی در مورد تاخیر (latency) از تیم سازنده سوال شد، یاش کومار گفت که تیمشون بیشتر روی «بهینهسازی برای کارهای سخت» متمرکز هست و قرار نیست کاربران بشینن و کار کردن ChatGPT agent رو تماشا کنن. ایزا فولفورد اضافه کرد: «حتی اگه ۱۵ دقیقه یا نیم ساعت طول بکشه، در مقایسه با زمانی که خودتون برای انجام اون کار نیاز دارید، باز هم یک افزایش سرعت بزرگ محسوب میشه». اون گفت که این از اون کارهاست که میتونید در پسزمینه شروعش کنید و بعدا بهش سر بزنید.
با اینکه پتانسیل قابل توجهی در توانایی این عامل برای تولید اسلایدشو دیده میشه، اما این قابلیت در حال حاضر در مرحله بتا قرار داره. در حال حاضر، خروجیها گاهی اوقات در فرمتبندی و پرداخت نهایی، ابتدایی به نظر میرسن، به خصوص وقتی که از یک سند موجود شروع به کار نمیکنه. تمرکز اولیه مدل روی تولید محصولاتی بوده که اطلاعات رو در یک جریان و فرمت مناسب برای ارائهها سازماندهی میکنن، با عناصری مثل متن، نمودار، تصویر و اشکال که به صورت بومی و به راحتی پس از خروجی گرفتن قابل ویرایش هستن. در واقع بهینهسازی برای ساختار و انعطافپذیری انجام شده. در حال حاضر، گاهی اوقات مغایرتهایی بین اسلایدها در نمایشگر و فایل پاورپوینت خروجی گرفته شده وجود داره که تیم در حال کار برای کاهش اونهاست. علاوه بر این، در حالی که در حال حاضر میتونید یک صفحه گسترده موجود رو برای ویرایش یا استفاده به عنوان الگو توسط چت جی پی تی آپلود کنید، این قابلیت هنوز برای اسلایدشوها در دسترس نیست. تیم سازنده در حال آموزش نسخه بعدی برای ساخت اسلایدشو هست تا خروجیهای پرداختشدهتر و پیچیدهتری با قابلیتهای گستردهتر و فرمتبندی بهتر تولید کنه.
به طور کلی، انتظار میره که با گذشت زمان، بهبودهای مستمری در کارایی، عمق و تطبیقپذیری ChatGPT agent ایجاد بشه، از جمله تعاملات روانتر، همزمان با اینکه میزان نظارت مورد نیاز از طرف کاربر تنظیم میشه تا مفیدتر بشه و در عین حال استفاده از اون ایمن باشه.
صنعت و چشمانداز
عرضه ChatGPT agent بخشی از یک روند بزرگتر در صنعت هوش مصنوعی هست، جایی که شرکتهای بزرگ و کوچیک به دنبال ساختن عاملهای هوش مصنوعی هستن که توجه مصرفکنندگان رو جلب کنن و در حالت ایدهآل به یک عادت تبدیل بشن. مفهوم عاملهای هوش مصنوعی سالهاست که در این صنعت یک موضوع داغ و پر سر و صدا بوده. ایدهآلی که توسعهدهندگان به دنبال اون هستن، چیزی شبیه به **J.A.R.V.I.S.** در فیلم مرد آهنی هست؛ ابزاری که میتونه وظایف شغلی خاصی رو انجام بده، تقویم افراد رو برای پیدا کردن بهترین زمان برای برنامهریزی یک رویداد بررسی کنه، بر اساس ترجیحات یک دوست براش هدیه بخره و کارهای دیگه. اما در حال حاضر، این عاملها تا حدودی به کمک در کدنویسی و گردآوری گزارشهای تحقیقاتی محدود هستن.
اصطلاح «عامل هوش مصنوعی» در سال ۲۰۲۳ بین سرمایهگذاران و مدیران فناوری رایجتر شد و به سرعت رشد کرد، به خصوص بعد از اینکه شرکت فینتک کلارنا (Klarna) در فوریه ۲۰۲۴ اعلام کرد که عامل هوش مصنوعی خودش فقط در یک ماه فعالیت، دو سوم چتهای خدمات مشتریانش رو مدیریت کرده – که معادل کار ۷۰۰ کارمند انسانی تماموقت هست. از اون به بعد، مدیران در شرکتهایی مثل آمازون، متا، گوگل و غیره شروع به صحبت در مورد اهدافشون برای ساخت عاملهای هوش مصنوعی در گزارشهای مالیشون کردن. از اون زمان، شرکتهای هوش مصنوعی به صورت استراتژیک برای رسیدن به این اهداف در حال استخدام هستن. برای مثال، گوگل هفته گذشته مدیرعامل, همبنیانگذار و برخی از اعضای تیم تحقیق و توسعه شرکت Windsurf رو استخدام کرد تا به پیشبرد پروژههای هوش مصنوعی عاملگونه خودش کمک کنه.
معرفی ChatGPT Agent توسط OpenAI به دنبال عرضه اپراتور در ماه ژانویه صورت میگیره که به عنوان «عاملی که میتونه برای انجام کارها به وب بره» معرفی شد، چون برای کار با دکمهها، فیلدهای متنی و سایر عناصر اینترنت آموزش دیده بود. همچنین شرکتهای دیگه هم ابزارهای مشابهی رو عرضه کردن. در ماه اکتبر گذشته، انتروپیک، استارتاپ هوش مصنوعی تحت حمایت آمازون و سازنده کلاد، ابزار مشابهی به اسم «**استفاده از کامپیوتر» (Computer Use) رو منتشر کرد که میتونست مثل یک انسان از کامپیوتر برای انجام کارها استفاده کنه. چندین شرکت هوش مصنوعی، از جمله OpenAI، گوگل و پرپلکسیتی (Perplexity) هم ابزاری رو ارائه میدن که هر سه به اون اسم تحقیق عمیق رو دادن و نشوندهنده یک عامل هوش مصنوعی هست که میتونه تحلیلها و گزارشهای تحقیقاتی بزرگی در مورد هر چیزی که کاربر بخواد بنویسه. با این حال، کارشناسان معتقدند که نسخههای اولیه این عاملهای هوش مصنوعی با کارهای پیچیده مشکل داشتن و به عنوان محصول، کمتر از چشمانداز نهایی که مدیران فناوری در مورد عاملهای هوش مصنوعی ترسیم میکنن، جذاب به نظر میرسن. با این حال، OpenAI میگه که ChatGPT agent بسیار توانمندتر از محصولات قبلیش هست و میتونه به وعدههایی که در مورد عاملهای هوش مصنوعی داده شده، عمل کنه. اینکه این ابزار در دنیای واقعی چقدر توانمند هست، باید منتظر موند و دید.
منابع
- Introducing ChatGPT agent: bridging research and action | OpenAI
- ChatGPT Agent released and Sams take on it : r/OpenAI
- ChatGPT agent System Card | OpenAI
- OpenAI’s new ChatGPT Agent can control an entire computer and do tasks for you | The Verge
- ChatGPT agent
- OpenAI launches a general purpose agent in ChatGPT | TechCrunch
دیدگاهتان را بنویسید