یه تحقیق جدید که شرکت مایکروسافت انجام داده نشون میده که توانایی ما آدما برای تشخیص دادن عکسای ساخته شده با هوش مصنوعی از عکسای واقعی، خیلی کمه. این تحقیق که روی بیش از ۱۲۵۰۰ نفر از سراسر دنیا انجام شده و حدود ۲۸۷ هزار تا عکس رو بررسی کرده، به این نتیجه رسیده که ما فقط توی ۶۲ درصد موارد موفق میشیم درست تشخیص بدیم. این یعنی عملکردمون فقط یه کم از شیر یا خط انداختن بهتره.
این مطالعه که به شکل یه بازی آنلاین به اسم «واقعی یا نه؟» (Real or Not Quiz) انجام شده، به شرکت کنندهها عکسای واقعی و عکسای ساخته شده با هوش مصنوعی رو نشون میداده و ازشون میخواسته حدس بزنن کدوم واقعیه و کدوم نه. نکته مهم اینه که محققها عمدا عکسای خیلی فریبنده رو انتخاب نکردن، بلکه سعی کردن یه مجموعه معمولی از عکسایی که ممکنه هر روز آنلاین ببینیم رو به کار ببرن.
نتیجه چی شد؟ چقدر خوب تونستیم تشخیص بدیم؟
نتیجه کلی این بود که از بین حدود ۲۸۷ هزار ارزیابی، توی ۱۱۰ هزار مورد اشتباه کردیم که یعنی یه نرخ موفقیت کلی ۶۲ درصدی. اگه بخوایم دقیقتر بگیم، وقتی فقط عکسای هوش مصنوعی رو در نظر بگیریم، از ۱۹۳۷۷۹ تا عکس، ۱۲۱۷۳۵ تاش رو درست تشخیص دادیم که موفقیتمون میشه ۶۳ درصد.
جالبه که آدما توی تشخیص چهرههای ساختگی خیلی بهتر عمل کردن، اما وقتی نوبت به عکسای طبیعت و منظرههای شهری میرسید، حسابی به مشکل میخوردن و نرخ موفقیتشون به ۵۹ تا ۶۱ درصد افت میکرد. دلیل این موضوع احتمالا اینه که مغز ما به طور ذاتی برای تشخیص چهرهها تکامل پیدا کرده و خیلی راحتتر میتونه ناهنجاریها و ایرادای کوچیک توی پرترههای هوش مصنوعی رو پیدا کنه.
نوع عکس | میزان موفقیت در تشخیص |
---|---|
پرتره و چهره انسان | بالاترین موفقیت |
منظره طبیعی و شهری | پایینترین موفقیت (۵۹-۶۱٪) |
این نتایج نشون میده که ما چقدر در برابر محتوای بصری هوش مصنوعی آسیب پذیریم، مخصوصا وقتی که عکسها ایراد فنی مشخصی ندارن.
چه نوع عکسای هوش مصنوعی بیشتر گولمون میزنن؟
شاید فکر کنین مدلای جدیدتر هوش مصنوعی مثل میدجرنی (Midjourney) یا دال-ای ۳ (DALL-E 3) سختترین عکسها رو برای تشخیص میسازن، اما تحقیق یه چیز جالب دیگه رو نشون داد. دو تا تکنیک بودن که نرخ موفقیت تشخیصشون زیر ۵۰ درصد بود:
- شبکههای مولد تخاصمی (GAN): اینا مدلای قدیمیتری هستن که حدود ۱۰ سال از ساختشون میگذره. عکسایی که این مدلها میسازن، خیلی شبیه به «عکاسی آماتوری» به نظر میرسه و اون حس تمیز و استودیویی که مدلای جدیدتر دارن رو نداره. به نظر میرسه آدما به سبک خاص و خیلی صیقلی مدلای جدید عادت کردن و وقتی با یه عکس هوش مصنوعی که شبیه عکسای معمولی و غیرحرفهای هست روبرو میشن، راحتتر گول میخورن.
- تکنیک اینپینتینگ (Inpainting): این تکنیک به جای اینکه یه عکس رو از صفر بسازه، یه بخش کوچیک از یه عکس واقعی رو با یه چیز تولید شده توسط هوش مصنوعی عوض میکنه. مثلا فرض کنین یه عکس واقعی دارین و هوش مصنوعی میاد یه آدم یا یه شی رو داخلش اضافه یا جایگزین میکنه. از اونجایی که بیشتر پیکسلهای عکس واقعین، تشخیص این نوع دستکاری فوقالعاده سخته و یه خطر جدی برای کمپینهای اطلاعات غلط به حساب میاد.
جالبه که بعضی وقتا عکسای واقعی هم گولمون میزنن
توی این آزمایش، از بین بیشتر از ۱۰۰۰ تا عکس، فقط ۳ تاشون بودن که نرخ تشخیص درستشون زیر ۲۰ درصد بود و هر سه تاشون عکسای واقعی بودن. این عکسها که از آرشیو ملی آمریکا برداشته شده بودن، به خاطر نورپردازی یا رنگهای غیرعادی یا صحنههای خاصی که داشتن، خیلی شبیه به کارای هوش مصنوعی به نظر میرسیدن. مثلا عکسی که کمترین نرخ تشخیص رو داشت (فقط ۱۲.۶ درصد)، نیروهای آمریکایی رو در افغانستان نشون میده که به خاطر سرعت بالای شاتر دوربین، پرههای هلیکوپتر کاملا ثابت به نظر میان و همین باعث شده بود خیلیها فکر کنن عکس ساختگیه.
از طرف دیگه، دو تا عکس هوش مصنوعی که بیشترین میزان خطا رو داشتن (نرخ تشخیص زیر ۲۵ درصد)، با مدل تایتان نسخه ۱ (Titan v1) آمازون ساخته شده بودن.
اگه آدما ضعیفن، ابزارهای هوش مصنوعی چطورن؟
محققهای این پروژه به ابزار تشخیص هوش مصنوعی خودشون هم دسترسی داشتن. این ابزار تونست به یه نرخ موفقیت بیشتر از ۹۵ درصد هم روی عکسای واقعی و هم روی عکسای هوش مصنوعی برسه. این نشون میده که کمک گرفتن از ماشین برای تشخیص، خیلی قابل اعتمادتر از قضاوت انسانه، هرچند حتی این ابزارها هم کامل نیستن و اشتباه میکنن.
به خاطر همین نتایج، مایکروسافت روی اهمیت ابزارهای شفافسازی مثل واترمارک (علامتگذاری روی عکس) و ابزارهای تشخیص قوی تاکید میکنه تا جلوی خطرات اطلاعات نادرست گرفته بشه. البته این رو هم باید در نظر داشت که حتی اگه یه واترمارک قابل مشاهده گوشه عکس باشه، افراد خرابکار میتونن خیلی راحت با ابزارهای ساده اون رو ببرن یا محوش کنن تا بقیه رو فریب بدن.
دیدگاهتان را بنویسید