۷ مرداد ۱۴۰۴

آدم‌ها فقط ۶۲ درصد مواقع میتونن عکسای واقعی رو از عکسای هوش مصنوعی تشخیص بدن

یه تحقیق جدید که شرکت مایکروسافت انجام داده نشون میده که توانایی ما آدما برای تشخیص دادن عکسای ساخته شده با هوش مصنوعی از عکسای واقعی، خیلی کمه. این تحقیق که روی بیش از ۱۲۵۰۰ نفر از سراسر دنیا انجام شده و حدود ۲۸۷ هزار تا عکس رو بررسی کرده، به این نتیجه رسیده که ما فقط توی ۶۲ درصد موارد موفق میشیم درست تشخیص بدیم. این یعنی عملکردمون فقط یه کم از شیر یا خط انداختن بهتره.

این مطالعه که به شکل یه بازی آنلاین به اسم «واقعی یا نه؟» (Real or Not Quiz) انجام شده، به شرکت کننده‌ها عکسای واقعی و عکسای ساخته شده با هوش مصنوعی رو نشون میداده و ازشون میخواسته حدس بزنن کدوم واقعیه و کدوم نه. نکته مهم اینه که محقق‌ها عمدا عکسای خیلی فریبنده رو انتخاب نکردن، بلکه سعی کردن یه مجموعه معمولی از عکسایی که ممکنه هر روز آنلاین ببینیم رو به کار ببرن.

نتیجه چی شد؟ چقدر خوب تونستیم تشخیص بدیم؟

نتیجه کلی این بود که از بین حدود ۲۸۷ هزار ارزیابی، توی ۱۱۰ هزار مورد اشتباه کردیم که یعنی یه نرخ موفقیت کلی ۶۲ درصدی. اگه بخوایم دقیق‌تر بگیم، وقتی فقط عکسای هوش مصنوعی رو در نظر بگیریم، از ۱۹۳۷۷۹ تا عکس، ۱۲۱۷۳۵ تاش رو درست تشخیص دادیم که موفقیتمون میشه ۶۳ درصد.

جالبه که آدما توی تشخیص چهره‌های ساختگی خیلی بهتر عمل کردن، اما وقتی نوبت به عکسای طبیعت و منظره‌های شهری میرسید، حسابی به مشکل میخوردن و نرخ موفقیتشون به ۵۹ تا ۶۱ درصد افت میکرد. دلیل این موضوع احتمالا اینه که مغز ما به طور ذاتی برای تشخیص چهره‌ها تکامل پیدا کرده و خیلی راحت‌تر میتونه ناهنجاری‌ها و ایرادای کوچیک توی پرتره‌های هوش مصنوعی رو پیدا کنه.

نوع عکس	میزان موفقیت در تشخیص
پرتره و چهره انسان	بالاترین موفقیت
منظره طبیعی و شهری	پایین‌ترین موفقیت (۵۹-۶۱٪)

این نتایج نشون میده که ما چقدر در برابر محتوای بصری هوش مصنوعی آسیب پذیریم، مخصوصا وقتی که عکس‌ها ایراد فنی مشخصی ندارن.

چه نوع عکسای هوش مصنوعی بیشتر گولمون میزنن؟

شاید فکر کنین مدلای جدیدتر هوش مصنوعی مثل میدجرنی (Midjourney) یا دال-ای ۳ (DALL-E 3) سخت‌ترین عکس‌ها رو برای تشخیص میسازن، اما تحقیق یه چیز جالب دیگه رو نشون داد. دو تا تکنیک بودن که نرخ موفقیت تشخیصشون زیر ۵۰ درصد بود:

شبکه‌های مولد تخاصمی (GAN): اینا مدلای قدیمی‌تری هستن که حدود ۱۰ سال از ساختشون میگذره. عکسایی که این مدل‌ها میسازن، خیلی شبیه به «عکاسی آماتوری» به نظر میرسه و اون حس تمیز و استودیویی که مدلای جدیدتر دارن رو نداره. به نظر میرسه آدما به سبک خاص و خیلی صیقلی مدلای جدید عادت کردن و وقتی با یه عکس هوش مصنوعی که شبیه عکسای معمولی و غیرحرفه‌ای هست روبرو میشن، راحت‌تر گول میخورن.
تکنیک این‌پینتینگ (Inpainting): این تکنیک به جای اینکه یه عکس رو از صفر بسازه، یه بخش کوچیک از یه عکس واقعی رو با یه چیز تولید شده توسط هوش مصنوعی عوض میکنه. مثلا فرض کنین یه عکس واقعی دارین و هوش مصنوعی میاد یه آدم یا یه شی رو داخلش اضافه یا جایگزین میکنه. از اونجایی که بیشتر پیکسل‌های عکس واقعین، تشخیص این نوع دستکاری فوق‌العاده سخته و یه خطر جدی برای کمپین‌های اطلاعات غلط به حساب میاد.

جالبه که بعضی وقتا عکسای واقعی هم گولمون میزنن

توی این آزمایش، از بین بیشتر از ۱۰۰۰ تا عکس، فقط ۳ تاشون بودن که نرخ تشخیص درستشون زیر ۲۰ درصد بود و هر سه تاشون عکسای واقعی بودن. این عکس‌ها که از آرشیو ملی آمریکا برداشته شده بودن، به خاطر نورپردازی یا رنگ‌های غیرعادی یا صحنه‌های خاصی که داشتن، خیلی شبیه به کارای هوش مصنوعی به نظر میرسیدن. مثلا عکسی که کمترین نرخ تشخیص رو داشت (فقط ۱۲.۶ درصد)، نیروهای آمریکایی رو در افغانستان نشون میده که به خاطر سرعت بالای شاتر دوربین، پره‌های هلیکوپتر کاملا ثابت به نظر میان و همین باعث شده بود خیلی‌ها فکر کنن عکس ساختگیه.

از طرف دیگه، دو تا عکس هوش مصنوعی که بیشترین میزان خطا رو داشتن (نرخ تشخیص زیر ۲۵ درصد)، با مدل تایتان نسخه ۱ (Titan v1) آمازون ساخته شده بودن.

اگه آدما ضعیفن، ابزارهای هوش مصنوعی چطورن؟

محقق‌های این پروژه به ابزار تشخیص هوش مصنوعی خودشون هم دسترسی داشتن. این ابزار تونست به یه نرخ موفقیت بیشتر از ۹۵ درصد هم روی عکسای واقعی و هم روی عکسای هوش مصنوعی برسه. این نشون میده که کمک گرفتن از ماشین برای تشخیص، خیلی قابل اعتمادتر از قضاوت انسانه، هرچند حتی این ابزارها هم کامل نیستن و اشتباه میکنن.

به خاطر همین نتایج، مایکروسافت روی اهمیت ابزارهای شفاف‌سازی مثل واترمارک (علامت‌گذاری روی عکس) و ابزارهای تشخیص قوی تاکید میکنه تا جلوی خطرات اطلاعات نادرست گرفته بشه. البته این رو هم باید در نظر داشت که حتی اگه یه واترمارک قابل مشاهده گوشه عکس باشه، افراد خرابکار میتونن خیلی راحت با ابزارهای ساده اون رو ببرن یا محوش کنن تا بقیه رو فریب بدن.

منابع

[۱] Barely better than “chance”: Microsoft reveals just how bad we are at detecting AI images – Neowin
[۲] How good are humans at detecting AI-generated images? Learnings from an experiment