خلاصه
- یه تحقیق جدید نشون داده ویکیپدیا تو مقالههای سیاسی سوگیری به سمت چپ داره.
- کلمههای مربوط به گرایش سیاسی راست، معمولا با حس منفی مثل خشم و انزجار، و کلمههای چپگرا با حس شادی همراه میشن.
- این سوگیری نه تنها تو خود ویکیپدیا هست، بلکه ممکنه به سیستمهای هوش مصنوعی مثل چتجیپیتی هم منتقل شده باشه چون برای آموزش از محتوای ویکیپدیا استفاده میکنن.
- لری سنگر، یکی از بنیانگذاران ویکیپدیا، هم این سوگیری طولانیمدت رو تایید کرده.
- مقالههای ویکیپدیا تمایل دارن چهرههای عمومی چپگرا رو مثبتتر از همتاهای راستگرای خودشون نشون بدن.
ویکیپدیا در دو دهه گذشته به یکی از بزرگترین منابع اطلاعاتی برای میلیونها نفر در سراسر دنیا تبدیل شده. این سایت هر ماه بیشتر از ۴ میلیارد بازدید داره و این عدد بزرگیه. اما اهمیت ویکیپدیا فقط به خاطر آدمهایی نیست که مستقیم مطالبش رو میخونن. محتوای این سایت به طور روتین برای آموزش مدلهای زبان بزرگ (LLM) مثل چتجیپیتی هم استفاده میشه. با توجه به این دسترسی و نفوذ عظیم، خیلی مهمه که محتوای ویکیپدیا دقیق و بیطرف باشه. هر نوع سوگیری یا جانبداری که در مقالههای ویکیپدیا وجود داشته باشه، این خطر رو داره که وارد پارامترهای اصلی سیستمهای هوش مصنوعی امروزی بشه و این سوگیریها رو بیشتر و گستردهتر کنه.
یک تحقیق جدید چه چیزی را نشان میدهد؟
یک گزارش جدید از موسسه منهتن (Manhattan Institute) که توسط دیوید روزادو (David Rozado) انجام شده، به بررسی دقیق همین موضوع یعنی سوگیری سیاسی در محتوای ویکیپدیا پرداخته. روزادو در این تحقیق، با استفاده از روشهای محاسباتی، حس و لحن عاطفی مرتبط با کلمههای سیاسی رو در مقالههای ویکیپدیا ارزیابی کرده. این کلمهها شامل اسم رئیسجمهورهای اخیر آمریکا، اعضای کنگره، قضات دیوان عالی، یا نخستوزیرهای کشورهای غربی میشن.
نتایج این تحقیق نشون میده که مقالههای ویکیپدیا تمایل دارن حس منفی بیشتری رو به کلمههایی که نماینده گرایش سیاسی راست هستن، نسبت بدن تا کلمههایی که گرایش سیاسی چپ دارن. علاوه بر این، کلمههایی که به مواضع سیاسی راستگرایانه اشاره دارن، بیشتر با احساساتی مثل «خشم» و «انزجار» مرتبط میشن. در مقابل، کلمههایی که با ایدئولوژی چپگرایانه در ارتباط هستن، بیشتر با احساس «شادی» پیوند میخورن.
روزادو متوجه شده که بعضی از این ارتباطات احساسی و سیاسی که در مقالههای ویکیپدیا وجود داره، در مدلهای زبانی شرکت OpenAI هم دیده میشه. این موضوع نشون میده که این احتمال وجود داره که سوگیریهای موجود در محتوای ویکیپدیا به سیستمهای هوش مصنوعی که به طور گسترده استفاده میشن، نفوذ کرده باشه. با توجه به نقش مهم و ارزشمند ویکیپدیا به عنوان یک منبع عمومی، روزادو به بخشهایی اشاره میکنه که ویکیپدیا میتونه در نحوه ارائه اطلاعات سیاسی بهتر عمل کنه و اصول بیطرفی خودش رو تقویت کنه.
نگاهی دقیقتر به روش تحقیق
این تحقیق برای اینکه بفهمه آیا در مقالههای انگلیسی ویکیپدیا شواهدی از سوگیری سیاسی وجود داره یا نه، یک روش محاسباتی جدید رو به کار گرفته. ویکیپدیا یکی از محبوبترین دامنهها در وب جهانیه و هر ماه صدها میلیون کاربر داره. همونطور که گفته شد، محتوای اون هم به طور مداوم برای آموزش مدلهای زبان بزرگ استفاده میشه.
برای مطالعه سوگیری سیاسی، این تحقیق اول یک مجموعه از کلمههای هدف (تعداد ۱۶۲۸ کلمه) با معانی سیاسی رو جمعآوری کرده. این کلمهها شامل اسامی افراد و نهادهای سیاسی میشدن. نکته مهم اینه که محقق این کلمهها رو به صورت سلیقهای انتخاب نکرده، بلکه از لیستهای عمومی موجود در خود ویکیپدیا و منابع دیگه استفاده کرده تا جلوی هر نوع جانبداری در انتخاب کلمهها گرفته بشه.
بعد از جمعآوری این لیست، تمام اشارههایی که به این کلمهها در مقالههای انگلیسی ویکیپدیا شده بود، شناسایی شد. سپس، متنی که در اطراف این کلمهها قرار داشت (یعنی پاراگرافی که کلمه در اون اومده بود) استخراج شد. یک نمونه تصادفی از این تکههای متن به یک مدل یادگیری ماشین داده شد تا حس (مثبت، خنثی یا منفی) و عواطف مرتبط با اون کلمه هدف رو در اون متن مشخص کنه. در مجموع، ۱۷۵۲۰۵ برچسبگذاری احساسی انجام شد.
نتایج جزئیتر تحقیق چه میگویند؟
نتایج این تحلیل یک تمایل ملایم تا متوسط رو در مقالههای ویکیپدیا نشون میده که چهرههای عمومی با گرایش راستگرایانه رو با حس منفی بیشتری نسبت به چهرههای عمومی با گرایش چپگرایانه مرتبط میکنه. این ارتباطات در مورد اسامی افراد زیر به وضوح دیده میشه:
- رئیسجمهورهای اخیر آمریکا
- قضات دیوان عالی آمریکا
- سناتورها و اعضای مجلس نمایندگان آمریکا
- فرمانداران ایالتهای آمریکا
- نخستوزیرهای کشورهای غربی
- روزنامهنگاران و رسانههای برجسته مستقر در آمریکا
البته این روند در همه جا یکسان نیست. مثلا، در مورد اسامی نمایندگان پارلمان بریتانیا و اندیشکدههای مستقر در آمریکا، شواهدی از این تفاوت در حس مشاهده نشده.
اعتبارسنجی روش تحقیق
قبل از بررسی کلمههای سیاسی، محقق برای اینکه مطمئن بشه روشش درسته، اون رو روی کلمههایی که همه قبول دارن بار معنایی مثبت یا منفی دارن، امتحان کرد. نتایج نشون داد کلمههایی مثل «رفاه»، «همدلی»، «مارتین لوتر کینگ» و «نلسون ماندلا» در مقالههای ویکیپدیا عموما با حس مثبت به کار رفتن. در مقابل، کلمههایی با بار معنایی منفی مثل «بیماری»، «فساد» و «یوزف گوبلز» عموما با حس منفی استفاده شدن. این نشون میده که روش تحلیل به درستی کار میکنه.
بررسی حس کلمات مرتبط با گرایش سیاسی
در مرحله بعد، نحوه استفاده از کلمههایی که به گرایش سیاسی و افراطگرایی سیاسی اشاره دارن، در ویکیپدیا بررسی شد. هرچند نمونه کلمهها کوچک بود، اما یک تمایل ملایم وجود داشت که کلمههای مرتبط با گرایش سیاسی راست با حس منفی بیشتری نسبت به کلمههای مشابه برای گرایش سیاسی چپ استفاده بشن.
سیاستمداران آمریکایی
یکی از مهمترین نتایج این گزارش، میانگین حسی بود که اسم رئیسجمهورهای اخیر آمریکا، اعضای کنگره ۱۱۷ و فرمانداران ایالتها (تا سال ۲۰۲۲) در مقالههای ویکیپدیا با اون استفاده میشدن. یک تمایل واضح وجود داشت که اسامی سیاستمداران برجسته چپگرا با حس مثبتتری نسبت به همتایان راستگرای خودشون به کار برن. البته این روش نمیتونه مواردی که افراد مختلف با یک عنوان شناخته میشن رو در نظر بگیره (مثلا رئیسجمهور بوش پدر و بوش پسر)، اما این موارد کم هستن و تاثیر کلی زیادی روی نتایج ندارن.
این روند فقط محدود به مقامات منتخب نبود. همین الگو در مورد اسامی قضات دیوان عالی آمریکا و روزنامهنگاران برجسته آمریکایی هم دیده شد.
چهرههای بینالمللی و رسانهها
این پدیده فقط به چهرههای عمومی در آمریکا محدود نمیشه. یک روند مشابه در نحوه توصیف نخستوزیرهای کشورهای برجسته غربی (از سال ۲۰۰۰ به بعد) در مقالههای ویکیپدیا هم قابل مشاهده بود. اما جالبه که این الگو در مورد اشاره به نمایندگان پارلمان بریتانیا صدق نمیکرد. دلیل این تفاوت بین اعضای کنگره آمریکا و نمایندگان پارلمان بریتانیا ممکنه تا حدی به خاطر سطح بالاتر قطبیسازی سیاسی در آمریکا نسبت به بریتانیا باشه.
عدم تقارن در حس مرتبط با چهرههای عمومی راست و چپ در ویکیپدیا برای سازمانهای رسانهای تاثیرگذار هم دیده میشه. مقالههای ویکیپدیا تمایل دارن به موسسات رسانهای چپگرا با حس مثبتتری نسبت به سازمانهای رسانهای راستگرا اشاره کنن. با این حال، هیچ تفاوتی در حس توصیف اندیشکدههای راستگرا و چپگرای آمریکایی وجود نداشت. شاید دلیلش این باشه که اندیشکدهها به اندازه سازمانهای رسانهای یا روزنامهنگاران سیاسی، واکنشهای عاطفی قطبی ایجاد نمیکنن.
برای خلاصه کردن این روندها، از آزمونهای آماری (t-test) برای هر دسته از کلمهها استفاده شد تا مشخص بشه آیا تفاوت در حس بین کلمههای چپگرا و راستگرا از نظر آماری معنادار هست یا نه. برای بیشتر دستههای تحلیل شده، تفاوتهای قابل توجهی در حس وجود داشت.
تحلیل عواطف: خشم، انزجار و شادی
در مرحله بعد، میانگین عواطفی که کلمههای سیاسی با اونها استفاده میشن، بررسی شد. برای این کار از شش عاطفه اصلی اکمن (خشم، انزجار، ترس، شادی، غم و شگفتی) به علاوه حالت خنثی استفاده شد. نتایج نشون داد که در مقالههای ویکیپدیا، کلمههای راستگرایانه بیشتر با دستههای عاطفی «خشم» و «انزجار» مرتبط هستن. در مقابل، کلمههای چپگرایانه بیشتر با عاطفه «شادی» ارتباط دارن.
این نتایج نشون میده که سیاست «دیدگاه بیطرف» (NPOV) ویکیپدیا، اونطور که باید، به هدف خودش یعنی بیطرفی در دیدگاههای سیاسی نرسیده.
یک تجربه شخصی: وقتی صفحه ویکیپدیا در مورد شماست
بتانی مندل (Bethany Mandel)، یکی از نویسندگان کتاب «جوانی دزدیده شده»، در مقالهای در نیویورک پست از تجربه شخصی خودش با ویکیپدیا میگه. او میگه وقتی با کسی برای اولین بار ملاقات میکنه، اغلب میتونه بفهمه که آیا اون شخص اسمش رو گوگل کرده و صفحه ویکیپدیای اون رو خونده یا نه.
او میگه داشتن یک صفحه ویکیپدیا یک تجربه نگرانکننده است: غریبهها میتونن با یک نگاه اطلاعات زیادی در مورد شما به دست بیارن، بدون اینکه حتی شما رو ملاقات کنن. و اگه شما یک فرد محافظهکار باشین، تصویری که ویکیپدیا از شما نشون میده به ندرت اولین تاثیریه که دوست دارین روی دیگران بذارین.
مندل میگه: «اینکه یک محافظهکار با یک صفحه ویکیپدیا باشی، یعنی هر کسی که تو رو ملاقات میکنه، قبلا یک گزارش تخریبی در موردت خونده که توسط صدها نفر که مصمم هستن بدترین تصویر ممکن از تو رو به دنیا نشون بدن، جمعآوری شده.»
او به صفحه ویکیپدیای خودش اشاره میکنه و میگه تاکید بیش از حدی روی یک توییت شده که ده سال پیش در مورد بمباران اتمی حماس بعد از یک حمله به نوجوانان اسرائیلی منتشر کرده بود. این موضوع طوری در صفحه او قاب گرفته شده که اون رو یک «دیوانه نسلکش» نشون بده.
این بخشی از یک روند مستنده: چهرههای عمومی محافظهکار و سازمانهای راستگرا به طور منظم قربانی یک سوگیری ایدئولوژیک میشن که در بین ویراستاران ویکیپدیا وجود داره. حتی لری سنگر (Larry Sanger)، یکی از بنیانگذاران ویکیپدیا، این سوگیری طولانیمدت رو تایید میکنه. در صفحه ویکیپدیای خود سنگر نوشته شده: «از سال ۲۰۲۰، او از ویکیپدیا به خاطر آنچه که به عنوان یک سوگیری ایدئولوژیک چپگرایانه و لیبرال در مقالههایش تلقی میکنه، انتقاد کرده است.»
ماجرای ADL و منابع معتبر از نظر ویکیپدیا
این سوگیری فقط به نحوه انتخاب کلمات محدود نمیشه. چندی پیش، ویراستاران ویکیپدیا اعلام کردن که «اتحادیه ضد افترا» (ADL)، سازمانی که برای مبارزه با یهودستیزی تاسیس شده، نمیتونه به عنوان یک منبع قابل اعتماد در مورد درگیری اسرائیل و فلسطین در نظر گرفته بشه. و تکاندهندهتر اینکه، ADL حتی در مورد خود یهودستیزی هم یک منبع غیرقابل اعتماد اعلام شد.
حالا سوال اینه که ویراستاران سایت چه کسانی رو قابل اعتماد میدونن؟ سازمانهایی که نه تنها مشکلات مستندی در مورد سوگیری دارن، بلکه در گزارشهاشون هم غیرقابل اعتماد بودن ایدئولوژیک دیده شده.
برای مثال، سازمان عفو بینالملل (Amnesty International) و بتسلم (B’Tselem)، دو سازمانی هستن که سوگیریهای طولانی و مستندی علیه اسرائیل دارن، اما ویکیپدیا اغلب از اونها به عنوان منابع معتبر استفاده میکنه.
یک منبع معتبر دیگه از نظر ویراستاران ویکیپدیا، «مرکز حقوقی فقر جنوب» (SPLC) است که در دهههای اخیر موضع تندی علیه محافظهکاران گرفته. تایلر اونیل (Tyler O’Neil) از دیلی سیگنال، که کتابی در مورد SPLC نوشته، میگه: «SPLC برنامهای رو که برای ورشکست کردن سازمانهای مرتبط با کوکلوسکلانها استفاده میکرد، علیه گروههای محافظهکار به کار گرفت، تا حدی برای ترساندن اهداکنندگان مالی و تا حدی برای ساکت کردن مخالفان ایدئولوژیک.»
ایزابلا تاباروفسکی (Izabella Tabarovsky)، محقق یهودستیزی، در شبکه اجتماعی ایکس نوشت: «چیزی که ویراستاران ویکیپدیا اساسا به ما میگن اینه که از نظر اونها، یک منبع وقتی «عینی» است که دیدگاههای ضد صهیونیستی و ضد اسرائیلی اونها رو داشته باشه.» او اضافه کرد: «از این به بعد میتونیم ویکیپدیا رو به عنوان منبعی در نظر بگیریم که عمدا در حال انتشار اطلاعات نادرست در مورد یهودستیزی و احتمالا در مورد بسیاری از محتواهای دیگه مربوط به یهودیان، و البته به طور خاص در مورد اسرائیل و صهیونیسم است.»
لری سنگر، در واکنش به این خبر، ویراستاران سایت رو «دلقک» خطاب کرد.
بتانی مندل در ادامه به تاریخچه ویرایش صفحه ویکیپدیای خودش اشاره میکنه و میگه ویراستاران در مورد میزان قصد او برای نسلکشی و همچنین اسلامهراسی و نژادپرستی ادعایی او با هم بحث میکنن و تغییرات مکرری در متن ایجاد میکنن. او میگه: «این موضوع مسخره و خندهدار میشد، اگر این غریبهها با انگیزههای شخصی، چنین نفوذ عظیمی بر درک عمومی از من و دیگر موضوعات تحت پوشش سایت نداشتن.»
او داستانی رو تعریف میکنه که اخیرا یکی از دوستان دخترش به او میگفت پدربزرگش مشهوره و متاسفانه در اینترنت بدنام شده. مندل در حین صحبت گوشی خودش رو درآورد. دوست دخترش التماس کرد: «صفحه ویکیپدیای اون رو نگاه نکن.» دختر مندل سعی کرد به دوستش اطمینان بده و گفت: «نگران نباش، اینترنت از مامان من هم متنفره.»
آیا ویکیپدیا به هوش مصنوعی هم سوگیری میدهد؟
سوال مهم اینه که آیا این سوگیری سیاسی در مقالههای ویکیپدیا میتونه به سیستمهای هوش مصنوعی که با محتوای ویکیپدیا آموزش دیدن، منتقل بشه؟ برای پاسخ به این سوال، تحقیق روزادو یک بخش مهم از مدلهای زبانی OpenAI یعنی «جاسازی کلمات» (word embeddings) رو تحلیل کرده.
جاسازی کلمات در واقع نقشههایی از کلمات به بردارهای عددی هستن که معانی و روابط اونها رو در متن نشون میدن. کلماتی که در یک زمینه مشابه زیاد با هم میان، در این فضای برداری به هم نزدیکتر هستن.
در این تحقیق، ابتدا یک مدل جاسازی کلمات از کل مقالههای ویکیپدیا ساخته شد. بعد، قدرت ارتباط بین کلمههای سیاسی هدف و یک مجموعه کلمات با بار احساسی مثبت و منفی (لغتنامه AFINN) اندازهگیری شد. نتایج نشون داد که در مدل جاسازی کلمات که از ویکیپدیا ساخته شده بود، کلمههای چپگرا به کلمههای با حس مثبت نزدیکتر بودن، در حالی که کلمههای راستگرا به کلمههای با حس منفی نزدیکتر بودن. این موضوع تمایل ویکیپدیا به مرتبط کردن کلمات مثبت با مفاهیم سیاسی چپ و کلمات منفی با مفاهیم سیاسی راست رو تایید میکنه.
در نهایت، این روندها در جاسازی کلمات OpenAI هم بررسی شد. یک همبستگی ملایم تا متوسط بین قدرت ارتباط احساسی در جاسازی کلمات ویکیپدیا و جاسازی کلمات OpenAI پیدا شد. این یعنی تا حدی همپوشانی در ارتباطات احساسی کلمههای سیاسی در هر دو مدل وجود داره. این موضوع جای تعجب نداره، چون مقالههای ویکیپدیا احتمالا بخش مهمی از دادههای آموزشی چتجیپیتی رو تشکیل میدن. این پدیده نشون میده که چطور سوگیریهای موجود در ویکیپدیا میتونن به سیستمهای هوش مصنوعی پیشرفته نفوذ کنن.
نظرات مختلف در فضای آنلاین
در فضاهای آنلاین مثل ردیت (Reddit) و کورا (Quora) هم بحثهای زیادی در مورد سوگیری ویکیپدیا وجود داره.
در یک تاپیک در سابردیت r/AskALiberal، کاربری پرسیده بود که آیا ویکیپدیا به سمت چپ سوگیری داره و منابع راستگرا رو ممنوع میکنه؟ پاسخها متفاوت بود:
- یک کاربر نوشت: «ویکیپدیا برای کنجکاویهای عمومی نقطه شروع خوبیه. اما چون توسط کاربران نوشته و ویرایش میشه، باید منابعی که استفاده کردن رو چک کنی.»
- کاربر دیگهای گفت: «آیا ویکیپدیا سوگیری داره؟ بله. به سمت چپ؟ نه. ویکیپدیا به سمت چیزهایی که کاربرانش بهشون علاقه دارن سوگیری داره. این باعث ایجاد مشکلاتی میشه، اما حزبی نیست.» او اضافه کرد که راستگرایان هر چیزی که کاملا از نظرات اونها حمایت نکنه رو «دارای سوگیری» میدونن، تا جایی که استیون کلبر به شوخی گفت «واقعیت یک سوگیری لیبرال شناخته شده داره.»
- یک نظر دیگه این بود: «سوگیری علیه راست» جدیدترین کلمهایه که برای تداوم جنگ راستگرایان با حقایق و دانش استفاده میشه.
- کاربری هم نوشت: «با توجه به اینکه بخش بزرگی از دنیای راستگرایان چیزی جز سم خالص ذهنی نیست، من آرزو میکردم که ویکیپدیا واقعا علیه اون دیدگاهها سوگیری داشت.»
در سایت کورا، یک کاربر در پاسخ به این سوال که چرا ویکیپدیا چنین سوگیری چپگرایانهای داره، یک تئوری رو مطرح کرد:
- او معتقده که بیشتر ویراستاران ویکیپدیا مدرک تحصیلی دارن، به خصوص در علوم اجتماعی، علوم طبیعی یا تاریخ. از اونجایی که افراد با مدرک در این رشتهها تحصیلکردهتر هستن، تمایل بیشتری به چپ دارن. چون اکثر ویراستاران ویکیپدیا چپگرا هستن، هر ویراستاری با نظر مخالف رو بیرون میکنن.
- او اضافه میکنه که ۵۰ سال پیش، افراد تحصیلکرده بیشتر به راست تمایل داشتن که به نظر او، توضیحات مربوط به شخصیت یا هوش رو رد میکنه.
- یک توضیح بهتر از نظر او اینه که کمونیستها در دانشگاهها نفوذ کردن. اونها به تدریج استادانی که کمونیست نبودن رو کنار زدن و در نتیجه اکثر استادان کمونیست یا «چپگرا» شدن. این استادان بعدا دانشجویان رو شستشوی مغزی دادن و به همین دلیله که تحصیلکردهها امروز به چپ تمایل دارن و در نتیجه ویکیپدیا سوگیری چپگرایانه داره.
چالشهای پیش رو
یافتههای این گزارش رو باید به صورت سازنده دید و اونها رو چالشی برای بهبود محتوای ویکیپدیا دونست. ویراستاران ویکیپدیا میتونن از ابزارهای بهتری برای شناسایی و کاهش سوگیری بهرهمند بشن. ابزارهای محاسباتی برای تشخیص محتوای جانبدارانه و مکانیسمهای همکاری مثل «یادداشتهای جامعه» در شبکه ایکس میتونن در این فرآیند کمک کنن. با وجود تمام کمکهای بزرگ ویکیپدیا به دانش آزاد، به نظر میرسه که سفر این پلتفرم به سمت بیطرفی کامل همچنان ادامه داره.
دیدگاهتان را بنویسید