RAG در هوش مصنوعی؛ تکنیک افزایش دقت و کاهش توهم مدل‌ها

فکر کنید یه رفیق خیلی باهوش دارید که انگار کل اینترنت رو خونده و تقریبا به هر سوالی میتونه جواب بده. این رفیقتون همون «مدل زبانی بزرگ» یا LLM خودمونه. مدل‌هایی مثل ChatGPT از همین خانواده هستن. این مدل‌ها روی حجم وحشتناکی از داده آموزش دیدن و میلیاردها پارامتر دارن که بهشون کمک میکنه برای ما متن تولید کنن، سوال جواب بدن، ترجمه کنن یا حتی جمله‌هامون رو کامل کنن. تا اینجاش که همه چیز عالیه، نه؟

اما این رفیق همه چیزدان ما یه چندتا مشکل کوچیک داره. یکی اینکه اطلاعاتش تا یه تاریخ مشخصی آپدیت شده. یعنی اگه ازش در مورد اتفاقی که دیروز افتاده بپرسید، احتمالا خبر نداره. مشکل دوم اینه که گاهی اوقات وقتی جواب یه سوالی رو نمیدونه، به جای اینکه بگه «نمیدونم»، یه جوابی از خودش میسازه که خیلی هم با اعتماد به نفس به نظر میرسه، ولی در اصل اشتباهه. به این پدیده میگن «هالوسینیشن» یا توهم. انگار اون رفیقمون یه کارمند جدیده که خیلی مشتاقه خودشو نشون بده، برای همین به هر سوالی جواب میده، حتی اگه جوابش رو ندونه و از اتفاقات جدید هم خبر نداشته باشه. این رفتار میتونه اعتماد ما رو بهش از بین ببره. حالا اینجا دقیقا جاییه که RAG وارد میدون میشه.

RAG دقیقا یعنی چی و کارش چیه؟

RAG مخفف Retrieval-Augmented Generation هست. بیاید این سه تا کلمه رو از هم جدا کنیم تا بفهمیم داستان چیه:

Retrieval: یعنی «بازیابی» یا «پیدا کردن».
Augmented: یعنی «تقویت‌شده» یا «بهبودیافته».
Generation: یعنی «تولید کردن».

پس RAG یعنی «تولید تقویت‌شده با بازیابی». به زبون خیلی ساده، RAG یه تکنیک یا یه چارچوب هوش مصنوعیه که به اون مدل‌های زبانی بزرگ (LLM ها) کمک میکنه قبل از اینکه جوابی به ما بدن، برن و از یه منبع دانش معتبر و مشخص، اطلاعات مورد نیازشون رو پیدا کنن و بعد با استفاده از اون اطلاعات، یه جواب دقیق و به‌روز به ما تحویل بدن.

این یعنی LLM دیگه فقط به حافظه و داده‌های آموزشی خودش تکیه نمیکنه. در واقع RAG یه جورایی به LLM میگه: «صبر کن رفیق، قبل از اینکه جواب بدی، یه نگاهی به این کتابخونه یا این پایگاه داده بنداز تا مطمئن بشی جوابت دقیقه و بر اساس آخرین اطلاعاته». این منبع دانش میتونه هر چیزی باشه؛ از اسناد داخلی یه شرکت گرفته تا مقالات علمی، اخبار روز یا حتی پایگاه داده‌های تخصصی. اینطوری، بدون اینکه نیاز باشه کل مدل رو از اول با داده‌های جدید آموزش بدیم، میتونیم قابلیت‌هاش رو برای یه حوزه خاص یا دانش داخلی یه سازمان، گسترش بدیم. این روش هم خیلی به‌صرفه‌تره و هم باعث میشه خروجی LLM همیشه مرتبط، دقیق و مفید باقی بمونه.

چرا RAG اینقدر مهم شده؟ چالش‌های LLM ها چی بودن؟

همونطور که گفتیم، LLM ها با همه قدرتی که دارن، بی‌نقص نیستن. هدف اصلی از ساخت چت‌بات‌های هوشمند اینه که بتونن با مراجعه به منابع دانش معتبر، به سوالات کاربرها تو زمینه‌های مختلف جواب بدن. ولی ذات فناوری LLM یه سری چالش‌ها و غیرقابل پیش‌بینی بودن‌ها رو به وجود میاره. بیاید مشکلاتشون رو دقیق‌تر بررسی کنیم:

ارائه اطلاعات غلط: وقتی یه LLM جواب سوالی رو ندونه، ممکنه یه جواب نادرست از خودش بسازه. این همون توهم یا هالوسینیشنه که قبلا بهش اشاره کردیم. این موضوع خیلی خطرناکه، مخصوصا تو زمینه‌های حساس مثل پزشکی یا حقوق.
ارائه اطلاعات قدیمی یا عمومی: وقتی کاربر منتظر یه جواب مشخص و جدیده، LLM ممکنه یه جواب کلی یا قدیمی بده، چون داده‌های آموزشش مربوط به گذشته هستن.
استفاده از منابع نامعتبر: جواب‌های مدل ممکنه بر اساس اطلاعاتی باشه که از منابع غیرقابل اعتماد تو داده‌های آموزشش یاد گرفته.
ایجاد جواب‌های نادرست به خاطر سردرگمی در اصطلاحات: گاهی اوقات تو منابع آموزشی مختلف، از یه اصطلاح یکسان برای اشاره به چیزهای متفاوتی استفاده شده. این موضوع میتونه باعث بشه LLM دچار اشتباه بشه و جواب نادرستی تولید کنه.

یه مثال واقعی و تکون‌دهنده در این مورد، اولین نمایش عمومی مدل زبانی گوگل به اسم «Google Bard» بود. این مدل در جواب به یه سوال، اطلاعات اشتباهی در مورد تلسکوپ فضایی جیمز وب ارائه داد. همین یک اشتباه باعث شد ارزش سهام شرکت گوگل ۱۰۰ میلیارد دلار افت کنه. این نشون میده که دقت و صحت اطلاعات چقدر حیاتیه.

RAG به عنوان یه راهکار برای مقابله با این چالش‌ها طراحی شده. این تکنیک، مسیر LLM رو تغییر میده و اون رو مجبور میکنه که قبل از هر کاری، اطلاعات مرتبط رو از منابع دانشی که از قبل براش مشخص شدن، استخراج کنه. با این کار، سازمان‌ها کنترل خیلی بیشتری روی متن تولید شده دارن و کاربرها هم میتونن بفهمن که LLM جوابش رو از کجا آورده.

مزایای استفاده از RAG چیه؟

استفاده از تکنولوژی RAG برای تلاش‌های یه سازمان در زمینه هوش مصنوعی مولد، چندین فایده مهم داره که بیاید با هم مرورشون کنیم.

پیاده‌سازی به‌صرفه

معمولا ساختن یه چت‌بات با استفاده از یه «مدل پایه» یا Foundation Model (FM) شروع میشه. این مدل‌های پایه، LLM هایی هستن که از طریق API در دسترس قرار میگیرن و روی طیف گسترده‌ای از داده‌های عمومی و بدون برچسب آموزش دیدن. حالا اگه یه سازمان بخواد این مدل پایه رو برای اطلاعات تخصصی خودش دوباره آموزش بده، هم از نظر محاسباتی و هم از نظر مالی، هزینه سرسام‌آوری داره. RAG یه رویکرد خیلی اقتصادی‌تر برای وارد کردن داده‌های جدیده. این روش باعث میشه فناوری هوش مصنوعی مولد برای همه قابل دسترس‌تر و کاربردی‌تر بشه.

اطلاعات همیشه به‌روز

حتی اگه داده‌های آموزشی اولیه یه LLM برای نیازهای شما مناسب باشن، به‌روز نگه داشتنشون یه چالش بزرگه. RAG به توسعه‌دهنده‌ها این امکان رو میده که جدیدترین تحقیقات، آمارها یا اخبار رو در اختیار مدل‌های مولد قرار بدن. اون‌ها میتونن با استفاده از RAG، مدل LLM رو مستقیما به فیدهای زنده شبکه‌های اجتماعی، سایت‌های خبری یا منابع اطلاعاتی دیگه‌ای که مدام آپدیت میشن، وصل کنن. در نتیجه، LLM میتونه همیشه جدیدترین اطلاعات رو به کاربرها ارائه بده.

افزایش اعتماد کاربر

یکی از بهترین ویژگی‌های RAG اینه که به LLM اجازه میده اطلاعات دقیق رو به همراه منبعشون ارائه بده. یعنی خروجی مدل میتونه شامل نقل قول یا ارجاع به منابع باشه، درست مثل یه مقاله علمی. اینطوری کاربرها اگه نیاز به توضیحات بیشتر یا جزئیات دقیق‌تر داشته باشن، میتونن خودشون به اسناد منبع مراجعه کنن. این شفافیت، اعتماد و اطمینان به راهکار هوش مصنوعی شما رو به شدت بالا میبره.

کنترل بیشتر برای توسعه‌دهنده‌ها

با RAG، توسعه‌دهنده‌ها میتونن برنامه‌های چت خودشون رو بهینه‌تر تست و بهتر کنن. اون‌ها میتونن منابع اطلاعاتی LLM رو کنترل و تغییر بدن تا با نیازهای در حال تغییر یا کاربردهای بین‌بخشی سازگار بشن. توسعه‌دهنده‌ها همچنین میتونن دسترسی به اطلاعات حساس رو به سطوح مجوز مختلف محدود کنن و مطمئن بشن که LLM جواب‌های مناسبی تولید میکنه. علاوه بر این، اگه LLM برای سوالات خاصی به منابع اطلاعاتی اشتباهی ارجاع بده، میتونن به راحتی مشکل رو پیدا و برطرف کنن. اینطوری سازمان‌ها میتونن با اطمینان بیشتری از فناوری هوش مصنوعی مولد برای طیف وسیع‌تری از برنامه‌ها استفاده کنن.

RAG چطوری کار میکنه؟ بیاید بریم تو دل ماجرا

خب، حالا که فهمیدیم RAG چیه و چه مزایایی داره، وقتشه ببینیم این سیستم دقیقا چطوری کار میکنه.

بدون RAG: یه LLM عادی، ورودی کاربر رو میگیره و بر اساس اطلاعاتی که باهاش آموزش دیده (یعنی چیزهایی که از قبل «بلده»)، یه جوابی تولید میکنه.

با RAG: اینجا یه مولفه جدید به اسم «بازیابی اطلاعات» وارد بازی میشه. این بخش، از ورودی کاربر استفاده میکنه تا اول از همه اطلاعات رو از یه منبع داده جدید بکشه بیرون. بعد، هم سوال کاربر و هم اون اطلاعات مرتبطی که پیدا کرده، هر دو به LLM داده میشن. حالا LLM با استفاده از این دانش جدید و داده‌های آموزشی خودش، یه جواب خیلی بهتر و دقیق‌تر میسازه.

بیاید مراحل این فرآیند رو قدم به قدم ببینیم.

قدم اول: آماده‌سازی داده‌های خارجی

داده‌های جدیدی که خارج از مجموعه داده‌های آموزشی اصلی LLM قرار دارن، «داده‌های خارجی» نامیده میشن. این داده‌ها میتونن از منابع مختلفی مثل API ها، پایگاه داده‌ها یا مخازن اسناد بیان. فرمت این داده‌ها هم میتونه متفاوت باشه؛ مثلا فایل، رکورد پایگاه داده یا متن‌های طولانی.

اینجا از یه تکنیک هوش مصنوعی دیگه به اسم «مدل‌های زبانی جاسازی» یا Embedding Language Models استفاده میشه. این مدل‌ها، داده‌ها رو به نمایش‌های عددی تبدیل میکنن و اون‌ها رو توی یه نوع پایگاه داده خاص به اسم «پایگاه داده برداری» یا Vector Database ذخیره میکنن. این فرآیند یه «کتابخانه دانش» میسازه که مدل‌های هوش مصنوعی مولد میتونن اون رو بفهمن.

قدم دوم: پیدا کردن اطلاعات مرتبط

مرحله بعدی انجام یه جستجوی مبتنی بر ارتباطه. درخواست کاربر به یه نمایش برداری تبدیل میشه و با بردارهای موجود تو پایگاه داده برداری مقایسه میشه تا شبیه‌ترین‌ها پیدا بشن.

برای مثال، یه چت‌بات هوشمند رو در نظر بگیرید که میتونه به سوالات منابع انسانی یه سازمان جواب بده. اگه یه کارمند جستجو کنه: «من چقدر مرخصی سالانه دارم؟»، سیستم میره و اسناد مربوط به سیاست مرخصی سالانه رو به همراه سابقه مرخصی‌های قبلی خود اون کارمند پیدا میکنه. این اسناد خاص برگردونده میشن چون به شدت با چیزی که کارمند وارد کرده، مرتبطن. این ارتباط با استفاده از محاسبات و نمایش‌های ریاضی برداری محاسبه و برقرار شده.

قدم سوم: تقویت کردن پرامپت LLM

حالا، مدل RAG ورودی کاربر (یا همون پرامپت) رو با اضافه کردن داده‌های مرتبطی که پیدا کرده، «تقویت» میکنه. این مرحله از تکنیک‌های «مهندسی پرامپت» استفاده میکنه تا به طور موثری با LLM ارتباط برقرار کنه. پرامپت تقویت‌شده به مدل‌های زبانی بزرگ اجازه میده تا یه جواب دقیق برای سوال کاربر تولید کنن. به این کار گاهی «پرامپت استافینگ» یا Prompt Stuffing هم میگن، چون داریم اطلاعات اضافی و کلیدی رو به اول پرامپت اضافه میکنیم تا مدل رو به سمت جواب درست هدایت کنیم.

قدم چهارم: تولید جواب نهایی

در نهایت، LLM با استفاده از این پرامپت تقویت‌شده که هم سوال اصلی کاربر و هم اطلاعات مرتبط از کتابخانه دانش رو داره، یه جواب جامع و دقیق تولید میکنه. بعضی از مدل‌ها ممکنه مراحل اضافه‌ای هم برای بهبود خروجی داشته باشن، مثل رتبه‌بندی مجدد اطلاعات بازیابی‌شده یا انتخاب بهترین بخش از متن.

و یک نکته مهم: به‌روزرسانی داده‌های خارجی

شاید بپرسید خب اگه این داده‌های خارجی قدیمی بشن چی؟ برای اینکه اطلاعات همیشه به‌روز باشن، باید اسناد و نمایش‌های برداری اون‌ها به صورت ناهمزمان آپدیت بشن. این کار میتونه از طریق فرآیندهای خودکار و در لحظه یا پردازش‌های دسته‌ای دوره‌ای انجام بشه. این یه چالش رایج تو تحلیل داده‌هاست و میشه از رویکردهای مختلف علم داده برای مدیریت تغییرات استفاده کرد.

تفاوت RAG با جستجوی معنایی چیه؟

جستجوی معنایی یا Semantic Search نتایج RAG رو برای سازمان‌هایی که میخوان منابع دانش خارجی عظیمی رو به برنامه‌های LLM خودشون اضافه کنن، بهبود میبخشه. شرکت‌های مدرن حجم زیادی از اطلاعات مثل راهنماها، سوالات متداول، گزارش‌های تحقیقاتی و اسناد منابع انسانی رو تو سیستم‌های مختلف ذخیره میکنن. پیدا کردن زمینه مرتبط تو این حجم از داده کار سختیه و در نتیجه کیفیت خروجی مدل مولد رو پایین میاره.

فناوری‌های جستجوی معنایی میتونن پایگاه داده‌های بزرگی از اطلاعات پراکنده رو اسکن کنن و داده‌ها رو با دقت بیشتری بازیابی کنن. برای مثال، اون‌ها میتونن به سوالی مثل «پارسال چقدر هزینه تعمیرات ماشین‌آلات شد؟» با پیدا کردن اسناد مرتبط و برگرداندن متن مشخص، به جای یه لیست از نتایج جستجو، جواب بدن. بعد توسعه‌دهنده‌ها میتونن از اون جواب برای دادن زمینه بیشتر به LLM استفاده کنن.

راهکارهای جستجوی معمولی یا مبتنی بر کلمات کلیدی تو RAG، برای کارهای دانش‌محور نتایج محدودی تولید میکنن. در مقابل، فناوری‌های جستجوی معنایی تمام کارهای آماده‌سازی پایگاه دانش رو انجام میدن. اون‌ها همچنین قطعه‌های متنی مرتبط از نظر معنایی رو تولید و بر اساس ارتباط مرتب میکنن تا کیفیت خروجی RAG به حداکثر برسه. موتورهای جستجوی پیشرفته مثل Vertex AI Search از جستجوی معنایی و جستجوی کلمات کلیدی با هم (که بهش میگن جستجوی ترکیبی یا Hybrid Search) و یه سیستم رتبه‌بندی مجدد (re-ranker) استفاده میکنن تا مطمئن بشن نتایج برتر، واقعا مرتبط‌ترین‌ها هستن.

شیرجه‌ای عمیق‌تر در دنیای RAG: روش‌های پیشرفته

خب تا اینجا با اصول اولیه RAG آشنا شدیم. اما دنیای RAG خیلی بزرگتره و روش‌های مختلفی برای بهتر کردن عملکردش وجود داره. بیاید چندتا از این تکنیک‌های پیشرفته رو بررسی کنیم.

بهبود در ایندکس کردن و رمزگذاری

این روش‌ها روی نحوه تبدیل متن به بردارهای عددی تمرکز دارن. ما دو نوع بردار اصلی داریم:

بردارهای پراکنده (Sparse Vectors): این بردارها هویت یه کلمه رو نشون میدن، طولشون به اندازه کل لغات دیکشنریه و بیشترشون صفره.
بردارهای متراکم (Dense Vectors): این بردارها معنای کلمه رو رمزگذاری میکنن، فشرده‌ترن و صفرهای کمتری دارن.

با بهینه‌سازی نحوه محاسبه شباهت بین این بردارها، میشه عملکرد رو بهتر کرد. برای مثال، استفاده از «ضرب داخلی» (Dot products) امتیازدهی شباهت رو بهتر میکنه و جستجوهای «نزدیک‌ترین همسایه تقریبی» (ANN) کارایی بازیابی رو نسبت به جستجوهای «K-نزدیک‌ترین همسایه» (KNN) افزایش میدن.

بهبود در بازیابی اطلاعات

این روش‌ها سعی میکنن کیفیت پیدا کردن اسناد در پایگاه داده‌های برداری رو بهتر کنن.

پیش‌آموزش بازیاب (Retriever): با استفاده از تکنیکی به اسم Inverse Cloze Task (ICT)، میشه به مدل یاد داد که با پیش‌بینی متن‌های حذف شده در اسناد، الگوهای بازیابی رو یاد بگیره.
بهینه‌سازی بازیاب تحت نظارت: این روش احتمالات بازیابی رو با توزیع احتمال مدل تولیدکننده هماهنگ میکنه تا انتخاب‌های بازیاب دقیق‌تر بشن.
تکنیک‌های رتبه‌بندی مجدد (Reranking): این تکنیک‌ها با اولویت‌بندی مرتبط‌ترین اسناد بازیابی‌شده در طول آموزش، عملکرد بازیاب رو بهتر میکنن.

بهبود در بخش تولیدکننده (Generator)

میشه خود مدل زبانی رو با در نظر گرفتن بازیاب از اول طراحی کرد. برای مثال مدلی به اسم Retro که ۲۵ برابر کوچکتر از مدل‌های معمولیه، میتونه به عملکردی مشابه اون‌ها برسه. فرضیه اینه که با دادن دانش تخصصی در حین آموزش، Retro دیگه نیاز نداره روی اون حوزه تمرکز کنه و میتونه منابع کوچکترش رو فقط به معناشناسی زبان اختصاص بده. البته گزارش شده که این مدل قابل بازتولید نبوده و نسخه اصلاح شده‌ای به اسم Retro++ معرفی شده.

استراتژی‌های تقسیم‌بندی (Chunking)

تقسیم‌بندی یعنی شکستن داده‌ها به قطعات کوچکتر (Chunk) تا بازیاب بتونه جزئیات رو راحت‌تر پیدا کنه. سه نوع استراتژی اصلی برای این کار وجود داره:

طول ثابت با همپوشانی (Fixed length with overlap): این روش سریع و آسونه. همپوشانی بین قطعات متوالی کمک میکنه زمینه معنایی در بین قطعات حفظ بشه.
قطعات مبتنی بر نحو (Syntax-based chunks): میشه اسناد رو بر اساس جملات تقسیم کرد. کتابخانه‌هایی مثل spaCy یا NLTK در این زمینه کمک میکنن.
تقسیم‌بندی مبتنی بر فرمت فایل (File format-based chunking): بعضی از فایل‌ها به طور طبیعی ساختار تقسیم‌شده دارن. برای مثال، فایل‌های کد بهتره به صورت توابع یا کلاس‌های کامل تقسیم و برداری بشن. فایل‌های HTML باید تگ‌های <table> یا <img> رو دست‌نخورده نگه دارن. کتابخانه‌هایی مثل Unstructured یا Langchain میتونن در این روش کمک کنن.

استفاده از گراف‌های دانش (Knowledge Graphs)

به جای استفاده از اسناد متنی، میشه از گراف‌های دانش استفاده کرد. میشه مجموعه‌ای از اسناد یا کتاب‌ها رو به یه گراف دانش تبدیل کرد. بعد، زیرگراف‌ها رو میشه برداری کرد، در یه پایگاه داده برداری ذخیره کرد و برای بازیابی استفاده کرد. مزیت این روش اینه که گراف‌ها ساختار قابل تشخیص‌تری نسبت به رشته‌های متنی دارن و این ساختار میتونه به بازیابی حقایق مرتبط‌تر کمک کنه. به این رویکرد گاهی GraphRAG هم میگن.

RAG در دنیای واقعی: کاربردها و ابزارها

سیستم‌های RAG به خاطر توانایی‌شون در پاسخگویی به سوالات با استفاده از داده‌ها، در طیف وسیعی از کاربردها استفاده میشن. بیاید چند نمونه واقعی رو ببینیم:

چت‌بات‌های تخصصی و دستیاران مجازی: شرکت‌ها میتونن چت‌بات‌های پشتیبانی مشتری خودشون رو با استفاده از RAG به دانش داخلی شرکت (مثل اطلاعات محصولات، سیاست‌ها و خدمات) مجهز کنن.
تحقیقات: تحلیل‌گران مالی میتونن گزارش‌های مخصوص مشتری رو با اطلاعات به‌روز بازار تهیه کنن و متخصصان پزشکی میتونن با سوابق بیماران و موسسات در تعامل باشن.
تولید محتوا: توانایی RAG در ارجاع به منابع معتبر میتونه به تولید محتوای قابل اعتمادتر منجر بشه.
تحلیل بازار و توسعه محصول: مدیران کسب‌وکار میتونن از روندهای شبکه‌های اجتماعی و اخبار برای تصمیم‌گیری‌های بهتر استفاده کنن.
موتورهای دانش داخلی: RAG میتونه کارمندها رو با اطلاعات داخلی شرکت توانمند کنه و فرآیندهایی مثل آموزش کارمندان جدید یا پشتیبانی منابع انسانی رو ساده‌تر کنه.
سرویس‌های توصیه‌گر: پلتفرم‌های تجارت الکترونیک یا سرویس‌های پخش محتوا میتونن با تحلیل رفتار قبلی کاربر و مقایسه اون با پیشنهادات فعلی، توصیه‌های دقیق‌تری ارائه بدن.

خیلی از شرکت‌های بزرگ فناوری ابزارها و پلتفرم‌هایی برای پیاده‌سازی RAG ارائه میدن. برای مثال:

AWS: سرویس Amazon Bedrock به شما اجازه میده تا با چند کلیک، مدل‌های پایه رو به منابع داده خودتون برای RAG متصل کنید. Amazon Kendra یه سرویس جستجوی سازمانی دقیق هست که میشه از API اون در گردش کار RAG استفاده کرد. Amazon SageMaker JumpStart هم یه هاب یادگیری ماشینه که پیاده‌سازی RAG رو سرعت میبخشه.
Google Cloud: ابزارهایی مثل Vertex AI Search که از جستجوی ترکیبی استفاده میکنن، برای ساخت سیستم‌های RAG پیشرفته به کار میرن.
Microsoft Azure: سرویس Azure AI Search یه راهکار اثبات‌شده برای بازیابی اطلاعات در معماری RAG هست.
NVIDIA: انویدیا NVIDIA NeMo Retriever و میکروسرویس‌های NVIDIA NIM رو ارائه میده که بخشی از پلتفرم نرم‌افزاری NVIDIA AI Enterprise هستن. همچنین یک طرح اولیه به اسم NVIDIA AI Blueprint for RAG برای کمک به توسعه‌دهنده‌ها وجود داره.
IBM: پلتفرم هوش مصنوعی و داده watsonx از RAG پشتیبانی میکنه.
Cohesity: پلتفرم Cohesity Gaia از RAG AI برای جستجو و خلاصه‌سازی محتوا با استفاده از زبان روزمره استفاده میکنه.

حتی میشه RAG رو روی کامپیوترهای شخصی هم اجرا کرد. کامپیوترهای مجهز به کارت‌های گرافیک NVIDIA RTX میتونن بعضی از مدل‌های هوش مصنوعی رو به صورت محلی اجرا کنن. با استفاده از RAG روی یه کامپیوتر شخصی، کاربرها میتونن به منابع دانش خصوصی خودشون (مثل ایمیل‌ها، یادداشت‌ها یا مقالات) متصل بشن و مطمئن باشن که داده‌هاشون خصوصی و امن باقی میمونه.

تاریخچه کوتاه RAG: از کجا اومد؟

ریشه‌های این تکنیک به اوایل دهه ۱۹۷۰ برمیگرده، زمانی که محققان سیستم‌های پاسخ به سوال رو نمونه‌سازی کردن. این مفاهیم در طول سال‌ها ثابت موندن، اما موتورهای یادگیری ماشین که اون‌ها رو به حرکت درمی‌آوردن، به طور قابل توجهی رشد کردن. در اواسط دهه ۱۹۹۰، سرویس Ask Jeeves (که الان Ask.com هست) این ایده رو محبوب کرد. در سال ۲۰۱۱، Watson از شرکت IBM با شکست دادن دو قهرمان انسانی در مسابقه تلویزیونی Jeopardy به شهرت رسید.

اما اصطلاح RAG برای اولین بار در یه مقاله تحقیقاتی در سال ۲۰۲۰ توسط تیمی از Meta (که اون موقع Facebook AI Research بود) به رهبری Patrick Lewis معرفی شد. پاتریک لوئیس، نویسنده اصلی اون مقاله، بعدها به شوخی بابت این اسم مخفف نه چندان جالب عذرخواهی کرد، چون اون موقع نمیدونستن که این روش اینقدر گسترده میشه.

اون گفت: «اگه میدونستیم کارمون اینقدر فراگیر میشه، حتما بیشتر روی اسمش فکر میکردیم».

این تیم در آزمایشگاه هوش مصنوعی جدید متا در لندن روی این پروژه کار میکرد. اون‌ها به دنبال راه‌هایی بودن تا دانش بیشتری رو در پارامترهای یه LLM جا بدن. وقتی لوئیس یه سیستم بازیابی امیدوارکننده رو به کار در حال انجامشون وصل کرد، نتایج اولیه به طور غیرمنتظره‌ای چشمگیر بود. این کار که روی مجموعه‌ای از پردازنده‌های گرافیکی انویدیا اجرا میشد، نشون داد که چطوری میشه مدل‌های هوش مصنوعی مولد رو معتبرتر و قابل اعتمادتر کرد. از اون زمان، صدها مقاله این مفاهیم رو گسترش دادن و این حوزه همچنان یه زمینه تحقیقاتی فعاله.

محدودیت‌ها و چالش‌ها: آیا RAG یه راه حل کامله؟

با اینکه RAG دقت مدل‌های زبانی بزرگ رو خیلی بهتر میکنه، اما همه چالش‌ها رو از بین نمیبره و یه راه حل کامل برای مشکل توهم در LLM ها نیست. بیاید چندتا از محدودیت‌هاش رو ببینیم:

RAG هنوز هم میتونه توهم بزنه: یه LLM هنوز هم ممکنه حول محور اطلاعات منبعی که بهش داده شده، چیزهایی از خودش بسازه.
ممکنه منابع گمراه‌کننده رو بازیابی کنه: گاهی اوقات سیستم‌های RAG منابعی رو پیدا میکنن که از نظر واقعی درستن، اما گمراه‌کننده هستن و این منجر به خطاهایی در تفسیر میشه.
عدم درک زمینه: یه LLM ممکنه جملاتی رو از یه منبع استخراج کنه بدون اینکه به زمینه اون توجه کنه و در نتیجه به یه نتیجه‌گیری اشتباه برسه. یه مثال جالب از MIT Technology Review اینه: یه جواب تولید شده توسط هوش مصنوعی میگه: «ایالات متحده یک رئیس جمهور مسلمان داشته، باراک حسین اوباما». این مدل، این اطلاعات رو از یه کتاب آکادمیک با عنوان کنایه‌آمیز «باراک حسین اوباما: اولین رئیس جمهور مسلمان آمریکا؟» بازیابی کرده بود. LLM زمینه کنایه‌آمیز عنوان کتاب رو «نفهمیده» و در نتیجه یه جمله نادرست تولید کرده.
مشکل با اطلاعات متناقض: وقتی با اطلاعات متناقض روبرو میشه، مدل‌های RAG ممکنه در تشخیص اینکه کدوم منبع دقیقه، دچار مشکل بشن. بدترین حالت اینه که مدل ممکنه جزئیات رو از چندین منبع با هم ترکیب کنه و جواب‌هایی تولید کنه که اطلاعات قدیمی و جدید رو به شکلی گمراه‌کننده با هم ادغام میکنن.
نیاز به آموزش برای تشخیص عدم قطعیت: LLM ها ممکنه در تشخیص اینکه اطلاعات کافی برای ارائه یه پاسخ قابل اعتماد ندارن، مشکل داشته باشن. بدون آموزش خاص، مدل‌ها ممکنه حتی وقتی باید عدم قطعیت خودشون رو نشون بدن، باز هم جوابی تولید کنن. به قول IBM، این مشکل زمانی به وجود میاد که مدل توانایی ارزیابی محدودیت‌های دانش خودش رو نداره.

پس با اینکه RAG یه گام بزرگ رو به جلوئه، اما هنوز چالش‌های جالبی برای درست انجام دادنش باقی مونده و تحقیقات برای بهتر کردنش در هر دو بخش بازیابی و تولید، همچنان ادامه داره.

پرسش و پاسخ (سوالات متداول)

خب بچه‌ها، حالا که یه دور کامل با مفهوم RAG آشنا شدیم، بیاید چندتا از سوال‌هایی که ممکنه تو ذهنتون باشه رو با هم جواب بدیم.

سوال ۱: پس RAG یه نوع جدیدی از هوش مصنوعیه؟
نه دقیقا. RAG خودش یه مدل هوش مصنوعی جدید نیست، بلکه یه چارچوب یا یه تکنیکه که با مدل‌های هوش مصنوعی موجود (یعنی LLM ها) ترکیب میشه تا عملکردشون رو بهتر کنه. مثل این میمونه که به یه ماشین خیلی قوی، یه سیستم مسیریابی (GPS) خیلی پیشرفته اضافه کنیم. ماشین همون ماشینه، ولی حالا خیلی بهتر و دقیق‌تر به مقصد میرسه.

سوال ۲: تفاوت اصلی RAG با فاین-تیونینگ (Fine-tuning) چیه؟
این سوال خیلی خوبیه. هم RAG و هم فاین-تیونینگ هدفشون اینه که عملکرد LLM رو تو یه حوزه خاص بهتر کنن، ولی روششون کاملا متفاوته.

فاین-تیونینگ: مثل اینه که یه دانشجو رو برای یه امتحان خیلی تخصصی آماده کنیم. ما بهش یه سری کتاب و جزوه جدید میدیم و اون باید همه رو بخونه و «یاد بگیره» تا پارامترهای دانشش تغییر کنه. این فرآیند پرهزینه و زمان‌بره.
RAG: مثل اینه که به همون دانشجو اجازه بدیم سر امتحان، کتاب باز شرکت کنه. دانشجو نیازی نداره همه چیز رو از قبل حفظ کنه. هر وقت به سوالی رسید، به کتاب‌های مرجعش نگاه میکنه و جواب رو پیدا میکنه. این روش سریع‌تر و انعطاف‌پذیرتره.

البته این دو روش میتونن با هم هم استفاده بشن تا بهترین نتیجه رو بدن.

سوال ۳: آیا RAG مدل LLM رو آموزش میده؟
نه، و این یکی از نکات کلیدی RAG هست. RAG مدل رو دوباره آموزش نمیده. به جای آموزش، اطلاعات رو به صورت «در لحظه» در اختیار مدل قرار میده تا ازش برای تولید جواب استفاده کنه. این کار هزینه‌های محاسباتی و مالی رو به شدت کاهش میده.

سوال ۴: آیا راه‌اندازی یه سیستم RAG خیلی پیچیده‌اس؟
بستگی داره. اصول اولیه‌اش میتونه خیلی ساده باشه. بعضی از توسعه‌دهنده‌ها میگن میشه با چند خط کد یه سیستم RAG ابتدایی ساخت، مخصوصا با استفاده از کتابخانه‌هایی مثل LangChain. اما ساختن یه سیستم RAG واقعا باکیفیت، دقیق و بهینه که تو دنیای واقعی خوب کار کنه، میتونه خیلی پیچیده باشه و نیاز به تخصص تو زمینه‌هایی مثل پایگاه داده‌های برداری، مهندسی پرامپت و بهینه‌سازی الگوریتم‌های جستجو داره.

سوال ۵: آیا من میتونم از RAG روی کامپیوتر شخصی خودم استفاده کنم؟
بله! همونطور که تو متن اشاره شد، با پیشرفت سخت‌افزارها، مخصوصا کارت‌های گرافیک قوی مثل سری RTX انویدیا، الان میشه مدل‌های زبانی رو به صورت محلی روی کامپیوترهای شخصی اجرا کرد. این به شما اجازه میده یه سیستم RAG بسازید که به داده‌های خصوصی خودتون (مثل ایمیل‌ها، اسناد و یادداشت‌ها) دسترسی داشته باشه، بدون اینکه نگران باشید اطلاعاتتون از کامپیوترتون خارج میشه. این یه پیشرفت خیلی مهمه برای حفظ حریم خصوصی.

منابع

[۲] What is retrieval augmented generation?| Glossary | Cohesity
[۴] RAG and generative AI – Azure AI Search | Microsoft Learn
[۶] [deleted by user] : r/MLQuestions
[۸] What is retrieval-augmented generation (RAG)? – IBM Research
[۱۰] Noob q: what’s the difference between a RAG and AI App? : r/Rag

[۱] What is RAG? – Retrieval-Augmented Generation AI Explained – AWS
[۳] What Is Retrieval-Augmented Generation aka RAG | NVIDIA Blogs
[۵] What is Retrieval-Augmented Generation (RAG)? | Google Cloud
[۷] What is RAG (Retrieval Augmented Generation)? | IBM
[۹] Retrieval-augmented generation – Wikipedia