در حالی که در مدل محدود به جستجو بین آنها رابطه زیر برقرار میباشد(r2ثابت است):
برای مثال اگر دو صفحه p1 و p2 به ترتیب دارای محبوبیت ۹/۰ و ۱/۰ باشند صفحه p1، ۹ برابر بیشتر از صفحه p2 در مدل موج سوار تصادفی بازدید میشود:
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
در حالی که در مدل محدود به جستجو، p1 ، ۱۴۰ برابر بیشتر از p2 بازدید خواهد شد:
یکی از دلایلی که باعث ایجاد مشکلاتی مانند «غنیتر شدن اغنیاء» میشود، بازدید کاربران از صفحه اول شامل ۱۰ (یا ۲۰ ) نتیجه میباشد، که باعث میشود تا صفحات دیگر شامل اسناد باکیفیت در معرض دید قرار نگیرند. به عبارت دیگر ما دو نوع صفحه در لیست رتبهبندی برای هر پرسوجو داریم: صفحات با محبوبیت بالا و صفحات جدید با کیفیت بالا. در صورتیکه بتوانیم صفحات محبوب را استخراج[۶۳]، و صفحات جدید باکیفیت را کشف[۶۴]، و آنها را به درستی ترکیب کنیم به نتیجه خوبی خواهیم رسید.
با بهره گرفتن از روشی به نام ارتقاء رتبه[۶۵] به صفحات جدید، مجال قرار گرفتن در صدر لیست رتبهبندی (۱۰ نتیجه اول) را میدهد. به عبارت دیگر عدالت بین همه برقرار میشود. لذا وقتی یک صفحه باکیفیت در معرض دید قرار گیرد جایگاه آن محکم و در غیر این صورت (کیفیت پایین) جایگاه خود را از دست میدهد. بنابراین یک ترازش ۶ میان صفحات فعلی محبوب و صفحات جدید وجود دارد. آقای پاندی نشان داده که این روش%۶۰ در پیدا کردن صفحات باکیفیت نسبت به روش عادی بهبود پیدا کرده است]۳۲[.همچنین عنوان شده است که روابط زیر بین کیفیت، سطح آگاهی و محبوبیت صفحه p برقرار میباشد: A(p,t) سطح آگاهی کاربران از صفحه p در زمان t (درصدی از کاربران که صفحه P را حداقل یکبار بازدید کرده باشند) است.
بدین معنی که، نهایتاً در روش رتبهبندی معمولی صفحاتِ باکیفیت، محبوبیت خود را پیدا میکنند (ولی در زمان بی نهایت) و هدف، کم کردن این زمان میباشد. برای ارزیابی، دو پارامتر[۶۶] TBPیا زمان لازم برای محبوب شدن یک صفحه و [۶۷]QPC یا میانگین کیفیت صفحات کلیک شده، استفاده شده است. هدف کم کردن TBP و زیاد کردن QPC میباشد.
۲-۴ رتبهبندی ترکیبی
روشهایی که از هر دوی پیوند و محتوا برای رتبهبندی استفاده میکنند، به دو دسته کلی تقسیم میشوند:
روشهایی که با کمک محتوا، فرایند آنالیز محتوا را بهبود میدهند: مانند هیتس و TSPR
روشهای انتشار وابستگی که با کمک ساختار وب، ساختار انتشار اطلاعات محتوا را بهبود میدهند.
یک روش رتبهبندی با بهره گرفتن از ترکیب پیوند و محتوا که از یک مدل انتشار وابستگی بین صفحات استفاده میکند مطرح میشود [۳۳]. در این مدل، امتیازی به نام ابَر وابستگی، برای هر سند P تعریف شده است که به سه پارامتر شباهت بین پرسوجو و سند S(p) جمع وزن دار اَبَر وابستگی صفحاتی که به p اشاره کرده و همچنین p به آنها اشاره میکند، بستگی دارد. ترکیب خطی این سه پارامتر به صورت زیر محاسبه میشود:
در معادله فوق، WIو WO به ترتیب وزن پیوندهای ورودی و خروجی صفحه p میباشند. با بهره گرفتن از این مدل سه حالت مختلف ارائه میشود:
الف) پیوند ورودی وزن دار(Weighted-In-Link)
این مدل شبیه مدل موج سوار تصادفی استفاده شده در پیجرنک است. با این تفاوت که وابسته به پرسوجو است. احتمال اینکه کاربر در هنگام پویش وب به صفحهp برسد، برابر با امتیاز ابر وابستگی نمیباشد. در این مدل، کاربر صفحات خروجی را با توجه به درجهی شباهتشان با پرسوجو، انتخاب میکند.
ب) پیوند خروجی وزن دار(Weighted-In-Link)
در این مدل کاربر با احتمال محتوای یک صفحه را میخواند و با احتمالپیوندهای خروجی صفحه را پیمایش میکند.
ج) پیوند خروجی یکنواخت (Uniform-Out-Link)
این مدل که حالت خاص مدل (ب) است، در هر صفحه کاربر محتوای یک صفحه را میخواند و با احتمال همهی پیوندهای خروجی را پیمایش میکند.
مدلهای بالا دارای دو خاصیت زیر هستند:
فرمولهای آنها بازگشتی بوده.
آنقدر تکرار میشوند تا به مقدار ثابت همگرا شوند.
رتبهبندی وابسته به پرسوجو است. یعنی در ابتدا گراف حاصل از اسناد مرتبط با پرسوجو تشکیل شده و سپس الگوریتمهای فوق اجرا میشود. بنابراین الگوریتم فوق به صورت بر خط اجرا خواهد شد.
آزمایشات انجام شده نشان میدهد که ترکیب پیوند و محتوا مفید بوده و نسبت به حالت پایه که فقط مبتنی بر محتوا است حدود %۱در شاخص دقت بهتر عمل میکند. به علاوه پیوند ورودی- وزن دار دارای عملکرد بهتری نسبت به بقیه میباشد. لازم به ذکر است که آزمایشات روی TREC – ۲۰۰۲ و TREC ۲۰۰۳ انجام شده است و نشان داده شده که مدل فوق به مجموعه دادهها نیز وابسته است. اصلیترین مشکل این الگوریتم بر خط بودن میباشد که باعث میشود سرعت سیستم در پاسخ کاربر کم شود.
یک چارچوب کلی برای ترکیب اطلاعات متن و پیوند، که از یک دید احتمالی برای توزیع امتیازات استفاده میکند، به نام انتشار وابستگی احتمالی ارائه شده است]۳۴.[ مجموعهی همسایههای موجود (مانند صفحات ورودی و خروجی) برای انتشار امتیازهای احتمالی در نظر گرفته شده و با تغییر پارامترها به روشهای مبتنی بر اتصال مثل پیجرنک و هیتس تبدیل میشود. بر خلاف روش قبلی، امتیاز صفحات قبل از انتشار به یک مقدار احتمالی تبدیل شده و بعد منتشر میشوند. همچنین در این مقاله گفته شده که طبق آزمایشهای انجام شده در مقایسه با روشهای مبتنی بر محتوا و همچنین روشهایی که فقط از انتشار امتیاز خام (روش قبلی) استفاده میکنند، افزایش قابل توجهی بدست آمده است. یک چارچوب کلی برای روشهای انتشار وابستگی بیان شده و روشهایی که وجود دارند با هم مقایسه شده است]۳۴[. جدول زیر انواع الگوریتمهای ترکیبی به همراه مخففهای آنها را نشان میدهد.
جدول ۲- ۲ : انواع مدلهای ترکیبی موجود [۳۵]
در آن، نتایج زیر در مقایسه با روش BM25 بدست آمده است:
SS بهترین جواب را دارد و دو روش ST و HT-WI شبیه به هم هستند.
مدلهای مبتنی بر سایت مؤثرتر و پایدارتر از مدلهای مبتنی بر پیوند هستند.
روشهای مبتنی بر امتیاز، حتماً باید به صورت بر خط محاسبه شوند. چون به پرسوجو وابسته هستند و محاسبه برون خط آنها بسیار مشکل است.
پیچیدگی زمانی ST در حالت برون خط قابل قبول است و در موتورهای جستجوی امروزی قابل پیاده سازی است. در حالی که مدل HT دارای پیچیدگی زمانی زیادی است و عملاً قابل پیاده سازی نیست.
چون مدل ST مبتنی بر سایت است قابل پیادهسازی به صورت موازی خواهد بود (هر سایت به صورت جداگانه).
محاسبه ST به صورت بازگشتی و غیر بازگشتی دارای نتیجه یکسانی است. همچنین جهت انتشار، فقط از برگها به سمت ریشه است.
۲-۵ رتبهبندی مبتنی بر یادگیری
همانطور که گفته شد، یکی از مسائل اصلی مطرح در بازیابی اطلاعات، چگونگی رتبهبندی اطلاعات است. این مساله در محیط وب، به واسطه حجم بسیار زیاد اطلاعات از یک سو و نیز گرایش کاربران به بازدید از ابتدای لیست نتایج از سوی دیگر، اهمیت بیشتری پیدا میکند. برای حل این مسئله در طی سالیان اخیر توجه زیادی به استفاده از روشهای مبتنی بر یادگیری معطوف شده است]۳۶[. شکل (۲-۳ ( مدل مورد استفاده در اغلب این روشها را نشان میدهد. بر این اساس، فرایند یادگیری شامل دو مرحله آموزش و آزمون میباشد. با فرض داشتن مجموعه پرسوجوهای Q={q1 ,q2 , q3, …. .., qQ }و مجموعه اسناد D={d1 ,d2 , d ۳, …… ,dD} مخزن یادگیری، متشکل از جفتهای اسناد و پرسوجوهای (,)Q است که به هر جفت یک عدد نسبت داده میشود یا به عبارتی هر جفت با یک عدد برچسب میخورد (labeled) که نمایانگر میزان ارتباط بین پرسوجوی و سند است.
شکل ۲-۳۴ : شمای کلی رتبهبندی مبتنی بر یادگیری]۳۶[
طبقه بندی روشهای رتبهبندی مبتنی بر یادگیری
به طور کلی، روشهای مطرح شده در حوزه رتبهبندی که بر اساس یادگیری عمل میکنند، به سه دسته اصلی، تقسیم بندی میشوند:
روشهای نقطهای
روشهای جفتی
روشهای لیستی
در روشهای نقطهای، به هر جفت (سند-پرسوجو)، یک عدد نشان دهنده میزان ارتباط بین آنها، نسبت داده میشود. هدف از یادگیری، بدست آوردن مدلی است که بتواند حتیالمقدور به این جفتها، مقادیری را نسبت دهد که به میزان ارتباط واقعی آنها، نزدیک باشد.
در روشهای جفتی، با دریافت جفت اشیا (ویژگیهای اسناد و نیز رتبه نسبی آنها)، تلاش میشود به هر شیء، رتبهای حتیالمقدور به رتبه واقعیاش نسبت داده شود و بدین ترتیب، نهایتاً اشیاء در دو دسته کلی «به صورت صحیح رتبهبندی شده» و «به صورت نادرست رتبهبندی شده»، طبقهبندی میشوند. اغلب روشهای موجود رتبهبندی مبتنی بر یادگیری از این نوع هستند. نهایتاً روشهای مبتنی بر لیست، از لیست اشیاء مرتب شده به عنوان مجموعه داده یادگیری برای پیشبینی ترتیب اشیاء استفاده میکنند.
۲-۶ رتبهبندی مبتنی بر رفتار کاربر
با توجه به مشکلات روشهای مبتنی بر متن و پیوند، روشهای مبتنی بر رفتار و قضاوت کاربر برای برقراری عدالت و دموکراسی در وب مورد توجه قرار گرفت. به عبارت دیگر جهتِ رشد وب از نظر کمی و کیفی، تعیین صفحات اصلح توسط خود کاربران انجام میپذیرد. ولیکن تشخیص و استخراج قضاوت کاربران از اهمیت خاصی برخوردار میباشد.
لذا از چالشهای موجود موتورهای جستجو تشخیص رفتار و علائق یک کاربر است. به عبارت دیگر با دانستن علائق کاربر میتوان بر مشکل ابهام پرسوجوی او فائق آمده و رتبهبندی را بهتر انجام داد. دو روش برای جمع آوری دادههای رفتار کاربران وجود دارد: روش بازخورد مستقیم و بازخورد ضمنی در روش بازخورد مستقیم از کاربر درخواست میشود تا درباره نتیجه ارائه شده قضاوت کند که روش دشواری میباشد. در روش غیر مستقیم از رفتار کاربر در حین جستجو که در لاگ موتورهای جستجو و پراکسیها ثبت شده است، استفاده میشود. در نتیجه آن را میتوان با صرف کمترین هزینه جمع آوری کرد.