۲-۱۴-۹ الگوریتم مجاورت کی-گرم
برای بررسی مجاورت دو رشته استفاده می شود. مجموعه N-gram شامل دنباله های nتایی یک رشته است. به طور مثال، رشته information که gram-4 آن به صورت زیر است:
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
info – nfor – form – orma – rmat – mati – atio – tion
روش کلی بدین صورت است که ابتدا تمامی N-gram ها تولید و اندیـس گـذاری می شود. برای این کار دو روش وجود دارد
-
- روش اول: ابتدا N-gram های کلمـه پـیدا شده و سپس با N-gram های دیکشنـری مقایـسه می گردند. فرض بر این است که کلمه اشتباه فقط ۲ یا ۳ کاراکتر اشتباه یا گم شده یا تغـییر یافته دارد با مقایسه N-gram ها می توان نزدیک ترین کلمه درست را پیدا کرد.
-
- روش دوم: ابتدا کلمات مشابه کلمه اشتباه را با بهره گرفتن از الگوریتم Leveshtein برای یک فاصله ویرایشی معین، پیدا نموده سپس برای هر کدام از آن ها N-gram ها تولید می شود، هر کـدام از کلمات که تعداد بیشتریN-gram مشابه با کلمه غلط داشـته باشد، به عنوان پیشنهاد ارائه می گردد. الگوریتم N-gram برای کشف غلط های ناشی از جای خالی نیز به کار می روند. برای این کار می توان در تولید مشابه های نزدیک کلمه، علاوه بر افزودن، کاستن و جابجایی، جای خالی را بین حروف قرار داد[۵۹].
۲-۱۴-۱۰ غلط یابی حساس به متن
اگر کلمات وارد شده از نظر املا صحیح باشند ممکن است اشتباهی از طرف کاربر در وارد کردن عبارت صورت گرفته باشد، مانند “فروشگاه مهرآباد تهران” به جای “فرودگاه مهرآباد تهران”. برای چنین اصلاحاتی نمی توان از الگوریتم کلمه مجزا استفاده نمود و باید به الگوریتم حساس به متن رجوع نمود. دو روش برای این کار وجود دارد[۵۷ و ۵۹]:
-
- روش اول: ساده ترین روش این است که برای هر کدام از کلمات عبارت وارد شده توسط کاربر، به طور جداگانه، کلمات مشابه را به روش های “کلمه مجزا” مانند “فاصله ویرایشی” و “کی-گرم” پیدا نموده و ترکیبات مختلف آن ها را تشکیل داد. سپس عبارت تشکیل شده را بازیابی کرده هر کدام که تعداد نتایج بیشتری را باز گرداند به عنوان پیشنهاد به کاربر ارائه نمود. این روش می تواند سربار زیادی تولید کند مخصوصاً وقتیکه تعداد کلمات مشابه زیاد باشد.
-
- روش دوم: می توان از روش های تشخیص برای بهبود نتایج جستجو استفاده نمود. در این روش تمام ترکیبات ممکن با کلمات مشابه تولید نمی شوند بلکه متداول ترین آن ها از روی آمار هم نشینـی های دو کلمه ای تولید شده و برای سه کلمه گسترش می یابند. برای مثال، فرودگاه مهرآباد بسیار متداول تر از فروشگاه مهرآباد می باشد. همچنین عبارت مهرآباد تهران متداول تر از مهرآباد مهران است لذا ترکیب فرودگاه مهرآباد تهران محتمل تر است. دو منبع برای بدست آوردن آمار همنشینی های دو کلمه ای وجود دارد. منبع اول هم نشینی کلمات در اسناد نمایه گذاری شده و منبـع دوم همنشینـی کلمات در پرسش های وارد شده توسط کاربران است. زمانی که دو کاربر مختلف دنبال موضوعی یکسان می گردند ممکن است از کلمات کلیدی متفاوتی استفاده کنند.
میزان موفقیت کاربر از نظر سرعت و دقت بستگی به هوش و طرز فکر و دریافت ذهنی وی از عملکرد موتور جستجو دارد. تجربه نشان می دهد کاربران پس از مدتی با رفتار موتور جستجو آشنا می شوند و کلماتی را انتخاب می کنند که بهتر از گذشته عمل می کند.
۲-۱۴-۱۱ مفهوم ربط
کلید واژه ها را بایستی با شکل صحیح و در قالبی مناسب وارد کرد و در انتظار پاسخ از سوی موتور جستجو بود اما کاربران مختلف کلید واژه های مختلفی را به موتور جستجو وارد می کنند چون تجارب، دانش و مهارت های متفاوتی دارند. یک موتور جستجو باید قادر باشد جواب کاربران با شرایط مختلف را بدهد. کاربر برای کار با موتور جستجو باید سه دانش داشته باشد[۴۸]:
-
- ذهنی
-
- فنی
-
- معنایی
دانش ذهنی، دانش مورد نیاز برای تبدیل یک نیاز اطلاعاتی به یک در خواست قابل جستجو می باشد. دانش فنی، مهارت های اساسی بکارگیری رایانه و ترکیب درخواست های وارد شده به عنوان عبارت های جستجوی خاص می باشد و دانش معنایی، مشخص می کند که چگونه و در چه وقتی قابلیت موجود در موتور جستجو را باید بکار گرفت.
افزایش این سـه دانش از طـرف کاربر به صورت چشم گیـری، باعث افزایـش میـزان اسناد بازیابی شده می شود. در بسیاری از موارد کاربر چیزی را از موتور جستجو می خواهد که راجب آن اطلاع خاصی ندارد به همین دلیل رفتار کاربران در حین جستجو تا حـدی غیر قابل پیش بینی می شود. از آنجایی که هدف بازیابی اطلاعات، ایجاد ارتباط است از این رو ربط کلید جدایی ناپذیر بازیابی موثر است. ربط مقیاس موثر بودن میان منبع اطلاعات و دریافت کننده است.
۲-۱۴-۱۱-۱ ربط از نظر کاربر
ربط از نظر کاربر با معیار های زیر بررسی می شود:
-
- وضعیت شناختی[۷۸] کاربر
-
- ارزشی که به اطلاعات داده می شود
-
- فوریت کاربرد دانش جستجو شده
-
- دانش قبلی از همان موضوع
-
- مشکلی که باید گشوده شود
۲-۱۴-۱۱-۲ ربط از نظر سیستم بازیابی
ربط از نظر سیستم بازیابی با معیار های زیر بررسی می شود:
-
- محل کلید واژه
-
- بسامد نسبی
-
- وجود کلید واژه ها در متاتگ ها
-
- محبوبیت وب سایت
کار اصلی موتور جستجو سنجش ارتباط اطلاعات ذخیره شده و اطلاعات در خواست شده است. به عبارتی دیگر با ارائه یک سوال به نظام، نظام بازیابی باید بررسی کند که آیا اطلاعات ذخیره شده مربوط به پرسش است یا نه، اما ایهام و استعارات پشت واژگان و نقص بیان مفاهیم با برخی واژگان این ارتباط (ربط) را مشخص می سازد[۴۸].
۲-۱۴-۱۲ نظر خواهی از کاربر در رتبه بندی
برای برطرف کردن مشکل سوء تفاهـم بین ذهـن کاربر و الگوریتـم های موتور جستجـو اخیـراً از الگوریتم های پیشرفته تری استفاده می شود که در آن، نظر کاربر به عنوان یک پارامتـر لحـاظ می شـود. گـوگل یکی از موتور های جستجوی پیشتاز در این روش است[۳۴].
در ادامه، موتورهـای جستجـوی مختلف به چند گروه بزرگ دسته بندی می شوند. این دسته بندی کمک می کند که در جستجوی موضوعات مختلف از موتورهایی استفاده کنیم که ما را سریعتر به نتایج موردنظر برساند.
۱- موتورهای جستجوی اصلی[۷۹]