خصیصههای ۲-gram و ۳-gram دارای پراکندگی بیشتری نسبت به خصیصههای unigram هستند. به همین دلیل استفاده از این خصیصهها باعث کاهش دقت طبقهبندی میشود. ولی چنانچه این خصیصهها به همراه unigram برای مدلسازی سند به کار روند، باعث بهبود دقت طبقهبندی میشوند [۲۵].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
خصیصههای N-POSWORD که مثالهایی از آن را در بخش قبل بیان کردیم باعث کاهش ابهام معنایی کلمات چند معنای خواهند شد لذا به فرایند تحلیل احساس کمک میکنند. جدول۳-۳ مثالی برای رفع ابهام نشان میدهد؛ در این مثال کلمه مبهم کلمه like است. like با دو معنای متفاوت بکار رفته، این ابهام معنایی با بهرهگیری از خصیصههای N-POS برای طبقه بند[۲۷] قابل رویت خواهد بود.
جدول ۳-۲ مثال برای رفع ابهام با بهره گرفتن از برچسب ادات سخن
I like you. | You are like my mother. | جمله مثال |
I/PRP like/VBP you/PRP ./. | You/PRP are/VBP like/IN my/PRP$ mother/NN ./. | عبارت برچسب گذاری شده |
Like | Like mother | مدل bigram پس ازپیش پردازش |
Like/VBP | Like/IN mother/NN | مدل ۲-POSWORD |
جدول ۳-۳ مثالی را برای رفع ابهام با بهره گرفتن از برچسب گذاری نقش کلمات بیان میکند. دو سطر آخر جدول مدل bigram و ۲-POSWORD این جملات را نشان میدهد. اگر توجه کنیم در سطر آخر با اضافه کردن برچسب ادات سخن و مشخص شدن نقش like در دو عبارت، ابهام برطرف شده است، به این معنی که با اضافه کردن برچسب سخن قادرخواهیم بود متفاوت بودن like در دو عبارت را تشخیص دهیم.
خصیصههای پیشنهادی ما برای مدلسازی اسناد در شکل ۳-۵ بیان شدهاند. با توجه به توضیحات بیان شده استفاده از این خصیصهها میتواند مدل مناسبی از سند را در اختیار ما قرار دهد. مدل پیشنهادی در این نوشتار از مدل پیشنهادی در [۵] خیلی کوچکتر است و نسبت به روش پیشنهادی در [۵] نیز دقت طبقهبندی بیشتری دارد.
شکل۳-۵ مجموعه خصیصههای پیشنهادی برای تحلیل احساس.
در تحقیقات پیشین ثابت شده است خصیصههای ۱-word یا unigram خصیصههایی هستند که اطلاعات مفیدی را در اختیار طبقهبند برای تحلیل احساس قرار میدهند. خصیصههای ۲-word یا bigram و ۳-word یا trigram قادرند ارتباط و همبستگی بین کلمات درون متن را مدلسازی کنند، این امکان برای خصیصههای ۱-word وجود ندارد. خصیصههای ۱-POSWORD، ۲-POSWORD و ۳-POSWORD نیز برای کاهش ابهامات موجود در خصیصههای n-word بیان شده، در مجموعه خصیصههای لازم برای مدلسازی متن وارد شدهاند. استفاده همزمان از این خصیصهها برای تشکیل بردار خصیصه، ما را با مشکل افزایش فضای بردار خصیصه و مشکلات ناشی از این موضوع روبرو خواهد کرد با فیلتر کردن چند مرحلهای خصیصهها این مشکل حل خواهد شد. ضمن اینکه در مرحله آخر حداقل تعداد خصیصه را خواهیم داشت لذا میتوانیم از روشهای انتخاب خصیصه تک متغیر با حداقل پیچیدگی زمانی استفاده کنیم.
در این مرحله فایلهای اسناد، حاوی توکنها، به عنوان ورودی دریافت میشود و خصیصههای بیان شده در شکل ۳-۵ استخراج میشوند.
الگوریتم ۲ (Algorithm 2) مجموعه اسناد و بردار خصیصهها را به عنوان ورودی دریافت میکند. توجه شود که بردار خصیصه در مراحل قبلی ایجاد شده است، همچنین اسناد به توکنها تجزیه شدهاند. همه توکنهای یک سند بررسی میشوند: چنانچه در بردار خصیصهها وجود داشته باشند به فایل مدل اضافه میشوند، چنانچه در بردار خصیصهها وجود نداشتند نیز به فایل مدل اضافه نمیشوند.
Algorithm 1 Documents_To_model
Input: D set of document, FeatuerVector Output: OutputFile model file foreach ( di IN D ) foreach ( token tj IN di.tokens ) |