فصل سوم روش پیشنهادی
پیش گفتار
هدف اصلی این نوشتار ارائه مدلی جامع برای اسناد میباشد. قصد داریم مجموعهای از خصیصهها را ارائه دهیم و با بهره گرفتن از آنها به مدلی از اسناد دست یابیم. با داشتن مدل مناسب از اسناد دیگر نیازی به استفاده کردن از روشهای پیچیده انتخاب خصیصه نخواهد بود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
در این فصل به توضیح و تشریح روش ارائه شده خواهیم پرداخت. با مطالعه و بررسی مقالات و تحقیقات ارائه شده به این نتیجه دست یافتیم که بهتر است برای تحلیل احساس در متن، از مجموعه خصیصههایی استفاده کنیم که قادر باشند بیشترین اطلاعات لازم برای تحلیل احساس را در اختیار الگوریتم طبقهبندی اسناد قرار دهند، به این ترتیب میتوان دقت طبقهبندی اسناد را افزایش داد.
هدف این رساله ارائه روشی برای تحلیل احساسات و عقاید موجود در متن میباشد. به گونهای که این تحلیلگر اسناد موجود در مجموعه دادهها را در دو طبقه، اسناد حاوی نظرات مثبت و اسناد حاوی نظرات منفی دسته بندی کند. اولین مشکلی که برای تحلیل احساس وجود دارد ارائه مدلی کامل و مفید برای اسناد متنی میباشد. برای حل این مشکل مجموعه خصیصههای متفاوتی مورد بررسی قرار گرفتهاند و از این میان تلاش شده مناسبترین خصیصهها را انتخاب کنیم.
مشکل دوم در تحلیل احساسات و عقاید تعداد زیاد خصیصهها میباشد. این مسئله باعث بروز مشکلاتی دیگری مانند خصیصههای افزونه و خصیصههای غیر مرتبط میشود. لذا باید برای انتخاب کردن خصیصههای سودمند از میان هزاران خصیصه راهی اندیشیده شود. روشی که اینجا ارائه شده است فیلتر کردن خصیصهها در چند مرحله است. در ابتدا با بهره گرفتن از Wordnet و Sentiwordnet خصیصهها را فیلتر میکنیم، به این ترتیب تعداد خصیصهها کاهش مییابد. در مرحله بعد از الگوریتم انتخاب خصیصه ساده و با حداقل پیچیدگی زمانی استفاده میکنیم.
یکی از ویژگیهای ذاتی خصیصههای N-gram پراکندگی آنها است. پراکندگی باعث افزایش تعداد خصیصهها همچنین کاهش اثرگذاری خصیصههای bigram و trigram میشود.
منابع مورد نیاز
برای پیاده سازی روش پیشنهادی به منابع دادهای و نرم افزاری نیاز خواهیم داشت. در این رساله برای آزمودن پایداری روش پیشنهادی از چهار مجموعه داده[۲۰] استفاده شده است.
مجموعه داده بازبینی فیلمها یکی از معروفترین مجموعه دادهها است که در سال ۲۰۰۲ توسط pang و همکارانش ارائه شده است [۴]. این مجموعه حاوی ۲۰۰۰ سند بازبینی استخراج شده از سایت IMDB است. این اسناد در دو گروه نظرات مثبت و نظرات منفی دسته بندی شدهاند. ۱۰۰۰سند حاوی نظرات مثبت درباره فیلمها میباشد و ۱۰۰۰ سند نیز حاوی نظرات منفی کاربران میباشند، لذا میتوان برای طبقهبندی اسناد، مبتنی بر ناظر از آنها استفاده کرد.
مجموعه دادههایی از بازبینیهای کاربران در سایت آمازون جمع آوری شده است[۱۳]. این مجموعه داده حاوی نظرات کاربران درباره کالاهای متفاوت آمازون است. از این دادهها، سه مجموعه داده بازبینی کالاهای الکترونیکی،dvd و کتاب را برای تست و ارزیابی عملکرد روش پیشنهادی انتخاب کردهایم. این مجموعه دادهها هر کدام شامل ۲۰۰۰ سند بازبینی میباشد. این اسناد مانند مجموعه داده بازبینی فیلمها در دو گروه اسناد مثبت و منفی دسته بندی شدهاند.
در خلال پیادهسازی نیاز خواهیم داشت نقش ادات سخن[۲۱] هر کلمه را در جمله داشته باشیم لذا برای دست یافتن به این هدف از کتابخانه جاوا دانشگاه استنفورد[۲۲] که توسط تیم پردازش زبان طبیعی این دانشگاه تهیه شده است استفاده کردیم.
برای یافتن معادلهای معنایی کلمات[۲۳] به Wordnet[24] و کتابخانه ای جاوا JWNL[25] نیاز خواهیم داشت. در این رساله از Sentiwordnet[26] نیز استفادده میکنیم. Sentiwordnet نسخه ای از wordnet است، که در آن علاوه بر اطلاعات Wordnet، به هر کلمه یک وزن مثبت و یک وزن منفی داده میشود. مجموع وزن مثبت و وزن منفی یک کلمه را پلاریته کلمه گویند(شکل ۳-۱) [۹].
برای طبقهبندی اسناد از نرم افزار weka 3.6 استفاده میکنیم.
شکل ۳-۱ Sentiwordnet برای هر کلمه یک وزن مثبت و منفی تخصیص میدهد. مجموع این وزن را پلاریته کلمه گویند.
در ادامه روشهای پیشنهادی و مراحل هر کدام از آنها را بیان خواهیم کرد. روش پیشنهادی اول دارای مشکلاتی است که با حل کردن آنها به روشهای دوم و سوم دست مییابیم که دقت عملکرد بهتری نسبت به روش اول را دارند. در پایان نیز روش پیشنهادی اول را به مجموعه داده زبان فارسی اعمال می کنیم.
روش پیشنهادی اول
در روش پیشنهادی اول قصد داریم مجموعه مفیدی از خصیصه را ارائه دهیم. کارهای و تحقیقات قبلی که به منظور تحلیل احساس در متن به انجام رسیدهاند نشان دادهاند که بکار گرفتن ترکیبی از خصیصهها همواره با بهبود دقت طبقهبندی همراه خواهد بود. مدلسازی اسناد با بهره گرفتن از ترکیب خصیصه ها باعث افزایش قابل توجه تعداد خصیصهها خواهد شد این خود مشکلی بر سر راه ترکیب خصیصهها است. در این رساله پیشنهاد شده است با بهره گرفتن از فیلترینگ چند مرحله از این مشکل رها شویم.
شکل ۳-۲ نمای کلی روش پیشنهادی اول را نشان میدهد.
در ابتدا مجموعهای از اسناد را درون یک پایگاه داده داریم. اسناد خوانده شده و پیش پردازشهایی بر روی آنها انجام میشود. پیش پردازش، متن را برای مراحل بعدی آماده خواهد کرد. پس از آن برچسب گذاری ادات سخن با بکارگیری کتابخانه جاوا استنفورد انجام میشود. حال نقش هر کلمه مشخص شده است و میتوان پلاریته آن را از Setniwordnet استخراج کرد. مرحله بعد خصیصههای مورد نیاز را استخراج میکنیم. فیلترهای اولیه را بر روی بردار خصیصهها اعمال میکنیم، و در پایان فایل ساختار یافته از بردار خصیصهها را با بهره گرفتن از WEKA طبقهبندی میکنیم.
شکل ۳-۲ شمای کلی روش پیشنهادی اول
پیش پردازش اسناد
هر سند حاوی متون بازبینی، نظرات، احساسات و عقاید کاربران است. همه متن این اسناد در تحلیل احساس مفید واقع نخواهد شد. همچنین قالب و فرمت متن باید به گونهای تغییر یابد تا علاوه براینکه بتواند مدل مناسبی از اسناد را ارائه دهد، به قالب ساده و مناسب برای پردازش در مراحل بعدی تبدیل شود. شکل ۳-۳ شمای کلی پیش پردازش را نشان میدهد.
شکل ۳-۳ شمای پیش پردازش اسناد
ورودی این مرحله، مجموعهای از اسناد متنی، حاوی نظرات، احساسات و عقاید کاربران است. در مرحله اول از فرایند پیش پردازش کلمات Stopword حذف میشوند. Stopword کلمات و عباراتی هستند که هیچ کمکی به فرایند طبقهبندی اسناد، در جهت تحلیل احساس موجود در متون نمیکنند. در جدول زیر مجموعهای از Stopword مورد استفاده در این رساله را تدارک دیدهایم. مجموعه ثابت و یکسانی برای Stopword ها وجود ندارد بلکه برای حوزههای متفاوت در پردازش زبان طبیعی از Stopword های متفاوتی استفاده شده است. مجموعه Stopword های مورد استفاده در این تحقیق را در جدول ۳-۱ میبینیم. در این مرحله از فرایند پیش پردازش ابتدا هر سند خوانده شده و پس از حذف Stopword ها سایر کلمات باقی مانده به مرحله بعدی هدایت میشوند.
در مرحله دوم از فرایند پیشپردازش مدیریت کلمات منفی ساز انجام میشود. کلمات منفی سازی که در این تحقیق مورد توجه قرار گرفتهاند، عبارتاند از not، never و no.
جدول ۳-۱ لیست Stopwords