۳-۵-معیارهای ارزیابی الگوریتمهای دسته بندی
در این بخش توضیحاتی درخصوص چگونگی ارزیابی الگوریتم های دسته بندی و معیار های آن ارائه خواهد شد.
۳-۶-ماتریس درهم ریختگی[۲۹]
ماتریس در هم ریختگی چگونگی عملکرد دسته بندی را با توجه به مجموعه داده ورودی به تفکیک نشان میدهد که:
TN: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم نیز دسته آنها را به درستی منفی تشخیص داده است.
FP: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم دسته آنها را به اشتباه مثبت تشخیص داده است.
FN: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم دسته آنها را به اشتباه منفی تشخیص داده است.
TP: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم نیز دسته آنها را به درستی مثبت تشخیص داده است.
جدول ۳-۹: ماتریس در هم ریختگی
رکوردهای تخمینی(Predicted Records)
دسته+ | دسته- | |
FP | TN | دسته- |
TP | FN | دسته+ |
رکوردهای واقعی(Actual Records)
مهمترین معیار برای تعیین کارایی یک الگوریتم دسته بندی معیاردقت دسته بندی[۳۰] است. این معیارنشان می دهد که چند درصد ازکل مجموعه رکوردهای آموزشی بدرستی دسته بندی شده است.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
دقت دسته بندی بر اساس رابطه زیر محاسبه می شود:
CA
۳-۷-معیار [۳۱]AUC
این معیار برای تعیین میزان کارایی یک دسته بند بسیار موثر است. این معیار نشان دهنده سطح زیر نمودار ROC[32] است. هرچقدرعدد AUC مربوط به یک دسته بند بزرگتر باشد، کارایی نهایی دسته بند مطلوب تر است. در ROC نرخ تشخیص صحیح دسته مثبت روی محور Y و نرخ تشخیص غلط دسته منفی روی محورX رسم میشود. اگر هر محور بازه ای بین ۰و۱ باشد بهترین نقطه در این معیار (۰, ۱) بوده و نقطه (۰, ۰) نقطه ای است که دسته بند مثبت و هشدار غلط هیچگاه تولید نمی شود.
۳-۸-روش های ارزیابی الگوریتم های دسته بندی
در روش های یادگیری با ناظر، دو مجموعه داده مهم به اسم داده های آموزشی و داده های آزمایشی وجود دارند. چون هدف نهایی داده کاوی روی این مجموعه داده ها یافتن نظام حاکم بر آنهاست بنابراین کارایی مدل دسته بندی بسیار مهم است. از طرف دیگر این که چه بخشی از مجموعه داده اولیه برای آموزش و چه بخشی به عنوان آزمایش استفاده شود بستگی به روش ارزیابی مورد استفاده دارد که در ادامه انواع روش های مشهور را بررسی خواهیم کرد]صنیعی آباده ۱۳۹۱[.
روش Holdout
در این روش چگونگی نسبت تقسیم مجموعه داده ها بستگی به تشخیص تحلیلگر داشته اما روش های متداول ازنسبت ۵۰-۵۰ و یا دو سوم برای آموزش و یک سوم برای آزمایش و ارزیابی استفاده میکنند.
مهم ترین حسن این روش سادگی و سرعت بالای عملیات ارزیابی می باشد اما معایب این روش بسیارند. اولین ایراد این روش آن است که بخشی از مجموعه داده اولیه که به عنوان داده آزمایشی است، شانسی برای حضور در مرحله آموزش ندارد. بدیهی است مدلی که نسبت به کل داده اولیه ساخته می شود، پوشش کلی تری را بر روی داده مورد بررسی خواهد داشت. بنابراین اگر به رکوردهای یک دسته در مرحله آموزش توجه بیشتری شود به همان نسبت در مرحله آزمایش تعدادرکوردهای آن دسته کمتر استفاده می شوند.
دومین مشکل وابسته بودن مدل ساخته شده به، نسبت تقسیم مجموعه داده ها است. هرچقدر داده آموزشی بزرگتر باشد، بدلیل کوچکتر شدن مجموعه داده آزمایشی دقت نهایی برای مدل یادگرفته شده غیرقابل اعتماد تر خواهد بود. و برعکس با جابجایی اندازه دو مجموعه داده چون داده آموزشی کوچک انتخاب شده است، واریانس مدل نهایی بالاتربوده و نمی توان دانش کشف شده را به عنوان تنها نظم ممکن درمجموعه داده اولیه تلقی کنیم.
روش Random Subsampling
اگر روش Holdout را چند مرتبه اجرا نموده و از نتایج بدست آمده میانگین گیری کنیم روش قابل اعتماد تری را بدست آورده ایم که Random Subsampling نامیده می شود.
ایراد این روش عدم کنترل بر روی تعداد استفاده از یک رکورد در آموزش یا ارزیابی می باشد.
۳-۸-۳-روش Cross-Validation
اگر در روش Random Subsampling هرکدام از رکوردها را به تعداد مساوی برای یادگیری و تنها یکبار برای ارزیابی استفاده کنیم روشی هوشمندانه تر اتخاذ کرده ایم. این روش در متون علمی Cross-Validation نامیده می شود. برای مثال مجموعه داده را به دوقسمت آموزش و آزمایش تقسیم میکنیم و مدل را بر اساس آن می سازیم. حال جای دوقسمت را عوض کرده و از مجموعه داده آموزش برای آزمایش و از مجموعه داده آزمایش برای آموزش استفاده کرده و مدل را می سازیم. حال میانگین دقت محاسبه شده به عنوان میانگین نهایی معرفی می شود. روش فوق ۲-Fold Cross Validation نام دارد. اگر بجای ۲ قسمت مجموعه داده به K قسمت تقسیم شود، و هر بار با K-1 قسمت مدل ساخته شود و یک قسمت به عنوان ارزیابی استفاده شود درصورتی که این کار K مرتبه تکرار شود بطوری که از هر قسمت تنها یکبار برای ارزیابی استفاده کنیم، روش K-Fold Cross Validation را اتخاذ کرده ایم. حداکثر مقدار k برابر تعداد رکوردهای مجموعه داده اولیه است.
۳-۸-۴-روش Bootstrap
در روش های ارزیابی که تاکنون اشاره شدند فرض برآن است که عملیات انتخاب نمونه آموزشی بدون جایگذاری صورت می گیرد. درواقع یک رکورد تنها یکبار در یک فرایند آموزشی شرکت داده می شود. اگر یک رکورد بیش از یک مرتبه در عملیات یادگیری مدل شرکت داده شود روش Bootstrap را اتخاذ کرده ایم. در این روش رکوردهای آموزشی برای انجام فرایند یادگیری مدل ازمجموعه داده اولیه به صورت نمونه برداری با جایگذاری انتخاب خواهند شد و رکوردهای انتخاب نشده جهت ارزیابی استفاده می شود.
۳-۹-الگوریتمهای دسته بندی
در این بخش به اجرای الگوریتم های دسته بندی پرداخته و نتایج حاصل را مشاهده خواهیم کرد.
درالگوریتمهای اجرا شده از هر سه روش Holdout, k fold Validation, Bootstrap استفاده شده است و نتایج با هم مقایسه شده اند. در روشHoldout که در نرم افزار با نام Split Validation آمده است از نسبت استاندارد آن یعنی ۷۰ درصد مجموعه داده اولیه برای آموزش و ۳۰ درصد برای آزمایش استفاده شده است. برای k fold Validation مقدار k برابر ۱۰ درنظر گرفته شده است که مقدار استانداردی است. در Bootstrap نیز مقدار تقسیم بندی مجموعه داده برابر ۱۰ قسمت درنظر گرفته شده است. مقدار local random seed نیز برابر عدد ۱۲۳۴۵۶۷۸۹۰ می باشد که برای همه مدلها، نرم افزار از آن استفاده می کند مگر اینگه در مدل خاصی عدم استفاده از آن ویا تغییر مقدارموجب بهبود عملکرد الگوریتم شده باشد که قید میگردد. اشکال ۳-۶و۳-۷ چگونگی استفاده از یک مدل ارزیابی را در Rapidminer نشان می دهد.