Additive Regression
۲۵٫۷
Decision Stump
۲۷٫۰۴
Bagging
۲۳٫۹۵
M5P
۲۴٫۴۹
CVParameter Selection
۳۰
Regression By Discritization
۳۰
بنابراین تنها دستهای از الگوریتمها که قابلیت اعمال به مسائل رگرسیون را داشتند، استفاده شده و در جدول (۵-۲) مشاهده میشوند. از آنجا که الگوریتم رگرسیون رندوم فارست در Weka پیادهسازی نشده، الگوریتم بگینگ به جای آن مورد مقایسه قرار گرفت چرا که میدانیم الگوریتم رندوم فارست یک حالت عمومیتر از الگوریتم بگینگ هست. در واقع در الگوریتم رندوم فارست علاوه بر اینکه همانند الگوریتم بگینگ مجموعه آموزشی کاندید برای مدلسازی را بطور رندوم از مجموعه آموزشی اولیه انتخاب می کند،از بین خصیصهها نیز بطور رندوم مجموعه ای را انتخاب و بر اساس آنها آموزش مدلهای موجود را انجام میدهد. بنابراین انتخاب و استفاده از بگینگ به جای رندوم فارست، انتخاب مناسبی است.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
علاوه بر این، در جدول (۵-۲) میزان خطای میانگین RMSE حاصل از اعمال این الگوریتمها در مورد پیش بینی نرخ ترافیکی مسیرها آمده است. شایان ذکر است که این مقادیر، حاصل اعمال الگوریتمها به روی دادهی اعتبارسنجی میباشد. در ردیف اول این جدول نیز، نتایج مرتبط با اعمال الگوریتم رندوم فارست درمحیط برنامه نویسی MATLAB آورده شده است.
همانطور که پیشتر بیان شده، مقادیر جدول (۲-۵)، میانگین خطا بر روی ۲۰ مسیر مورد بررسی است. بطور کلی، هر چند بعضی از الگوریتمها، خطای کمتری بر روی بعضی از مسیرها داشتند، اما بطور میانگین، الگوریتم بگینگ از دیگر روشها، خطای میانگین کمتری داشت که در جدول (۲-۵) میبینیم.
در نهایت این مطلب در جدول (۵-۳) خلاصه شده است. همانطور که از جدول ( ۵-۳ ) مشخص است، الگوریتم رندوم فارست از الگوریتم بگینگ که بطور میانگین، بهترین نتایج را در مقایسه با همهی الگوریتمهای رگرسیون موجود در Weka داشت، بهتر عمل کرد. با تکیه بر این نتایج، میتوان از مناسب بودن روش Random Forest بر روی دادههای این پایان نامه، اطمینان حاصل کرد.
جدول ۵-.۲ مقایسه میانگین خطای RMSE بر روی ۲۰ مسیر، حاصل از اعمال الگوریتم بگینگ و رندوم فارست.
Mean RMSE
Algorithm
۲۳٫۸۸
Bagging
۲۳٫۱۹
Random Forest
تنظیمات اعمال شده در پیاده سازی الگوریتم (تنظیم پارامترها)
تمامی آنالیزهای بررسی شده در راستای پیادهسازی تکنیک پیشنهادی و همچنین آنالیزهای مربوط به بررسی توزیع پایگاه داده، با زبان برنامهنویسیMatlab انجام گرفتهاست. از آنجایی که الگوریتم رندوم فارست بطور مستقیم در این زبان برنامه نویسی پیاده سازی نشده است، با انجام تنظیماتی در پارامتر تابع TreeBagger، میتوان الگوریتم رندوم فارست را فراخوانی و استفاده کرد. این تابع الگوریتم بگینگ را بر مبنای درختان تصمیمگیری را میسازد. همانطور که پیشتر بیان شد، هدف این تکنیک پیشبینی نرخ ترافیکی و در واقع انجا رگرسیون است. بنابراین، لازم است تا پارامتر ‘Method’ به ‘Regression’ تنظیم شود.
از جمله پارامترهای تاثیرگذار در کارایی الگوریتم رندوم فارست که در تکنیک پیشنهادی، لحاظ شدهاند، میتوان به ۳ پارامتر ‘Ntrees’ ، ‘Minleaf’ و‘Nvar To Sample’ اشاره کرد. ‘Ntrees’ نشاندهندهی تعداد درختان موجود در رندوم فارست بعنوان کلاسهبندهای پایه است که با افزایش آن میزان خطای الگوریتم کاهش مییابد. هر چند در این الگوریتم مشاهده شد که بعد از مقدار Ntrees=60 ، میزان خطا ثابت خواهد ماند و افزایش تعداد درختان فقط منجر به بالارفتن هزینهی محاسبات میشود. بنابراین تعداد درختان در آزمایشات مختلف، ۶۰ در نظر گرفته شده است تا بار محاسباتی اضافه به مسئله تحمیل نشود. ‘Minleaf’، در واقع مینیمم تعداد مشاهدات در هر برگ درخت است. مقادیر مختلفی برای این پارامتر اعمال شد، هر چند بهترین کارایی مربوط به Minleaf=5 بدست آمد که برابر با مقدار پیش فرض این پارامتر است. پارامتر ‘NvarToSample’، معادل با تعداد متغیرهای انتخاب شده بطور رندوم برای هر سطح درخت تصمیمگیری است. با تنظیم این پارامتر به مقداری غیر از ‘all’، الگوریتم رندوم فارست صدا زده می شود. در واقع این پارامتر، تفاوت میان الگوریتم بگینگ و رندوم فارست محسوب میشود، چرا که در الگوریتم بگینگ، در هربار انتخاب مجموعهی آموزشی، همهی خصیصهها در نظر گرفته میشوند. حال آنکه تنها تعدادی از خصیصهها انتخاب میشوند. مقادیر پیشنهادی برای این پارامتر در فصل قبل آورده شد که در اینجا یک سوم تعداد کل متغیرها (مطابق با پیش فرض) بهترین کارایی را نتیجه داد.
ارزیابی سایز گردآمدگی بر روی دادهی اعتبارسنجی[۱۷۴]
همان طور که پیش تر توضیح داده شد، دادههای نرخ ترافیکی مسیرها در این پایگاه داده، در سطح یک-دقیقه ارائه شدهاند، هرچند ارائه داده در سطح دقیقه منجر به رفتارهای نوساناتی بسیار شدیدی میشود که اطلاعات مفیدی را در اختیار نخواهند گذاشت. به بیانی دیگر، بدیهی است که رفتار جریانهای ترافیکی در طی چند دقیقهی متوالی، تغییر بخصوصی نخواهند داشت. بر همین اساس، در دیگر تحقیقات نیز پارامترهای ترافیکی را در بازههای زمانی طولانیتری در نظر میگیرند. بنابراین، در اینجا نیز لازم است یک مرحله گردآمدگی روی دادهی اولیه انجام میشود. در این راستا، تعیین سایز گردآمدگی باید نَه بقدری بزرگ باشد که منجر به از دست رفتن اطلاعات مفید می شود و نه به اندازهای کوچک باشد که منجر به تولید اطلاعات تکراری و افزایش بُعد شود.
از آنجا قرار است از هر پنجره ۳۰-دقیقهای، یک نمونه( یک بردار ویژگی) استخراج شود، سایز گردآمدگی می تواند مقادیر ۳، ۵، ۶ ،۱۰، ۱۵و ۳۰ ( مقسوم ۳۰) باشند که به ترتیب منجر به تولید بردارهای ویژگی با اندازه های ۲۰۰، ۱۲۰، ۱۰۰، ۶۰، ۴۰و ۲۰ مقداری میشوند [۱۸]. بنابراین سایز بردار ویژگی وابسته به سایز گردآمدگی است. به منظور درک بیشتر توضیحات گفته شده در خصوص اعمال سایزهای مختلف گردآمدگی، در شکل (۵-۱) مراحل استخراج ویژگی برای سایز گردآمدگی ۱۵=s که منجر به ساخت بردار ویژگی ۴۰-مقداری میشود، به صورت نمادین آورده شده است.