شکل۵-۱ .مثالی از چگونگی اعمال مراحل گردآمدگی با سایز۱۵=s و استخراج بردار ویژگی با سایز ۴۰.
به بیانی دقیقتر، برای اعمال گردآمدگی با سایز ۱۵=s بر روی یک پنجره ۳۰-دقیقهای، رکوردهای ۱ تا ۱۵ ( مربوط به ۲۰ مسیر) و رکوردهای ۱۶ تا ۳۰ ( مربوط به ۲۰ مسیر) با هم جمع بسته میشوند و ۲ بردار ۲۰ مقداری تولید می کنند که با کنار هم قرار دادن آنها یک بردار ویژگی ۴۰-مقداری برای پنجره مربوطه بدست خواهد آمد. اعمال سایزهای مختلف گردآمدگی، نتایج متفاوتی را در میزان خطا ایجاد میکند. شکل (۵-۲) نیز روند تغییرات میانگین RMSE را با توجه به سایزهای مختلف گردآمدگی نشان میدهد. همانطور که در شکل (۵-۲) مشخص است، کمترین خطا مربوط به اعمال سایز گردآمدگی ۱۰-دقیقهای است. هرچند که کمترین خطا در روش RF Ensemble of با سطح گردآمدگی s=15 بدست آمده است.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
شکل ۵-۲٫ مقایسه میانگین RMSE روش پیشنهادی و روش Of RF Ensemble با اعمال سایزهای گردآمدگی متفاوت. سایز گردآمدگی از ۳ تا ۳۰ دقیقه، متغیر است.
در راستای توجیه بهترین نتیجه که حاصل اعمال سایز گردآمدگی ۱۰=s است، میتوان گفت که در واقع با اعمال این سایز، مقادیر بردار ویژگی هم Horizen با بردارهای هدف است. به بیانی دقیقتر، چون قرار است بردارهای هدف، جمع نرخ ترافیکی مسیرها در بازهی زمانی ۴۱-۵۰ (۱۰-دقیقهای) باشند، پس در نظر گرفتن نرخهای ترافیکی مربوط به جمع ۱۰-دقیقهای در بردارهای ویژگی، تطابق بیشتری با بردارهای هدف داشته و منجر به یادگیری بهتر و خطای کمتر می شود.
استخراج مجموعههای نمونههای آموزشی
نظر به حجم بالای داده ترافیکی ، مقیاس پذیری متدهای ارائه شده ، از مسائل مطرح در این حوزه است . در روش [۱۸]، مجموعه نمونههای آموزشی (ماتریسهای ویژگی) با سایزهای متفاوتی، از فایل پایگاه داده استخراج شد . این مجموعهها با عنوان A ، B وC به ترتیب شامل ۱۰۰۰ ،۱۱۰۰۰ و ۵۵۰۰۰ نمونهی آموزشی هستند. همانطور که مشخص است، یادگیری با بهره گرفتن از هر کدام از مجموعهها، مقیاسپذیری متفاوتی را در اختیار میگذارد. از آنجا که در نهایت، قرار است تکنیک پیشنهادی با این الگوریتم مقایسه شود، بنابراین ما نیز این مجموعههای آموزشی را استخراج و برای یادگیری بکار گرفتیم. در این زیر فصل، به بیان چگونگی استخراج این مجموعههای آموزشی میپردازیم.
در بخش پایگاه داده توضیح داده شد که دادهی ارائه شده بعنوان دادهی آموزشی، شامل ۶۰۰۰۰ رکورد یعنی ۱۰۰ سایکل ۱۰- ساعته میباشد . با توجه به این که قرار است با داشتن نیم ساعت اول هر پنجره ، نیم ساعت بعدی را پیش بینی کرد ، بنابراین از هر پنجره ۶۰- دقیقهای باید یک نمونه استخراج کرد. اگر پنجرههای استخراج نمونه را بدون overlap در نظر بگیریم و از هر ۶۰-دقیقه، یک نمونه (یک بردار ویژگی) مطابق با روش توضیح داده شده در بخش ۴ ، استخراج کنیم، در نهایت به ازای ۶۰۰۰۰ رکورد (دقیقه) (کل داده آموزشی)، ۱۰۰۰ نمونهی آموزشی خواهیم داشت که بعنوان مجموعه نمونههای آموزشیA (یا Set A) در نظر گرفته می شود.
با حرکت دادن پنجرهی استخراج نمونه و تغییر نقطهی شروع و پایان این پنجره میتوان تعداد نمونههای آموزشی متفاوتی را از فایل داده های آموزشی استخراج کرد. واضح است که در این صورت پنجرههای استخراج نمونه با هم overlap خواهند داشت. برای بدست آوردن مجموعه نمونههای آموزشی B یا (Set B) ، به جای استخراج یک نمونه از یک بازه ۶۰-دقیقهای، پنجرهی استخراج ویژگی را روی این بازه حرکت میدهیم که در این صورت ۱۱ نمونهی آموزشی از هر یک ساعت استخراج خواهند شد. بدین ترتیب، برای ۱۰۰۰ بازهی یک ساعته، ۱۱۰۰۰=۱۰۰۰ₓ۱۱ نمونه بدست خواهد آمد. به منظور درک بیشتر نحوهی ساخت مجموعههای نمونه آموزشی، مرحلهی استخراج نمونه مجموعه آموزشی B بطور مثال در شکل (۵-۳) بصورت نمادین آمده است.
شکل ۵-۳- مراحل نمادین استخراج مجموعه نمونهی آموزشی B.
در حالتی دیگر اگر پنجره استخراج ویژگی را روی بازهی مربوط به یک سایکل که ۶۰۰ دقیقه است، حرکت دهیم (با شیفت ۱-دقیقهای پنجره استخراج ویژگی)، به ازای هر سایکل ۵۵۰ نمونهی آموزشی و در نهایت به ازای ۱۰۰ سایکل ۵۵۰۰۰=۱۰۰۰ₓ۵۵ نمونهی آموزشی خواهیم داشت که مجموعهی نمونههای آموزشی C را تشکیل میدهند[۱۸]. در زیر فصل بعد، نتایج یادگیری الگوریتمهای متفاوت بر روی این مجموعهها آورده شده است.
نتایج یادگیری الگوریتم بر روی مجموعههای نمونههای آموزشیA,B,C
در شکل (۵-۴) کارایی تکنیک پیشنهادی بر روی دادهی آزمایشی در مقایسه با نتایج پیاده سازی ما از روش Ensemble Rf را میبینیم.
شکل ۵-۴- مقایسه خطای RMSE مربوط به تکنیک پیشنهادی و روش Ensemble RF، که برای مجموعه نمونههای آموزشی A,Bو C که بهترتیب شامل ۱۰۰۰, ۱۱۰۰۰ و ۵۵۰۰۰ نمونهی آموزشی هستند. تکنیک پیشنهادی کاهش خطای چشمگیری بر روی مقیاسپذیرترین مجموعه یعنی مجموعه A داشته است.
لازم به ذکر است که روش Ensemble RF در مسابقه ICDM سال ۲۰۱۰ مقام سوم را کسب کرد. همانطور که در شکل واضح است، تکنیک پیشنهادی قادر به کاهش خطای چشمگیری، خصوصا بر روی مجموعهی A شده است که کوچکترین سایز را در مقایسه با دیگر مجموعههای B و C دارد. اهمیت این نتیجه بدین دلیل است که سایز مجموعههای B و C، همانطور که در [۱۸] مورد نقد و اشاره قرار گرفته، از جمله محدودیتهای آن روش بحساب میآید، چرا که با افزایش تعداد مسیرها (ATRs) احتمالا متد ارائه شده در [۱۸] مقیاسپذیری مناسبی نخواهد داشت. با این حال، برای رسیدن به کارایی بالاتر، تکنیک پیشنهادی بر روی مجموعههای B و C و ترکیب B و C اعمال شد که نتایج آن را در شکل (۵-۴) میبینیم. واضح است که بر روی ۴ مجموعه، تکنیک پیشنهادی، کاهش خطای قابل ملاحظهای دارد. هرچند بهترین نتایج هر دو روش از اعمال الگوریتم بر روی ترکیب مجموعه (B & C) میباشد. لازم به ذکر است که این میزان خطا در مقایسه با برترین نتایج مربوط به مسابقه ICDM(2010)، نتایج قابل مقایسهای دارد.
فصل ششم