محاسبهی فاصلهی بین دو شئ داده در این الگوریتم، میتواند با بهره گرفتن از هر یک از روابطی که در جدول ۲-۱ و یا روابط دیگری که در [۷۲] آمده است، انجام شود. لازم به ذکر است که انتخابهای مختلف برای مراکز اولیه میتواند منجر به تولید خوشهبندیهای متفاوتی گردد. بنابراین انتخاب اولیهی نامناسب برای مراکز، میتواند سبب تولید خوشههایی با کیفیت پایین شود.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
(الف) تکرار ۱
(ب) تکرار ۲
(پ) تکرار ۳
(ت) تکرار ۴
شکل ۲-۲ ۴ مرحله از اجرای الگوریتم K-Means بر روی دادههای نمونه [۵۸]
محاسبهی مرکز هر خوشه در هر تکرار، بر اساس میانگین دادههای موجود در آن خوشه میباشد. چنانچه هر شئ داده برداری با d صفت خاصه و تعداد اشیاء داده درون خوشه نیز ni باشد، به ازاء هر صفت خاصه مرکز خوشه i-ام با بهره گرفتن از رابطهی (۲-۱) محاسبه میشود:
(۲-۱)
الگوریتم K-Means همیشه همگرا میشود و اغلب این همگرایی با تعداد کمی تکرار رخ میدهد. پیچیدگی مکانی الگوریتم K-Means، O((N+K).d) میباشد که N تعداد اشیاء داده، K تعداد خوشهها و d تعداد صفات خاصه است. پیچیدگی مکانی آن نیز O(I.N.K.d) میباشد که I تعداد تکرارها میباشد [۵۸].
فهم آسان، سادگی پیادهسازی، سرعت محاسبات و همچنین ویژگیهای مناسب ریاضی از جنبهه ای مثبت این الگوریتم میباشند. الگوریتم ابتدایی K-Means دارای معایبی نیز میباشد که در ادامه به آنها اشاره میشود [۸]:
نتیجه حاصل از خوشهبندی وابستگی زیادی به انتخاب اولیهی مراکز خوشهها دارد.
خوشهبندی بدست آمده ممکن است کاملا متفاوت از خوشهبندی بهینه باشد.
چگونگی انتخاب تعداد مناسب خوشهها مشخص نمیباشد.
فرایند خوشهبندی حساس به نویز است.
الگوریتم ابتدایی مقیاسپذیر[۶۴] نمیباشد.
تنها برای خوشهبندی بر اساس صفات خاصه عددی مناسب است.
شکل خوشههایی که به عنوان نتیجه بدست میآیند کروی است و این الگوریتم قادر به کشف خوشههایی با اشکال دیگر نمیباشد.
البته لازم به ذکر است که توسعههای مختلفی از الگوریتم K-Means وجود دارند که برخی از معایب ذکر شده را برطرف نمودهاند. به عنوان مثال، در [۵۰] روشی جهت انتخاب اولیهی بهتر برای مراکز خوشهها ارائه شده است. علاوه بر این، راه حل ارائه شده در [۵۰] به تعداد کمتری تکرار نیاز دارد، سرعت همگرایی آن نسبت به روشهای موجود بیشتر است و حساسیت کمتری نسبت به نویز دارد. در [۶۰] توسعهای از الگوریتم K-Means با نام K’-Means ارائه شده است که فرایند خوشهبندی را بدون نیاز به تعیین اولیهی تعداد دقیق خوشهها، اجرا میکند. در [۴۸،۳۷] نیز روشهایی بر مبنای الگوریتم K-Means جهت خوشهبندی دادههای غیر کمی[۶۵] ارائه شده است.
۲-۳- خوشهبندی توافقی
یکی از روشهای نسبتا جدید در خوشهبندی، روش خوشهبندی توافقی میباشد. مسئلهی خوشهبندی توافقی، به ترکیب چند خوشهبندی اشاره دارد به طوری که یک خوشهبندی واحد بدست آید. در این بخش ابتدا مزایای استفاده از این نوع خوشهبندی مطرح میگردد. سپس یک مثال جهت نشان دادن مسئله خوشهبندی توافقی ارائه خواهد شد. در نهایت نیز روشهای جدید خوشهبندی توافقی مورد بررسی قرار میگیرند.
۲-۳-۱- انگیزههای استفاده از خوشهبندی توافقی
روشهای خوشهبندی توافقی در زمینههای مختلفی میتوانند مفید واقع شوند. در این بخش برخی از مزایای خوشهبندی توافقی را ارائه میدهیم.
کیفیت[۶۶]: ترکیب چند خوشهبندی میتواند کیفیت خوشهبندی نهایی را بهبود بخشد. روشهای خوشهبندی توافقی به طور معمول خوشهبندیهایی تولید میکنند که کیفیت بهتری نسبت به حالتی که تنها یک الگوریتم خوشهبندی بر روی مجموعه داده اعمال میشود، دارند. همچنین این روشها حساسیت کمتری به نویز دارند که خود این مسئله سبب بهبود کیفیت خوشهبندی نهایی میگردد.
استفاده مجدد از دانش[۶۷]: یکی دیگر از مزایای مهم خوشهبندی توافقی، امکان استفاده از خوشهبندیهای موجود است. استفاده مجدد از دانش در این مورد بدین معنی است که با بهره گرفتن از خوشهبندیهای موجود و بدون دسترسی به دادههای اصلی بتوان اطلاعات مورد نیاز را استخراج نمود [۶۱]. عدم امکان دسترسی به دادههای اصلی میتواند دلایل مختلفی داشته باشد [۲]:
هنگامی که دادهها بر روی منابع مختلف قرار دارند و صاحبان داده تنها نتایج خوشهبندی را ارائه میکنند و خود دادهها را ارائه نمیدهند.
هنگامی که داده از بین رفته و یا دور انداخته شدهاند اما نتایج خوشهبندیهای انجام شده بر روی آنها، در دسترس است.
هنگامی که تمام دادههای اصلی در دسترس میباشند، اما به دلیل حجم زیاد امکان ذخیره شدن در یک منبع محاسباتی را ندارند. در این مورد، ایجاد خوشهبندیهای مختلف از آنها و سپس ترکیب خوشهبندیها میتواند راه حل مناسبی باشد.
هنگامی که میخواهیم دانش قبلی را به سیستمهای یادگیری وارد کنیم و یا استفاده مجددی از اطلاعات داشته باشیم. از اینرو خوشهبندیهای جدید میتوانند با خوشهبندیهای قبلی، بدون نیاز به داشتن دادههای اولیه یا دانستن چگونگی بوجود آمدن خوشهبندیهای موجود، ترکیب شوند.
محاسبات توزیع شده[۶۸]: امکان کار با خوشهبندیها در یک محیط توزیع شده سبب بهبود مقیاسپذیری، امنیت و قابلیت اطمینان[۶۹] میگردد. همچنین کاربردهای واقعی به دلیل محدودیتهای سازمانی یا عملیاتی، اغلب با پایگاه دادههای توزیع شده[۷۰] سروکار دارند. در محیط توزیع شده، جهت جمع آوری دادهها در یک منبع، میتوان دادهها را به یک انباره[۷۱] واحد منتقل نمود و سپس یک سری عملیات پیوند[۷۲] بر روی آنها انجام داد. در نهایت نیز جهت خوشهبندی از الگوریتمهای متداول بر روی مجموعه بدست آمده استفاده نمود. اما به علت وجود هزینه های محاسباتی بالا و نیاز به پهنای باند بالا و ذخیره سازی[۷۳] به طور معمول از این روش در کاربردهای واقعی استفاده نمیشود. الگوریتمهای خوشهبندی توافقی میتوانند نتایج چندین خوشهبندی را که از منابع محاسباتی توزیع شده بدست آمدهاند با یکدیگر ترکیب نموده و به یک خوشهبندی واحد دست یابند. سناریوی توزیع شدگی دادهها میتواند به دو صورت زیر باشد [۶۱]: