دادهکاوی یک گام از فرایند کشف دانش از پایگاه داده است و به الگوریتمهایی که برای استخراج الگو از دادهها بکار میرود، گفته می شود. اطلاعات حاصل می تواند به عنوان ورودی برای تشکیل مدل دستهبندی و یا پیش بینی، یا بهبود یک مدل موجود بکار رود [۵۳]. دادهکاوی جستجو و یا کاوش[۴۶] دانش (الگوهای دلخواه) از مقادیر زیاد دادههای موجود است [۳۱].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
در تعریفی دیگر دادهکاوی به این صورت تعریف شده است: بهکارگیری الگوریتمهای یادگیری ماشین[۴۷] برای یافتن الگوهای نهفته از ارتباطات موجود در بین عناصر دادهای موجود در یک مجموعه داده بسیار بزرگ که می تواند منجر به افزایش سود شود [۲۶].
دادهکاوی یک متدولوژی بسیار قوی و با پتانسیل بالا میباشد که به سازمانها کمک می کند که بر مهمترین اطلاعات از مخزن داده های خود تمرکز نمایند [۵۲].
دادهکاوی به فرایند استخراج اطلاعات نهفته، قابل فهم، قابل تعقیب از پایگاه دادههای بزرگ و استفاده از آنها در تصمیم گیریهای تجاری مهم اطلاق می شود [۱۳].
فرایند دادهکاوی را میتوان به عنوان سیستمی تصمیمیار تلقی نمود که سازمان و مدیران آن را قادر میسازد از دادههای خام به گنجینههای دانشی دست یابند و از این دانش در مسیر اتخاذ استراتژیهای سازمانی بهره گیرند.
اگر هرم دادهها را به صورت زیر در نظر بگیریم:
شکل ۲-۶ سیر تکامل در هرم دانش [۱۱]
با آگاهی از تعریف دادهکاوی و نگاهی به هرم بالا بهتر میتوان به نقش دادهکاوی در سازمانها پی برد. دادهکاوی سبب می شود که سازمانها از سطح داده به سطوح بالاتر دانش و الگوهای ناشناخته برسند. الگوهای استخراج شده میتوانند رابطهای بین ویژگیها و مشخصات سیستم مانند نوع تقاضا و نوع مشتری، پیش بینیهای آینده بر اساس مشخصات سیستم، قوانین (اگر-آنگاه) بین متغیرهای سیستم، دستهبندیها و خوشهبندیهای اشیاء و رکوردهای شبیه به هم در یک سیستم و غیره باشند [۱۱ به نقل از ۵۲].
۲-۸-۳- دادهکاوی و کشف دانش
دادهکاوی را میتوان به عنوان ابزاری جهت کشف دانش از پایگاههای داده تعریف نمود. دادهکاوی یک گام در فرایند کشف دانش از پایگاه داده[۴۸] است که با بهره گرفتن از الگوریتمهای کشف و تحلیل دادهها تعداد خاصی الگو یا مدل را از روی دادهها تولید می کند.
الگوی زیر مراحل استخراج دانش مشتری به کمک دادهکاوی در سازمان را نمایش میدهد.
شکل ۲-۷ گامهای فرایند تولید دانش از پایگاه دادهها [۳۱و۵۳]
این الگو گامهای فرایند کشف دانش از پایگاه داده را در [۵۳] به صورت زیر نشان داده است:
چنانچه از نمایش الگوی فوق برداشت می شود، ابتدا باید شناسایی دامنه فعالیتهای کسبوکار صورت گرفته و دسترسی به دادهها مقدور گردد. دادهها در اینجا می تواند مجموعه ای از حقایق، الگوها و یا خبرگی باشد.
در مرحله بعد با توجه به اهداف تعیین شده مورد نظر ذینفعان سازمان (مدیران، کارمندان، سرپرستان شعب، کاربران، خبرگان و مشاورین فناوری اطلاعات)، رکوردهای مورد نیاز توسط دادهکاو از میان حجم عظیم دادههای سازمان مورد نظر انتخاب میشوند. در این مرحله حجم انبوه دادهها به دادههای هدف کاهش داده می شود.
برای آمادهسازی بخش دادههای انتخابی باید عملیات پیشپردازشی روی آنها صورت گیرد. این عملیات شامل جمع آوری اطلاعات لازم برای مقداردهی به مقادیر رکوردهای از قلم افتاده، تشخیص دادههای متفاوت و هماهنگی آنها با بقیه، جمع آوری اطلاعات لازم برای اصلاح یا حذف دادههای نامناسب[۴۹] میباشد. محصول این مرحله دادههای پیشپردازش شده خواهد بود.
گام بعد گزینش دادهها با هدف کاهش حجم آنها و یافتن ویژگیهایی از دادهها با توجه به هدف تعیین شده برای کسبوکار خواهد بود. با کاهش حجم دادهها یا روشهای تغییرات آنها حجم دادهها می تواند به مقدار مفید و مؤثری کاهش یابد.
مرحله بعد اعمال یک یا چند الگوریتم (مانند کلاسیفایرها[۵۰] و یا شبکههای عصبی[۵۱] و …) از بین الگوریتمهای موجود و یا ابتکاری دادهکاوی بر روی دادههاست. حاصل این مرحله یک یا چند مدل و یا الگو خواهد بود.
در گام بعد با تحلیل، ارزیابی و تفسیر الگوهای معنادار کشف شده، دانش استخراج میگردد. دانش استخراج شده می تواند به صورت قواعدی مستند شود.
یک الگو زمانی می تواند به عنوان دانش تلقی شود که :
-
- به سادگی برای افراد قابل فهم باشد.
-
- اعتبار آن از یک حد آستانهای[۵۲] پایینتر نباشد.
-
- دانش جدیدی متناسب با اهداف تعیین شده سازمان ارائه دهد.
-
- کاربردی باشد [۱].
۲-۸-۴- فرایند دادهکاوی
دادهکاوی، فرایندی خلاقانه است که دانش و مهارت های گوناگونی را میطلبد. وجود یک استاندارد جهت انجام این فرایند به تبدیل مشکلات کسبوکار به مسائل دادهکاوی، گزینش روشهای دادهکاوی و تبدیل دادهها متناسب با نوع کسبوکار، معنا دادن به ارزیابی اثربخشی و مستندسازی نتایج اهمیت فراوان دارد.
چرخه CRISP-DM[53] فرایند استانداردی[۵۴] است که با هدف ارائه چارچوبی برای اجرای پروژه های دادهکاوی بزرگ، یا هزینه کمتر، قابلیت اطمینان بیشتر، قابلیت مدیریت بیشتر و سریعتر توسعه یافت [۵۰].
مدل مرجع CRISP-DM نمای کلی از چرخه عمر[۵۵] یک پروژه دادهکاوی را نشان میدهد. این مدل شامل فازهای یک پروژه، کارهای لازم برای انجام هر فاز و خروجیهای هر فاز است.
چرخه عمر یک پروژه دادهکاوی چنانچه در شکل ۲-۸ نشان داده شده است به شش فاز شکسته می شود. توالی فازها اجباری نیست بلکه این ترتیب مرسومترین، مهمترین و پر تکرارترین وابستگی بین فازها را نشان میدهد. در مورد پروژه های خاص این ترتیب بستگی به این دارد که خروجی کدام فاز و یا عمل خاص نیازمند اجرای فاز بعدی است [۵۰].
حلقه بیرونی مربوط به طبیعت پروژه های دادهکاوی است. بدین معنی که پروژه دادهکاوی با تولید یک راهکار خاص در زمان مشخص پایان نمییابد بلکه با اجرای یک دور فرایند دادهکاوی در سازمان و اجرای آن راهکار در سازمان، ممکن است نتایجی حاصل شود که سؤالات جدیدی از کسبوکار را برانگیزد و این نیازمند تکرار دو و یا چند باره چرخه خواهد بود.
شکل ۲-۸ متدولوژی فرایند استاندارد میان صنعتی دادهکاوی (CRISP-DM) [50]
مدل فرایند CRISP-DM شامل فازهای زیر میباشد:
-
- گام درک موقعیت کسبوکار[۵۶]
-
- گام درک دادهها[۵۷]
-
- گام پیشپردازش دادهها[۵۸]
-
- گام مدلسازی[۵۹]
-
- گام ارزیابی[۶۰]
-
- گام بهکارگیری[۶۱]
در ادامه هر یک از این گامها به طور خلاصه توضیح داده می شود.
درک موقعیت کسب و کار: این گام، بخش آغازین مدل CRISP-DM میباشد که بر روی درک و تعیین اهداف[۶۲] و نیازمندیها از منظر کسبوکار و تبدیل این دانش به تعریف یک مسئله دادهکاوی و طراحی طرح اولیه پروژه برای دستیابی به این اهداف تمرکز دارد. در این گام باید متخصص دادهکاو از توان و تجربه متخصص کسب و کار بهرهمند گردد [۵۰]. البته در یک پروژه موفق دادهکاوی این مشارکت در گام اولیه متوقف نخواهد شد، بلکه در سراسر فرایند دادهکاوی ادامه خواهد داشت [۵۳].
درک دادهها: گام درک دادهها با جمع آوری دادههای اولیه آغاز می شود و با فعالیتهایی جهت آشنایی با دادهها، شناسایی مشکلات موجود در کیفیت دادهها، اکتشاف دادهها و یا تشخیص زیرمجموعههای جالب جهت تشکیل فرضیه ها برای اطلاعات مخفی پیگیری می شود. ارتباط نزدیکی بین دو گام درک موقعیت کسب و کار و درک دادهها وجود دارد. ساختار مسئله دادهکاوی و طرح پروژه به درک حداقلی از دادههای در دسترس نیازمند است [۵۰].
در کل میتوان گفت گام درک دادهها بر اساس سه گام جمع آوری دادهها، بهکارگیری تحلیل اکتشافی برای دستیابی به یک دید اولیه و ارزیابی کیفیت دادهها استوار است [۱۱].
پیشپردازش دادهها: فاز آمادهسازی دادهها کلیه فعالیتهای مربوط به ساخت مجموعه داده[۶۳] (دادهای که می تواند به عنوان ورودی ابزار مدلسازی مورد استفاده قرار گیرد) از دادههای خام اولیه را در بر میگیرد. پس از گردآوری دادهها باید خطاهای احتمالی موجود در آنها را از بین برده و دادهها را تمیز نمود [۳۱]. فعالیتهای مربوط به آمادهسازی دادهها شامل ساخت جدول، ثبت دادهها و انتخاب ویژگی[۶۴]، پاکسازی دادهها[۶۵]، تشکیل ویژگیهای جدید و تغییر شکل دادهها متناسب با ابزارهای مدلسازی میباشد [۵۰].
اهمیت پیشپردازش دادهها به این دلیل است که اکثر دادههایی که در پایگاههای دادهای وجود دارند و پیشپردازش نشدهاند، ناقص و نویزدار هستند و دارای مشکلات احتمالی زیر میباشند: