هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روش های آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با بهره گرفتن از روش های تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند .
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. . داده کاوی یافتن اطلاعات بامعنای خاص ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند .
۱-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار
۲-یکپارچه سازی داده: ترکیب منابع داده گوناگون
۳-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده
۴-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش
۵-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی
۶- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند
۷-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری .
ابزارها و تکنیک های داده کاوی
با توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران ۱۳۹۲[ .
روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روش های آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرایند داده کاوی حجم داده زیادی وجود داشته باشد.
در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روش های میانگین گیری )ماهیانه، سالیانه و . . . (، روش های محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد.
هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرایند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند.
قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روش های تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد .
روش های داده کاوی
عمده روش های داده کاوی عبارتند از روش های توصیف داده ها، روش های تجزیه و تحلیل وابستگی، روش های دسته بندی و پیشگویی، روش های خوشه بندی، روش های تجزیه و تحلیل نویز.
می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر[۱] نیزشناخته می شوند. روش های دسته بندی[۲]، رگرسیون[۳] و تشخیص انحراف[۴] از روش های یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی[۵] و مجموعه داده های آزمایشی[۶] تقسیم می شود که با بهره گرفتن از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است.
یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روش های توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روش های توصیفی با نام روش های بدون ناظر[۷] نیز شناخته می شوند ]صنیعی آباده ۱۳۹۱[.
روش های توصیف داده ها[۸]
هدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روش های داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود .
روش های تجزیه و تحلیل وابستگی [۹]
هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد . یکی از روش های متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند.
روش های دسته بندی و پیشگویی[۱۰]
دسته بندی یک فرایند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرایند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه[۱۱]، بیز ساده و SVM است .
یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم.
رگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود.
درخت تصمیم[۱۲]
درخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.
۲-۳-۵-شبکه عصبی[۱۳]
روش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد .
۲-۳-۶- استدلال مبتنی بر حافظه[۱۴]
توانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرایند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود.
از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. [۱۵]KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرایند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند.
باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود .
۲-۳-۷-ماشین های بردار پشتیبانی
SVM [۱۶] اولین بار توسط Vapnik در سال ۱۹۹۰ معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است .
SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است .
رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند.
۲-۳-۸-روش های خوشه بندی [۱۷]
هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است که در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود .
۲-۳-۹- روش K-Means
یکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید.
۲-۳-۱۰-شبکه کوهنن
شبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد.
۲-۳-۱۱-روش دو گام[۱۸]
این روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با بهره گرفتن از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند.
۲-۳-۱۲-روش های تجزیه و تحلیل نویز[۱۹]
بعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود .
دسته های نامتعادل]صنیعی آباده ۱۳۹۱[.
مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند.
در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود: