۲-۹ رگرسیون
رگرسیون یکی از ابزارهای مهم آماری است که تقریباً در هر زمینهای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی و … جهت برآورد و پیشبینی مورد استفاده وسیع قرار میگیرد و میتوان گفت تحلیل رگرسیونی، پرکاربردترین روش در بین تکنیکهای آماری بوده و روشهای متنوعی جهت بررسی فرضیهها و مدلهای آن مطرح و موجود میباشد.
برای تحلیل رگرسیون در الگوهای پارامتری با یک روش مناسب به برآورد پارامترها پرداخته و به برآوردی از منحنی رگرسیون میرسیم. این برآورد یک منحنی از خانواده منحنیهایی است که به عنوان یک الگو انتخاب شده و با دادهها نیز هماهنگی دارد. با این حال رگرسیون پارامتری دارای شرطهایی میباشد که همواره برقرار نمیباشد که ما را به سوی استفاده از روش جدیدی برای برآورد منحنی رگرسیون که رگرسیون ناپارامتری نام دارد سوق میدهد، لذا در این بخش به رگرسیون پارامتری از جمله رگرسیون خطی ساده، رگرسیون خطی چندگانه و نحوه برآورد و آزمون ضرایب رگرسیون خواهیم پرداخت.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۲-۹-۱ رگرسیون پارامتری
منظور از بحث و تحلیل رگرسیونی عموماً برازش یک الگوی ریاضی به دادهها میباشد که نوع رابطه متغیرها را بیان میکند. همچنین از موارد تحلیل رگرسیون میتوان به بررسی نمودار باقی ماندهها، انحراف از الگو، برآورد پارامترهای الگو و انجام آزمونهای فرض در مورد این پارامترها و یا مباحث پیشبینی متغیر وابسته اشاره نمود.
فرض کنیم متغیر تصادفی و پیوسته y را در n مقدار مشاهده شده x بدست آوردهایم به این صورت که برای مقادیر x و y از یک طرح نمونهگیری باشند که به وسیله الگوی زیر به هم مرتبط هستند:
(۲-۵۷) و
که متغیرهای تصادفی ناهمبسته با میانگین صفر و واریانس مشترک هستند (که توزیع را معمولاً توزیع نرمال در نظر می گیرند). به الگوی (۲-۵۷) به دلیل آنکه xها غیر تصادفی فرض شدهاند، الگوی طرح ثابت [۳۶]میگویند.
۲-۹-۲ رگرسیون خطی ساده
بیش از ۱۰۰ سال پیش فرانسیس گالتون در مقالهای که در زمینه رگرسیون مطرح کرد، اظهار داشت که متوسط قد پسران دارای پدران قد بلند کمتر از قد پدرانشان میباشد. به نحو مشابه متوسط قد پسران دارای پدران کوتاه قد نیز بیشتر از قد پدرانشان گزارش شده است. بدین ترتیب گالتون پدیده بازگشت به سمت میانگین را در دادههایش مورد تأکید قرار داد. برای گالتون رگرسیون مفهومی زیست شناختی داشت اما کارهای او توسط (کارل پیرسون) برای مفاهیم آماری توسعه داده شده است. گرچه گالتون برای تأکید بر پدیده «بازگشت به سمت مقدار متوسط» از تحلیل رگرسیون استفاده کرد اما به هر حال امروزه واژه تحلیل رگرسیون جهت اشاره به مطالعات مربوط به روابط بین متغیرها به کار برده میشود. در حقیقت تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدلسازی ارتباط بین متغیرهاست. شمایی کلی و خلاصه شده از یک تحلیل رگرسیونی ساده این است که در ابتدا تحلیلگر حدس میزند که بین دو متغیر نوعی ارتباط وجود دارد، در حقیقت حدس میزند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع آوری اطلاعات کمی از دو متغیر میپردازد و این دادهها را به صورت نقاطی در یک نمودار دو بُعدی رسم میکند. این نمودار که به نمودار پراکندگی معروف است نقش بسیار مهمی در تحلیلهای رگرسیونی و نمایش ارتباط بین متغیرها ایفا میکند. در صورتی که نمودار نشان دهنده این باشد که دادهها تقریباً در امتداد یک خط مستقیم پراکنده شدهاند، حدس تحلیلگر تأیید شده و این ارتباط خطی به صورت زیر نمایش داده میشود.
(۲-۵۸)
که در آن عرض از مبداً و شیب این خط است. بین برخی از نقاط و تصویر آنها بر روی خط همواره تفاوت به چشم میخورد که از آن به عنوان خطای برآورد یاد میکنیم. این خطا ممکن است از خطا در اندازهگیری، شرایط محیطی، تفاوتهای طبیعی و … ناشی شده باشد. بنابراین معادله اولیه را به صورت زیر اصلاح میکنیم:
(۲-۵۹)
معادله بالا یک مدل رگرسیون خطی نامیده میشود. معمولاً به x متغیر مستقل (رگرسیونی) و به y متغیر وابسته (پاسخ) و به خطای تصادفی گفته میشود که برای کامل شدن مدل (۳-۵۹) و نشان دادن این که خطا نیز تا حدودی وجود دارد، فرضهای زیر را در نظر میگیریم:
-
- به ازای تمام مقادیر و از آن نتیجه میگیریم که
-
- به ازای تمام مقادیر
-
- به ازای تمام مقادیر
در ادامه فرض نرمال بودن را نیز به این فرض ها اضافه میکنیم. و تأکید میکنیم که هر یک از این فرضها ممکن است برای دادههای واقعی برقرار نباشند.
۲-۹-۲-۱٫ برآورد ضرایب رگرسیون خطی ساده
تا این مرحله مدل رگرسیونی معرفی شده و کافی است پارامترهای مجهول مدل اعم از محاسبه شوند. برآورد پارامترها در مدلسازی با بهره گرفتن از روشهای مختلف انجام میشود از جمله روش کمترین مربع خطا، که یکی از روشهای مورد استفاده در تحلیل رگرسیون میباشد. مرحله بعدی «کنترل مناسب بودن مدل است» که مدل از نظر قابل استفاده بودن و قابلیت تعمیم بررسی میشود. در نتیجه فرایند تحلیل رگرسیونی فرآیندی همراه با کنترل و بازنگری است. به این ترتیب که ابتدا مدلی معرفی میشود و کیفیت مدل مورد آزمون قرار میگیرد و در نتیجه آن مدل مورد قبول و یا رد میشود. روش رایج جهت برآورد پارامترها از طریق کمینه کردن تابع زیر بدست میآید:
فرمول (۲-۶۰)
در این مدل و ها طوری تعیین میشوند که SSE [۳۷]کمینه شود.
از طریق مشتق گیری جزیی معادله….. نسبت به و و مساوی صفر قرار دادن آنها، مقادیر و به صورت زیر محاسبه میشوند.
فرمول (۲-۶۱)
و
فرمول (۲-۶۲)
که در آن و میانگین نمونهای و هستند.
باید توجه داشته باشیم که فرضهای عنوان شده در ….. در محاسبه و نا اریب خواهند بود.
۲-۹-۲-۲ آزمون ضرایب رگرسیون خطی ساده
آزمونهای فرض در مورد نسبت به بیشتر مورد توجه است. زیرا هدف اولیه تحقیقات این است که معین کنیم آیا یک رابطه خطی بین x و y وجود دارد یا خیر. در این بخش فرض مورد آزمون قرار میدهیم. فرض میکنیم ها ناهمبسته هستند و داریم یعنی این فرض به همراه سه فرض اصلی اشاره شده در بخش (۲-۹-۲) یک مدل خطی نرمال به ما میدهد چون ناهمبسته هستند. نرمال بودن آنها نتیجه میدهد که مستقل نیز هستند و در نتیجه ها هم مستقل هستند و داریم:
( ۲-۶۳)
در این صورت چون به صورت تابع خطی از متغیرهای تصادفی مستقل و نرمال ، پس دارای توزیعی نرمال میباشد.
با بسط رابطه ( ۲-۶۴)
داریم
(۲-۶۵)
(۲-۶۶)
در نتیجه امید ریاضی به صورت(۲-۶۷)
که با ساده کردن رابطهی بالا داریم
(۲-۶۸)
و به طرز مشابه میتوان نشان داد که (۲-۶۹)
اگر نامعلوم باشد با فرض درست بودن مدل، میتوان برآورد آن یعنی را استفاده کرد.