آخرین خبرها
خانه / تحلیل رگرسیون / رگرسیون لجستیک چیست؟/آموزش کابردها و چگونگی محاسبه با spss

رگرسیون لجستیک چیست؟/آموزش کابردها و چگونگی محاسبه با spss

برای انجام تحلیل رگرسیون خطی، متغیر وابسته باید کمی و در سطح سنجش فاصله ای / نسبی باشد. اما گاهی اوقات اتفاق می افتد که متغبر وابسته تحقیق در مقیاس فاصله ای / نسبی نبوده و مقیاس آن به صورت اسمی ( دو وجهی یا چند وجهی ) است. حال، سوال این جا است که برای این کار باید چه کرد، در حالی که پیش فرض اساسی تحلیل رگرسیون، مقیاس فاصله ای / نسبی متغیر وابسته است

به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و … متغیر هایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آنها در نهایت یک خواهد شد. کاربرد این روش عمدتا در ابتدای ظهور در مورد کاربرد های پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار می گرفت. لیکن امروزه در تمام زمینه های علمی کاربرد وسیعی یافته است. به عنوان مثال مدیر سازمانی می خواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیر ها نقش پیش بینی دارند؟ مدیر تبلیغاتی می خواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیر هایی مهم هستند؟ یک مرکز تحقیقات پزشکی می خواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیر هایی نقش پیش بینی کننده دارند؟ تا با اطلاع رسانی از احتمال وقوع کاسته شود.

در چنین حالتی، نرم افزارهایی این مکان را برای ما فراهم کرده است تا بتوانیم عوامل پیش بینی کننده تغییرات یک متغیر اسمی را نیز شناسایی کنیم. این روش، که رگرسیون لجستیک نام دارد، در اواخر دهه ۱۹۶۰ و اویا دهه ۱۹۷۰ به عنوان بدیلی برای روش رگرسیون خطی و همچنین تحلیل تابع تشخیصی مطرح شد. زمانی که متغیر وابسته در سطح اسمی است و متغیرهای مستقل هم ترتیبی و فاصله ای هستند، روش های رگرسیون خطی معمولی و تحلیل تشخیصی، مقدار برآوردها را کم تر از مقدار واقعی نشان می دهند.

انواع  رگرسیون لجستیک

   همان طور که در ابتدای مبحث تحلیل   رگرسیون لجستیک گفته شد، در رگرسیون لجستیک، متغیر وابسته می تواند به دو شکل دو وجهی و چند وجهی باشد. به همین خاطر، در نرم افزارSPSS شاهد وجود دو نوع تحلیل رگرسیون لجستیک هستیم که بسته به تعداد مقولات و طبقات متغیر وابسته، می توانیم از یکی از این دو شکل استفاده کنیم:

۱-رگرسیون لجستیک اسمی دووجهی: موقعی است که متغیر وابسته در سطح اسمی دووجهی (دوشقی) است. یعنی در زمانی که با متغیر وابسته اسمی دووجهی سروکار داریم.

۲-رگرسیون لجستیک اسمی چندوجهی : موقعی مورد استفاده قرار می گیرد که متغیر وابسته، اسمی چندوجهی (چندشقی) است.

فرمول رگرسیون لجستیک

وایازش لوجستیک یک مدل آماری رگرسیون برای متغیرهای وابسته دوسویی مانند بیماری یا سلامت، مرگ یا زندگی است. این مدل را می‌توان به عنوان مدل خطی تعمیم‌یافته‌ای که از تابع لوجیت به عنوان تابع پیوند استفاده می‌کند و خطایش از توزیع چندجمله‌ای پیروی می‌کند، به‌حساب‌آورد.

این مدل به صورت زیر تعریف می شود :

که در آن P احتمال موفقیت ( مثلا قبولی در کنکور ) و یک منهای p احتمال شکست ( عدم قبولی در کنکور ) می باشد. آلفا ضریب ثابت و بتا ها ضرایب متغیرهای مستقل تحلیل می باشند. متغیرهای مستقل نیز با x نمایش داده می شوند.

مثال توضیحی با SPSS

فرض کنیم  یک موسسه مالی اعتباری می خواهد بداند در باز پرداخت به موقع چه متغیر هایی در جامعه مورد نظر دارای اثر پیش بینی کننده هستند؟ به این منظور با توجه به دو وجهی بودن متغیر وابسته (یعنی پرداخت یا عدم پرداخت)استفاده از مدل های لوجیت معنی پیدا می کند. داده های موجود از ۸۵۰ نفر از کسانی که در این موسسه حساب دارند، در دسترس است که ۷۰۰ نفر از آنها به موسسه بدهکار هستند و ۱۵۰ نفر از آنها بدهی ندارند و فقط جهت اعتبار سنجی مدل داده های آنها را فعلا نگه می داریم.

برای شروع  تحلیل  مسیر Analyze – Regression – Binary Logistic را انتخاب می کنیم.

ابتدا متغیر Previously defaulted را در قسمت dependent variable و متغیر های Select Age in years تا Other debt in thousands (متغیرهای مستقل تحلیل ) را به عنوان covariates انتخاب می کنیم. روش Forward: LR را از بین روش های ورود متغیر استفاده می کنیم. متغیر validate را در قسمت selection variable وارد می کنیم.

حال گزینه Rule را انتخاب و مقدار یک را وارد می کنیم و سپس کلید Continue را انتخاب می کنیم.

حال کلید Categorical را انتخاب و متغیر Select Level of education را به عنوان categorical covariate و سپس کلید Continue را انتخاب می کنیم.

در این فاز کلید Save را انتخاب و موارد زیر را علامت گذاری می کنیم و سپس کلید Continue را انتخاب می کنیم.

در این مرحله برای دیدن آزمون برازش کلی مدل و همچنین پلات توزیع و تفکیک، از منوی Option گزینه های Classification plots و Hosmer-Lemeshow goodness-of-fit.را انتخاب می کنیم. در نهایت کلید Continue و سپس Ok را انتخاب می کنیم.

تمام مراحل فوق از طریق کد نویسی زیر قابل دسترسی خواهد بود:

LOGISTIC REGRESSION VAR=default
/SELECT validate EQ 1
/METHOD=FSTEP(LR) age ed employ address income debtinc creddebt othdebt
/CONTRAST (ed)=Indicator
/SAVE PRED COOK SRESID
/CLASSPLOT
/PRINT=GOODFIT
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5)

اولین خروجی مدل بیانگر برازش کلی مدل است که آزمون Hosmer and Lemeshow می باشد. از انجا که مقدار سطح معنی داری بالای ۰۵/۰ است، لذا فرض صفر مبنی بر توضیح قابل قبول داده ها توسط مدل تائید می شود. لذا در آخرین سطح که مقدار سطح معنی داری ۰.۵۶۵ محاسبه شده است نشان می دهد در پایان گام چهارم مدل برازش یافته ای وجود دارد و نتایج حاصله از آن معتبر و قابل استناد است. بر خلاف نسخه های قبلی SPSS، نسخه ۱۸آن برای محاسبه ابتدا با تجمع گروه ها در طبقات مشابه اقدام به محاسبه تست برازش می کند که این امر سبب افزایش اعتبار آن شده است.

مدل Forward stepwise با مدلی شروع می شود که هیچ متغیر پیش بینی کننده ای وجود ندارد. در اولین مرحله هر متغیری که دارای سطح معنی داری زیر ۰۵/۰ برای مقدار Score باشد وارد مدل می شود.

لذا در آخرین گام انتظار داریم که متغیر یا متغیر هایی که بیشتر از ۰۵/۰ دارای سطح معنی داری هستند حذف شوند.
به طور کلی بهتر است برای نشان دادن معنی داری متغیر های باقیمانده در هر مدل از Change in -2 Log Likelihood به جای آماره هایی چون والد استفاده شود.

در مدل های پیش بینی مقدار R2 بیانگر مقدار واریانسی است که توسط متغیر های مستقل وارد شده به مدل تفسیر می شوند و بین صفر تا یک قرار دارد و هر چه به یک نزدیک تر باشد بیانگر قدرت بیشتر مدل است. لیکن در مورد مدل هایی که متغیر وابسته کیفی است، این مقدار محاسبه نمی شود زیرا سطح به صورت گسسته است. Cox and Snell’s R2 و Nagelkerke’s R2 و McFadden’s R2 از الترناتیو هایی هستند که برای این موضوع معرفی شده اند. تفسیر این مقادیر به راحتی R2 نیست و عمدتا برای مقایسه بین مدل ها به کارگرفته می شوند تا بهترین تخمین زننده مشخص شود. به کمک classification table مشخص می شود که تا چه حد جدا سازی افراد طبق تابع پیشنهادی امکان پذیر است که برای این تمرین ۸۲ درصد بیان شده است.

در نهایت اصلی ترین جدول نشان داده می شود که بیانگر ضرایب متغیر های وارد شده به مدل است.

ضرایب نشان داده شده در آخرین مرحله که در اینجا Step4 است بیانگر معنی داری ۵ متغیر وارد شده به مدل است. به دلیل دشوار بودن گزارش B بهتر است مقدار Exp(B) به عنوان ضرایب رگرسیونی هر یک از متغیر های وارد شده به مدل استفاده شود. در واقع اگر عدد eرا به توان B ببریم مقدار Exp(B) به دست می اید. در نهایت به کمک این راهنمای گرافیکی می توانیم نحوه تفکیک افراد نمونه را بر اساس این معادله ببینیم.

http://www.moadele.ir

درباره‌ kashani

جوابی بنویسید

ایمیل شما نشر نخواهد شدخانه های ضروری نشانه گذاری شده است. *

*