آخرین خبرها
خانه / نرم افزار SAS / تحلیل تابع تشخیصی(DFA) در نرم افزار SAS

تحلیل تابع تشخیصی(DFA) در نرم افزار SAS

تحلیل تشخیصی یا Discriminant Analysis که به تابع ممیزی DFA نیز شهرت دارد، یکی از روش های آماری چند متغیره است که در تفکیک و تشخیص طبقات یک متغیر بر اساس چند متغیر کمی به کار می رود. به عنوان مثال محققی علاقه مند به مطالعه روابط بین سه نوع شغل خدمات مشتریان، مسئولین فنی و تکنسین های توزیع در یک شرکت خدمات تلفن های همراه است. محقق فرضیه ای مبنی بر متفاوت بودن این سه طبقه به لحاظ تیپ های شخصیتی دارد. لذا هر کارمند به طور تصادفی در سه آزمون تحرک پذیری، جامعه پذیری و محافظه کاری شرکت نموده و شغل وی نیز در این سه حیطه ثبت می شود. یا محققی در صدد این است تا متغیر های اصلی تفکیک کننده سه گونه گیاهی را شناسایی نماید. این روش را می توان با روش هایی چون رگرسیون ترتیبی و چند جمله ای مقایسه کرد. این روش نسبت به روش های قبلی بر اساس شاخص های کمّی انجام می پذیرد. در این مقاله سعی می شود تا در مورد مثال اول و با داشتن داده ای فرضی کاربرد این روش کمّی در نرم افزار SAS توضیحات تکمیلی ارائه شود.

ابتدا دستور زیر برای ورود داده ها و بیان آماره های توصیفی را وارد پنجره دستورات می کنیم.

 


proc means data=’d:\data\نام فایل’ n mean std min max;
var outdoor social conservative;
run;

 

خروجی دستور به شرح زیر خواهد بود:

 

The MEANS Procedure

 

Variable          N            Mean         Std Dev         Minimum         Maximum

 

OUTDOOR         ۲۴۴      ۱۵٫۶۳۹۳۴۴۳       ۴٫۸۳۹۹۳۲۶               ۰      ۲۸٫۰۰۰۰۰۰۰
SOCIAL          ۲۴۴      ۲۰٫۶۷۶۲۲۹۵       ۵٫۴۷۹۲۶۲۱       ۷٫۰۰۰۰۰۰۰      ۳۵٫۰۰۰۰۰۰۰
CONSERVATIVE    ۲۴۴      ۱۰٫۵۹۰۱۶۳۹       ۳٫۷۲۶۷۸۹۰               ۰      ۲۰٫۰۰۰۰۰۰۰

 

proc means data=’d:\data\نام فایل’ n mean std;
class job;
var outdoor social conservative;
run;

 

                  N
JOB    Obs    Variable          N            Mean         Std Dev

 

           ۱     ۸۵    OUTDOOR          ۸۵      ۱۲٫۵۱۷۶۴۷۱       ۴٫۶۴۸۶۳۴۶
SOCIAL           ۸۵      ۲۴٫۲۲۳۵۲۹۴       ۴٫۳۳۵۲۸۲۹
CONSERVATIVE     ۸۵       ۹٫۰۲۳۵۲۹۴       ۳٫۱۴۳۳۰۹۱

 

           ۲     ۹۳    OUTDOOR          ۹۳      ۱۸٫۵۳۷۶۳۴۴       ۳٫۵۶۴۸۰۱۲
SOCIAL           ۹۳      ۲۱٫۱۳۹۷۸۴۹       ۴٫۵۵۰۶۶۰۲
CONSERVATIVE     ۹۳      ۱۰٫۱۳۹۷۸۴۹       ۳٫۲۴۲۳۵۳۵

 

           ۳     ۶۶    OUTDOOR          ۶۶      ۱۵٫۵۷۵۷۵۷۶       ۴٫۱۱۰۲۵۲۱
SOCIAL           ۶۶      ۱۵٫۴۵۴۵۴۵۵       ۳٫۷۶۶۹۸۹۵
CONSERVATIVE     ۶۶      ۱۳٫۲۴۲۴۲۴۲       ۳٫۶۹۲۲۳۹۷

 

 

حال دستور زیر را برای بیان همبستگی ها وارد می کنیم:

 

proc corr data=’d:\data\discrim’;
var outdoor social conservative;
run;

 

        Pearson Correlation Coefficients, N = 244
Prob > |r| under H0: Rho=0

 

                   OUTDOOR        SOCIAL      CONSERVATIVE

 

OUTDOOR            ۱٫۰۰۰۰۰      -۰٫۰۷۱۳۰           ۰٫۰۷۹۳۸
۰٫۲۶۷۲            ۰٫۲۱۶۶

 

SOCIAL            -۰٫۰۷۱۳۰       ۱٫۰۰۰۰۰          -۰٫۲۳۵۸۶
۰٫۲۶۷۲                          ۰٫۰۰۰۲

 

CONSERVATIVE       ۰٫۰۷۹۳۸      -۰٫۲۳۵۸۶           ۱٫۰۰۰۰۰
۰٫۲۱۶۶        ۰٫۰۰۰۲

 

proc freq data=’d:\data\نام فایل’;
tables job;
run;

 

The FREQ Procedure
Cumulative    Cumulative
JOB    Frequency     Percent     Frequency      Percent

 

  ۱          ۸۵       ۳۴٫۸۴            ۸۵        ۳۴٫۸۴
۲          ۹۳       ۳۸٫۱۱           ۱۷۸        ۷۲٫۹۵
۳          ۶۶       ۲۷٫۰۵           ۲۴۴       ۱۰۰٫۰۰

 


دستور proc discrim را برای تحلیل تشخیصی وارد می کنیم.

 

proc candisc data=’d:\data\نام فایل’ out=discrim_out ;
class job;
var outdoor social conservative;
run;

 

نتیجه خروجی به شرح زیر خواهد بود.

 

The CANDISC Procedure

 

                 Multivariate Statistics and F Approximations

 

                             S=2    M=0    N=118.5

 

Statistic                        Value    F Value    Num DF    Den DF    Pr > F

 

Wilks’ Lambda               ۰٫۳۶۳۹۸۷۹۷      ۵۲٫۳۸         ۶       ۴۷۸    <.0001
Pillai’s Trace              ۰٫۷۶۲۰۶۵۷۴      ۴۹٫۲۵         ۶       ۴۸۰    <.0001
Hotelling-Lawley Trace      ۱٫۴۰۱۰۳۰۶۷      ۵۵٫۶۹         ۶     ۳۱۶٫۹    <.0001
Roy’s Greatest Root         ۱٫۰۸۰۵۲۷۰۲      ۸۶٫۴۴         ۳       ۲۴۰    <.0001

 

         NOTE: F Statistic for Roy’s Greatest Root is an upper bound.
NOTE: F Statistic for Wilks’ Lambda is exact.

 

                           Adjusted    Approximate        Squared
Canonical      Canonical       Standard      Canonical
Correlation    Correlation          Error    Correlation

 

       ۱    ۰٫۷۲۰۶۶۱       ۰٫۷۱۶۰۹۹       ۰٫۰۳۰۸۳۴       ۰٫۵۱۹۳۵۳
۲    ۰٫۴۹۲۶۵۹        .             ۰٫۰۴۸۵۸۰       ۰٫۲۴۲۷۱۳

 

                                                     Test of H0: The canonical correlations in the
Eigenvalues of Inv(E)*H              current row and all that follow are zero
= CanRsq/(1-CanRsq)
Likelihood Approximate
Eigenvalue Difference Proportion Cumulative      Ratio     F Value Num DF Den DF Pr > F

 

       ۱     ۱٫۰۸۰۵     ۰٫۷۶۰۰     ۰٫۷۷۱۲     ۰٫۷۷۱۲ ۰٫۳۶۳۹۸۷۹۷       ۵۲٫۳۸      ۶    ۴۷۸ <.0001
۲     ۰٫۳۲۰۵                ۰٫۲۲۸۸     ۱٫۰۰۰۰ ۰٫۷۵۷۲۸۶۸۱       ۳۸٫۴۶      ۲    ۲۴۰ <.0001

 

دو تابع تشخیصی در این رابطه استخراج می شود که ضریب اولیه ۷۲/۰ و ضریب ثانویه ۴۹/۰ محاسبه شده است.

 

Standardized canonical discriminant function coefficients

 

Pooled Within-Class Standardized Canonical Coefficients

 

Variable                  Can1              Can2

 

OUTDOOR           -.۳۷۸۵۷۲۵۱۰۸      ۰٫۹۲۶۱۱۰۳۸۲۵
SOCIAL            ۰٫۸۳۰۶۹۸۶۱۵۰      ۰٫۲۱۲۸۵۹۲۵۹۰
CONSERVATIVE      -.۵۱۷۱۶۸۲۴۷۵      -.۲۹۱۴۴۰۶۳۹۰

 

       Pooled Within Canonical Structure

 

Variable                  Can1              Can2

 

OUTDOOR              -۰٫۳۲۳۰۹۸          ۰٫۹۳۷۲۱۵
SOCIAL                ۰٫۷۶۵۳۹۱          ۰٫۲۶۶۰۳۰
CONSERVATIVE         -۰٫۴۶۷۶۹۱         -۰٫۲۵۸۷۴۳

 

این ضرایب استاندارد شده را می توان مشابه ضرایب بتای رگرسیون دانست. به عنوان مثال با افزایش یک واحد انحراف استاندارد در متغیر تحرک پذیری ۳۲/۰ کاهش انحراف استاندارد در تابع اولیه ممیزی دارد. بار تشخیصی و بار کانونی را می توان به عنوان ضرایب جایگرین این تابع دانست. این روش به لحاظ نوع برخورد با متغیر های پنهان با روش تحلیل عاملی قابل قیاس است. در مورد سایر ضرایب نیز تفسیری مشابه وجود دارد.

 

    Class Means on Canonical Variables

 

   JOB              Can1              Can2

 

     ۱       ۱٫۲۱۹۱۰۰۱۸۶      -۰٫۳۸۹۰۰۳۸۶۴
۲      -۰٫۱۰۶۷۲۴۶۳۷       ۰٫۷۱۴۵۷۰۴۴۱
۳      -۱٫۴۱۹۶۶۸۵۵۵      -۰٫۵۰۵۹۰۴۸۸۸

 

  Number of Observations and Percent Classified into JOB

 

  From
JOB            ۱            ۲            ۳        Total

 

     ۱           ۶۹           ۱۲            ۴           ۸۵
۸۱٫۱۸        ۱۴٫۱۲         ۴٫۷۱       ۱۰۰٫۰۰

 

     ۲           ۱۷           ۶۴           ۱۲           ۹۳
۱۸٫۲۸        ۶۸٫۸۲        ۱۲٫۹۰       ۱۰۰٫۰۰

 

     ۳            ۳           ۱۰           ۵۳           ۶۶
۴٫۵۵        ۱۵٫۱۵        ۸۰٫۳۰       ۱۰۰٫۰۰

 

 Total           ۸۹           ۸۶           ۶۹          ۲۴۴
۳۶٫۴۸        ۳۵٫۲۵        ۲۸٫۲۸       ۱۰۰٫۰۰

 


در این قسمت خروجی میانگین توابع تشخیصی برای هر یک از گروه های سه گانه آورده شده است. مقادیر مندرج در قطر این خروجی به معنای طبقه بندی صحیح هر یک از افراد در گروه های مربوطه است.

 

برای دیدن چارت مربوطه از ماکروی زیر استفاده می شود.

 

proc format;
value jobname
۱=’C ‘
۲=’M ‘
۳=’D ‘;
run;

data discrimplot;
set discrim_out;
format job jobname.;
run;

 

symbol1 interpol=none font=’Times-Roman’ pointlabel=(“#job”) height=1;

 

proc gplot data=discrimplot;
plot Can2*Can1=job / haxis=axis1;
run;

 

همانطور که دیده می شود کارمندانی که در بخش خدمات کار می کنند گرایش بیشتری به جامعه پذیری طبق تابع اول دارند. مسئولین توزیع در انتهای این طیف و مسئولین فنی در ارتباط با این متغیر در حد وسط قرار دارند. در تابع دوم نتایج به شفافی تابع اول نیست و مسئولین فنی بیشتر گرایش به بعد تحرک پذیری دارند و مسئولین توزیع و خدمات در این متغیر و این تابع ضعیف هستند.
نکته بسیار مهم در رابطه با این روش این است که این روش برای نمونه های بزرگ و در شرایط توزیع نرمال قابل انجام است. در این مقاله سعی بر نحوه محاسبه این روش در نرم افزار SAS بود. برای کسب اطلاعات بیشتر در ارتباط با مبانی نظری این روش اماری به کتاب روش های پیشرفته آماری دکتر منصور فر از انتشارات دانشگاه تهران مراجعه نمائید.

منبع: http://www.iranresearches.ir

درباره‌ kashani

جوابی بنویسید

ایمیل شما نشر نخواهد شدخانه های ضروری نشانه گذاری شده است. *

*