통계분석 이야기2011. 6. 23. 14:08

데이터를 기반으로 변수(변인)간의 함수관계를 밝히고 이러한 함수관계를 이용하여 관심의 대상이 변수의 값을 예측하는 목적으로 가장 널리 사용되고 있는 통계분석기법이 회귀분석(Regression Analysis)입니다. 

일반적으로 가장 많이 사용되는 회귀분석은 원인을 의미하는 독립변수와 결과를 의미하는 종속변수간의 관계가 선형(Linear)임을 가정하는 선형회귀분석(Linear Regression Analysis)입니다. 

이러한 선형회귀분석모형은 선형성, 오차항의 정규성, 등분산성 및 독립성을 가정하고 출발합니다. 

실제 데이터를 선형회귀분석모형에 적합시키려고 할 때, 이러한 가정사항이 충족되지 않는 경우를 많이 만나게 됩니다. 

다음은 가정사항이 충족되지 않을 경우에 적용해 볼 수 있는 해결방안을 언급하고 있습니다. 


1. 선형성이 만족되지 않는 경우

-> 이경우에는 우선 해볼 수 있는 것은 자연로그변환, 상용로그변환, 제곱근 변환, 역변환 등의 변수변환을 통해서 선형성이 만족하도록 데이터를 수정하여 선형회귀분석모형에 적용하는 방법입니다. 

-> 또다른 방법은 선형성 가정이 충족되지 않아도 되는 비선형회귀모형에 적용하는 방법입니다. SPSS Statistics의 회귀분석 메뉴의 곡선추정(Curve Estimation) 대화상자를 통해서 다양한 비선형모형을 적용하여 볼 수 있습니다.

-> 단, SPSS Statistics의 곡선추정 방법은 독립변수가 1개 일경우에만 적용할 수 있으므로, 독립변수가 2개 이상인 경우에는 적용할 수가 없습니다.


2. 등분산성이 만족되지 않는 경우

잔차도표를 통해서, 오차항의 등분산성의 충족되지 않음을 확인하였을 경우에

-> 우선 해볼 수 있는 것은, 변수변환을 통해서 등분산성이 만족되도록 데이터를 수정하여 적용하는 방법입니다.

-> 또다른 방법은 등분산성의 가정이 위배될 경우, 즉 이분산성의 징후를 보일 경우에는 분산의 변화를 고려하여 회귀계수를 추정하는 가중회귀분석에 적용하는 방법입니다.  SPSS Statistics의 회귀분석 메뉴의 가중추정(Weight Estimation) 대화상자를 통해서 가중회귀분석을 적용할 수 있습니다.


3. 오차항의 독립성이 만족되지 않는 경우

오차항간에 독립성이 만족되지 않는다면, 즉 오차항이 서로 상관이 있다면 이를 자기상관(autocorrelation)이 존재한다고 말하는 것이고, 회귀모형의 진단을 위한 더빈-왓슨 통계량에 의하여 자기상관의 존재여부를 검정할 수 있습니다.  자기상관이 존재하는 경우에 실제보다 R2 (결정계수)가 과대하게 측정되고, F 통계량이 커지므로 모형적합성이 실제보다 과대하게 좋은것으로 나타납니다.

시간적 흐름에 따라 발생되는 경영 및 경제, 일부 공학분야의 많은 자료들이 이와같이 오차항이 자기상관이 존재하는 경우가 많습니다.

-> 이경우에는 시계열분석방법의 하나인 자기회귀분석을 적용하여야 합니다.  자기회귀분석은 기본적인 시계열분석인 ARIMA 모형의 일부분입니다.  SPSS Statistics의 Forecasting 메뉴에서 ARIMA모형을 수행할 수 있습니다.


4. 종속변수가 범주형인 경우

기본적으로 선형회귀분석은 독립변수와 종속변수 모두 연속형 데이터를 전제로 하고 있습니다.  그러나 실제 사례에는 범주형 자료인 경우가 상당히 많습니다.

-> 종속변수의 값이 2개, 즉 이분형인 경우에는 이분형 로지스틱 회귀분석모형에 적용할 수 있습니다.

-> 종속변수의 값이 3개 이상인 경우에는 다항형 로지스틱 회귀분석모형에 적용할 수 있습니다.


5. 범주형 독립변수가 포함되어 있는 경우

-> 이경우에 우선 해볼 수 있는 것은 가변수(Dummy variable)을 생성하여 선형회귀분석모형에 적용하는 것입니다.

-> 또 다른 방법은 최적화 척도법(Optimal Scaling)방법 중 하나인 범주형 회귀분석에 적용시키는 방법인데, 이 방법은 범주형 데이터를 정규화 방법을 통하여 연속형으로 변환시켜서 분석하는 방법입니다.   이 방법은 종속변수와 독립변수가 모두 범주형일때도 적용할 수 있는 방법으로 매우 유용한 회귀분석방법이라고 하겠습니다.

 SPSS Statistics의 회귀분석 메뉴의 최적화 척도법 (CATREG) (Optimal Scaling (CATREG))  대화상자를 통해서 범주형회귀분석을 적용할 수 있습니다.


6. 다중공선성이 존재하는 경우

독립변수가 다수인 다중회귀분석시 독립변수들간의 상관관계가 높아지면 종속변수에 대한 독립변수의 영향력을 올바르게 측정할 수 없게 됩니다.  이러한 경우를 다중공선성이 존재한다고 말합니다.  다중공선성이 발생되면 추정된 각 독립변수의 회귀계수들의 신뢰성이 떨어지게 됩니다.  다중공선성이 발생될때에는 결정계수 (R2)가 지나치게 높게 나올수 있으며, 각 회귀계수의 유의성에 대한 검정통계량 값이 유의하지 않음에도 불구하고 모형에 대한 분산분석 결과가 유의할 때는 다중공선성을 의심해 봐야 합니다.

또한 분산 팽창계수 (VIF: Variance Inflation Factor) 값이 지나치게 크면  (통상적으로 10이상이면) 다중공선성이 있다고 판단합니다.  허용치(Tolerance)는 VIF의 역변환 값인데, 일반적으로 이 수치가 0.1보다 작으면 다중공선성이 있다고 판단합니다.

 -> 이경우 우선 해볼 수 있는 것은 상관관계가 상대적으로 높은 독립변수를 제외하고 다중회귀분석을 수행하는 방법입니다.

 -> 다음으로 해볼 수 있는 것은 능형회귀분석(Ridge Regression Analysis)입니다.  SPSS Statistics에서 Ridge Regression은 대화상자로는 수행할 수 없고, SPSS 프로그램이 설치된 폴더에 있는 Ridge Regression macro 파일을 이용하면 명령문(Syntax)창에서 아래와 같이 명령문을 작성하여 수행시키면 됩니다. 

 
GET FILE = ['DATA FILE 경로'].

INCLUDE    ['MACRO FILE 경로'(프로그램 설치 폴더 안에 Ridge Regression.sps로 저장되어 있음)].

RIDGEREGdep=[종속변수]/enter=[독립변수 list] /start=[능형모수(k)시작점]/stop=[능형모수(k)끝점]/inc=[능형회귀(k) 간격].   

 
-> 또 다른 방법은 PLS 회귀 (Partial Least Square Regression)을 적용하는 방법입니다.  PLS회귀는 SPSS Statistics의 기본분석기능으로 있지 않기 때문에 SPSS 본사의 홈페이지에서 Python 모듈을 다운로드하여 설치하여야 합니다.

Posted by JDATE
행사안내2011. 6. 23. 14:01

'행사안내' 카테고리의 다른 글

Amos Day 2011  (0) 2011.07.06
SPSS 뉴스레터 VOL.6  (0) 2011.07.05
SPSS RoadShow 2011  (0) 2011.06.30
고객중심경영을 위한 CRM Fair 2011 - 동영상 후기  (0) 2011.06.28
제2회 SPSS 논문공모전  (0) 2011.06.24
Posted by JDATE
통계분석 이야기2011. 6. 23. 09:33

SPSS라는 이름으로 우리에게 친숙한 통계패키지의 현재 정확한 이름은 IBM SPSS Statistics입니다. 현재까지 나와있는 SPSS의 가장 최신버전은 19 입니다. 

 SPSS 1968년에 처음 만들어 졌는데, 그당시는 소프트웨어에 지금처럼 버전이란 용어를 사용하지 않고 릴리즈란 용어를 사용하였습니다.  릴리즈는 우리말로 얘기하면 이라 할 수 있는데, 책의 출판시에 사용하는 몇 판이라고 얘기하는 판과 같습니다.

 1975년에 회사를 만들어 본격적으로 SPSS를 발전시켰는데 1983년에는 드디어 13판을 만들어야 하는 싯점에 이르게 되었습니다.  그런데 서양사람들에게 13이란 숫자는 아주 싫어하는 숫자이고 그때까지 잘되었던 사업에 액이 낄까봐 13판이라는 이름대신에 SPSS-X 1판이란 이름으로 제품을 출시하였습니다.

X라는 이름은 나중에 이름을 부여하기로 하고 붙혀놓은 것인데 4판이 나올때까지 적당한 이름이 떠오르지 않으니 다시 X란 이름을 부여하고 그때부터 Version이란 단어를 사용하기 시작했습니다.

 

따라서 SPSS의 최신버전이 19이지만 개정판으로 따지만 총 31판째가 되는 것입니다.

 

제가 아는 범위에서 오랫동안 사랑을 받아온 책을 얘기하면 조순 박사님의 경제학 원론 7판까지 나왔었고, “수학의 정석 10, 필립코틀러박사가 쓴 마케팅의 교과서라는 마케팅관리론 12판까지 나왔습니다.

 

비록 2010년에 IBM에 의해 인수가 되었지만, SPSS 31판까지 나왔다는 것은 얼마만큼 오랫동안 사랑을 받아왔는지를 짐작할 수 있는 대목입니다.




Posted by JDATE