통계분석 이야기2011. 6. 23. 14:08

데이터를 기반으로 변수(변인)간의 함수관계를 밝히고 이러한 함수관계를 이용하여 관심의 대상이 변수의 값을 예측하는 목적으로 가장 널리 사용되고 있는 통계분석기법이 회귀분석(Regression Analysis)입니다. 

일반적으로 가장 많이 사용되는 회귀분석은 원인을 의미하는 독립변수와 결과를 의미하는 종속변수간의 관계가 선형(Linear)임을 가정하는 선형회귀분석(Linear Regression Analysis)입니다. 

이러한 선형회귀분석모형은 선형성, 오차항의 정규성, 등분산성 및 독립성을 가정하고 출발합니다. 

실제 데이터를 선형회귀분석모형에 적합시키려고 할 때, 이러한 가정사항이 충족되지 않는 경우를 많이 만나게 됩니다. 

다음은 가정사항이 충족되지 않을 경우에 적용해 볼 수 있는 해결방안을 언급하고 있습니다. 


1. 선형성이 만족되지 않는 경우

-> 이경우에는 우선 해볼 수 있는 것은 자연로그변환, 상용로그변환, 제곱근 변환, 역변환 등의 변수변환을 통해서 선형성이 만족하도록 데이터를 수정하여 선형회귀분석모형에 적용하는 방법입니다. 

-> 또다른 방법은 선형성 가정이 충족되지 않아도 되는 비선형회귀모형에 적용하는 방법입니다. SPSS Statistics의 회귀분석 메뉴의 곡선추정(Curve Estimation) 대화상자를 통해서 다양한 비선형모형을 적용하여 볼 수 있습니다.

-> 단, SPSS Statistics의 곡선추정 방법은 독립변수가 1개 일경우에만 적용할 수 있으므로, 독립변수가 2개 이상인 경우에는 적용할 수가 없습니다.


2. 등분산성이 만족되지 않는 경우

잔차도표를 통해서, 오차항의 등분산성의 충족되지 않음을 확인하였을 경우에

-> 우선 해볼 수 있는 것은, 변수변환을 통해서 등분산성이 만족되도록 데이터를 수정하여 적용하는 방법입니다.

-> 또다른 방법은 등분산성의 가정이 위배될 경우, 즉 이분산성의 징후를 보일 경우에는 분산의 변화를 고려하여 회귀계수를 추정하는 가중회귀분석에 적용하는 방법입니다.  SPSS Statistics의 회귀분석 메뉴의 가중추정(Weight Estimation) 대화상자를 통해서 가중회귀분석을 적용할 수 있습니다.


3. 오차항의 독립성이 만족되지 않는 경우

오차항간에 독립성이 만족되지 않는다면, 즉 오차항이 서로 상관이 있다면 이를 자기상관(autocorrelation)이 존재한다고 말하는 것이고, 회귀모형의 진단을 위한 더빈-왓슨 통계량에 의하여 자기상관의 존재여부를 검정할 수 있습니다.  자기상관이 존재하는 경우에 실제보다 R2 (결정계수)가 과대하게 측정되고, F 통계량이 커지므로 모형적합성이 실제보다 과대하게 좋은것으로 나타납니다.

시간적 흐름에 따라 발생되는 경영 및 경제, 일부 공학분야의 많은 자료들이 이와같이 오차항이 자기상관이 존재하는 경우가 많습니다.

-> 이경우에는 시계열분석방법의 하나인 자기회귀분석을 적용하여야 합니다.  자기회귀분석은 기본적인 시계열분석인 ARIMA 모형의 일부분입니다.  SPSS Statistics의 Forecasting 메뉴에서 ARIMA모형을 수행할 수 있습니다.


4. 종속변수가 범주형인 경우

기본적으로 선형회귀분석은 독립변수와 종속변수 모두 연속형 데이터를 전제로 하고 있습니다.  그러나 실제 사례에는 범주형 자료인 경우가 상당히 많습니다.

-> 종속변수의 값이 2개, 즉 이분형인 경우에는 이분형 로지스틱 회귀분석모형에 적용할 수 있습니다.

-> 종속변수의 값이 3개 이상인 경우에는 다항형 로지스틱 회귀분석모형에 적용할 수 있습니다.


5. 범주형 독립변수가 포함되어 있는 경우

-> 이경우에 우선 해볼 수 있는 것은 가변수(Dummy variable)을 생성하여 선형회귀분석모형에 적용하는 것입니다.

-> 또 다른 방법은 최적화 척도법(Optimal Scaling)방법 중 하나인 범주형 회귀분석에 적용시키는 방법인데, 이 방법은 범주형 데이터를 정규화 방법을 통하여 연속형으로 변환시켜서 분석하는 방법입니다.   이 방법은 종속변수와 독립변수가 모두 범주형일때도 적용할 수 있는 방법으로 매우 유용한 회귀분석방법이라고 하겠습니다.

 SPSS Statistics의 회귀분석 메뉴의 최적화 척도법 (CATREG) (Optimal Scaling (CATREG))  대화상자를 통해서 범주형회귀분석을 적용할 수 있습니다.


6. 다중공선성이 존재하는 경우

독립변수가 다수인 다중회귀분석시 독립변수들간의 상관관계가 높아지면 종속변수에 대한 독립변수의 영향력을 올바르게 측정할 수 없게 됩니다.  이러한 경우를 다중공선성이 존재한다고 말합니다.  다중공선성이 발생되면 추정된 각 독립변수의 회귀계수들의 신뢰성이 떨어지게 됩니다.  다중공선성이 발생될때에는 결정계수 (R2)가 지나치게 높게 나올수 있으며, 각 회귀계수의 유의성에 대한 검정통계량 값이 유의하지 않음에도 불구하고 모형에 대한 분산분석 결과가 유의할 때는 다중공선성을 의심해 봐야 합니다.

또한 분산 팽창계수 (VIF: Variance Inflation Factor) 값이 지나치게 크면  (통상적으로 10이상이면) 다중공선성이 있다고 판단합니다.  허용치(Tolerance)는 VIF의 역변환 값인데, 일반적으로 이 수치가 0.1보다 작으면 다중공선성이 있다고 판단합니다.

 -> 이경우 우선 해볼 수 있는 것은 상관관계가 상대적으로 높은 독립변수를 제외하고 다중회귀분석을 수행하는 방법입니다.

 -> 다음으로 해볼 수 있는 것은 능형회귀분석(Ridge Regression Analysis)입니다.  SPSS Statistics에서 Ridge Regression은 대화상자로는 수행할 수 없고, SPSS 프로그램이 설치된 폴더에 있는 Ridge Regression macro 파일을 이용하면 명령문(Syntax)창에서 아래와 같이 명령문을 작성하여 수행시키면 됩니다. 

 
GET FILE = ['DATA FILE 경로'].

INCLUDE    ['MACRO FILE 경로'(프로그램 설치 폴더 안에 Ridge Regression.sps로 저장되어 있음)].

RIDGEREGdep=[종속변수]/enter=[독립변수 list] /start=[능형모수(k)시작점]/stop=[능형모수(k)끝점]/inc=[능형회귀(k) 간격].   

 
-> 또 다른 방법은 PLS 회귀 (Partial Least Square Regression)을 적용하는 방법입니다.  PLS회귀는 SPSS Statistics의 기본분석기능으로 있지 않기 때문에 SPSS 본사의 홈페이지에서 Python 모듈을 다운로드하여 설치하여야 합니다.

Posted by JDATE