통계분석 이야기2011. 9. 6. 11:06


KoreaPlus 란

Korea Plus Module 이란: SPSS Korea ()데이터솔루션에서 다양한 활용 분야의 SPSS 제품을 좀 더 편리하게 사용하도록 대화상자로 구현한 확장 패키지로, 다음 4가지의 세부모듈로 구성되어있습니다.

Korea Plus: Conjoint
제품/서비스의 여러 특성 가운데 어떤 특성 요인이 소비자에게 중요하게 인지되며 어떤 특성은 상대적으로 덜 그러한가를 알아내기 위한 마케팅 리서치 기법

※ 특징 
1) “Full Concept” 의 제품을 고려한다. 즉 대상 제품들은 고려되는 모든 특성의 한 수준씩을 갖추고 있고 이것들을 모두 고려하여 현실적인 응답을 기대할 수 있는 장점이 있다

2) “Fractional Factorial Design(
부분 요인 설계)”을 사용한다. 고려하는 특성의 수가 많아져 비교대상이 되는 제품의 수가 기하급수적으로 늘어나는 점을 보완하기 위하여 체계적으로 일부만으로 대상 제품군을 구성하여 설계하는 방법을 사용한다

※ 활용분야
 1) 시장 점유율 예측
 2) 시장 세분화
 3) 광고 전략 기회
 4) 비용-효용 분석 등

Posted by JDATE
통계분석 이야기2011. 9. 5. 18:19

KoreaPlus 란

Korea Plus Module 이란: SPSS Korea ()데이터솔루션에서 다양한 활용 분야의 SPSS 제품을 좀 더 편리하게 사용하도록 대화상자로 구현한 확장 패키지로, 다음 4가지의 세부모듈로 구성되어있습니다.

Korea Plus: Medical Analysis

독성학은 생체 이물질의 부작용에 관한 연구로, 이에 대한 동물 실험 결과는 사람에게 특정 물질을 투여하는 임상 시험에서 매우 중요한 내용이기 때문에 올바른 통계 방법의 사용 뿐만 아니라 결과에 대한 정확한 해석과 평가가 필요합니다. Medicine 모듈은 임상시험과 관련하여 많이 사용되는 분석 기법을 쉽고 정확하게 수행할 수 있도록 지원합니다.

※ 특징 
- 각 표본 집단의 등분산성 검정 방법을 지원
- 순서형을 고려한 범주형 검정 방법을 지원

- 소수의 데이터에서 이상치를 객관적으로 판별할 수 있는 검정 방법을 지원

- 다양한 생존분석 기법을 지원

※ 주요분석
- Bartlett Test : 시험 데이터를 정규분포로 가정하는 경우 Bartlett Test를 이용한 분산 동질성 검정을 하여 ANOVA 등 분석결과의 신뢰성을 확보할 수 있습니다.
- Dixon's Test : 소수의 데이터에서 이상치(Outlier)검정을 손쉽게 수행할 수 있으며, 90%, 95%, 99% 유의수준에 따라 이상치 여부를 한번에 파악할 수 있도록 지원합니다.
- Cochran-Armitage Test : 단순 동질성/동일성 검정을 하는 카이제곱(Chi-Square)검정법과는 달리 순서형 데이터가 고려된 범주형 검정 기법으로 의학, 약학 실험등의 자료에서 많이 활용되는 기법입니다.
- Poly-K Test : 생존분석의 일종으로, 병변 발생 시간에 비해 부검시간이 빠른경우 실험에 부분 투입된 것으로 간주하는 Poy-k Test를 이용할 수 있습니다.
- Peto’s
Test : 일반적인 생존분석 방법을 기본으로 정해진 구간에 따라 질병 발생률을 분석하는 Peto's Test를 통해 고급 생존 분석을 수행할 수 있습니다.

※ 활용분야
 - 의학분야 : 생존자료에 관한 독성 시험 및 임상시험 등
 - 제약분야 : 의약품 효능 분석 등
 - 화학분야 : 시험 관련 분석 등

Posted by JDATE
통계분석 이야기2011. 8. 24. 10:44

지난 43년 간 세계 각국의 다양한 분야에서 널리 사용 되어 온 IBM SPSS Statistics의 새 버전이 출시 되었습니다.
 
이제, 더 빠르고 강력해진 IBM SPSS Statistics 20을 경험해 보세요!


What’s new in IBM SPSS Statistics 20?


Maps 기능을 통해 다양한 지도 그림 작성

그래프 보드양식 선택기 메뉴에 다양한 형태의 지도 그림 템플릿이 추가되었습니다.

 






일반화 선형혼합모형(GLMM)의 기능향상


일반화 선형혼합모형(GLMM, Generalized Linear Mixed Model)에서 목표변수가 순서형일때로 사용할 수 있도록 기능이 향상되었습니다.




배치처리 Production Job 기능향상


Job을 server에서 실행 할 때 Background 기능이 추가되어 server와 연결이 끊긴 상태에서도 Job이 실행되며, 결과를 확인할 수 있습니다.
 



피벗테이블 속도향상

19버전에서는 편집이 불가능한 테이블을 출력하는 옵션을 사용하면 피벗테이블 속도를 향상시킬 수 있었으나, 20버전에서는 피벗테이블이 빠르게 생성되면서도 편집이 가능하도록 하였습니다.
 



임시파일 압축으로 성능향상

대용량의 파일을 Sorting 할 경우, SPSS Statistics Server의 Sort 프로시저에 의해 임시파일을 압축하기 때문에 저장공간이 늘어나 공간을 보다 효과적으로 활용 할 수 있습니다.



 

* 구입문의: sales@spss.co.kr

Posted by JDATE
통계분석 이야기2011. 6. 28. 17:55

지난 43년 간 세계 각국의 다양한 분야에서 널리 사용 되어 온 IBM SPSS Statistics의 새 버전이 출시 되었습니다. 이제, 더 빠르고 강력해진 IBM SPSS Statistics 19가 당신의 의사 결정에 힘을 실어 드립니다. 초보자부터 고급 유저까지 모든 레벨의 사용자가 손쉽게 정교한 분석이 가능한 새로워진 IBM SPSS Statistics 19를 만나 보세요!

 

What’s new in IBM SPSS Statistics 19?

 

자동 선형 모형 생성 기능 (Automatic Linear Model) 추가!

새롭게 추가 된 자동 선형 모형 (Automatic Linear Model) 생성 기능을 통해 통계적인 지식이 다소 부족하더라도 쉽고 빠르게 효과적인 선형 모형 분석을 수행할 수 있습니다.

-데이터 자동 준비 기능 (Automated Data Preparation-ADP)을 통해

분석 전 정제 작업의 자동화 구현

-모형의 정확성과 안정성 향상

-범주형 변수 지원

-Best subset과 같은 다양한 단계적 (stepwise) 회귀 분석 기법들이 추가 됨

-분석 결과물에 대한 다양한 시각화가 가능

-IBM SPSS Statistics 네트워크 서버 버전 사용 시 대용량 데이터의 신속한 처리 가능

 

GLMM 알고리즘 탑재

일반화 선형 혼합 모형 (Generalized Linear Mixed Models-GLMMs) IBM SPSS Statistics 19 Advanced Statistics 모듈에서 새롭게 지원 되는 기능으로, 반복 측정 데이터나 비() 선형적 관계가 존재하는 계층적 (hierarchical), 내포적(nested) 데이터를 분석함에 있어 적합합니다. 의학, 사회과학, 학술 연구 및 비즈니스 등 다양한 분야에서 정교하고 복잡한 데이터 상에서도, IBM SPSS Statistics 19의 뛰어난 시각적 인터페이스를 통해 쉽고 빠르게 모형을 구현할 수 있습니다.

 

다이렉트 마케팅 모듈의 향상!

IBM SPSS Statistics 18 에서 처음으로 선보인 다이렉트 마케팅 모듈이, 마케터의 눈높이에 맞춰 기능이 향상 되었습니다. 통계적 분석 결과의 의미가 좀 더 쉽게 해석될 수 있도록 분석 결과(, 그래프)의 설명도가 향상 되었고, 측정 수준을 지정할 수 있는 방법이 다양해졌습니다. 또한 IBM SPSS Statistics 19를 통해 Salesforce.com에 접속하는 것이 가능하며, MS Office Excel 2010 파일을 읽거나 내보낼 수 있게 되었습니다.

 

 

대용량 데이터 처리도 더 빠르게- 최대 200%까지 속도 향상!!

IBM SPSS Statistics Base 모듈에서 대용량의 테이블 생성 시 최대 200%까지 처리 속도가 향상 되었으며, 메모리를 적게 소모하면서 개별적인 수정 작업 또한 가능해졌습니다.


* 구입문의: sales@spss.co.kr

Posted by JDATE
통계분석 이야기2011. 6. 24. 05:08
R은 현재 대학에서 통계학 연구와 교육을 위한 표준 계산 언어로 사용 되고 있는 무료 통계 소프트웨어이다.
여러 가지 장점이 있지만
, R의 가장 큰 장점은 통계 이론의 발전과 동일한 속도의 update가 가능하다는 것이다.

기본적으로
R은 공개 소스이기 때문에, SPSS Statistics SAS와 같은 유료 소프트웨어의 update 속도보다
훨씬 빠르고 쉽게 최신 통계 이론을 구현할 수 있다
.



그러나
R은 메뉴화 되어 있지 않기 때문에 코딩 방식이 익숙하지 않은 사람이라면, 이에 대한 어려움과 부담감을
느낄 것이다
. 무료 소프트웨어인 R과 유료 소프트웨어의 장단점을 서로 절충할 수 있도록 SPSS Statistics
에서는
R Extensions 기능을 제안하고 있다.



 
R Extensions 기능은 SPSS Statistics Syntax 창에서 R 코드와 R의 여러 고급 분석 모듈을 이용하여 분석할 수
있는 기능을 말한다
. R Extensions 기능을 사용하면,
사용 환경이 코딩 방식이 아니라 사용자 인터페이스이기
때문에 누구나 쉽게 분석을 할 수 있다
. R Extensions 기능의 장점을 좀 더 자세히 정리하면 다음과 같다.



 
1.     R Extensions – R에 이미 구현이 되어 있는 패키지 혹은 함수를 이용하여 SPSS Statistics에서
구현이 되어 있지 않은 고급 통계 모듈을 추가적으로 설치할 수 있으며, 이로 인한 고급 분석이 가능하다.



 2.     R Integration – SPSS Statistics와 입력과 출력이 연결 되어 있어, 굳이 R을 사용하지않고 SPSS Statistics
에서 분석에 사용할 데이터를 입력하거나, 분석 결과를 탐색할 수 있다.



 3.     Custom Dialog Builder. – 프로그램의 확장뿐 아니라, 사용자 정의 대화 상자를 사용하여 인터페이스를 생성
할 수 있다. 이를 통해 사용자는 고급 분석을 기존에 SPSS STATISTICS를 사용하듯이 좀 더 쉽게 사용할 수 있다.



 4.     Free Plug-in downloads. – 이미 만들어진 모듈과 Plug-in을 무료로 다운로드 할 수 있으며, R의 공개
소스들처럼 다른 사용자들과 정보 공유가 가능하다.



 R Extensions 기능을 사용하기 위해서는 SPSS STATISTICS 17. 0.2 R 7.2 버전 이상의 사양의 프로그램이
컴퓨터에 설치 되어야 한다
. 이에 대한 자세한 설치 방법과 관련 파일은 http://www.r-project.org

SPSS STATISTICS 영문 홈페이지 http://www.spss.com/devcentral/index.cfm?pg=rresources53
혹은
SPSS Korea 홈페이지>기술지원>Patch
에서


53 PASW Statistics 18.0.2 R, R-Plugin  

42 PASW Statistics 18.0 R, R-Plugin

34 SPSS Statistics R Plug In 17.0.2

32 SPSS Statistics R Plug In 게시물을 참고하길 바란다.


 참고 파일들을 바탕으로 프로그램이 오류 없이 설치가 되면 아래의 드림과 같이 SPSS Statistics의 회귀분석 안에
추가 설치한 메뉴들이 생성이 된다.


현재 R Extensions는 이형 변수간 상관 (Heterogeneous Correlations), 잔차 이분산성 검증 (Residual
Heteroscedasticity Test), 로버스트 회귀 (Robust Regression), 분위수 회귀 (Quantile Regression), 토빗 회귀
(Tobit Regression)가 가능하며, 이 중 토빗 회귀 (Tobit Regression)를 중심으로 살펴 보고자 한다.

 

 EMB0000152c1521

토빗회귀2.jpg

 종속 변수에 durable (내구재 구입비)은 의미상 음이 될 수 없으며, 이를 age(나이) quant(유동성)에 토빗 회귀를 한 결과는 다음과 같다.

 EMB0000152c1523

  지금까지 R Extensions 기능을 이용하여 구현한 토빗 회귀 분석을 살펴 보았다. 현재는 토빗 회귀를 비롯하여
앞부분에서 소개한 5가지의 분석이 가능하지만, 앞으로 추가 될 수 있는 고급 분석은 무궁무진하다.
따라서 사용자들은 SPSS Statistics R Extensions 기능을 통하여 고급 분석을 보다 쉽고 편리하게
사용할 수 있을 것이다.



 관련자료보기

SPSS Statistics 18의 R 기능 확장

SPSS Statistics와 R을 이용한 분석추가 (회귀분석방법 추가)

SPSS Statistics를 이용한 AHP 모형 개발

금융 자산 Value at Risk 추정 방법의 비교 및 분석

 문의: sales@spss.co.kr


Posted by JDATE
통계분석 이야기2011. 6. 23. 14:08

데이터를 기반으로 변수(변인)간의 함수관계를 밝히고 이러한 함수관계를 이용하여 관심의 대상이 변수의 값을 예측하는 목적으로 가장 널리 사용되고 있는 통계분석기법이 회귀분석(Regression Analysis)입니다. 

일반적으로 가장 많이 사용되는 회귀분석은 원인을 의미하는 독립변수와 결과를 의미하는 종속변수간의 관계가 선형(Linear)임을 가정하는 선형회귀분석(Linear Regression Analysis)입니다. 

이러한 선형회귀분석모형은 선형성, 오차항의 정규성, 등분산성 및 독립성을 가정하고 출발합니다. 

실제 데이터를 선형회귀분석모형에 적합시키려고 할 때, 이러한 가정사항이 충족되지 않는 경우를 많이 만나게 됩니다. 

다음은 가정사항이 충족되지 않을 경우에 적용해 볼 수 있는 해결방안을 언급하고 있습니다. 


1. 선형성이 만족되지 않는 경우

-> 이경우에는 우선 해볼 수 있는 것은 자연로그변환, 상용로그변환, 제곱근 변환, 역변환 등의 변수변환을 통해서 선형성이 만족하도록 데이터를 수정하여 선형회귀분석모형에 적용하는 방법입니다. 

-> 또다른 방법은 선형성 가정이 충족되지 않아도 되는 비선형회귀모형에 적용하는 방법입니다. SPSS Statistics의 회귀분석 메뉴의 곡선추정(Curve Estimation) 대화상자를 통해서 다양한 비선형모형을 적용하여 볼 수 있습니다.

-> 단, SPSS Statistics의 곡선추정 방법은 독립변수가 1개 일경우에만 적용할 수 있으므로, 독립변수가 2개 이상인 경우에는 적용할 수가 없습니다.


2. 등분산성이 만족되지 않는 경우

잔차도표를 통해서, 오차항의 등분산성의 충족되지 않음을 확인하였을 경우에

-> 우선 해볼 수 있는 것은, 변수변환을 통해서 등분산성이 만족되도록 데이터를 수정하여 적용하는 방법입니다.

-> 또다른 방법은 등분산성의 가정이 위배될 경우, 즉 이분산성의 징후를 보일 경우에는 분산의 변화를 고려하여 회귀계수를 추정하는 가중회귀분석에 적용하는 방법입니다.  SPSS Statistics의 회귀분석 메뉴의 가중추정(Weight Estimation) 대화상자를 통해서 가중회귀분석을 적용할 수 있습니다.


3. 오차항의 독립성이 만족되지 않는 경우

오차항간에 독립성이 만족되지 않는다면, 즉 오차항이 서로 상관이 있다면 이를 자기상관(autocorrelation)이 존재한다고 말하는 것이고, 회귀모형의 진단을 위한 더빈-왓슨 통계량에 의하여 자기상관의 존재여부를 검정할 수 있습니다.  자기상관이 존재하는 경우에 실제보다 R2 (결정계수)가 과대하게 측정되고, F 통계량이 커지므로 모형적합성이 실제보다 과대하게 좋은것으로 나타납니다.

시간적 흐름에 따라 발생되는 경영 및 경제, 일부 공학분야의 많은 자료들이 이와같이 오차항이 자기상관이 존재하는 경우가 많습니다.

-> 이경우에는 시계열분석방법의 하나인 자기회귀분석을 적용하여야 합니다.  자기회귀분석은 기본적인 시계열분석인 ARIMA 모형의 일부분입니다.  SPSS Statistics의 Forecasting 메뉴에서 ARIMA모형을 수행할 수 있습니다.


4. 종속변수가 범주형인 경우

기본적으로 선형회귀분석은 독립변수와 종속변수 모두 연속형 데이터를 전제로 하고 있습니다.  그러나 실제 사례에는 범주형 자료인 경우가 상당히 많습니다.

-> 종속변수의 값이 2개, 즉 이분형인 경우에는 이분형 로지스틱 회귀분석모형에 적용할 수 있습니다.

-> 종속변수의 값이 3개 이상인 경우에는 다항형 로지스틱 회귀분석모형에 적용할 수 있습니다.


5. 범주형 독립변수가 포함되어 있는 경우

-> 이경우에 우선 해볼 수 있는 것은 가변수(Dummy variable)을 생성하여 선형회귀분석모형에 적용하는 것입니다.

-> 또 다른 방법은 최적화 척도법(Optimal Scaling)방법 중 하나인 범주형 회귀분석에 적용시키는 방법인데, 이 방법은 범주형 데이터를 정규화 방법을 통하여 연속형으로 변환시켜서 분석하는 방법입니다.   이 방법은 종속변수와 독립변수가 모두 범주형일때도 적용할 수 있는 방법으로 매우 유용한 회귀분석방법이라고 하겠습니다.

 SPSS Statistics의 회귀분석 메뉴의 최적화 척도법 (CATREG) (Optimal Scaling (CATREG))  대화상자를 통해서 범주형회귀분석을 적용할 수 있습니다.


6. 다중공선성이 존재하는 경우

독립변수가 다수인 다중회귀분석시 독립변수들간의 상관관계가 높아지면 종속변수에 대한 독립변수의 영향력을 올바르게 측정할 수 없게 됩니다.  이러한 경우를 다중공선성이 존재한다고 말합니다.  다중공선성이 발생되면 추정된 각 독립변수의 회귀계수들의 신뢰성이 떨어지게 됩니다.  다중공선성이 발생될때에는 결정계수 (R2)가 지나치게 높게 나올수 있으며, 각 회귀계수의 유의성에 대한 검정통계량 값이 유의하지 않음에도 불구하고 모형에 대한 분산분석 결과가 유의할 때는 다중공선성을 의심해 봐야 합니다.

또한 분산 팽창계수 (VIF: Variance Inflation Factor) 값이 지나치게 크면  (통상적으로 10이상이면) 다중공선성이 있다고 판단합니다.  허용치(Tolerance)는 VIF의 역변환 값인데, 일반적으로 이 수치가 0.1보다 작으면 다중공선성이 있다고 판단합니다.

 -> 이경우 우선 해볼 수 있는 것은 상관관계가 상대적으로 높은 독립변수를 제외하고 다중회귀분석을 수행하는 방법입니다.

 -> 다음으로 해볼 수 있는 것은 능형회귀분석(Ridge Regression Analysis)입니다.  SPSS Statistics에서 Ridge Regression은 대화상자로는 수행할 수 없고, SPSS 프로그램이 설치된 폴더에 있는 Ridge Regression macro 파일을 이용하면 명령문(Syntax)창에서 아래와 같이 명령문을 작성하여 수행시키면 됩니다. 

 
GET FILE = ['DATA FILE 경로'].

INCLUDE    ['MACRO FILE 경로'(프로그램 설치 폴더 안에 Ridge Regression.sps로 저장되어 있음)].

RIDGEREGdep=[종속변수]/enter=[독립변수 list] /start=[능형모수(k)시작점]/stop=[능형모수(k)끝점]/inc=[능형회귀(k) 간격].   

 
-> 또 다른 방법은 PLS 회귀 (Partial Least Square Regression)을 적용하는 방법입니다.  PLS회귀는 SPSS Statistics의 기본분석기능으로 있지 않기 때문에 SPSS 본사의 홈페이지에서 Python 모듈을 다운로드하여 설치하여야 합니다.

Posted by JDATE
통계분석 이야기2011. 6. 23. 09:33

SPSS라는 이름으로 우리에게 친숙한 통계패키지의 현재 정확한 이름은 IBM SPSS Statistics입니다. 현재까지 나와있는 SPSS의 가장 최신버전은 19 입니다. 

 SPSS 1968년에 처음 만들어 졌는데, 그당시는 소프트웨어에 지금처럼 버전이란 용어를 사용하지 않고 릴리즈란 용어를 사용하였습니다.  릴리즈는 우리말로 얘기하면 이라 할 수 있는데, 책의 출판시에 사용하는 몇 판이라고 얘기하는 판과 같습니다.

 1975년에 회사를 만들어 본격적으로 SPSS를 발전시켰는데 1983년에는 드디어 13판을 만들어야 하는 싯점에 이르게 되었습니다.  그런데 서양사람들에게 13이란 숫자는 아주 싫어하는 숫자이고 그때까지 잘되었던 사업에 액이 낄까봐 13판이라는 이름대신에 SPSS-X 1판이란 이름으로 제품을 출시하였습니다.

X라는 이름은 나중에 이름을 부여하기로 하고 붙혀놓은 것인데 4판이 나올때까지 적당한 이름이 떠오르지 않으니 다시 X란 이름을 부여하고 그때부터 Version이란 단어를 사용하기 시작했습니다.

 

따라서 SPSS의 최신버전이 19이지만 개정판으로 따지만 총 31판째가 되는 것입니다.

 

제가 아는 범위에서 오랫동안 사랑을 받아온 책을 얘기하면 조순 박사님의 경제학 원론 7판까지 나왔었고, “수학의 정석 10, 필립코틀러박사가 쓴 마케팅의 교과서라는 마케팅관리론 12판까지 나왔습니다.

 

비록 2010년에 IBM에 의해 인수가 되었지만, SPSS 31판까지 나왔다는 것은 얼마만큼 오랫동안 사랑을 받아왔는지를 짐작할 수 있는 대목입니다.




Posted by JDATE