행사안내2011. 6. 28. 03:16
스마트폰에서는 안보이고, PC로 봐야 동영상이 보입니다!

'행사안내' 카테고리의 다른 글

Amos Day 2011  (0) 2011.07.06
SPSS 뉴스레터 VOL.6  (0) 2011.07.05
SPSS RoadShow 2011  (0) 2011.06.30
제2회 SPSS 논문공모전  (0) 2011.06.24
Amos Day 2011  (0) 2011.06.23
Posted by JDATE
 오늘날의 기업은 급변하는 시대의 다양한 상황에서 경쟁력을 갖추기 위해 끊임없이 노력하고 있다.
이러한 상황에서 기업의 최대 관건은, 조직이 직면한 상황을 방대한 양의 데이터를 통해 이해하고 최적의 대응
전략을 수립하여 대처하는 것이다.

 그러나 데이터를 분석하는 과정에서 다양한 시장상황에 적용할 수 있는 최적의 모형을 찾아 내는 일은 예측
모델링에 익숙치 않은 분석가에게는 쉽지 않은 일이다. SPSS Modeler는 분석가가 적은 노력을 통해 최적의
모형을 찾을 수 있는 자동화 기능인 자동 데이터준비, 자동모델링 기능 그리고 결정 목록 기능을 제공하고 있다.
이러한 기능들은 분석가에게 다양한 모델링 알고리즘을 동시에 적용하고자 할 때 혹은 제한된 시간 내에 최적의
모형을 찾아내야 할 때 분석에 앞서 어떠한 모형을 적용할 것인지에 대한 확인작업을 가능케 한다.
또한 방대한 양의 데이터를 분석하는데 소요되는 시간을 절약할 수 있어 편리하다.

 

 

(ADP-Automated Data Preparation)

 본격적인 모델링 또는 분석 작업을 시작하기 전에 해당 데이터에 대한 사전 지식이나 통계적 개념이 없어도
분석자가 데이터 준비 작업을 쉽고 빠르게 할 수 있도록 도와 준다. 결측값 대체 또는 유용한 정보가 없는 필드
제거와 같은 기본 클리닝 작업을 수행할 수 있을 뿐 아니라 성능을 향상시키기 위해서 표본을 추출하여 연속형
필드들의 최적 구간화를 수행한다.

 

  ADP 기능을 수행함으로써 최대 장점은 분석에 앞서 데이터를 핸들링하는 과정을 SPSS Modeler가 자동적으로
수행하므로 분석에 소요 되는 시간이 절약 되며, 대용량 데이터의 전 처리에 효율적인 점을 꼽을 수 있다.
따라서 예측 모델링에 익숙하지 않은 분석가에게 추천하며, 데이터 마이닝 전문가에게도 제한된 시간 내에
모델링을 하고자 할 때나 필드의 수량이 많을 때 유용한 기능이다

 

 자동 모델링 (AM-Automated Modeling)

  단일 스텝에서 여러 종류의 알고리즘을 한꺼번에 적용하여 여러 개의 모형을 동시에 생성하고 평가하는 것을
의미하며, SPSS Modeler는 목표 변수의 성격과 분석 유형에 따라 3 가지의 기능을 지원한다.

  자동 분류자 (Auto Classifier): 이분형 또는 범주형 목표 변수에 대한 자동 모델링 기능으로, 다양한 분류 분석
모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
자동 분류자 노드는 다음과 같은 모형 생성 기능을 지원하며, 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.

 지원하는 알고리즘

-신경망 분석 (Neural Network)
-CHAID
-판별 분석 (Discriminant analysis)
-C5.0
-로지스틱 회귀분석 (Logistic Regression)
-Support Vector Machine (SVM)
-결정 목록 (Decision List)
-Bayesian Network
-Nearest Neighbor Models (KNN)
-C&RT


 자동 숫자 (Auto Numeric): 수치형 목표 변수에 대한 자동 모델링 기능으로, 다음과 같은 다양한 추정 모형을
생성할 수 있으며, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
또한 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.

 지원하는 알고리즘

-CHAID
-신경망 분석 (Neural Network)
-선형 회귀 분석 (Linear Regression)
-C&RTree
-Support Vector Machine (SVM)
-일반화 선형 모형 (Generalized Linear Model)
-가장 가까운 이웃 (Nearest Neighbor Models (KNN)

 자동 군집 (Auto Cluster): 군집화 모형에 대한 추정 및 비교를 수행하는 자동 모델링 기능으로, 개체 간의
유사한 특성에 따라 집단화하는 다양한 군집 모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을
찾는데 매우 유용한 기능이다. 다음 3 가지 중 원하는 모형을 선택할 수 있으며, 각 모형별로 모수 및 세부 옵션을
지정할 수 있다.

지원하는 알고리즘

-코호넨 네트워크 분석 (Kohonen Network)
-K-평균 군집분석 (K-Means Clustering
-이단계 군집분석 (Two-Step Clustering)

 

 이러한 자동 모델링 기능들은 데이터를 분석하는 과정에서 여러 가지 모형을 생성하고 평가하며, 최적의 모형을
찾아내는 작업의 수행 시간을 상당히 단축시켜준다. 그러므로 자동 데이터 준비 과정과 같이 예측 모델링에
익숙하지 않은 분석가에게 추천하는 기능이며, 데이터 마이닝 전문가에게도 다양한 모델링 알고리즘을 동시에
적용하고자 할 때나 제한된 시간 내에 최적의 모형을 찾고자 할 때 매우 유용한 기능이다.

 

 결정 목록 (Decision List )이란?    

 

 제품의 구매 확률과 같은 고객의 이분형 행동 패턴을 규칙화하고, 이 규칙들을 통해 특정 행동 반응을 보일
가능성이 높은 고객 집단 (segment)를 찾아 내는데 매우 효과적인 알고리즘이다.

 목표 변수는 이항 변수 (반응/비반응, 구매/비구매)로 한정 되어 있으며, 모든 척도 (연속형, 이산형 등) 설명
변수를 활용할 수 있다.

 의사 결정 규칙이 전항 (antecedent) 과 후항 (consequent) 으로 이루어진 if-then 형태로 출력 된다. 여기서
전항은 예측 변수 (predictor)들의 논리 조건 표현식, 후항은 전항이 참(true)일 경우 목표 변수의 예측된 값이다.
이때, 출력 되는 의사 결정 규칙들의 순서는 매우 중요하다.

 

 결정 목록 노드를 사용하였을 때 가장 큰 장점은 분석자가 원하는 수준에 따라 규칙을 생성할 수 있으며, 기존의
의사결정나무 (Decision Tree) 기법에 비해 실무에 적용하기 편리하다. 이 알고리즘은 캠페인 반응을 예측하고,
프로모션 대상자를 선정하거나 마케팅 캠페인 최적화 및 콜센터 최적화하는데 효과적으로 활용 될 수 있다.
사실상 결정목록 기법은 이론적 배경이 다소 약한 편이지만, 마케팅뿐만 아니라 다양한 분야에서 실무에 활용이
편리한 모델링 알고리즘이다.

 다음 호에서는 이런 SPSS Modeler의 다양한 기능을 사용하여 쉽고 빠르게 분석 작업의 효율성을 향상 시킬 수
있는 방법에 대해 소개하도록 하겠다.

 

 문의: marketing@spss.co.kr


Posted by JDATE
데이터 마이닝은 조직 내 방대한 데이터에 내재된 패턴(pattern)이나 규칙을 통해 변화와 경쟁을
거듭하는 현대 사회의 조직이 경쟁력을 갖출 수 있도록 통찰력을 갖추게 해주며, 예측 모델을 개발하여
의사 결정을 뒷받침해 줄 수 있는 근거를 제공하여 주며, 적절한 액션을 취하게 해줍니다.
SPSS Modeler는 조직 내 존재하는 다양한 종류의 데이터를 엑세스, 구성 및 모델링함에 있어
최적의 데이터 마이닝 툴이 되어 드릴 것 입니다.

SPSS Modeler는 뛰어난 시각적 인터페이스 상에서 데이터 입력, 탐색, 모델링, 전개 과정을 손쉽고
빠르게 구현할 수 있게 해드립니다. SPSS Modeler는 Fortune 지가 선정한 전세계 500대 기업, 공공 및
교육 기관 등에서 널리 사용 되고 있으며, 고객층 확보 및 지속적인 관리, 재무 위험 관리, 품질 관리의
효율성 증진, 사회과학 연구 보조, 국가 안보와 사법 행정 등에 다양한 분야에서 예측적 분석을 통해
남보다 앞선 경쟁력을 심어 주고 있습니다.

나아가 2010년 출시 된 SPSS Modeler 14는 새롭게 달라진 디자인과 더욱 더 강력해진 기능을 갖추었습니다.


More Powerful Modeling Algorithms- 모델링 기능의 향상

모형 생성 시 SPSS Modeler 14 버전부터는 생성된 모델 너겟이 모델 팔레트 뿐만 아니라 스트림에도
자동적으로 추가됩니다. 또한 대용량 데이터 최적화 기능이 지원 되는 모델링 알고리즘들이 종전보다 더
추가 되었으며, 자동 데이터 준비, 모형 선택, 앙상블 기법 등 최적화 된 선형 (Regression) 모델링을 위한
다양한 옵션들이 제공 됩니다. 아울러 Microsoft Analysis Service에서 제공하는 최신 in-database mining
알고리즘을 구현 가능케 하는 Microsoft Time Series, Sequence Clustering 노드가 새롭게 추가 되어
매출과 같은 연속형 변수 예측에 대한 최적화 된 시계열 회귀 분석 및 sequence 규칙에 따라
데이터를 군집화할 수 있게 되었습니다.


New Look- 전체적인 User Interface의 변경

전체적으로 각 노드의 모양, 크기, 색깔 등의 포맷이 변경 되었으며, 아이콘의 크기가 확대 되어 각 노드의
해당 기능을 한눈에 쉽게 식별할 수 있습니다. 또한 소스 노드, 유형 (Type) 노드 사용 시 새로운 필드가
추가 되었으며, 데이터의 방향을 설정하는 용어가 변경 되었습니다.


Greater Flexibility-데이터 출력 및 편집 기능 향상

향상 된 Microsoft Office Excel 파일 작업 기능을 통해 이제 더 쉽고 편리하게 SPSS Modeler 상에서
작업한 결과물을 출력 및 관리하십시오. 또한 데이터 베이스 테이블 편집 기능이 향상 되었으며, 데이터를
교환하는 방식의 표준 언어인 XML 형식의 데이터를 읽거나 내보낼 수 있는 노드가 추가 되었습니다.
또한 분석 자산을 관리하고, 자동화 된 분석 프로세스의 결과물을 통합, 조직 내에 전개하는
SPSS Collaboration and Deployment Services와의 연동을 통해 조직 내 다수의 사용자에게 접근하기
편리하게 함은 물론 효과적으로 파일들을 관리할 수 있게 되었습니다.

 

문의: sales@spss.co.kr


Posted by JDATE
통계분석 이야기2011. 6. 24. 05:08
R은 현재 대학에서 통계학 연구와 교육을 위한 표준 계산 언어로 사용 되고 있는 무료 통계 소프트웨어이다.
여러 가지 장점이 있지만
, R의 가장 큰 장점은 통계 이론의 발전과 동일한 속도의 update가 가능하다는 것이다.

기본적으로
R은 공개 소스이기 때문에, SPSS Statistics SAS와 같은 유료 소프트웨어의 update 속도보다
훨씬 빠르고 쉽게 최신 통계 이론을 구현할 수 있다
.



그러나
R은 메뉴화 되어 있지 않기 때문에 코딩 방식이 익숙하지 않은 사람이라면, 이에 대한 어려움과 부담감을
느낄 것이다
. 무료 소프트웨어인 R과 유료 소프트웨어의 장단점을 서로 절충할 수 있도록 SPSS Statistics
에서는
R Extensions 기능을 제안하고 있다.



 
R Extensions 기능은 SPSS Statistics Syntax 창에서 R 코드와 R의 여러 고급 분석 모듈을 이용하여 분석할 수
있는 기능을 말한다
. R Extensions 기능을 사용하면,
사용 환경이 코딩 방식이 아니라 사용자 인터페이스이기
때문에 누구나 쉽게 분석을 할 수 있다
. R Extensions 기능의 장점을 좀 더 자세히 정리하면 다음과 같다.



 
1.     R Extensions – R에 이미 구현이 되어 있는 패키지 혹은 함수를 이용하여 SPSS Statistics에서
구현이 되어 있지 않은 고급 통계 모듈을 추가적으로 설치할 수 있으며, 이로 인한 고급 분석이 가능하다.



 2.     R Integration – SPSS Statistics와 입력과 출력이 연결 되어 있어, 굳이 R을 사용하지않고 SPSS Statistics
에서 분석에 사용할 데이터를 입력하거나, 분석 결과를 탐색할 수 있다.



 3.     Custom Dialog Builder. – 프로그램의 확장뿐 아니라, 사용자 정의 대화 상자를 사용하여 인터페이스를 생성
할 수 있다. 이를 통해 사용자는 고급 분석을 기존에 SPSS STATISTICS를 사용하듯이 좀 더 쉽게 사용할 수 있다.



 4.     Free Plug-in downloads. – 이미 만들어진 모듈과 Plug-in을 무료로 다운로드 할 수 있으며, R의 공개
소스들처럼 다른 사용자들과 정보 공유가 가능하다.



 R Extensions 기능을 사용하기 위해서는 SPSS STATISTICS 17. 0.2 R 7.2 버전 이상의 사양의 프로그램이
컴퓨터에 설치 되어야 한다
. 이에 대한 자세한 설치 방법과 관련 파일은 http://www.r-project.org

SPSS STATISTICS 영문 홈페이지 http://www.spss.com/devcentral/index.cfm?pg=rresources53
혹은
SPSS Korea 홈페이지>기술지원>Patch
에서


53 PASW Statistics 18.0.2 R, R-Plugin  

42 PASW Statistics 18.0 R, R-Plugin

34 SPSS Statistics R Plug In 17.0.2

32 SPSS Statistics R Plug In 게시물을 참고하길 바란다.


 참고 파일들을 바탕으로 프로그램이 오류 없이 설치가 되면 아래의 드림과 같이 SPSS Statistics의 회귀분석 안에
추가 설치한 메뉴들이 생성이 된다.


현재 R Extensions는 이형 변수간 상관 (Heterogeneous Correlations), 잔차 이분산성 검증 (Residual
Heteroscedasticity Test), 로버스트 회귀 (Robust Regression), 분위수 회귀 (Quantile Regression), 토빗 회귀
(Tobit Regression)가 가능하며, 이 중 토빗 회귀 (Tobit Regression)를 중심으로 살펴 보고자 한다.

 

 EMB0000152c1521

토빗회귀2.jpg

 종속 변수에 durable (내구재 구입비)은 의미상 음이 될 수 없으며, 이를 age(나이) quant(유동성)에 토빗 회귀를 한 결과는 다음과 같다.

 EMB0000152c1523

  지금까지 R Extensions 기능을 이용하여 구현한 토빗 회귀 분석을 살펴 보았다. 현재는 토빗 회귀를 비롯하여
앞부분에서 소개한 5가지의 분석이 가능하지만, 앞으로 추가 될 수 있는 고급 분석은 무궁무진하다.
따라서 사용자들은 SPSS Statistics R Extensions 기능을 통하여 고급 분석을 보다 쉽고 편리하게
사용할 수 있을 것이다.



 관련자료보기

SPSS Statistics 18의 R 기능 확장

SPSS Statistics와 R을 이용한 분석추가 (회귀분석방법 추가)

SPSS Statistics를 이용한 AHP 모형 개발

금융 자산 Value at Risk 추정 방법의 비교 및 분석

 문의: sales@spss.co.kr


Posted by JDATE
고객사 이야기2011. 6. 24. 04:39

지난 2010 6 22 (), SPSS Korea의 고객사 신한생명은 한국정보산업연합회, CRM협의회, 디지털타임스가 주최한 고객중심경영을 위한 CRM Fair 2010’에서 ‘2010 고객중심경영대상-금융부문을 수상하였습니다.

2010
년 올해 창립 20주년을 맞은 신한 생명은 또한 한국신용평가가 선정한 보험금 지급 능력 3년 연속 최고 등급 AAA를 획득 하였으며, 한국지속경영평가원이 선정한 대한민국 명품 브랜드 대상-생명보험부분 3년 연속 수상하며 소비자와 업계가 인정한 우수 기업 임이 입증 되었습니다.

 

수상 기업 사례 발표 시 신한 생명 관계자는 이와 같은 성과에 그치지 않고 고객 중심 경영 기업으로 인정 받으며 기존의 시장 패러다임을 넘어 시장 선도 보험 상품과 차별화된 서비스를 통해 2015년까지의 전략 목표로 업계 내 위상을 g확보하고 보험 시장을 새롭게 주도하는 리더로 자리 매김 하기 위해 2002년부터 기반을 구축한 탁월한 CRM 전략 및 사내 구성원들의 마케팅 역량을 계속 해서 키워 나갈 것이라고 밝혔습니다.

 

기존의 시스템 및 Tool 중심의 CRM 접근법이 실제 활용도가 미흡하며, 본사 관점에서 1차 고객인 설계사 needs의 충분한 반영이 결여 된 개발 당시 시점에서, SPSS의 예측적 분석 솔루션은 그룹 차원에서 신한 생명 CRM 역량 진단 컨설팅을 진행, 현황 및 문제점을 점검하고 CRM 가치제고를 위한 CRM 개발 방향을 도출하였습니다.

그 결과, SPSS 컨설팅 팀과 신한 생명 마케팅 부서에서 영역별 개선점을 중점으로 필요 역량을 종합해 핵심 추진 과제로서 채널 특화 T-CRM 모델 개발, 전사 고객 세분화 모델 수립, 분석 CRM 인프라 구축하는 프로젝트를 2010 1월까지 진행하였습니다.


신한 생명은 향후 SPSS Korea와의 프로젝트를 통해 구축 된 CRM 분석 마트 안에 내재하는 정보외에도 여러 가지 캠페인을 통해서나, 나아가 신한 금융 그룹 내로 확대 되어 얻은 정보를 로지스틱 회귀분석, C5.0 분석 및 C&RT 분석과 같은 통계적 알고리즘에 기반한 데이터 마이닝 기법을 통해 채널 별 세분화 된 CRM 모델을 업그레이드 및 추가 개발함은 물론, 잠재 시장을 발굴해 낼 계획 입니다.

또한 SPSS Korea는 고객 세분화 모델을 추가 업그레이드 함은 물론 분석 CRM 마트를 개선 및 활용을 증대 하도록 도울 것이며, 신한 금융 그룹 연계 CRM 인프라를 구축하여 그룹사 통합 캠페인 시스템 수립-운용 및 그에 따른 영업 기회를 적극 활용하는 시스템을 구축 하도록 노력할 것 입니다. 


문의:
marketing@spss.co.kr


Posted by JDATE
행사안내2011. 6. 24. 04:26


 

'행사안내' 카테고리의 다른 글

Amos Day 2011  (0) 2011.07.06
SPSS 뉴스레터 VOL.6  (0) 2011.07.05
SPSS RoadShow 2011  (0) 2011.06.30
고객중심경영을 위한 CRM Fair 2011 - 동영상 후기  (0) 2011.06.28
Amos Day 2011  (0) 2011.06.23
Posted by JDATE
통계분석 이야기2011. 6. 23. 14:08

데이터를 기반으로 변수(변인)간의 함수관계를 밝히고 이러한 함수관계를 이용하여 관심의 대상이 변수의 값을 예측하는 목적으로 가장 널리 사용되고 있는 통계분석기법이 회귀분석(Regression Analysis)입니다. 

일반적으로 가장 많이 사용되는 회귀분석은 원인을 의미하는 독립변수와 결과를 의미하는 종속변수간의 관계가 선형(Linear)임을 가정하는 선형회귀분석(Linear Regression Analysis)입니다. 

이러한 선형회귀분석모형은 선형성, 오차항의 정규성, 등분산성 및 독립성을 가정하고 출발합니다. 

실제 데이터를 선형회귀분석모형에 적합시키려고 할 때, 이러한 가정사항이 충족되지 않는 경우를 많이 만나게 됩니다. 

다음은 가정사항이 충족되지 않을 경우에 적용해 볼 수 있는 해결방안을 언급하고 있습니다. 


1. 선형성이 만족되지 않는 경우

-> 이경우에는 우선 해볼 수 있는 것은 자연로그변환, 상용로그변환, 제곱근 변환, 역변환 등의 변수변환을 통해서 선형성이 만족하도록 데이터를 수정하여 선형회귀분석모형에 적용하는 방법입니다. 

-> 또다른 방법은 선형성 가정이 충족되지 않아도 되는 비선형회귀모형에 적용하는 방법입니다. SPSS Statistics의 회귀분석 메뉴의 곡선추정(Curve Estimation) 대화상자를 통해서 다양한 비선형모형을 적용하여 볼 수 있습니다.

-> 단, SPSS Statistics의 곡선추정 방법은 독립변수가 1개 일경우에만 적용할 수 있으므로, 독립변수가 2개 이상인 경우에는 적용할 수가 없습니다.


2. 등분산성이 만족되지 않는 경우

잔차도표를 통해서, 오차항의 등분산성의 충족되지 않음을 확인하였을 경우에

-> 우선 해볼 수 있는 것은, 변수변환을 통해서 등분산성이 만족되도록 데이터를 수정하여 적용하는 방법입니다.

-> 또다른 방법은 등분산성의 가정이 위배될 경우, 즉 이분산성의 징후를 보일 경우에는 분산의 변화를 고려하여 회귀계수를 추정하는 가중회귀분석에 적용하는 방법입니다.  SPSS Statistics의 회귀분석 메뉴의 가중추정(Weight Estimation) 대화상자를 통해서 가중회귀분석을 적용할 수 있습니다.


3. 오차항의 독립성이 만족되지 않는 경우

오차항간에 독립성이 만족되지 않는다면, 즉 오차항이 서로 상관이 있다면 이를 자기상관(autocorrelation)이 존재한다고 말하는 것이고, 회귀모형의 진단을 위한 더빈-왓슨 통계량에 의하여 자기상관의 존재여부를 검정할 수 있습니다.  자기상관이 존재하는 경우에 실제보다 R2 (결정계수)가 과대하게 측정되고, F 통계량이 커지므로 모형적합성이 실제보다 과대하게 좋은것으로 나타납니다.

시간적 흐름에 따라 발생되는 경영 및 경제, 일부 공학분야의 많은 자료들이 이와같이 오차항이 자기상관이 존재하는 경우가 많습니다.

-> 이경우에는 시계열분석방법의 하나인 자기회귀분석을 적용하여야 합니다.  자기회귀분석은 기본적인 시계열분석인 ARIMA 모형의 일부분입니다.  SPSS Statistics의 Forecasting 메뉴에서 ARIMA모형을 수행할 수 있습니다.


4. 종속변수가 범주형인 경우

기본적으로 선형회귀분석은 독립변수와 종속변수 모두 연속형 데이터를 전제로 하고 있습니다.  그러나 실제 사례에는 범주형 자료인 경우가 상당히 많습니다.

-> 종속변수의 값이 2개, 즉 이분형인 경우에는 이분형 로지스틱 회귀분석모형에 적용할 수 있습니다.

-> 종속변수의 값이 3개 이상인 경우에는 다항형 로지스틱 회귀분석모형에 적용할 수 있습니다.


5. 범주형 독립변수가 포함되어 있는 경우

-> 이경우에 우선 해볼 수 있는 것은 가변수(Dummy variable)을 생성하여 선형회귀분석모형에 적용하는 것입니다.

-> 또 다른 방법은 최적화 척도법(Optimal Scaling)방법 중 하나인 범주형 회귀분석에 적용시키는 방법인데, 이 방법은 범주형 데이터를 정규화 방법을 통하여 연속형으로 변환시켜서 분석하는 방법입니다.   이 방법은 종속변수와 독립변수가 모두 범주형일때도 적용할 수 있는 방법으로 매우 유용한 회귀분석방법이라고 하겠습니다.

 SPSS Statistics의 회귀분석 메뉴의 최적화 척도법 (CATREG) (Optimal Scaling (CATREG))  대화상자를 통해서 범주형회귀분석을 적용할 수 있습니다.


6. 다중공선성이 존재하는 경우

독립변수가 다수인 다중회귀분석시 독립변수들간의 상관관계가 높아지면 종속변수에 대한 독립변수의 영향력을 올바르게 측정할 수 없게 됩니다.  이러한 경우를 다중공선성이 존재한다고 말합니다.  다중공선성이 발생되면 추정된 각 독립변수의 회귀계수들의 신뢰성이 떨어지게 됩니다.  다중공선성이 발생될때에는 결정계수 (R2)가 지나치게 높게 나올수 있으며, 각 회귀계수의 유의성에 대한 검정통계량 값이 유의하지 않음에도 불구하고 모형에 대한 분산분석 결과가 유의할 때는 다중공선성을 의심해 봐야 합니다.

또한 분산 팽창계수 (VIF: Variance Inflation Factor) 값이 지나치게 크면  (통상적으로 10이상이면) 다중공선성이 있다고 판단합니다.  허용치(Tolerance)는 VIF의 역변환 값인데, 일반적으로 이 수치가 0.1보다 작으면 다중공선성이 있다고 판단합니다.

 -> 이경우 우선 해볼 수 있는 것은 상관관계가 상대적으로 높은 독립변수를 제외하고 다중회귀분석을 수행하는 방법입니다.

 -> 다음으로 해볼 수 있는 것은 능형회귀분석(Ridge Regression Analysis)입니다.  SPSS Statistics에서 Ridge Regression은 대화상자로는 수행할 수 없고, SPSS 프로그램이 설치된 폴더에 있는 Ridge Regression macro 파일을 이용하면 명령문(Syntax)창에서 아래와 같이 명령문을 작성하여 수행시키면 됩니다. 

 
GET FILE = ['DATA FILE 경로'].

INCLUDE    ['MACRO FILE 경로'(프로그램 설치 폴더 안에 Ridge Regression.sps로 저장되어 있음)].

RIDGEREGdep=[종속변수]/enter=[독립변수 list] /start=[능형모수(k)시작점]/stop=[능형모수(k)끝점]/inc=[능형회귀(k) 간격].   

 
-> 또 다른 방법은 PLS 회귀 (Partial Least Square Regression)을 적용하는 방법입니다.  PLS회귀는 SPSS Statistics의 기본분석기능으로 있지 않기 때문에 SPSS 본사의 홈페이지에서 Python 모듈을 다운로드하여 설치하여야 합니다.

Posted by JDATE
행사안내2011. 6. 23. 14:01

'행사안내' 카테고리의 다른 글

Amos Day 2011  (0) 2011.07.06
SPSS 뉴스레터 VOL.6  (0) 2011.07.05
SPSS RoadShow 2011  (0) 2011.06.30
고객중심경영을 위한 CRM Fair 2011 - 동영상 후기  (0) 2011.06.28
제2회 SPSS 논문공모전  (0) 2011.06.24
Posted by JDATE
통계분석 이야기2011. 6. 23. 09:33

SPSS라는 이름으로 우리에게 친숙한 통계패키지의 현재 정확한 이름은 IBM SPSS Statistics입니다. 현재까지 나와있는 SPSS의 가장 최신버전은 19 입니다. 

 SPSS 1968년에 처음 만들어 졌는데, 그당시는 소프트웨어에 지금처럼 버전이란 용어를 사용하지 않고 릴리즈란 용어를 사용하였습니다.  릴리즈는 우리말로 얘기하면 이라 할 수 있는데, 책의 출판시에 사용하는 몇 판이라고 얘기하는 판과 같습니다.

 1975년에 회사를 만들어 본격적으로 SPSS를 발전시켰는데 1983년에는 드디어 13판을 만들어야 하는 싯점에 이르게 되었습니다.  그런데 서양사람들에게 13이란 숫자는 아주 싫어하는 숫자이고 그때까지 잘되었던 사업에 액이 낄까봐 13판이라는 이름대신에 SPSS-X 1판이란 이름으로 제품을 출시하였습니다.

X라는 이름은 나중에 이름을 부여하기로 하고 붙혀놓은 것인데 4판이 나올때까지 적당한 이름이 떠오르지 않으니 다시 X란 이름을 부여하고 그때부터 Version이란 단어를 사용하기 시작했습니다.

 

따라서 SPSS의 최신버전이 19이지만 개정판으로 따지만 총 31판째가 되는 것입니다.

 

제가 아는 범위에서 오랫동안 사랑을 받아온 책을 얘기하면 조순 박사님의 경제학 원론 7판까지 나왔었고, “수학의 정석 10, 필립코틀러박사가 쓴 마케팅의 교과서라는 마케팅관리론 12판까지 나왔습니다.

 

비록 2010년에 IBM에 의해 인수가 되었지만, SPSS 31판까지 나왔다는 것은 얼마만큼 오랫동안 사랑을 받아왔는지를 짐작할 수 있는 대목입니다.




Posted by JDATE