'행사안내' 카테고리의 다른 글
Amos Day 2011 (0) | 2011.07.06 |
---|---|
SPSS 뉴스레터 VOL.6 (0) | 2011.07.05 |
SPSS RoadShow 2011 (0) | 2011.06.30 |
제2회 SPSS 논문공모전 (0) | 2011.06.24 |
Amos Day 2011 (0) | 2011.06.23 |
Amos Day 2011 (0) | 2011.07.06 |
---|---|
SPSS 뉴스레터 VOL.6 (0) | 2011.07.05 |
SPSS RoadShow 2011 (0) | 2011.06.30 |
제2회 SPSS 논문공모전 (0) | 2011.06.24 |
Amos Day 2011 (0) | 2011.06.23 |
그러나 데이터를 분석하는 과정에서 다양한 시장상황에 적용할 수 있는 최적의 모형을 찾아 내는 일은 예측
모델링에 익숙치 않은 분석가에게는 쉽지 않은 일이다. SPSS Modeler는 분석가가 적은 노력을 통해 최적의
모형을 찾을 수 있는 자동화 기능인 자동 데이터준비, 자동모델링 기능 그리고 결정 목록 기능을 제공하고 있다.
이러한 기능들은 분석가에게 다양한 모델링 알고리즘을 동시에 적용하고자 할 때 혹은 제한된 시간 내에 최적의
모형을 찾아내야 할 때 분석에 앞서 어떠한 모형을 적용할 것인지에 대한 확인작업을 가능케 한다.
또한 방대한 양의 데이터를 분석하는데 소요되는 시간을 절약할 수 있어 편리하다.
(ADP-Automated Data Preparation)
본격적인 모델링 또는 분석 작업을 시작하기 전에 해당 데이터에 대한 사전 지식이나 통계적 개념이 없어도
분석자가 데이터 준비 작업을 쉽고 빠르게 할 수 있도록 도와 준다. 결측값 대체 또는 유용한 정보가 없는 필드
제거와 같은 기본 클리닝 작업을 수행할 수 있을 뿐 아니라 성능을 향상시키기 위해서 표본을 추출하여 연속형
필드들의 최적 구간화를 수행한다.
ADP 기능을 수행함으로써 최대 장점은 분석에 앞서 데이터를 핸들링하는 과정을 SPSS Modeler가 자동적으로
수행하므로 분석에 소요 되는 시간이 절약 되며, 대용량 데이터의 전 처리에 효율적인 점을 꼽을 수 있다.
따라서 예측 모델링에 익숙하지 않은 분석가에게 추천하며, 데이터 마이닝 전문가에게도 제한된 시간 내에
모델링을 하고자 할 때나 필드의 수량이 많을 때 유용한 기능이다
자동 모델링 (AM-Automated Modeling)
단일 스텝에서 여러 종류의 알고리즘을 한꺼번에 적용하여 여러 개의 모형을 동시에 생성하고 평가하는 것을
의미하며, SPSS Modeler는 목표 변수의 성격과 분석 유형에 따라 3 가지의 기능을 지원한다.
자동 분류자 (Auto Classifier): 이분형 또는 범주형 목표 변수에 대한 자동 모델링 기능으로, 다양한 분류 분석
모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
자동 분류자 노드는 다음과 같은 모형 생성 기능을 지원하며, 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.
지원하는 알고리즘
-신경망 분석 (Neural Network)
-CHAID
-판별 분석 (Discriminant analysis)
-C5.0
-로지스틱 회귀분석 (Logistic Regression)
-Support Vector Machine (SVM)
-결정 목록 (Decision List)
-Bayesian Network
-Nearest Neighbor Models (KNN)
-C&RT
자동 숫자 (Auto Numeric): 수치형 목표 변수에 대한 자동 모델링 기능으로, 다음과 같은 다양한 추정 모형을
생성할 수 있으며, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
또한 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.
지원하는 알고리즘
-CHAID
-신경망 분석 (Neural Network)
-선형 회귀 분석 (Linear Regression)
-C&RTree
-Support Vector Machine (SVM)
-일반화 선형 모형 (Generalized Linear Model)
-가장 가까운 이웃 (Nearest Neighbor Models (KNN)
자동 군집 (Auto Cluster): 군집화 모형에 대한 추정 및 비교를 수행하는 자동 모델링 기능으로, 개체 간의
유사한 특성에 따라 집단화하는 다양한 군집 모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을
찾는데 매우 유용한 기능이다. 다음 3 가지 중 원하는 모형을 선택할 수 있으며, 각 모형별로 모수 및 세부 옵션을
지정할 수 있다.
지원하는 알고리즘
-코호넨 네트워크 분석 (Kohonen Network)
-K-평균 군집분석 (K-Means Clustering
-이단계 군집분석 (Two-Step Clustering)
이러한 자동 모델링 기능들은 데이터를 분석하는 과정에서 여러 가지 모형을 생성하고 평가하며, 최적의 모형을
찾아내는 작업의 수행 시간을 상당히 단축시켜준다. 그러므로 자동 데이터 준비 과정과 같이 예측 모델링에
익숙하지 않은 분석가에게 추천하는 기능이며, 데이터 마이닝 전문가에게도 다양한 모델링 알고리즘을 동시에
적용하고자 할 때나 제한된 시간 내에 최적의 모형을 찾고자 할 때 매우 유용한 기능이다.
결정 목록 (Decision List )이란?
제품의 구매 확률과 같은 고객의 이분형 행동 패턴을 규칙화하고, 이 규칙들을 통해 특정 행동 반응을 보일
가능성이 높은 고객 집단 (segment)를 찾아 내는데 매우 효과적인 알고리즘이다.
목표 변수는 이항 변수 (반응/비반응, 구매/비구매)로 한정 되어 있으며, 모든 척도 (연속형, 이산형 등) 설명
변수를 활용할 수 있다.
의사 결정 규칙이 전항 (antecedent) 과 후항 (consequent) 으로 이루어진 if-then 형태로 출력 된다. 여기서
전항은 예측 변수 (predictor)들의 논리 조건 표현식, 후항은 전항이 참(true)일 경우 목표 변수의 예측된 값이다.
이때, 출력 되는 의사 결정 규칙들의 순서는 매우 중요하다.
결정 목록 노드를 사용하였을 때 가장 큰 장점은 분석자가 원하는 수준에 따라 규칙을 생성할 수 있으며, 기존의
의사결정나무 (Decision Tree) 기법에 비해 실무에 적용하기 편리하다. 이 알고리즘은 캠페인 반응을 예측하고,
프로모션 대상자를 선정하거나 마케팅 캠페인 최적화 및 콜센터 최적화하는데 효과적으로 활용 될 수 있다.
사실상 결정목록 기법은 이론적 배경이 다소 약한 편이지만, 마케팅뿐만 아니라 다양한 분야에서 실무에 활용이
편리한 모델링 알고리즘이다.
다음 호에서는 이런 SPSS Modeler의 다양한 기능을 사용하여 쉽고 빠르게 분석 작업의 효율성을 향상 시킬 수
있는 방법에 대해 소개하도록 하겠다.
유통산업 고객을 바라보는 새로운 시각과 분석방법론 (0) | 2012.07.06 |
---|---|
PMML을 아십니까? (0) | 2011.07.26 |
SNA의 개요와 SNS 서비스 (0) | 2011.07.21 |
데이터 마이닝의 여러 장애물 넘어서기 ! (0) | 2011.07.21 |
SPSS Modeler 14 출시!! (0) | 2011.06.24 |
나아가 2010년 출시 된 SPSS Modeler 14는 새롭게 달라진 디자인과 더욱 더 강력해진 기능을 갖추었습니다.
More Powerful Modeling Algorithms- 모델링 기능의 향상
모형 생성 시 SPSS Modeler 14 버전부터는 생성된 모델 너겟이 모델 팔레트 뿐만 아니라 스트림에도
자동적으로 추가됩니다. 또한 대용량 데이터 최적화 기능이 지원 되는 모델링 알고리즘들이 종전보다 더
추가 되었으며, 자동 데이터 준비, 모형 선택, 앙상블 기법 등 최적화 된 선형 (Regression) 모델링을 위한
다양한 옵션들이 제공 됩니다. 아울러 Microsoft Analysis Service에서 제공하는 최신 in-database mining
알고리즘을 구현 가능케 하는 Microsoft Time Series, Sequence Clustering 노드가 새롭게 추가 되어
매출과 같은 연속형 변수 예측에 대한 최적화 된 시계열 회귀 분석 및 sequence 규칙에 따라
데이터를 군집화할 수 있게 되었습니다.
New Look- 전체적인 User Interface의 변경
전체적으로 각 노드의 모양, 크기, 색깔 등의 포맷이 변경 되었으며, 아이콘의 크기가 확대 되어 각 노드의
해당 기능을 한눈에 쉽게 식별할 수 있습니다. 또한 소스 노드, 유형 (Type) 노드 사용 시 새로운 필드가
추가 되었으며, 데이터의 방향을 설정하는 용어가 변경 되었습니다.
Greater Flexibility-데이터 출력 및 편집 기능 향상
향상 된 Microsoft Office Excel 파일 작업 기능을 통해 이제 더 쉽고 편리하게 SPSS Modeler 상에서
작업한 결과물을 출력 및 관리하십시오. 또한 데이터 베이스 테이블 편집 기능이 향상 되었으며, 데이터를
교환하는 방식의 표준 언어인 XML 형식의 데이터를 읽거나 내보낼 수 있는 노드가 추가 되었습니다.
또한 분석 자산을 관리하고, 자동화 된 분석 프로세스의 결과물을 통합, 조직 내에 전개하는
SPSS Collaboration and Deployment Services와의 연동을 통해 조직 내 다수의 사용자에게 접근하기
편리하게 함은 물론 효과적으로 파일들을 관리할 수 있게 되었습니다.
문의: sales@spss.co.kr
유통산업 고객을 바라보는 새로운 시각과 분석방법론 (0) | 2012.07.06 |
---|---|
PMML을 아십니까? (0) | 2011.07.26 |
SNA의 개요와 SNS 서비스 (0) | 2011.07.21 |
데이터 마이닝의 여러 장애물 넘어서기 ! (0) | 2011.07.21 |
데이터 마이닝 알고리즘의 새로운 흐름 (0) | 2011.06.24 |