데이터 마이닝 알고리즘의 새로운 흐름

데이터마이닝 이야기2011. 6. 24. 05:11

데이터 마이닝 알고리즘의 새로운 흐름

오늘날의 기업은 급변하는 시대의 다양한 상황에서 경쟁력을 갖추기 위해 끊임없이 노력하고 있다.
이러한 상황에서 기업의 최대 관건은, 조직이 직면한 상황을 방대한 양의 데이터를 통해 이해하고 최적의 대응
전략을 수립하여 대처하는 것이다.

그러나 데이터를 분석하는 과정에서 다양한 시장상황에 적용할 수 있는 최적의 모형을 찾아 내는 일은 예측
모델링에 익숙치 않은 분석가에게는 쉽지 않은 일이다. SPSS Modeler는 분석가가 적은 노력을 통해 최적의
모형을 찾을 수 있는 자동화 기능인 자동 데이터준비, 자동모델링 기능 그리고 결정 목록 기능을 제공하고 있다.
이러한 기능들은 분석가에게 다양한 모델링 알고리즘을 동시에 적용하고자 할 때 혹은 제한된 시간 내에 최적의
모형을 찾아내야 할 때 분석에 앞서 어떠한 모형을 적용할 것인지에 대한 확인작업을 가능케 한다.
또한 방대한 양의 데이터를 분석하는데 소요되는 시간을 절약할 수 있어 편리하다.

(ADP-Automated Data Preparation)

본격적인 모델링 또는 분석 작업을 시작하기 전에 해당 데이터에 대한 사전 지식이나 통계적 개념이 없어도
분석자가 데이터 준비 작업을 쉽고 빠르게 할 수 있도록 도와 준다. 결측값 대체 또는 유용한 정보가 없는 필드
제거와 같은 기본 클리닝 작업을 수행할 수 있을 뿐 아니라 성능을 향상시키기 위해서 표본을 추출하여 연속형
필드들의 최적 구간화를 수행한다.

ADP 기능을 수행함으로써 최대 장점은 분석에 앞서 데이터를 핸들링하는 과정을 SPSS Modeler가 자동적으로
수행하므로 분석에 소요 되는 시간이 절약 되며, 대용량 데이터의 전 처리에 효율적인 점을 꼽을 수 있다.
따라서 예측 모델링에 익숙하지 않은 분석가에게 추천하며, 데이터 마이닝 전문가에게도 제한된 시간 내에
모델링을 하고자 할 때나 필드의 수량이 많을 때 유용한 기능이다

자동 모델링 (AM-Automated Modeling)

단일 스텝에서 여러 종류의 알고리즘을 한꺼번에 적용하여 여러 개의 모형을 동시에 생성하고 평가하는 것을
의미하며, SPSS Modeler는 목표 변수의 성격과 분석 유형에 따라 3 가지의 기능을 지원한다.

자동 분류자 (Auto Classifier): 이분형 또는 범주형 목표 변수에 대한 자동 모델링 기능으로, 다양한 분류 분석
모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
자동 분류자 노드는 다음과 같은 모형 생성 기능을 지원하며, 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.

지원하는 알고리즘

-신경망 분석 (Neural Network)
-CHAID
-판별 분석 (Discriminant analysis)
-C5.0
-로지스틱 회귀분석 (Logistic Regression)
-Support Vector Machine (SVM)
-결정 목록 (Decision List)
-Bayesian Network
-Nearest Neighbor Models (KNN)
-C&RT

자동 숫자 (Auto Numeric): 수치형 목표 변수에 대한 자동 모델링 기능으로, 다음과 같은 다양한 추정 모형을
생성할 수 있으며, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
또한 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.

지원하는 알고리즘

-CHAID
-신경망 분석 (Neural Network)
-선형 회귀 분석 (Linear Regression)
-C&RTree
-Support Vector Machine (SVM)
-일반화 선형 모형 (Generalized Linear Model)
-가장 가까운 이웃 (Nearest Neighbor Models (KNN)

자동 군집 (Auto Cluster): 군집화 모형에 대한 추정 및 비교를 수행하는 자동 모델링 기능으로, 개체 간의
유사한 특성에 따라 집단화하는 다양한 군집 모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을
찾는데 매우 유용한 기능이다. 다음 3 가지 중 원하는 모형을 선택할 수 있으며, 각 모형별로 모수 및 세부 옵션을
지정할 수 있다.

지원하는 알고리즘

-코호넨 네트워크 분석 (Kohonen Network)
-K-평균 군집분석 (K-Means Clustering
-이단계 군집분석 (Two-Step Clustering)

이러한 자동 모델링 기능들은 데이터를 분석하는 과정에서 여러 가지 모형을 생성하고 평가하며, 최적의 모형을
찾아내는 작업의 수행 시간을 상당히 단축시켜준다. 그러므로 자동 데이터 준비 과정과 같이 예측 모델링에
익숙하지 않은 분석가에게 추천하는 기능이며, 데이터 마이닝 전문가에게도 다양한 모델링 알고리즘을 동시에
적용하고자 할 때나 제한된 시간 내에 최적의 모형을 찾고자 할 때 매우 유용한 기능이다.

결정 목록 (Decision List )이란?

제품의 구매 확률과 같은 고객의 이분형 행동 패턴을 규칙화하고, 이 규칙들을 통해 특정 행동 반응을 보일
가능성이 높은 고객 집단 (segment)를 찾아 내는데 매우 효과적인 알고리즘이다.

목표 변수는 이항 변수 (반응/비반응, 구매/비구매)로 한정 되어 있으며, 모든 척도 (연속형, 이산형 등) 설명
변수를 활용할 수 있다.

의사 결정 규칙이 전항 (antecedent) 과 후항 (consequent) 으로 이루어진 if-then 형태로 출력 된다. 여기서
전항은 예측 변수 (predictor)들의 논리 조건 표현식, 후항은 전항이 참(true)일 경우 목표 변수의 예측된 값이다.
이때, 출력 되는 의사 결정 규칙들의 순서는 매우 중요하다.

결정 목록 노드를 사용하였을 때 가장 큰 장점은 분석자가 원하는 수준에 따라 규칙을 생성할 수 있으며, 기존의
의사결정나무 (Decision Tree) 기법에 비해 실무에 적용하기 편리하다. 이 알고리즘은 캠페인 반응을 예측하고,
프로모션 대상자를 선정하거나 마케팅 캠페인 최적화 및 콜센터 최적화하는데 효과적으로 활용 될 수 있다.
사실상 결정목록 기법은 이론적 배경이 다소 약한 편이지만, 마케팅뿐만 아니라 다양한 분야에서 실무에 활용이
편리한 모델링 알고리즘이다.

다음 호에서는 이런 SPSS Modeler의 다양한 기능을 사용하여 쉽고 빠르게 분석 작업의 효율성을 향상 시킬 수
있는 방법에 대해 소개하도록 하겠다.

문의: marketing@spss.co.kr

저작자표시

'데이터마이닝 이야기' 카테고리의 다른 글

유통산업 고객을 바라보는 새로운 시각과 분석방법론 (0)	2012.07.06
PMML을 아십니까? (0)	2011.07.26
SNA의 개요와 SNS 서비스 (0)	2011.07.21
데이터 마이닝의 여러 장애물 넘어서기 ! (0)	2011.07.21
SPSS Modeler 14 출시!! (0)	2011.06.24

Posted by JDATE

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

ILoveSPSS

데이터 마이닝 알고리즘의 새로운 흐름

'데이터마이닝 이야기' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바