뛰어난 성능과 쉬운 그래픽 인터페이스를 겸비한 데이터 마이닝 워크벤치의 선두주자로, 전세계적으로 데이터

마이너들과 비즈니스 분석가들에게 폭 넓게 사용 되고 있는 IBM SPSS Modeler의 15 버전이 출시 되었습니다.

IBM SPSS Modeler 15 버전부터 앞으로 출시되는 버전은 다음과 같이 두 가지 에디션을 갖습니다.

 

 

IBM SPSS Modeler Professional은 세계적으로 검증 된 CRISP-DM 프로세스를 기반으로 강력한 데이터 핸들링 및

모델링 기능을 통해 우수한 Mining 결과를 도출하여 귀하의 비즈니스를 위한 심도 깊은 통찰력을 선사할 것입니다.

또한 편리한 그래픽 유저 인터페이스와 효율적인 대용량 처리 기능을 통해 분석 작업의 생산성을 향상 시켜

드릴 것입니다. 아울러 이번에 출시 된 IBM SPSS Modeler Professional 15에는 다음과 같이 다양한 신 기능이

추가 됨으로써 더욱 더 강력한 데이터 마이닝 툴로 거듭나게 되었습니다. 이번 호에서는 IBM SPSS Modeler

Professional 15버전에 새롭게 추가 된 기능 몇 가지를 소개합니다.

전체 스트림의 표준 사이즈에서 스트림을 확대 또는 축소하여 보는 기능이 추가되었습니다. 복잡한 스트림을

한 눈에 보고자 하거나 한 화면 안에서 전체 스트림을 프린트하고자 할 때 유용하게 사용할 수 있습니다.

스트림 등록 정보 옵션의 구성이 새로워졌습니다. 기존의 옵션 탭이 일반, 날짜/시간, 숫자 형식으로 세분화

되었으며, 기존 레이아웃 탭이 옵션 탭으로 포함되었습니다. 또한 최적화, 로깅 및 상태가 추가되었습니다.

‘메시지’ 탭에서 ‘실행시간’을 클릭함으로써, 스트림의 각각 노드별 수행 시간을 볼 수 있습니다.

이에 앞서 ‘옵션’ 탭에서 ‘일반’의 ‘실행시간표시’ 체크박스를 먼저 클릭해야 합니다

통합 (Aggregate) 노드에서 중위수, 빈도, 분산, 제1 사분위수, 제3 사분위수가 새롭게 추가되었습니다.

IBM SPSS Modeler 15 버전부터 통합 노드에 중위수, 빈도, 분산, 제1 사분위수, 제3 사분위수가 포함되어

훨씬 다양한 통계량을 사용하여 데이터 통합을 할 수 있습니다.

 

병합 노드에서 조건을 지정할 수 있습니다. 병합방법에서 조건을 클릭하여 조건을 직접 입력할 수도 있고,

표현식 생성자에서 조건을 입력할 수도 있습니다.

Statistics 제품과의 통합 기능 중 PLS 회귀분석과 예측에서의 4가지 기능이 추가되었습니다.  (이 기능은

IBM SPSS Statistics가 설치 되어 있어야 구동이 가능합니다.)회귀분석 하위 메뉴에 일부 최소 제곱

(Partial Least Squares regression)이 지원됩니다. 또한, 분석에 예측(Forecasting) 메뉴가 추가되어

스펙트럼 분석, 순차도표, 자기상관, 교차상관 분석의 수행이 가능해졌습니다. 또한 명령문 탭에

‘결과 데이터에 대해 가져오기 노드 생성’ 옵션이 추가되었습니다. 이 옵션은 스트림 실행 결과 데이터를

가져오는 Statistics 파일 소스 노드를 생성하여 줍니다.

모델링 부분에서 GLMM(Generalized linear mixed models) 노드가 추가되었습니다. 일반화 선형 혼합 모형은

선형 혼합 모형과 일반화 선형모형의 결합된 형태입니다. 고전적 선형모형인 선형회귀, 분산분석의 모형은

종속변수가 정규분포를 따른다는 가정하에 분석을 하지만 일반화 선형 혼합 모형은 선형 혼합 모형에서

종속변수가 다양한 분포를 따를 수 있다는 것이 차이점입니다.

그래프 보드 노드에서 다양한 형태의 지도 그림 템플릿이 추가 되었습니다. 이 템플릿을 통해 지역별로

다른 값 또는 패턴을 표시할 수 있습니다.

새롭게 추가된 Netezza Time Series node는 IBM Netezza Analytics in-database mining 기능을 사용하여

시계열 분석을 수행하고 과거 이벤트로부터 미래의 움직임을 예측할 수 있습니다.

이 노드는 스펙트럼 분석, 지수 평활, ARIMA, 계절 추세 분해 알고리즘을 지원합니다. 결측치에 대한

보간법으로는 선형, 지수 스플라인, 3차 스플라인 기법을 지원합니다.

 

이 외에도 노드 복사∙붙여넣기 기능 향상, 표현식 생성자에 데이터베이스 함수를 사용할 수 있는 기능 추가,

가변파일 노드의 Data Access 기능이 향상 되는 등 사용자의 편의를 돕는 여러 가지 기능이 추가 되었으며,

자세한 내용은 IBM SPSS Modeler Professional의 새로운 기능 자세히 보기’를 참조하시기 바랍니다.

 

새롭게 추가 된 다양한 기능들과 향상 된 성능으로 분석 작업의 효율성과 퀄리티를 한층 업그레이드하여 드릴

IBM SPSS Modeler Professional! 하지만 IBM SPSS Modeler의 진화는 여기서 끝나지 않았습니다. 진정한

데이터 마이닝 Guru를 위해 IBM SPSS Modeler Professional에서 좀 더 전문화 된 특별한 기능들을 더한

IBM SPSS Modeler Premium은 말 그대로 프로페셔널 그 이상의 프리미엄을 선사할 것입니다.

'IBM SPSS Modeler Premium의 새로운 기능 자세히 보기' 를 클릭하시면 IBM SPSS Modeler Premium의

놀라운 기능들을 상세하게 확인하실 수 있습니다.

 

*제품 문의: 02-3404-5790 / sales@spss.co.kr

 

 

Posted by JDATE
IBM SPSS Statistics for Public Service
Posted by JDATE

 


SPSS Featured Article: 유통산업 고객을 바라보는 새로운 시각과 분석방법론



SPSS Korea (주) 데이타솔루션

정성원 이사

 


모든 산업분야가 다 그렇지만 특히 유통산업분야의 고객은 매우 다양합니다. 또한 타 산업분야에 비하여 비교적


고객의 Transaction이 많은 편입니다. 이러한 유통산업에 종사하는 마케터들에게 꼭 드리고 싶은 얘기는


"고객분석을 많이 해보자!"입니다. 다양한 고객분석을 통해서 고객을 이해하고 새로운 시각에서


고객을 바라보자는 얘기입니다.


 


하지만 이런 얘기를 들은 대부분의 마케터들의 반응은 "고객분석, 그거 너무 어렵다! 귀찮다! 잘 안 맞는다!


고객분석의 ROI가 어떻게 되냐?" 였습니다. 아무리 어렵고 귀찮고 잘 안 맞는다고 생각하더라도


고객분석을 하여야만 합니다. 그리고 아무리 고객분석을 잘해서 고객 Insight를 잘 도출하였다고 하더라도


활용을 잘하지 않으면 좋은 ROI를 얻을 수 없습니다.


 


우리나라 사람들은 숫자에 대해서 익숙한 사람들이 아닙니다. 언어에서부터 그러한 경향이 두드러집니다.


하지만, 사람이 피부적으로 느껴서 의사결정하기에는 너무 빠르게 세상이 변화하고 있습니다. 특히나 유통산업에서


고객은 아주 빠르게 움직이는 철새와 같습니다.


유통산업의 마케터들은 숫자에 익숙해져야 합니다. 숫자로 얘기하는 것이 불편해서는 안됩니다.


분석의 출발은 생각에서부터 시작됩니다. 내가 평상시 생각하는 것과 다르게 생각해보고 그 생각을 데이터를 통해서


입증해보는 것이야 말로 고객을 이해하는데 꼭 필요한 과정입니다.


 


우리의 우수고객은 어떤 모습일까요? 연예인일까요? 팬시한 여성일까요? 히피일까요?


유통산업의 채널 별로 우수고객의 프로파일을 얘기합니다. 흔히들, 백화점의 우수고객은 "소득이 많은 최상위 부유층


또는 연예계 등 특수직 종사자"이고, 반면 할인점의 우수고객은 "생활여유가 적은 중산층 또는 나이가 젊고 독식


또는 아파트 등 집단 거주지 거주자" 이라는 생각을 쉽게 할 수 있습니다.


 



 


하지만 귀사의 우수고객의 모습은 통상적으로 생각하는 것과 다른 모습일 수 있습니다. 왜그럴 수 있는지


극단적인 가상의 인물 "김경숙씨와 이미란씨" 예를 들어서 할인마트의 우수고객의 모습을 살펴보겠습니다.


김경숙씨는 38세의 결혼 10년차 전업주부로 42세 남편, 9세 아들과 7세 딸과 함께 노원구 상계동의 26평형 아파트에


거주하고 있으며, 남편의 월급여 310만원으로 전체수입중 고정지출을 제외한 월 소비가능금액은 약 145만원으로


평균적으로 할인마트에서 지출하는 월비용은 약 64만원 정도되고 있습니다.


반면 이미란씨는 31세의 결혼 2년차 주부로 34세 남편, 1세 딸과 강남구 도곡동 65평의 주상복합에 거주하고 있으며


월소비가능금액은 약 1,000만원이지만 할인마트보다는 백화점이나 전문점에서 주로 쇼핑을 하고 할인마트에서는


차에 놓고 씹을 자일리톨 껌과 음료수 및 과자 정도를 구매하기에 평균 할인마트에서 지출하는 월 비용은


약 12만원 정도에 불과하다고 합니다.



이 극단적인 두사람을 비교해 보았을 때 소비가능능력은 이미란씨가 김경숙씨보다 훨등히 크지만, 실제로


할인마트의 이용량을 살펴보면 김경숙씨가 이미란씨 보다 훨씬 크다고 할 수 있습니다. 그러면 할인점 입장에서는


어는 고객이 더 좋은 고객일까요? 또한 누구를 공략하는 것이 좋은 선택일까요?


 



 


우리가 고객을 똑바로 이해하려면 고객 삶의 Life Style이 아닌 쇼핑/구매의 Life Style을 알아야 합니다.


고객 Life Style의 기준은 고객이 우리에게서 무슨 상품을 사는가입니다. 즉, 돈이 아무리 많은 고객이라도


우리에게서 물건을 사가지 않으면 거지와 마찬가지입니다. 우리는 상품을 통해서 고객의 Life Style을 파악해야 합니다.


명심하여야 할 것은 "고객 삶의 패턴과 쇼핑 Life Style은 다를 수 있다!"는 점입니다. 돈이 없어 빚을 내는 고객도


비싼 의류를 구매할 수 있고, 돈이 무지 많은 고객도 우리에게선 껌 한통만 구매할 수 있다는 것입니다. 먼저 상품을 통한


고객 Life Style을 정의하고 그 다음에 다른 요소들을 결합시켜나가야 합니다.


 


유통산업분야에서 오랫동안 사용되어온 고객분석방법중에 RFM분석이라는 것이 있습니다. 이는 고객의 가치를


Recency(최근성), Frequency(구매빈도), Monetary(구매금액)의 기준에 따라 점수화하고 고객의 가치를 판단하고


고객을 세분화하는 방법입니다.


 



 


Robert Kestnbaum은 기존 RFM체계에 상품(Type of Mechandise)이라는 축을 추가시켜서 상품별 고객의 구매행태를


이해하고자 하는 새로운 고객분석체계인 FRAT분석체계를 고안하였습니다. 이는 기업이 비교적 잘 관리되고 있는


상품정보를 고객분석에 접목시킨 이론입니다.


 



 


FRAT 분석체계에서 가장 중요하고 선행되는 것은 상품에 대한 분류입니다. 상품을 제대로 분류하는 기준을


만드는 것은 FRAT분석체계의 성패를 결정짓는 가장 중요한 작업입니다. 모든 유통산업에서는 상품분류체계가 있습니다.


하지만 그러한 상품분류체계는 소비자 입장이 아닌 공급자가 판매, 배송, 재고관리등의 업무 프로세스를 효율적으로


수행하기 위하여 만들어 놓은 분류체계입니다. 따라서 이러한 상품분류체계는 고객분석을 수행하고 고객의 상품구매


Life Style을 이해하는데 적합하지 않은 분류체계입니다.


FRAT 분석체계를 위한 상품분석은 고객중심적이고 분석중심적이며 연결성과 다양성을 고려한 간단 구조체가 되어야 합니다.


 



 


고객중심적이라는 말은 "고객이 상품을 어떻게 생각하는가?"에 따른 상품분류를 하여야 한다는 말입니다.


예를 들어 대부분의 유통회사에서는 화장품냉장고를 가전제품으로 분류하고 있습니다. 하지만 고객의


입장에서 생각해보면 이는 이미용품으로 분류되는 것이 더 적합할 것입니다.


또한 분석중심적이라는 말은 분석에 적합하도록 비교적 구매빈도가 적은 상품은 통합하고 구매빈도가 많은


상품은 좀 더 세분화하고 고객의 입장에서 동일하게 인지되는 상품은 통합하여야 한다는 말입니다. 예를 들어


"문화>광학기기>디지털카메라"와 "가전기기>영상기>디지털카메라"는 "문화기기>영상관련>디지털카메라"로


통합하는 것이 더 고객의 상품구매 Life Style을 이해하는 데 적합할 것입니다.



연결성이라는 관점은 상품분류자체가 계층적 구조를 가지도록 분류하여야 한다는 점입니다. 의미적인


연결만이 아니라 상품분류코드에서도 연결성이 존재하게 하여야 합니다. 예를 들어 "의류>여성의류>원피스"는


"A01>A0102>A010244" 등과 같이 하여 의류를 자주, 많이 최근에 구매한 고객들을 파악하고, 다음으로 여성의류를


자주, 많이, 최근에 구매한 고객들이 누군지를 파악하고, 그 다음으로 원피스를 자주, 많이, 최근에 구매한 고객들이


누군지를 파악하는 것이 용이하도록 하여야 합니다. 이는 OLAP분석에서 분석의 깊이를 Drill-Down과


Drill-Up을 통해서 조절해가는 가는 것과 유사한 개념입니다.



다양화는 한 상품에 대하여 여러 개의 분류체계를 만들어야 한다는 것입니다. 이는 상품을 수직적으로도 분류하고


수평적으로도 분류하여야 합니다. 1개의 분류체계로 다양한 분석을 수용할 수 없으므로 반드시 여러 개의


분류체계를 만들어야 합니다. 예를 들어 의류, 속옷, 가전기기, 보석 등의 상품종류별 분류 이외에 생활필수품,


기호품, 사치품 등의 상품 특성 별 분류와 2만원 이하, 2~5만원, 5만원 이상 등의 가격대 분류 등을 추가합니다.


고객이 10만원짜리 자전거를 구매 했다면 위와 같이 다양화된 상품분류체계에 의하여 고객은


운동용품>자전거를 구매한 것이며, 저가형 상품을 구매한 것이며, 전문성제품이 아닌 일반형제품을


구매한 것이 됩니다.


 


마지막으로 간단구조체라는 것은 4단계 이상의 분류체계는 피한다는 것입니다. 종적으로 깊은 분류체계보다는


횡적으로 여러 개의 분류체계를 지향한다는 것입니다. 예를 들어 한 가지 분류 체계에서는 대/중/소 구분과 같이


4단계를 넘지 않도록 하는 것이 좋다는 개념입니다.


 



 


위와 같은 고객분석에 적합한 상품분류에 입각하여 고객의 Transaction을 데이터화하고 나면 이를 기반으로


고객의 구매/쇼핑에 대한 Life Style을 이해할 수 있는 체계가 만들어 집니다.


그런 다음에 유통회사의 입장에서 특정상품을 구매할 가능성을 분석하는 Up-Selling 모델, 이미 구매한 상품의


재구매 시점을 분석을 하는 Re-Selling 모델, 구매할 때 함께 구매하는 상품을 분석하는 Cross-Selling 모델을


만들어 나갑니다. 이러한 URC-Selling 모델은 고객의 상품/구매에 대한 Life Style을 기반으로 구매 반응 스코어가


높은 고객을 우선적으로 타케팅하거나 재구매 시점이 지난 고객에게 할인쿠폰증정 등의 이벤트를 진행하거나


상품진열에 대한 의사결정 기초자료로 활용될 수 있습니다.


 



 


실제적으로 고객분석을 위한 상품분류체계를 만들고 FRAT체계를 구축하는데 들어가는 노력과 시간이


전체 공정의 50%이상을 차지한다고 볼 수 있고, 대부분의 유통기업의 고객분석가들을 힘들게 만드는 요소입니다.


하지만 이러한 과정을 넘어서면 고객에 대한 다양한 쇼핑/구매에 대한 Life Style을 이해하고 다양한 URC-Selling


캠페인의 Right Customer를 Right Time에 Right Offer를 던질 수 있는 체계적이고 효율적인 분석체계를 구축할 수 있습니다.




SPSS Korea (주) 데이타솔루션은 지난 22년간 국내에 SPSS 통계분석 소프트웨어를 독점 공급해온 동시에


분석 CRM을 비롯한 통계분석 컨설팅, 분석마트 구축, 스코어링, 예측, 세분화, 사기적발 등 고객 중심의


문제 해결을 위한 분석 시스템의 개발 등의 용역을 여러 차례 수행해옴으로써 관련 업계의 리더로서 자리 매김 해왔습니다.


또한 통계 분석 및 데이터 마이닝과 관련된 교육, 세미나 및 출판 사업을 병행해옴으로써 고객분들이 SPSS 예측 분석


소프트웨어와 개발 된 시스템을 좀 더 잘 사용하실 수 있도록 지원해드리고 있습니다. SPSS Korea (주) 데이타솔루션


은 유통 산업을 비롯한 예측 분석을 통한 고객 insight 도출 및 활용을 원하시는 모든 기존∙잠재 고객분들께


최적의 솔루션을 제시할 것입니다.


 


*문의: marketing@spss.co.kr


 


 

Posted by JDATE

PMML(Predictive Model Markup Language)은 XML기반의 예측모델을 기술하는 표준언어입니다.  데이터마이닝그룹(DMG)를 중심으로 여러 솔루션 개발업체들이 컨소시엄을 이루어 하나의 표준규격을 만들고 예측모델을 생성하는 측과 예측모델을 사용하는 측간의 교류에 사용하였습니다.  PMML은 버전 4.0까지 발전하였으며 20여 업체와 기관에서 PMML지원하게 됨으로써 하나의 응용프로그램, 예를들면 마이닝툴을 사용하여 예측모델을 생성하면, 또다른 응용프로그램 예를들면 캠페인관리툴에서 생성된 예측모델을 읽어서 사용하게 되는 일이 훨씬 쉬워지고 비용이 절감되었습니다.

"PMML 모델 개발의 족쇄에서 모델 배포를 해제. 모델 표현을위한 잘 설립된 개방형 표준으로서, PMML은 비즈니스 인텔리 전스 제품, 데이터웨어 하우스, 그리고 클라우드 컴퓨팅에서 데이터 마이닝 배포 환경의 새로운 세대를 활성화입니다."
 - 
Graham Williams, Togaware Pty Ltd. -

"PMML은 PMML없이, 그것이 통합 및 사용자 정의 코드 또는 독자적인 프로세스를 통해 배포할 수 모델에 수개월이 걸릴 것입니다. 그 모델의 힘을 해방시켜, 현실로 기존 IT 인프라 내에서 배포 및 예측 모델의 실용적인 응용 프로그램을 전환하고, 매우의 높은 추가 비용이 발생합니다."
Cris Payne, Senior Analytics Scientist for XO Communications, Inc. -

이제 PMML은 데이터마이닝에 관심을 갖는 사람들에게는 생소한 용어가 아닙니다.  데이터마이너들에게 널리 알려진 KDD(Knowledge Discovery and Data Mining)에서도 PMML워크샵을 계획하고 있습니다.



PMML에 관한 책도 꾸준히 출간되고 있는데, 이중에서도 최근에 Alex Guazzelli 가 쓴 "PMML in Action"이란 책이 눈길을 끌고 있습니다.  이 책은 실제 비즈니스에서 활용이라는 측면에서 PMML을 개념과 사례를 언급하였습니다.  영어독해에 큰 문제 없으시다면 한번쯤 읽어볼만한 책이라고 생각됩니다.

 
PMML을 이미 알고있는 사람들에게는 사족의 얘기가 되겠지만, PMML을 모르는 사람들은 이쯤되면 도대체 PMML이 뭐야? 라고 질문을 하시게 될겁니다.


위의 예제가 바로 PMML의 한 예입니다.  일반적으로 웹페이지를 표현하는 HTML(Hyper Text Markup Language)은 다양한 요소들을 표현하도록 하기 위해서 XML(eXtended Markup Language)로 확장되었는데, 그중에서도 예측모델을 표현할 수 있는 언어가 바로 PMML입니다.

PMML은 1997년 7월에 Version 0.7 이 공표된 이후에 1999년 8월에 정식버전인 Version 1.0이 공표되었고 2009년 6월에 최신 버전인 Version 4.0이 공표되었습니다.

Version 4.0을 기준으로 PMML의 구성요소를 살펴보면 다음과 같습니다.

PMML이 될, 데이터 마이닝 모델을 설명하는 직관적인 구조를 다음과 인공 신경망 또는 로지스틱 회귀 모델입니다.

PMMLComponents.jpg

순차적으로, PMML은 다음과 같은 구성 요소에 의해 설명 될 수 있습니다.

  • Header : PMML 같은 모델에 저작권 정보와 같은 문서, 그 설명 및 이름 및 버전과 같은 모델을 생성하는 데 사용되는 응용 프로그램에 대한 정보에 대한 일반 정보가 포함되어 있습니다. 또한 모델 창조의 날짜를 지정하는 데 사용할 수있는 타임 스탬프에 대한 속성이 포함되어 있습니다.
  • Data Dictionary : 모델에서 사용 가능한 모든 필드에 대한 정의가 포함되어 있습니다. 그것은 필드 (속성 optype) 연속, 무조건적인, 또는 서수으로 정의되어왔다. 이 정의에 따라 적절한 값 범위는 다음 데이터 형식 (예 : 문자열, 또는 더블)뿐만 아니라 정의합니다.
  • Data Transformations : 변환은 마이닝 모델에서 사용할 수있는보다 바람직한 형태로 사용자의 데이터의 매핑을 허용합니다.PMML 간단한 데이터 변환의 여러 가지를 정의합니다.
    • Normalization : 숫자로지도 값, 입력은 연속 또는 이산 수 있습니다.
    • Discretization : 이산 값을지도 지속적인 가치.
    • Value mapping : 이산 값을지도 이산 값.
    • Functions : 하나 이상의 매개 변수에 함수를 적용하여 가치를 도출.
    • Aggregation : 값의 그룹을 요약하거나 수집하는 데 사용됩니다.
  • Model : 데이터 마이닝 모델의 정의를 포함하고 있습니다. multi-layered feedforward neural network은 가장 일반적인 신경망모델인데 이는 backpropagation으로 알려진 훈련 알고리즘과 함께 효율이 좋은 대부분의 마이닝툴에서 제공하고 있는 마이닝모델입니다. 이러한 신경망모델은 다음과 같은 속성을 포함하는 "NeuralNetwork"요소로 PMML에 표시됩니다 :
    • 모델 이름 (속성 modelName)
    • 함수 이름 (속성 functionName)
    • 알고리즘 이름 (속성 algorithmName)
    • 활성화 기능 (속성 activati​​onFunction)
    • 레이어 수 (속성 numberOfLayers)

이 정보는 다음 PMML 문서에 표시되는 신경 네트워크 모델의 아키텍처를 지정 신경 레이어 세 종류의 뒤에있다. 이러한 특성은 NeuralInputs, NeuralLayer 및 NeuralOutputs 있습니다.신경망 게다가, PMML과 같은 다른 많은 데이터 마이닝 모델의 표현을 Support vector machines , associatio rules , Naive Bayes classifier , 클러스터링 모델, 텍스트 모델, 의사 결정 나무 , 그리고 다른 회귀 모델.

  • Mining Schema : 마이닝 스키마는 모델에서 사용되는 모든 필드를 나열합니다. 이것은 데이터 사전에 정의된 필드의 하위 집합 수 있습니다. 이 같은 각 필드에 대한 특정 정보를 포함 :
    • 이름 (속성 이름) : 데이터 사전의 필드를 참조해야합니다
    • 사용 유형 (속성 usageType가) : 필드의 모델에서 사용할 수있는 방법을 정의합니다. 일반적인 값은 다음과 같습니다 활성화, 예측 및 보조. 예상 필드 값이 모델에 의해 예측 이들입니다.
    • 아웃 리에 트리 트먼트 (속성 outliers)가 사용되도록 국외자 치료를 정의합니다. PMML에서 outliers가없는 값으로 처리 수 있습니다 극단 값 (특정 분야에 대한 높은 낮은 값의 정의에 따라)으로, 또는 있습니다.
    • 누락된 값 교체 정책 (속성 missingValueReplacement) :이 속성이 지정되어 있으면 다음없는 값이 자동으로 특정 값으로 대체됩니다.
    • 값 처리 (속성 missingValueTreatment)을 누락하면 : 누락된 값을 대체합니다 (의미 또는 중간 값, 등 등) 유래 얼마나 나타냅니다.
  • Targets : 모델의 출력이 지속적인 경우 확장의 형식으로 예측된 값을 사후 처리 수 있습니다. 대상은 또한 분류 작업에 사용할 수 있습니다. 이 경우 속성 priorProbability는 해당 대상 범주에 대한 기본 확률을 지정합니다. 예측 로직 자체가 결과를 생산하지 않은 경우 그것이 사용됩니다. 입력 값이없는 경우, 예를 들어, 일어날 수없는 가치를 치료를위한 다른 방법이 없습니다.
  • Output :이 요소는 모델에서 예상되는 모든 원하는 출력 필드 이름을 사용할 수 있습니다. 이들은 예측 분야의 기능을하고 있으므로 일반적으로 예측 값 자체 확률, 클러스터 친화 (클러스터링 모델의 경우), 표준 오류 등 아르

PMML, 4.0의 최신 버전 2009년 6월 16일 일에 릴리스되었습니다.  
새로운 기능의 예는 다음과 같습니다
  • 모델 설명 : PMML 파일 자체 평가 및 모델 성능 조치 저장.
  • 다중 모델 : 모델 구성, ensembles, 그리고 세분화 (예, 회귀 와 의사 결정 나무의 결합기능).

다음은 PMML을 지원하는 소프트웨어의 목록입니다.

§  Angoss KnowledgeSTUDIO: produces PMML 3.2 for regression models (logistic and linear), decision trees, clustering, neural networks and ruleset models (used to represent scorecards).

§  Angoss KnowledgeSEEKER: produces PMML 3.2 for decision trees.

§  Angoss StrategyBuilder (add-on module for KnowledgeSEEKER and KnowledgeSTUDIO): produces PMML 3.2 for decision trees (used to represent strategy trees).

§  IBM InfoSphere Warehouse: produces PMML 3.0 and 3.1 for sequences only models. Consumes (scores and visualizes) PMML 3.1 and earlier.

§  IBM SPSS Modeler: produces and scores PMML 3.2 and 4.0 for a variety of models.

§  IBM SPSS Statistics: produces PMML 3.2 and 4.0 for a variety of models.

§  KNIME: produces and consumes PMML 4.0 for neural networks, decision trees, clustering models, regression models, and support vector machines. As of release 2.4.0, KNIME also offers extensive pre-processing support in PMML, including the ability to edit existing PMML code.

§  KXEN: produces PMML 3.2 for regression models (including mining models) and clustering.

§  Microsoft SQL Server 2008 Analysis Services: produces and consumes PMML 2.1 for decision trees and clustering.

§  MicroStrategy: supports PMML 2.0, 2.1, 3.0, 3.1, 3.2 and 4.0 for linear regression, logistic regression, decision trees, clustering, association rules, time series,neural networks and support vector machines.

§  Open Data Group's Augustus: Produces PMML 4.0 for tree, naive-bayes and ruleset models. It consumes PMML 4.0 tree, naive-bayes, ruleset and regression models. Older versions produce and consume PMML 3.0 regression, tree and naive-bayes.

§  Oracle Data Mining: supports the core features of PMML 3.1 for regression models. The imported models become native Oracle Data Mining (ODM) models capable of Exadata offload.

§  Pervasive DataRush: produces and consumes PMML 3.2 for regression models, decision trees, and naive bayes. Produces PMML 3.2 for association rules andclustering (K-means Center-Based).

§  Predixion PMML Connexion: consumes PMML 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0 for several mining models, including decision trees, ruleset models, support vector machines, neural networks, naive bayes, linear and logistic regression models as well as clustering models.

§  RapidMiner: Using the free PMML extension, several types of models can be exported to PMML.

§  Rattle/R: Uses the R programming language to build several predictive models. It offers a PMML package to export models built in R to PMML 3.2. This package includes export support for support vector machines, linear regression, logistic regression, decision trees, random forests, random survival forests, neural networks,K-means and hierarchical clustering, and association rules.

§  Salford-Systems CART: a decision tree system that produces PMML 3.1.

§  SAND CDBMS 6.1 PMML Extension: consumes PMML versions 3.1 and 3.2 for several mining models, including association rules, clustering, regression, neural networks, naive bayes, support vector machines, rulesets, and decision trees. It also consumes pre-processing elements and built-in functions.

§  SAS Enterprise Miner: produces PMML 2.1 and 3.1 for several mining models, including linear regression, logistic regression, decision trees, neural networks, K-means clustering, and association rules.

§  STATISTICA: generates PMML 2.0 and 3.0 for analyses such as linear regression, logistic regression, decision trees, support vector machines, and neural networks

§  TIBCO Spotfire Miner 8.1: produces and consumes PMML 2.0 for regression models, decision trees, neural networks, clustering, and naive bayes models.

§  TERADATA Warehouse Miner 5.3.1: consumes PMML 2.1 through 3.2 for regression models, decision trees, neural networks, clustering, and mining models (regression type).

§  Weka (Pentaho): consumes PMML 3.2 for regression models, decision trees, neural networks, rule sets, and support vector machines.

§  Zementis ADAPA: batch and real-time scoring of PMML 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0 for several mining models, including decision trees, association rules, support vector machines, neural networks, naive bayes, ruleset models, linear and logistic regression models as well as Cox regression models and clustering models. ADAPA also consumes all pre- and post-processing PMML elements, including transformations, built-in functions, outputs, and targets.

§  Zementis PMML Converter: validates, corrects, and converts PMML files expressed in versions 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0.

§  Zementis Universal PMML Plug-in: in-database scoring of PMML 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0 for several mining models. Available now for the EMC Greenplum Database.

 

Posted by JDATE

정보의 혁명이라 불리는 인터넷(Internet)의 등장은 사회 및 경제 전반에 걸쳐 많은 부분을 혁신적으로 바꾸어 놓았다. 최근 정보의 주체가 기업에서 개인으로 이동되면서 개인과 개인을 연결시켜주는 사회 연결망 서비스 영어로 Social Network Service(이하 SNS)가 근래에 큰 화두가 되고 있다. 그리고 이 Social Network Service를 통해서 나온 각종 개체와 개체들의 연결 관계 및 구조에 대한 다양한 데이터 분석 방법이 바로 사회 연결망 분석(Social Network Analysis, 이하 SNA)이다.

1.1 사회연결망 서비스(Social Network Service)의 정의

 

1.1.1 밀그램(Milgram)의 작은 세상(Small World)

1967년 미국 하버드 대학의 사회 심리학자인 밀그램(Stanley Milgram)은 재미있는 실험을 수행하였는데, 미국 내의 서로 모르는 임의의 두 사람 간의 거리를 파악하는 실험이었다. 즉, 무작위로 추출한 2명 사이의 거리를 알고자 2사람 간의 편지 전달을 시행하여, 상대방에게 닫는 데 거치는 사람의 수를 파악하고자 하는 것이었다. 이 실험 결과 약 5.5명을 거치면, 서로 모르는 임의의 사람 간에도 연결이 될 수 있다는 것을 알아내게 된다. 이 실험이 바로 그 유명한 작은 세상(small world) 실험이다. 언뜻 보기에는 엄청나게 많은 단계(사람들)가 필요할 것 같은 이 실험결과가 단지 5.5명만 거치면 (미국 내) 모르는 사람과도 연결이 될 수 있는 이유는 무엇일까? 이를 설명할 수 있는 것이 바로 사회 연결망(Social Network)이다.

1.1.2 사회 연결망 서비스(Social Network Service)

사회연결망(Social Network)이란는 개인 또는 집단이 하나의 노드(Node)가 되어, 각 노드들 간의 상호 의존적인 관계에 의해서 만들어지는 사회적 관계 구조를 의미한다. 일반적으로 사람이 사회 생활을 하면서, 각종 인간 관계들을 맺고 지내는데, 이러한 인간관계들의 구조들이 바로 대표적인 사회 연결망의 시발이고, 기초적인 반석이라고 할 수 있다. 이러한 실제 사회 연결망이 인터넷 또는 웹(Web)상에서 만들어진 특정한 서비스 시스템을 통해서, 생성되는 것이 근래의 주요 인터넷 트렌드인데, 이런한 사회 연결망 구조의 서비스를 해주는 것을 사회 연결망 서비스 또는 SNS라고 한다.

대표적인 SNS가 바로 미국의 하버드 대 출신의 마크 주커버그(Mark Zuckerberg)등이 개발한 페이스 북(facebook, www.facebook.com 과 바로 트위터(Twitter, www.twitter.com )이며, 한국에서는 SK 커뮤니케이션즈의 사이월드(Cyworld, www.cyworld.com )와 모바일 메신져 기능을 이용한 SNS 서비스인 카카오톡 등이 대표적이라고 할 수 있다.

 

1.2 사회연결망 서비스(Social Network Service)의 현황

앞서 언급한 사회연결망 서비스 즉, SNS의 경우 현재 단순한 홈페이지 및 개인의 블로그 수준을 넘어서서, 대중의 참여의식과 사회현상을 바꾸고, 기업의 주요한 광고/홍보 및 관리 대상이 되었으며, 정부 및 공공기관에서는 여론 수렴의 주요한 창구가 되어져서, 이제는 단순 서비스를 넘어서, 양성적으로나 음성적으로나 가장 영향력이 강력한 서비스 중의 하나가 되었다.

위의 <그림 1.2>는 지난 5년간 페이스 북의 사용자수를 그래프를 나타내어 표시한 것으로 2010년말 월 1회 이상 페이스북을 이용하는 가입자수가 5억명을 돌파한 것을 알 수 있다. 또한 <그림 1.3>을 보면 페이스 북과 함께 SNS의 양대 산맥을 이루는 트위터의 경우 하루 등록되는 글의 건수가 2010년 초에 5000만개를 돌파하는 경이적인 기록을 수립하기도 하는 등 최근에 들어와서 SNS는 사회와 개인의 생활을 변화시키는 서비스가 되었다.

그러나 위의 <그림 1.2>와 <그림 1.3>과 같이, 단순히 SNS의 경우 사용자가 많고, 사용자의 활동이 많다는 것이 중요한 것이 아니다. 소셜 미디어 전략 수립 및 각종 Research를 수행하는 Digital Surgeon에 의하면, 2010년 기준으로 페이스 북의 경우 사용자의 41% 매일 로그인(log-in)을 하고, 이 중 30%가 모바일 기기(휴대전화, 노트북 등)를 이용하여 접속을 하고 있으며, 특히 가입자의 40%가 특정 기업의 상품 브랜드에 팔로잉(following)을 하고 있으며, 이들 브랜드 팔로워(follower)의 51%가 그 해당 브랜드를 구매할 것이라는 것이다. 이는 트위터의 경우에도 상당한 수의 사용자들이 또한 각종 기업의 상품 브랜드와 연결이 되어져 있다. 즉, 위의 통계들은 현재 SNS 서비스는 모바일 소통의 중심이 되고 있고, 특히 기업 및 제품 구매의 정보 창구 그리고 홍보의 주요한 소통 도구인 사회적/상업적인 서비스가 되었다는 것을 말해 주고 있다.

한국에서도 여러 기업들이 SNS를 이용하여, 기업의 홍보, 마케팅, 그리고 고객들의 여론 수렴을 하고 있으며, 통한 2010년 6.2 지방 선거 등에서는 트위터를 이용한 선거 운동과 투표 참여 등이 전체적인 선거의 판세에 영향을 미칠 정도로 한국 내에서도 SNS는 중요한 사회적인 이슈(issue)가 되었다.

 

1.3 사회연결망 서비스(Social Network Service)의 특징

Gene Smith(2007, Social Software Buiding Blocks)에 따르면, SNS는 전체 7가지의 특징을 가지고 있다고 하며, 이를 도식화 한 것이 <그림 1.4>이다.

위의 그림 <1.4>를 보면 Smith가 언급한 SNS의 7가지 특징이 나오는데, 이를 살펴보면 다음과 같다.

■ Presence: 현재성이라고도 하며, SNS에서 사용자가 자신의 현재 상황을 알려주고 싶어 하는 특징을 의미한다.

■ Relationships: 관계성이라고도 하며, SNS를 통해서 연결되는 개체들간의 관계의 깊이와 친밀도가 생성되는 특징을 의미한다.

■ Reputation: 평판도, 명성도라고도 하며, SNS를 통해서 자신의 명성 또는 자신의 성과를 자랑하고자 하는 특징을 의미한다.

■ Groups: 그룹 또는 공통된 관심사에 대한 커뮤니티를 구성하고자 하는 특징이 발생하는 것을 의미한다.

■ Conversations: 대화성이라고도 하며, 사람들 간의 대화와 소통을 하고 싶어 하는 욕구를 충족시키는 특징을 의미한다.

■ Sharing: 공유성이라고도 하며, 개인(노드)이 가진 정보와 컨텐츠 또는 소소한 일상에 대한 정보를 공유하는 특징을 의미한다.

■ Identity: 주체성이라고도 하며, SNS 상에서 개인이 자신의 주체성을 확고하게 하는 특징을 의미한다.

위에서 보는 SNS의 7가지의 특징은 그 동안 수동적으로 남이 만들어 놓은 홈페이지를 조회하고, 간단한 자기 의견 정도를 입력하던 기존의 Web 사용에서, 마치 사람들이 일상생활을 하는 것과 동일한 행태들이 보이는 것이 큰 특징이다. 그리고 이러한 SNS의 특징 중 또 하나는 위와 같은 활동을 하는 행태가 바로 데이터화 될 수 있다는 것이다. 그리고 바로 이 데이터를 이용하여, 실제 세계에서는 알 수 없는 다양한 분석이 가능해지게 되는데, 이것이 바로 사회 연결망 분석(Social Network Analysis: SNA)이다. 즉, SNA는 기본적으로 SNS라는 특정 서비스 상에서 생성되는 데이터를 이용한 분석이므로, 필수적으로 SNS 환경이 갖추어져야지만, SNA를 할 수 있다.

 

1.4 다양한 사회연결망 서비스(Social Network Service)와 미래

1.4.1 다양한 SNS

앞서 언급한 페이스 북이나 트위터 그리고 한국의 사이월드 등이 대표적인 SNS이다. 사실 SNS라고 하면, 이들 이외에는 다른 것들이 크게 언급되지 않으며, 그 외의 SNS들도 전부 페이스 북이나 트위터 등과 유사한 것들이 많이 있다. 그러나 그 외에도 SNA를 하기 위한 SNS들은 의외로 많이 있게 된다. 대표적으로, Social Network 게임(game)업체인 Zynga(www.zynga.com)를 들 수 있다.

Zynga의 경우 게임에 바로 SNS를 접목시킨 것으로, 각종 게임 속에서 상대방과의 소통과 교류를 할 수 있게 하고, 그 자체를 또한 게임화 시킨 기업이라고 할 수 있다. 이런 게임 이외에 기업 및 조직 내의 e-mail 시스템도 훌륭한 SNS가 될 수 있으며, e-mail의 연결 상태와 교류 정도 데이터를 이용한 사내 의사소통 연결망 분석을 할 수 있게 된다. 이 외에도, 각종 다양한 판매자와 구매자 그리고 구매자가 판매자가 될 수 있는 경매 방식의 온라인 쇼핑몰도 SNS와 유사한 시스템이 될 수 있으며, 전화번호 연락처 정보를 가지고 있는 무료 인터넷 폰 서비스의 경우에도 아주 좋은 SNS가 될 수 있다. 또한 기업들 간 또는 기업 들 내의 물류 및 각종 하청/협력 관계 시스템 또한 SNS가 될 수 있다. 이런 SNS 시스템이 많다는 것은 궁극적으로 SNA를 위한 다양한 데이터들이 축적될 수 있으며, 이는 곧 사회 연결망 분석 SNA가 매우 필수적인 분석 아이템이 될 수 있다는 의미이기도 하다.

1.4.2 SNS의 미래

개인 간의 의사 소통과 정보 공유에서 시작한 SNS는 이제 향후 기업 비즈니스 모델의 한 축이 되는 방향으로 진행이 되어 질 것이다. 따라서, 단순 관계형 Network를 지나서, 정보형 Network로 변화가 될 가능성이 있으며, 그로 인한 내부적인 정보 보안의 강화 그로 인한 귓속말과 같은 보안 중시형 기능이 많이 강화될 것으로 보인다. 그리고 기업의 대표 노드를 중심으로 한 사회 연결망이 구축되면서, 브랜드 및 기업 상품의 충성 그룹을 이용한 비즈니스 수익 모델을 개발하는 서비스가 향후 중심이 될 전망이다. 이는 곧 개인들의 재미있는 놀이터이자, 커뮤니티였던 SNS가 이제는 기업 활동과 마케팅의 한 모델로 자리잡아 간다는 의미일 것이다.

 

1.5 사회연결망 분석(Social Network Analysis)

1.5.1 사회 연결망 분석의 정의와 Social Network Graphs

사회 연결망 서비스(SNS)를 이용하면서, 발생하는 관계들 속에는 다양한 연결 형태, 방향성, 강도 등이 나타나게 된다. 사회 연결망 분석은 바로 SNS 내부에서 발생하는 관계들의 형태에 대한 특징을 도출하거나 특성을 설명, 또는 체계를 구성하는 행위를 설명할 수 있는 것을 의미한다.

가장 간단하면서, 일반적인 사회연결망 분석(SNA)으로는 사회 그래프(social graph)가 있다.

 

<그림 1.6>이 대표적인 Social Network Graph의 예이다. 간결하고 시각적으로 각 노드들의 연결 상황을 보여주고 있다. 좀 더 고급화된 그래프로 방향성과 강도 그리고 주요한 노드의 크기의 변화가 그래프에 나타나는 것까지 현재 관련 SNA 소프트웨어에서 지원을 하고 있다.

Graph가 가장 효과적이고, 시각적으로 판단이 매우 편리한 분석 도구이지만, 노드의 수가 많아지는 경우에는 Graph 상의 시각적인 관계로는 식별하기 어려운 단점이 있다.

 

1.5.2 중심성과 연결망 결속

사회 연결망 분석(SNA)은 다양한 분야가 있지만, 가장 중요한 것이 바로 중심성(centrality)이다. SNA에서, 중심성이란 통계 자료에서 평균이나 중앙값, 최빈값과 같이 데이터 셋의 대표성을 가지는 값들과 성격이 유사하다. 즉, 사회 연결망(Social Network)에서, 연결의 핵심적 위치에 있는 특성을 값으로 표현하여 주는 것이 바로 중심성이라고 할 수 있다.

일반적으로 중심성은 다양한 척도로 측정 및 계산이 되어질 수 있는데, 이를 정리한 것이 <표 1.1>과 같다.

중심성 종류

내 용

근접중심성

(Closeness centrality)

노드와 노드 사이의 평균 최단 거리 계산 후 이를 역수로 취한 중심성으로 단순한 연결성과 근접성을 측정하는 중심성이다. 근접 중심성을 계산할 때, 평균 최단 거리를 계산 후 역수를 취하는 방법 이외에 최단 거리를 모두 계산 후 이들의 역수의 평균을 이용하는 방법도 있다.(선후의 변경에 따라 중심성 값이 바뀜)

중개중심성

(Betweennesscentrality)

1개의 노드가 다른 2개의 노드 간의 최단 경로에 놓이게 되는 비율을 합하여 계산한다. 중개 중심성을 통해서 네트워크와 네트워크 사이를 연결하는 허브 역할을 하는 노드를 찾아낼 수 있다.

고유벡터 중심성(Eigenvector

centrality)

특정한 한 개의 노드가 다른 중요한 노드에 얼마나 많이 연결되어 있는 지를 분석하는 중심성 지표이다.

연결선의 수

(Degree centrality)

노드의 중앙성을 파악하기 위한 지표로써, 연결선의 수가 많을수록 전체 네트워크의 중앙에 위치한다는 것을 의미하는 지표이다.

그래프 중심성

(Graphcentrality)

한 노드와 다른 노드간의 최대 최단 거리를 계산하고, 이것의 역수를 취하여 구하는 값으로, 그래프 내에서 최단 경로를 파악하는데 사용되는 지표이다.

<표 1.1>과 같이 다양한 중심성 지표를 이용하여, 사회 연결망의 각 노드들(개인들)의 네트워크 내에서의 성향과 중요성 그리고 역할을 파악하게 되며, 이를 이용하여, 비즈니스 등에서는 입소문 전파자(Big Mouth) 등을 선별하여 마케팅 등에서 활용하게 된다.

중심성의 경우 연결의 상태나 연결의 위치, 경로 등을 중심으로 만들어낸 지표들이라면, 노드와 노드 사이에 결속되는 정도(강도)에 따른 분석이 필요한 경우가 많이 있다. SNA에서는 일반적으로 아래의 <표 1.2>와 같은 연결망 결속 지표를 분석한다.

결속 지표

내 용

연결선의 수

(Degree)

연결정도는 중심성 지표 중 연결선의 수와 동일한 개념이다. 즉, 연결선의 수는 중심성의 지표이자 결속지표가 되기도 한다.

밀도

(Density)

네트워크 내에서 가능한 총 관계 수 중 에서 실제로 맺어진 관계 수의 비율을 의미한다.

포괄성

(Inclusiveness)

네트워크 그래프 내에서 포함된 노드의 총 수에서 연결되어 있지 않은 노드들의 수를 뺀 수의 비율로 정의할 수 있다.

연결강도(Strength)와 지속시간(Duration)

접촉의 빈도수를 이용한 가중치이며, 특정한 네트워크의 경우 빈도수가 아닌 지속 시간(또는 연결 시간)을 이용한 결속을 파악하기도 한다.

1.5.3 그 외의 다양한 사회 연결망 분석(SNA)

사회 연결망 분석에서 일반적으로 가장 중요한 분석이 바로 위에서 언급한 중심성과 연결망 결속 지표이다. 그 외에 다양한 분석 분야가 있다. 일반 연결 중심이 아닌 연결 간의 강도가 추가된 가중 네트워크 분석 그리고 전체 네트워크에서 하부에 존재하는 부그룹을 탐지하는 네트워크 부그룹 분석, 네트워크 자체가 행과 열로 각각의 의미를 가지는 네트워크를 분석하는 2부 네트워크 분석 그리고 네트워크 내에서, 동일한 구조를 가지는 노드를 파악하는 구조적 동치성 분석 등 SNA는 현재 다양한 형태의 분석 방법이 연구되어 지고, 활용이 되고 있다.

 

1.6 사회연결망 분석(Social Network Analysis) 도구들

사회 연결망 분석을 수행하기 위해서는 분석 소프트웨어가 필요하게 되는데, 현재 세계적으로 상당히 많은 제품들이 개발되어져 있고, 또한 이 중에서는 무료 소프트웨어들도 많이 있어, SNA에 관심이 있는 사람들이 손쉽게 접근할 수 있다. 대표적인 사회 연결망 분석 도구들은 외국의 소프트웨어 중에서는 Pajek과 무료 통계 패키지 R, UCINET, Multinet, Structure, Siocnet 등이 있으며, 이중 Pajek과 R 패키지 등의 경우 무료로 활용할 수 있는 장점이 있다. 또한 국내에서는 사이람에서 개발한 Net-Miner가 대표적인 사회 연결망 분석을 위한 소프트 웨어이다.

"SPSS Modeler와 사회네트워크분석" 책에서...

http://www.spss.co.kr/book/book_01_03.asp

 

Posted by JDATE


2010년에 실시된 제4회 연간정기서베이에서 다음과 같은 넘어야할 장애물들이 존재한다고 데이터 마이너들은 언급하였다. 즉,

 

 - 정제되지 않은 데이터 문제

 - 데이터 마이닝을 타인에게 설명해야 하는 어려움

 - 데이터의 부재/접근의 어려움

 

 데이터 마이너들운 제4회 연간정기서베이(2010)에서 문제점을 극복했던 그들의 경험을 공유하였습니다. 아래에 그들이 공유한 최고의 연습용의 예제가 언급되었습니다. 각 데이터 마이닝 문제점들을 극복한 사례들의 완성된 목록은 다음 링크들을 통해서 역시 사용이 가능합니다.

 

도전과제 : 정제되지 않은 데이터

 

제4회 연간정기서베이에 응답한 735명의 데이터 마이너들의 85%는 문제점을 극복한 그들의 경험을 설명했습니다.  핵심 주제는 기술통계량의 사용과 데이터 시각화, 비즈니스 규칙, 그리고 전문적인 데이터 내용에 대한 참고였습니다. (비즈니스 사용자) 많고 다양한 세부적인 제안들이 공유되었다. (모든 85가지 응답들을 여기에서 볼 수 있다.)

 

 이 문제를 해결한 선택된 데이터 마이너들의 설문조사 응답 사례 :

 

 - 모든 프로젝트는 레코드의 수, 핵심 조합(특이 사항, 과부/고아), 그리고 필드 내용의 분포를 보여주는 등 낮은 수준으로 데이터 보고를 시작합니다. 이런 보고서들은 고객의 전문가적인 내용의 데이터로 다시 되풀이됩니다.

 

 - 정제되지 않은 데이터의 한계에서, 우리는 두 가지 방법을 결합하여 사용합니다. : 알려진 데이터를 기반으로 한 직관과 데이터 프로파일입니다. 알려진 데이터를 기반으로 한 직관은 그들의 데이터를 진정으로 알기 위해 우리의 인간의 분석능력을 요구합니다. 만약 그것이 보통치를 넘어서면, 우리는 그 데이터가 정확한 것인지 확인하기 위해 유효성 검증을 거칩니다.

 

 - 결측 데이터(missing data)의 조직전인 패턴을 쉽게 확인하기 위해 플롯에서 결측된 데이터를 보는 것을 잊지 않아야 합니다. (MD) 결측 데이터의 다중 대체는 데이터 셋을 분리하거나 결측값을 계산하지 않는 것보다 낫습니다. 대신에 새로운 카테고리로 결측값을 이분화 하고 적극적으로 모델을 만듭니다. 결측 데이터는 곧 정보입니다. 기능 선택으로 랜덤 포레스트를 사용합니다. 나는 너무 많은 변수들을 조합하여 노이즈가 많고 복잡한 모델들을 만들었습니다. 모델링하기 전에 RF를 하면서, 나는 결국 단지 5~10개의 변수로 뛰어난 모델을 만들었습니다.

 

 - quick K-means 군집화 기법은 단일의 관측 군집화로써 가장 안 좋은 것으로 드러났습니다.

 

 - 이분형 레코드에서 (레코드를 이분하기 위해) 이상치 탐지기를 사용 해아합니다.

그들은 보통 Gribot가 주장하기를 내가 훨씬 데이터를 정제하기 위해 사용할 수 있을 것이라는 것보다 더 포괄적인 규칙을 공식화합니다.

 

 - 우리는 데이터에 대한 기술 통계량을 계산하고 모델링 프로세스를 시작하기 전에 데이터를 그려봅니다. 데이터의 비즈니스 고객과의 토론은 더 나은 이해를 위해 도움이 되어왔습니다. 우리는 데이터 값의 다중 결합을 보는 것으로써 데이터의 복잡성을 이해하기 위해 노력합니다.

 

 - 상기자에 의해 주어진 각 변수들의 훈련용 의사결정나무는 a) NULL값으로 대체하고, b) 편향된 값 (전문가)을 확인하는 것을 가능케 합니다.

 

 - 우리는 퍼지 그룹을 사용하는 가상 군집화와 이상치의 인공적인 다차원 정의를 만들었고 정제되지 않은 데이터를 찾아내려고 노력했습니다.  찾아진 결측 데이터의 점검은 정제되지 않음의 구체적인 유형에 대한 판별하는 프로그램을 짜는데 실마리를 제공했습니다.

 

 - 빠르게 데이터 시각화가 가능하다는 것은 우리가 고객에게 정제되지 않은데이터의 존재를 알리게 한 것입니다. 업리프트 모델링의 서술은 만약 대조 그룹이 고객이 말한대로 랜덤하게 되어있다는 것이 진짜라는 점을 분석자들이 안다는 보고서를 포함합니다. (우리는 종종 편향을 발견합니다.)

 

 - 일반적으로 정제되지 않은 데이터와 같은 다양한 비즈니스 단위로 작업하는 것은 쓸모없는 일은 아닙니다. 문제점을 통해 작업을 함으로써 당신은 단지 정제된 데이터로 작업하는 것보다 더 데이터 셋에 대한 이해가 쉬어질 수 있습니다. 왜냐하면 데이터가 정제되고 확실하다고 해서 모든 변수를 완벽히 이해할 수 있는 것이 아니며 또한 데이터가 처음에 왜 수집되었는지에 대한 원래의 의도도 완벽히 이해한다는 것을 의미하지 않기 때문입니다.

 

도전 과제 : 데이터 마이닝의 설명

 

제4회 연간정기서베이에 응답한 735명의 데이터 마이너들의 65%는 문제점을 극복한 그들의 경험을 설명했습니다. 핵심 주제는 그래픽의 사용, 매우 간단한 예제와 유추, 그리고 초보적인 데이터 마이닝의 비즈니스 효과에 초점을 습니맞추는 것입니다. 많고 다양한 세부적인 제안들이 공유되었습니다. (모든 65가지 응답들을 여기에서 볼 수 있다.)

 

이 문제를 해결한 선택된 데이터 마이너들의 설문조사 응답 사례 :

 

 - “분석자 간 경쟁의 영향력과 다른 기관의 사례 연구는 가능성 있는 검정력을 만듭니다. 국내에서 작은 효과가 있는 프로젝트를 가져오면 기업은 채택하는 것을 통해 프로젝트를 증진시킵니다. 마지막으로, 의미있는 적용으로 데이터를 제공하면 – BI 도구 데이터 마이닝이 구현 가능하다는 것을 우리의 이해관계자에게 보여줍니다.

 

 - DM 베이직과 목적에 대한 초보 지식 공유 세션.

 

- 그래픽 표시는 매우 유용합니다. (, 이익 도표 또는 리프트 차트)

 

 - 문제는 문제를 낳기 위한 충분한 시간을 가지고 해결책을 보여줍니다. 대부분 상위 경영진은 짧은 프레젠테이션을 원하지만 단지 결과를 얻을 수 있는 원인은 없습니다. 그들은 원인에 대해 관심이 없기 때문에 종종 솔루션을 구입하지 않습니다. 따라서 우리는 그들의 열망하는 직접적인 보고서를 작업하기 위해 노력하고 그들이 전체 프레젠테이션을 볼 수 있도록 합니다. 만약 그들이 솔루션을 구입하는 경우, 상위 경영진들은 그들의 직계 상관과 함께 솔루션을 지킬 것입니다.

 

 - 균형잡힌 시트와 P&L에 대한 모델 적용의 전체적인 이익, 달러에 초점을 맞춥니다.

 

 - 대조 그룹과 비교된 측정결과는 데이터 마이닝 결과에 대하여 사람들을 설득시키기에 가장 좋은 방법입니다.

 

 - 나는 제품 관리자(클라이언트)를 가져와서 그들에게 중요한 분석들을 그들과 함께 일했습니다. 그래서 내가 다양한 측면을 분석하기 위해 그들의 전문성에 따라서 데이터를 다루는 방법이 그들에게 흥미를 주었습니다.

 

- 영상 및 그래픽 프레젠테이션을 한 비즈니스에 미치는 영향과 결과를 설명하는 것, 역사적 동향 및 변화 분석을 설명하는 것은 논리적으로 비즈니스 사용자에게 데이터의 비즈니스 동향을 설명하는데 도움을 줍니다.

 

- 진실된 철학 중 하나의 관점. 변수들의 정의는 비즈니스 기능에 따라 모순되지 않습니다.

 

- 시각화 및 설명 모델 및 모델 공간. 결과를 설명하고 해석합니다. 결과의 유의성과 평가를 보여주고 설명합니다.

 


도전과제 : 데이터의 부재/접근의 어려움

 

제4회 연간정기서베이에 응답한 735명의 데이터 마이너들의 46%는 문제점을 극복한 그들의 경험을 설명했습니다. 핵심 주제는 데이터 가용성 향상시키는 것에 대한 자금을 바치는 것과 조직 장벽을 극복하기 위한 방법이었습니다. 많고 다양한 세부적인 제안들이 공유되었습니다. (모든 46가지 응답들을 여기에서 볼 수 있습니다.)

 

 이 문제를 해결한 선택된 데이터 마이너들의 설문조사 응답 사례 :

 

 - 우리는 더 낫고, 더 쉽고, 더 빠른 데이터 접근을 하기 위해 계속 노력합니다. 사실, 통계 분석자들의 스트레스를 줄이기 위해, 우리는 데이터 수집에만 전체 시간을 할애하면서 일하는 데이터 수집 전문가를 고용했습니다.

 

- 나는 보통 데이터의 부재 또는 불변의 변수를 다루는데 합리적인 발견을 계획하기 위해 적합한 콘텐츠 전문가와 상의합니다. 데이터 접근이 어려운 것은 전형적으로 우리가 필요한 데이터를 모으는 좋은 계획을 가지지 못했음을 뜻합니다. 나는 제품 관리자와 상의하고 그들의 비즈니스 문제에 대한 데이터 필요를 제안합니다. 만약 우리가 필요와 비즈니스 이슈를 잘 매치할 수 있다면, 데이터 접근과 이용가능성은 대개 해결됩니다.

 

- 우리의 가장 좋은 사례는 정의된 기간 동안 자동적으로 모집된 데이터 마이닝 목적 분석적인 데이터 셋 - 에 대한 온전한 데이터베이스를 이행하는 것과 고안하는 것입니다.

 

- 직접 고객과 함께 작업하기 위해 사업부 사이트에서 많이 활동하는 것과 로컬 IT.. 일반적으로 가장 좋은 사례를 두고 이후에 우리가 찾을 수 있는 정제된 거의 적은 데이터를 찾아둡니다. 앞으로 우리는 일반적으로 더욱 로버스트한 데이터 수집과 프로젝트를 계획합니다.

 

- 데이터가 이용하기 어려울 때, 우리는 데이터가 존재하던지, 장기적 거부자 이던지 상관없이 우리의 차선책모델을 제공합니다. 이것은 진짜 현재 솔루션에서 향상되지는 않습니다. 그러나 (i) 우리와 연락을 계속 하는 사람 (ii) 우리가 요구했던 데이터를 얻는 더 나은 일은 하는 사람들을 매우 효과적으로 얻을 수 있는 것으로 증명됩니다.

 

 - 데이터의 접근은 비즈니스 팀 수준에서 해결됩니다. 그 이유가 데이터의 결함은 비즈니스 팀의 목표가 우리의 지원과 맞지 않다는 의미가 되기 때문입니다.

 

- 심각한 문제 중 하나는 우리가 필요로 하는 정부기간이 데이터를 생성함에 있어서 신뢰성이 결여되어 있다는 것입니다. 그들은 만약에 범할 수 있는 과실을 두려워하거나 데이터 처리작업에 대한 지식이 부족한 사용자를 이해시키는 것을 꺼리기 때문입니다. 우리가 작업했던 데이터 공유를 위한 접근은 데이터 접근을 제한하는 흥미로운 집단을 형성시키는 데이터와 데이터 사용을 다루는 기관을 위한 것입니다.

원문보기
 http://www.rexeranalytics.com/Overcoming_Challenges.html

Posted by JDATE
 오늘날의 기업은 급변하는 시대의 다양한 상황에서 경쟁력을 갖추기 위해 끊임없이 노력하고 있다.
이러한 상황에서 기업의 최대 관건은, 조직이 직면한 상황을 방대한 양의 데이터를 통해 이해하고 최적의 대응
전략을 수립하여 대처하는 것이다.

 그러나 데이터를 분석하는 과정에서 다양한 시장상황에 적용할 수 있는 최적의 모형을 찾아 내는 일은 예측
모델링에 익숙치 않은 분석가에게는 쉽지 않은 일이다. SPSS Modeler는 분석가가 적은 노력을 통해 최적의
모형을 찾을 수 있는 자동화 기능인 자동 데이터준비, 자동모델링 기능 그리고 결정 목록 기능을 제공하고 있다.
이러한 기능들은 분석가에게 다양한 모델링 알고리즘을 동시에 적용하고자 할 때 혹은 제한된 시간 내에 최적의
모형을 찾아내야 할 때 분석에 앞서 어떠한 모형을 적용할 것인지에 대한 확인작업을 가능케 한다.
또한 방대한 양의 데이터를 분석하는데 소요되는 시간을 절약할 수 있어 편리하다.

 

 

(ADP-Automated Data Preparation)

 본격적인 모델링 또는 분석 작업을 시작하기 전에 해당 데이터에 대한 사전 지식이나 통계적 개념이 없어도
분석자가 데이터 준비 작업을 쉽고 빠르게 할 수 있도록 도와 준다. 결측값 대체 또는 유용한 정보가 없는 필드
제거와 같은 기본 클리닝 작업을 수행할 수 있을 뿐 아니라 성능을 향상시키기 위해서 표본을 추출하여 연속형
필드들의 최적 구간화를 수행한다.

 

  ADP 기능을 수행함으로써 최대 장점은 분석에 앞서 데이터를 핸들링하는 과정을 SPSS Modeler가 자동적으로
수행하므로 분석에 소요 되는 시간이 절약 되며, 대용량 데이터의 전 처리에 효율적인 점을 꼽을 수 있다.
따라서 예측 모델링에 익숙하지 않은 분석가에게 추천하며, 데이터 마이닝 전문가에게도 제한된 시간 내에
모델링을 하고자 할 때나 필드의 수량이 많을 때 유용한 기능이다

 

 자동 모델링 (AM-Automated Modeling)

  단일 스텝에서 여러 종류의 알고리즘을 한꺼번에 적용하여 여러 개의 모형을 동시에 생성하고 평가하는 것을
의미하며, SPSS Modeler는 목표 변수의 성격과 분석 유형에 따라 3 가지의 기능을 지원한다.

  자동 분류자 (Auto Classifier): 이분형 또는 범주형 목표 변수에 대한 자동 모델링 기능으로, 다양한 분류 분석
모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
자동 분류자 노드는 다음과 같은 모형 생성 기능을 지원하며, 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.

 지원하는 알고리즘

-신경망 분석 (Neural Network)
-CHAID
-판별 분석 (Discriminant analysis)
-C5.0
-로지스틱 회귀분석 (Logistic Regression)
-Support Vector Machine (SVM)
-결정 목록 (Decision List)
-Bayesian Network
-Nearest Neighbor Models (KNN)
-C&RT


 자동 숫자 (Auto Numeric): 수치형 목표 변수에 대한 자동 모델링 기능으로, 다음과 같은 다양한 추정 모형을
생성할 수 있으며, 그 결과를 복합적으로 비교하여 최적의 모형을 찾는데 매우 유용한 기능이다.
또한 각 모형 별로 모수 및 세부 옵션을 지정할 수 있다.

 지원하는 알고리즘

-CHAID
-신경망 분석 (Neural Network)
-선형 회귀 분석 (Linear Regression)
-C&RTree
-Support Vector Machine (SVM)
-일반화 선형 모형 (Generalized Linear Model)
-가장 가까운 이웃 (Nearest Neighbor Models (KNN)

 자동 군집 (Auto Cluster): 군집화 모형에 대한 추정 및 비교를 수행하는 자동 모델링 기능으로, 개체 간의
유사한 특성에 따라 집단화하는 다양한 군집 모형을 생성하고, 그 결과를 복합적으로 비교하여 최적의 모형을
찾는데 매우 유용한 기능이다. 다음 3 가지 중 원하는 모형을 선택할 수 있으며, 각 모형별로 모수 및 세부 옵션을
지정할 수 있다.

지원하는 알고리즘

-코호넨 네트워크 분석 (Kohonen Network)
-K-평균 군집분석 (K-Means Clustering
-이단계 군집분석 (Two-Step Clustering)

 

 이러한 자동 모델링 기능들은 데이터를 분석하는 과정에서 여러 가지 모형을 생성하고 평가하며, 최적의 모형을
찾아내는 작업의 수행 시간을 상당히 단축시켜준다. 그러므로 자동 데이터 준비 과정과 같이 예측 모델링에
익숙하지 않은 분석가에게 추천하는 기능이며, 데이터 마이닝 전문가에게도 다양한 모델링 알고리즘을 동시에
적용하고자 할 때나 제한된 시간 내에 최적의 모형을 찾고자 할 때 매우 유용한 기능이다.

 

 결정 목록 (Decision List )이란?    

 

 제품의 구매 확률과 같은 고객의 이분형 행동 패턴을 규칙화하고, 이 규칙들을 통해 특정 행동 반응을 보일
가능성이 높은 고객 집단 (segment)를 찾아 내는데 매우 효과적인 알고리즘이다.

 목표 변수는 이항 변수 (반응/비반응, 구매/비구매)로 한정 되어 있으며, 모든 척도 (연속형, 이산형 등) 설명
변수를 활용할 수 있다.

 의사 결정 규칙이 전항 (antecedent) 과 후항 (consequent) 으로 이루어진 if-then 형태로 출력 된다. 여기서
전항은 예측 변수 (predictor)들의 논리 조건 표현식, 후항은 전항이 참(true)일 경우 목표 변수의 예측된 값이다.
이때, 출력 되는 의사 결정 규칙들의 순서는 매우 중요하다.

 

 결정 목록 노드를 사용하였을 때 가장 큰 장점은 분석자가 원하는 수준에 따라 규칙을 생성할 수 있으며, 기존의
의사결정나무 (Decision Tree) 기법에 비해 실무에 적용하기 편리하다. 이 알고리즘은 캠페인 반응을 예측하고,
프로모션 대상자를 선정하거나 마케팅 캠페인 최적화 및 콜센터 최적화하는데 효과적으로 활용 될 수 있다.
사실상 결정목록 기법은 이론적 배경이 다소 약한 편이지만, 마케팅뿐만 아니라 다양한 분야에서 실무에 활용이
편리한 모델링 알고리즘이다.

 다음 호에서는 이런 SPSS Modeler의 다양한 기능을 사용하여 쉽고 빠르게 분석 작업의 효율성을 향상 시킬 수
있는 방법에 대해 소개하도록 하겠다.

 

 문의: marketing@spss.co.kr


Posted by JDATE
데이터 마이닝은 조직 내 방대한 데이터에 내재된 패턴(pattern)이나 규칙을 통해 변화와 경쟁을
거듭하는 현대 사회의 조직이 경쟁력을 갖출 수 있도록 통찰력을 갖추게 해주며, 예측 모델을 개발하여
의사 결정을 뒷받침해 줄 수 있는 근거를 제공하여 주며, 적절한 액션을 취하게 해줍니다.
SPSS Modeler는 조직 내 존재하는 다양한 종류의 데이터를 엑세스, 구성 및 모델링함에 있어
최적의 데이터 마이닝 툴이 되어 드릴 것 입니다.

SPSS Modeler는 뛰어난 시각적 인터페이스 상에서 데이터 입력, 탐색, 모델링, 전개 과정을 손쉽고
빠르게 구현할 수 있게 해드립니다. SPSS Modeler는 Fortune 지가 선정한 전세계 500대 기업, 공공 및
교육 기관 등에서 널리 사용 되고 있으며, 고객층 확보 및 지속적인 관리, 재무 위험 관리, 품질 관리의
효율성 증진, 사회과학 연구 보조, 국가 안보와 사법 행정 등에 다양한 분야에서 예측적 분석을 통해
남보다 앞선 경쟁력을 심어 주고 있습니다.

나아가 2010년 출시 된 SPSS Modeler 14는 새롭게 달라진 디자인과 더욱 더 강력해진 기능을 갖추었습니다.


More Powerful Modeling Algorithms- 모델링 기능의 향상

모형 생성 시 SPSS Modeler 14 버전부터는 생성된 모델 너겟이 모델 팔레트 뿐만 아니라 스트림에도
자동적으로 추가됩니다. 또한 대용량 데이터 최적화 기능이 지원 되는 모델링 알고리즘들이 종전보다 더
추가 되었으며, 자동 데이터 준비, 모형 선택, 앙상블 기법 등 최적화 된 선형 (Regression) 모델링을 위한
다양한 옵션들이 제공 됩니다. 아울러 Microsoft Analysis Service에서 제공하는 최신 in-database mining
알고리즘을 구현 가능케 하는 Microsoft Time Series, Sequence Clustering 노드가 새롭게 추가 되어
매출과 같은 연속형 변수 예측에 대한 최적화 된 시계열 회귀 분석 및 sequence 규칙에 따라
데이터를 군집화할 수 있게 되었습니다.


New Look- 전체적인 User Interface의 변경

전체적으로 각 노드의 모양, 크기, 색깔 등의 포맷이 변경 되었으며, 아이콘의 크기가 확대 되어 각 노드의
해당 기능을 한눈에 쉽게 식별할 수 있습니다. 또한 소스 노드, 유형 (Type) 노드 사용 시 새로운 필드가
추가 되었으며, 데이터의 방향을 설정하는 용어가 변경 되었습니다.


Greater Flexibility-데이터 출력 및 편집 기능 향상

향상 된 Microsoft Office Excel 파일 작업 기능을 통해 이제 더 쉽고 편리하게 SPSS Modeler 상에서
작업한 결과물을 출력 및 관리하십시오. 또한 데이터 베이스 테이블 편집 기능이 향상 되었으며, 데이터를
교환하는 방식의 표준 언어인 XML 형식의 데이터를 읽거나 내보낼 수 있는 노드가 추가 되었습니다.
또한 분석 자산을 관리하고, 자동화 된 분석 프로세스의 결과물을 통합, 조직 내에 전개하는
SPSS Collaboration and Deployment Services와의 연동을 통해 조직 내 다수의 사용자에게 접근하기
편리하게 함은 물론 효과적으로 파일들을 관리할 수 있게 되었습니다.

 

문의: sales@spss.co.kr


Posted by JDATE