행사안내2011. 8. 19. 16:10
Posted by JDATE
고객사 이야기2011. 8. 19. 11:40




 한국교육개발원 (KEDI)은 교육 목적과 방향, 교육제도, 교육정책 등에 관한 종합적이며 과학적인 연구를 수행하고, 한국 교육이 당면한 제반 문제를 합리적으로 해결하는 혁신적인 교육 체제를 개발함으로써 교육의 발전에 기여함을 목적으로 설립 된 교육 정책 연구 기관입니다.
 한국교육개발원은 ‘한국경제매거진 (구 한경비즈니스)’이 각계 전문가들을 대상으로 조사한 ‘대한민국 100대 싱크탱크’ 중 정치∙사회∙복지∙교육 분야에서 2008년과 2009년 연속 1위, 2010년에는 2위에 선정 된 바 있으며, 지난 1972년 설립 된 이후 한국 교육 정책의 싱크탱크 역할을 해 온 연구 기관으로서 시대가 요청하는 교육 수요에 대한 연구를 진행하며 한국 교육의 발전에 기여한 바가 적지 않다는 평가를 받고 있습니다.

 
한국 교육에 관한 중요 아젠다를 발굴하고, 합리적인 정책 및 대안의 제시를 위해서는 무엇보다도 교육 현상과 문제에 대한 정확한 진단과 분석이 이루어져야 합니다. 정책의 효율적 집행 및 정책 성과를 평가함에 있어서도 체계적이고 실증적인 데이터에 근거한 과학적인 분석이 무엇보다도 중요합니다. 데이터의 실증적 분석에 기반한 의사 결정 과정을 통해서, 시행 착오의 부작용을 최소화하면서 효과를 극대화할 수 있는 실효성 있는 정책을 도출할 수 있기 때문입니다.
 이러한 이유로 한국교육개발원에서는 교육 관련 연구의 전반적인 과정을 뒷받침하기 위해 강력한 통계 분석 툴 IBM SPSS Statistics를 도입하였습니다. 현재 한국교육개발원에서는 IBM SPSS Statistics를 통해 연구실마다 각 연구 주제에 맞는 다양한 분석 기법을 활용하고 있습니다.

 
한국교육개발원 교육조사연구실에서는, 초∙중∙고등학교 교육 실태 및 수준에 관한 자료, 진로 및 직업의 이행과 관련한 종단적 교육 자료, 학업 성취도 자료, 여론조사 및 기타 교육 현안에 관한 자료를 수집∙분석 및 보급하여 왔습니다. 1999년부터는 한국교육개발원 교육여론조사를 실시, 2003년부터는 학교 교육 실태 및 수준 분석, 2005년부터는 한국 교육 종단 연구 등을 수행하여 공교육 내실화와 교육 정책 연구를 위한 중요한 기초 자료를 제공해오고 있습니다.
 한국교육개발원 교육조사연구실의 남궁지영 연구위원은 IBM SPSS Statistics는 사용이 쉽고 간편하다는 장점 때문에 많은 연구원들이 선호하는 프로그램이라고 평했습니다. 

 
남궁지영 연구위원은 학교, 학생, 교사 등에 대한 횡단적∙종단적 데이터를 매년 축적해오고 있으며, 이러한 데이터들의 관리 및 분석을 통한 연구에 IBM SPSS Statistics를 적극 활용하고 있다고 밝혔습니다. 이 외에도 사교육 해소와 공교육의 내실화, 교육력 향상과 학교 선진화, 입시제도 개선, 대학의 교육 및 연구 역량의 강화 등 국가의 제반 교육 정책 및 현안에 대한 과학적인 분석을 위해 IBM SPSS Statistics의 다양한 기능이 십분 활용 되고 있다고 전했습니다. 

 한국교육개발원 공식 홈페이지에서는 2011년, ‘△미래교육 비전연구 강화, △고등교육 연구 확대, △교육 지표 및 지수 개발, △글로벌 교육협력 강화 등을 더욱 적극적으로 추진하는 한편 세계적인 연구 능력을 갖춘 해외 유수 연구 기관들과 자료 협조 및 정보 교환, 공동 연구, 인적 교류 등을 확대, 추진하여 한국교육개발원을 인재대국‧선진일류교육을 지향하는 세계적 수준의 교육정책연구기관으로 도약하도록 하겠다’는 포부를 밝히고 있습니다. IBM SPSS Statistics는 한국 교육의 세계화‧선진화를 위한 한국교육개발원의 이러한 노력과 연구의 동반자가 되어 드릴 것입니다.


- 출 처 : SPSS KOREA 홈페이지 (http://www.spss.co.kr/news/news_letter_detail_border.asp?exec=view&strBoardID=BOARD_LETTER_DETAIL&intSeq=6135)

Posted by JDATE
고객사 이야기2011. 8. 17. 10:55


 알리안츠 생명은 1890년 독일에서 설립 된 세계 최대의 보험 금융 서비스 그룹인 알리안츠 그룹의 100% 국내 자회사로, ‘최고를 지향하는 든든하고 수익성 있는 고객 중심의 생명 보험사’라는 비전 아래 차별화된 선진 보험 상품과 전문적인 재무 서비스를 제공하며 고객 중심의 다양한 경영활동을 펼치고 있습니다. 2009년 초 알리안츠 생명에서는 이러한 비전을 달성하기 위해 ‘DW/ 분석 CRM 구축 사업’을 기획하게 되었습니다. 본 프로젝트는 고객 정보를 통합하고 분석 CRM 체계를 활성화하는 한편, 이를 통해 고객 맞춤 서비스 제공을 실현하는데 의의를 두었습니다. 알리안츠 생명은 ‘DW/분석 CRM 구축사업’의 시행 업체로서, 금융 및 보험 업계에서의 유사 프로젝트 경험을 다수 보유한 SPSS Korea를 선택하게 되었습니다. 


 DW/분석 CRM 시스템은 고객 중심으로 구현 된 인프라를 기반으로 데이터 마이닝을 통해 적합한 마케팅 캠페인을 수립, 운영 후 결과를 DW로 수집, 축적하고 결과를 OLAP으로 측정하도록 구성 되어 있습니다. 특히 데이터 마이닝 솔루션은 Allianz Advisor (이하 어드바이저)의 영업 활동을 최대한 지원하기 위해 예측 모형 개발 및 운영하여 마케팅 캠페인 적중률을 향상 시키고, 고객 관리의 기반을 구축하는 데 기여하였습니다.
 CRM 시스템 도입 후 알리안츠 생명의 어드바이저들은 시장 세분화 및 마이닝에 모형에 의해 선별 된 대상자들을 중심으로 영업 활동에 집중할 수 있게 되었으며, 종전에 파악하지 못했던 잠재 고객층을 파악할 수 있게 되었습니다. 또한 여러 시스템에 분산 되어 있던 고객 정보가 통합 되어, 전사적으로 활용이 가능한 Single-view 체계가 구현 되어 어드바이저들이 고객 응대 시 일관성 있고 능동적으로 대처할 수 있게 되었습니다. 알리안츠 생명 관계자는 데이터 마이닝 모형이 제공하는 최적의 대상자 접촉 및 영업 전략 실행을 통하여 시스템 도입 이전 보다 추가 가입자가 4~5배 증가, 고객 이탈율은 120~150% 감소하였다고 밝혔습니다. 현재 알리안츠 생명에서는 60% 이상의 어드바이저들이 본 시스템을 활용하고 있으며, 전체 계약 건수 중 약 20 ~ 25%가 이에 따른 마케팅 캠페인을 통해 성사되고 있습니다.
 이번 프로젝트로 인하여 데이터 마이닝 및 OLAP 시스템을 통해 고객 데이터를 이용한 다차원적인 분석 자료에 근거하여 트렌드를 파악하고 다양한 정보를 얻을 수 있게 되었다고 밝혔습니다. 나아가 내부 분석 역량이 강화 됨에 따라, 타 부서에서도 분석 역량에 대한 수요가 늘고 있다고 하였습니다.

 2010년 1월 사용자들에게 오픈 된 이래로 1년 간 알리안츠 생명에서는 DW/분석 CRM 시스템의 사용을 활성화 시키기 위한 노력을 해왔다면, 2011년에는 시스템의 활용성을 최대화하고 효율성을 높이는 데에 주력할 예정이라고 밝혔습니다. 현재 알리안츠 생명에서는 지속적으로 모형 평가를 비롯한 전체적인 CRM 시스템을 보강하기 위해 노력 중에 있으며, SPSS Korea와 기존의 계약자가 어드바이저로 전환하는 유형을 예측하는 리쿠르팅 모형을 개발하고 있습니다.
 알리안츠 생명의 관계자는, 당사가 앞으로 고객 중심의 회사로 성장해 나가기 위해 각 파트의 전문 인력을 양성하고자 하는 차원에서 직원들의 분석 역량을 향상 시키기 위하여 OLAP 경진 대회 및 시스템 사용자 교육에 힘쓰고 있다고 밝혔습니다. 이와 같은 노력으로 알리안츠 생명은 최고 수준의 고객 중심의 생명 보험사로 거듭날 것입니다.


- 출 처 : SPSS KOREA 홈페이지 (
http://www.spss.co.kr/news/news_letter_detail_border.asp?exec=view&strBoardID=BOARD_LETTER_DETAIL&intSeq=6115)

Posted by JDATE
고객사 이야기2011. 8. 12. 12:59


 품질에 나쁜 영향을 미치지 않고 의료비용을 관리하는 것에 대한 국가 토론회에서 한 전략 – 증거 기반 의학 - 은 엄청난 가능성으로 각광을 받았습니다. 의사들과 정치인들로부터 찬사를 얻은 그 증거 기반 의학 접근 방식은, 환자에게 최상의 임상결과를 보장할 수 있는 의학적 결정을 할 때 과학적으로 수집된 가장 유용한 증거를 적용시킬 수 있게 도와줍니다.
CRI(Centerstone Research Institute)는 증거 기반 의학에서는 선두를 차지하고 있습니다. 민간, 비영리기업은 정신 질환을 가진 사람들에게 혜택을 주는 임상연구를 수행하기 위해서 Centerstone의 지역 사회 정신 보건 센터와 함께 일을 합니다. 이제 IBM® SPSS® Modeler의 도움으로 CRI의 연구자들은 한걸음 더 먼저 증거 기반 의학을 연구하고 있습니다. : 그들은 Centerstone의 지식 기반을 꾸준히 향상 시키기 위해서 그리고 임상가들이 가장 성공 가능성이 높은 치료를 알 수 있도록 돕기 위해서 환자들의 직접적인 피드백을 사용하고 있습니다. 그것은 실무 기반 증거라고 불리는 대안적인 접근 방식입니다.
 “실무 기반 증거는 실제인구로부터 시행되는 실제임상실습에서 정보를 얻고 있습니다..” 라고 CRI의 최고운영책임자인 Tom Doub는 말합니다. "그래서 당신은 그 정보를 다시 임상실험에 적용하고, 실제의 환자 인구와 모든 현실의 다양한 요구에 맞게 그것을 적용시킬 수 있습니다."
 데이터를 분석하기 위해, CRI는 결과에 영향을 주는 요소를 더 잘 이해하기 위해서 데이터 안에서 트렌드와 패턴을 발견하는 예측적 분석 솔루션인 IBM SPSS Modeler를 사용하였습니다. 연구자들은 미래의 고객에 대한 개별적인 치료 권장사항들을 생성하는 전자 보건 기록 내에서 이러한 의료 의사결정 지원도구를 구축하기 위해 패턴들을 사용할 수 있습니다. 데이터로부터 생성된 정보로, CRI는 임상가들이 센터의 가장 우선 사항인 환자의 결과를 크게 향상시킬 수 있도록 도움을 줄 수 있었고 비용을 절감시켰습니다.


적은 비용으로 더 많은 일을
 인디애나와 테네시에 위치하고 있는 Centerstone 네트워크에 있는 130개 이상의 비영리 지역 정신 건강 단체는 우울증의 약물중독에서 스트레스 관련 장애 이르는 질병들을 가진 75,000명에게 매해마다 서비스를 제공하고 있습니다. CRI의 목적은 빈번하게 볼 수 있는 질병의 다양한 임상연구를 실시하여, Centerstone의 임상가에게 비지니스 관리 관행 및 임상에 대한 실질적인 정보를 제공하는 의료서비스를 하도록 돕는 것입니다. 그러나 전국 의료 기관 및 비영리 단체와 같이 Centerstone은 예산의 삭감, 낮은 보상 시스템, 및 정신건강 서비스에 대한 증가된 수요와 같은 어려움을 겪고 있습니다. “우리는 우리가 가지고 있는 한정된 자원을 가지고 더 나은 의사 결정을 내릴 수 있는 방법을 강구해야 하는 것을 깨달았습니다."라고 Doub는 설명합니다.
 Ayers 재단과 Joe C. Davis Foundation으로부터 자금지원을 받고 있는 CRI는 다양한 의약품과 어떤 것이 가장 유익한지 확인하는 양상 예측 모델을 개발했습니다. 그러나 완성하려면 수년이 걸리거나, 비현실적인 솔루션을 제공하거나, 실무자에게 전달 될 때쯤에는 이미 오래된 결과를 만들어내는 표준 제어 시험 방식을 사용하는 대신에 Centerstone의 임상가들은 CRI의 환자들로부터 생성된 데이터를 결과를 예측하는 도구로서 사용합니다.
 “우리가 볼 수 있는 가장 큰 문제점 중에 하나는 한 사람이 올바른 선택을 하려고 할 때 너무나도 많은 양의 정보가 있다는 것입니다." 라고 Casey Bennett는 말합니다. “우울증을 없애기 위해 지금, 어떤 의약품이 효과가 있을지 전혀 알 수가 없는 20개의 다른 종류의 의약품이 있습니다. 그래서 임상가는 교육적인 추측을 할 것을 강요 받고 있습니다. 만약에 그것이 효과가 있으면 훌륭한 것이고, 만약 그것이 효과가 없으면 다른 것을 시도해 보면 됩니다. 그러나 그것은 비용이 많이 들고 가장 좋은 방법이라고는 말 할 수 없습니다.”



개인에게 맞춤화된 의약품
 CRI는 또한 Centerstone의 Tennessee와 Indiana 의 환자처럼 약간의 경제 또는 인구 통계학을 지루해하는 환자에게 수집된 데이터를 기준으로 결정을 하고 싶지가 않았습니다. “많은 사람들이 임상의사결정지원이라고 부르고 있지만, 그것은 종종 10년 전부터 하드 코딩 된 규칙을 포함하는 것을 기반으로 합니다.” 라고 Bennett은 말합니다. "하지만 그것들은 개인에게 맞춤화 되어 있지 않습니다. 평균 인구의 60%에게만 적용되기 때문에 그것은 우리가 원하는 모델이 아닙니다.” 보다 정확한 모델을 구축하기 위해서, Centerstone는 사회 경제적 상태, 통계 정보 그리고 진단의 범위와 임상 데이터를 포함하여 9000명 이상의 환자에 걸쳐 14개의 변수를 분석하기 위한 모델러를 구성하였습니다. 연구원은 또한 주 내의 모든 결과 수집 시스템처럼 내부 전자 건강 기록의 여러 결과 측정을 통합합니다. 최종 결과는 환자 개인의 독특한 특징을 기반으로 하여 각각의 환자에 대한 다양한 치료 옵션의 효과에 관련된 예측들로 구성됩니다. 모델에 있어서 무엇보다 중요한 입력요소이자 CRI는 지금 막 사용하기 시작한 하나는 연구자가 모든 세션에 모여서 환자로부터 받는 즉각적인 피드백입니다. "우리는 치료에 대한 환자의 생각을 알고 싶습니다."라고 Bennett은 말합니다. “그들의 관점으로부터 어떤 개선이 있는지 여부를 알 수 있습니다. 그래서 우리는 환자에게 그들이 어떻게 하고 있는지, 그리고 어떻게 치료를 진행하고 있는지를 직접 가서 물어봅니다.
 각각의 답변은 1에서 10까지 점수로 측정되며 치료 과정을 통해서 수집됩니다. 피드백은 의료공급자와 환자와의 관계 질을 예측하는데 도움을 줍니다. 그리고 피드백은 긍정적인 건강결과에 점차 좋은 예측지표가 될 것입니다. 시간이 지남에 따라, 많은 환자로부터 나온 데이터는 모델로 공급되고, 그들의 예측 성공과 실수에서 오는 "학습" 모델의 알고리즘들로, 연구자들은 개인에 대한 점점 더 정확한 권장 사항 -본질적으로, "인공 지능" 과 같은 종류의 접근 방식- 을 개발합니다.
"우리의 목표는 실제 경험을 바탕으로 한 맞춤 의학을 구현하는 것입니다."라고 Doub는 말합니다.
"IBM SPSS 예측모델링은 우리가 그것을 이룰 수 있도록 하는 핵심 도구 입니다."


더 나은 임상결과
 
CRI의 모델링 프로젝트는 여전히 시범 단계이지만, 증거 접근 방식은 많은 성공 가능성을 보여주고 있습니다. 데이터는 환자의 의견에서 나온 지식, 70~75% 사이에 있는 환자들에 대한 가장 적합한 치료 옵션을 선택할 수 있도록 하였습니다.
 "우리는 의료연구문헌을 통해 환자들은 단지 50%만이 첫 번째 검사에서 정확하게 검진을 받는다는 것을 알고 있습니다." 라고 Bennett은 말합니다. “우선, 환자는 단지 삶에서 50%의 확률로 올바른 치료를 받습니다. 이것은 우리가 처음 단지 처음 한번 만에 약 25%의 올바른 진단과 치료 비율을 달성하는 것을 뜻합니다. IBM SPSS Modeler를 통해, 우리는 그 비율을 크게 증가 시킬 수 있고 그리고 더 많이 고객에게 맞춤화 된 의약품을 제공할 수 있습니다.”
 그리고 치료의 효과가 적은 과정을 제거하고, Centerstone은 그 환자의 미래를 보호하고 돕는 것과 함께 운영비용을 절감할 수 있을 것입니다. “매일 우리는 지속적으로 데이터를 다시 평가하고, 미래의 사건을 더 이해하기 위한 이러한 패턴을 적용하여 임상치료를 개발하고 있습니다.” 라고 Doub는 말합니다. “운영을 위해 동일한 정보를 공급함으로써, 책임성을 향상 시킵니다. 마지막으로, 시스템의 투명성은 이전보다 효율적인 프로세스를 유지 관리하는데 더욱 비용을 절감 시키며 최종 사용자 및 리소스를 자유롭게 만듭니다.”


 


- 출 처 : IBM SPSS Software Customer Story (
http://www-01.ibm.com/software/analytics/spss/)

Posted by JDATE
고객사 이야기2011. 8. 10. 16:33


 BMW 그룹은 풍부한 정보를 분석하기 위해 IBM SPSS 비지니스 분석 데이터와 텍스트 마이닝 소프트웨어를 사용하고 있습니다. 이 특별한 소프트웨어는 차량과 수리, 차량 오류 메모리 그리고 대리점의 의견에 대한 정보가 다른 정보와 결합, 구조화되어 자세하게 분석 될 수 있도록 합니다. 이러한 솔루션을 따로 챙겨 두면 데이터가 더 이상 별개로 인식되지 않고 데이터들의 조합을 통해서 완전히 새로운 통찰력을 제공 받을 수 있습니다. 분석의 결과들은 오류 비율을 감소 시키고 비용을 절감하는 것을 돕기 위해 BMW의 작업 프로세스로 즉시 다시 보내집니다. 또한, 제품 및 서비스의 지속적인 향상은 고객 만족도를 증가시키며 자동차 제조업체가 시장에서 가장 성공적인 회사 중의 하나로서 지위를 굳히는 것을 도와 줍니다.
 
프리미엄 업체로서 BMW는 혁신, 오리지널 디자인과 품질을 통해 고객을 얻는 것이 목표입니다. 그러므로 지속적으로 자사의 상품과 서비스를 평가하고 게시판에 있는 고객의 소리를 수용하는 것이 필수적입니다. BMW 는 구체적인 분석을 수행하기 위해서 차량, 차량 오류 메모리를 통해 알 수 있는 정비 데이터 그리고 고객과 대리점의 의견과 같이 광범위한 데이터를 수집합니다. 이러한 연구 결과들은 다음 제품과 서비스를 향상 시키는 데 사용 됩니다. 결과적으로 평가와 분석 그리고 개선의 지속적인 과정이라고 할 수 있습니다.




효과적으로 분석된 데이터는 "생명줄"이 된다.
 
데이터는 때때로 기업에게 있어서 "혈액"이라고 이야기됩니다.  BMW 그룹과 같은 세계적인 기업들은, 매일 이런 정보가 저장공간의 기가 바이트를 가득 채웁니다. 이런 방대한 양의 데이터를 관리하는 것은 하나의 과제입니다. 저장은 데이터 베이스에서 이루어집니다. 가공되지 않은 상태에서 데이터는 특별한 의미가 없습니다. 그러나 올바를 분석 도구를 사용하면 데이터는 기업의 "혈액" 에서부터 필수적인 "생명선"까지 빠르게 개발합니다. 품질 부서의 직원들은 특정 자동차에 대한 오류 빈도 비율과 같은 분석을 수행하는데 표준 툴을 사용하고 요약 테이블을 만들 수 있습니다. 하나의 중요한 품질 지표는 차량의 보증 기간 내에 결함이 발생하는 횟수 입니다. 이러한 수치를 감소하면 고객 만족도를 증가 시키고 그 결과 잘못된 결함을 바로 제품을 개선시키는데 드는 비용을 절감합니다.
 그러나 전통적인 비지니스 인텔리전스 방식은 단지 선택된 차량 부품의 결함을 식별하고 평가하는 단순한 분석을 수행하는 것만이 가능합니다. 데이터의 양은 점점 많아지기 때문에 수동으로 직접 이상 치를 걸러 내고, 모든 잠재적인 동향을 파악하는 것을 점점 더 어렵게 만듭니다. 게다가, 표준 툴은 데이터를 컴퓨터 통신망에 연결되도록 허락 하지 않으며 오직 분리된 상태로만 인식합니다. 30,000,000개의 조합 이상에서는, 대표적인 BI의 툴들은 트렌드와 상관관계를 파악하는 측면에 있어서 한계에 부딪칩니다.
 IBM SPSS 데이터와 텍스트 마이닝 소프트웨어를 구현함으로써, BMW 그룹은 지금 현재 빠르고 효율적인 분석을 실행하고 결과들의 조합 할 뿐만 아니라 사용하기 쉬운 솔루션을 가지고 있습니다. 이러한 솔루션은 수천 개의 쿼리를 짧은 기간 안에 처리할 수 있도록 하고, 많은 양의 정보에 대해서도 특정 분석이 실행되는 것을 가능하게 합니다. 통계적이고 수학적인 프로세스들의 패턴을 인식하는 것뿐 만 아니라, 새로운 상관관계와 트렌드를 파악하는데도 이용됩니다.


사내의 플랫폼 (사용 기반이 되는 컴퓨터 시스템・소프트웨어) 은 시간을 절약한다.
 
서비스 지향 아키텍쳐 (SOA)를 기반으로 한 일반적인 분석 플랫폼의 생성은 이러한 데이터 마이닝 서비스를 회사의 다른 영역으로 적용시키고 있습니다. 사용자들은 BMW를 통해 AVAQS (고급 품질 시스템)에서 SPSS 데이터 마이닝 툴을 사용할 수 있습니다. 이러한 접근 방법의 주요 장점은 다른 응용 프로그램 내에서 복잡한 분석 플로우를 알기 쉽게 포함하고 있다는 것입니다. 결과적으로 SPSS에 바로 접속 해본 적이 없거나 또는 SPSS를 어떻게 사용하는지에 대한 지식이 없는 다양한 그룹의 수신자들도 사용할 수 있습니다. 프로세스는 사용자가 새로운 응용 프로그램 환경을 배우는 것을 강요하지 않고도 몇 일 안에 가속화 될 수 있습니다.
 전체에서 약 1,000명의 직원들은 ad hoc 분석을 포함하는 작업에 범위에 대해 AVAQS 플랫폼을 사용합니다. 복잡하거나 비정상적인 분석 요구 사항을 충족하기 위해서, BMW는 사용자들이 AVAQS를 통하여 접속 할 수 있도록, 특정한 문제의 미리 정의된 분석을 만들어 내는 전문가들로 구성 된 분석 서비스 팀을 준비합니다.




데이터 마이닝 프로세스의 적용 범위
 
플랫폼에서 수행할 수 있는 분석에는 수 많은 사례가 있습니다. 예를 들면, 수리 서비스는 고객이 반복적으로 정비소에 방문함에 따라 만족도가 감소하기 때문에 수리 서비스는 모든 자동차 제조업체의 중요한 부분입니다. 그래서 제조업체에게는 반복되는 정비 업무에서 어떤 잠재적인 서비스 개선이라도 확인하는 것이 중요합니다. 서비스 및 고객 관리 프로세스뿐만 아니라, 차량 진단은 전 세계의 대리점 직원들을 위한 핵심 요소입니다. 컴퓨터를 이용한 정비는 이러한 상황에서 매우 중요합니다. 반복데이터의 분석 - 고객이 가장 자주 정비소를 방문하도록 만드는 정비의 종류에 대한 정보 - 는 BMW에게 연구와 개발에 사용될 수 있는 새로운 통찰력을 제공합니다. 이러한 분석은 반복되는 수리 비율을 상당히 개선할 수 있게 도와 줍니다.
 데이터 마이닝 프로세스의 더 추가 가능한 응용프로그램은 연료 소비 데이터를 분석하는 것입니다. 정보는 차량의 조종석 계기판에서 수집되며 차량 운전자에 의해 볼 수 있습니다. 내부 테스트와 사전 제작 차량의 경우, 미래에 다른 국가에서 연료 소비를 분석하는 데에 쓰기 위해서 정보를 기록하고 저장합니다. IBM SPSS 분석 툴은 BMW 부품을 생산하는 Landshut의 공장을 개선하도록 도와줍니다. 주조 과정에서, 열 요소는 품질 관리를 위해 각 구성 요소에 대한 정보를 제공합니다. 매트릭스 코드는 또한 각각의 주조 구성요소의 생산을 추적하기 위해 이 후의 단계에서 사용할 수 있습니다. 매개변수뿐만 아니라 많은 양의 생산과 품질 데이터의 결과는 AVAQS를 통해서 분석됩니다 이 연구 결과들은 통계적 모델을 생성하고 추측하는데 사용됩니다. 신속하게 생산 공정에서의 오류를 파악하고, 적절한 시정 조치를 구현하는 것이 목표입니다. 이러한 숨겨진 정보를 밝혀내는 프로세스는 제품의 품질을 향상 시키고, 개선하는 것을 확인하도록 도와줍니다.

- 출 처 :  IBM SPSS Software Customer Story (
http://www-01.ibm.com/software/analytics/spss/)

Posted by JDATE
고객사 이야기2011. 8. 8. 17:58

Dan MarksFirst Tennessee 은행의 마케팅 최고 의사 결정권자가 되는 과정에서 그는 숫자쟁이로서의 모든 특징을 보여줬습니다. 그는 분류분석을 능숙히 하고, 결정의 증거를 뒷받침하는 수치를 확인했습니다. 은행의 마케터들은 세상을 보고, 생각하는 특이한 방법이 있는 것일까요? Marks는 그들이 그렇다는 그의 믿음에 확신을 가졌습니다. “은행 내에서, 마케터들은 기회를 보고, 새로운 아이디어를 개념화하는 훌륭한 경향이 있습니다. 하지만 오늘날의 은행시장에서, 어디에 은행의 자원을 집중시키는 것이 가장 합리적인가를 식별하기 위해서는 비판적인 시각을 가지는 것이 중요합니다. 그것은 창의성과 규칙, 예술과 과학 사이와 같이 우리가 유지해야 할 균형입니다.“ 라고 Marks는 설명했습니다.

Marks가 이야기 하는 시장은 경쟁의 증가와 은행이 직면한 문제들 중 특히 마케팅 자원의 최적화 방법에 대한 것으로 정의됩니다. 은행은 어느 때보다도 다양한 금융상품들을 여러 판매 채널을 통해 판매하고 있습니다. 즉 경쟁할 수 있는 범위가 넓어진 만큼 이에 대한 마케팅 전략∙전술 및 프로그램 또한 더욱 정교하게 설계되어야 함을 의미합니다. 은행이 선택할 수 있는 전략의 수는 많아졌지만, 이에 적합한 마케팅 자원은 부족하기 때문입니다. 따라서 First Tennessee 은행은 부족한 자원의 투자를 최적화하기 위해 효과를 지속적으로 검증해나가고, 비즈니스 구조에 어떻게 적용하고 적합화 해나갈 지에 대한 대책이 필요합니다.

새로운 마케팅 사고를 향해서

Marks가 최고 마케팅 의사결정권자가 되었을 때, 주요 초점은 과거시절의 단순한 방법인 마케팅 재정구조에 있는 상황이었습니다. 그의 금융시장분석가본능을 발휘하여, Marks는 전반적인 마케팅 비용만을 보는 것이 아니라, 마케팅 비용의 결과가 은행 전반에 어떻게 퍼졌는가를 보는 새로운 방식을 제안하였습니다. Marks가 생각하는 것은 예산 너머, 최적화를 기반으로 의미 있는 측정과 분석을 동반한 First Tennessee 마케팅 과정에 있었습니다. “우리의 목표는 지출로서의 마케팅에서 마케팅은 진정한 수익 창출자라는 사고의 전환에 있습니다.”

First Tennessee 은행의 최고 경영자를 설득 시키는 것은 어렵지 않았습니다. 다방면에서 요구 되는 행동 방안을 도출하는 데 있어 논리적인 사고의 흐름이 거꾸로 된 피라미드와 같은 것임을 인식 시키는 것입니다. 분석에 필요한 기술적 역량을 밑바탕으로, 나아가 은행의 비즈니스 지적 능력을 영위하기 위해 피라미드의 다음 단계인 은행의 데이터 웨어하우스와 재정 조직, 그리고 ROI를 바탕으로 한 모형 기반의 구축이 필요함을 주장했습니다. 그 결과 각 제품 군의 수익성과 관련 재정 상황에 대한 요소들 -수수료, 원가와 매가의 차이, 계좌 잔액 등- 이 도출 되고, 최종적으로 각기 다른 고객 세그먼트에 접근할 수 있음을 증명해 보일 수 있었습니다.


마케팅 틀을 벗어나서

뒤집어진 피라미드의 가장 끝에 Marks의 가장 어려운 도전이자 성공을 위한 가장 중요한 요소인 실행단계에서 변화를 일으키는 것이 남아있었습니다. 이러한 맥락에서, 핵심 과정은 마케팅 매니저가 선택하는 것, 융자프로그램을 둘러싼 각 사업 라인 사이와 관련이 있었습니다. 예를 들어, 더 많은 예산이 잠재고객을 발굴하는 활동을 시행해야 하는가? 혹은 고객을 유지하며 교차판매기회를 강조해야 하는가? 전통적으로, 이러한 결정은 과거의 경험, 직감, 어디에 기회가 있을 것인가에 대한 전통적인 사고의 틀 안에서 대략적으로 이루어졌습니다.

Marks의 목표는 기업 전반에 스며들 수 있는 기회에 대한 생각을 해내는 새로운 방법을 촉진하는 것에 있었습니다. “우리 직원들을 통해서 얻은 정보들은 ROI를 중심으로 우리의 마케팅 자원들을 관리하고 최적화 하는 새로운 방법입니다. 이러한 방법으로 모든 프로그램의 상대적 수익성을 관찰하고, 이를 의사결정의 기반으로서 사용합니다. 우리는 변화를 만들어 내는 가장 효과적인 방법은 위에서 아래로가 아니라, 생각의 새로운 방향을 향한 대화라는 것을 이해하고 있습니다.”

First Tennessee 은행은 제품을 중심으로 마케팅 캠페인을 구성하곤 했습니다. 지난 몇 년 간, 은행은 상당히 조직적이고 목표지향적인 접근을 했습니다. 이는 다음과 같은 효과를 보여주었습니다. 이는 다양한 고객 데이터 포인트로부터 끌어온 각 고객의 은행업무 니즈에 대한 이해에서 시작합니다. Marks의 직원에 의해 개발된 예측분석 모델을 사용하면서, 고객을 First Tennessee 은행 포트폴리오에 있는 각 상품을 구매할 가능성을 기반으로 점수화 했습니다. 그 결과 은행 마케터가 교차판매기회 중에서 Sweet Spots(기업에 대한 소비자들의 호감이 최고인 곳)이라 일컬어지는 상품 군을 정확하게 집어낼 수 있었습니다.

이것은 시작에 불과합니다. First Tennessee 은행의 접근방법이 구별되는 것은 어떻게 은행이 정밀하고 조직적인 접근방법을 어떤 기회가 캠페인 전략에 우선순위가 되어야 하는가를 매기는 것에 적용시킨 방법에 있습니다.  정보저장소에서 얻은 상품 수익과 비용 정보들과 앞에 논의된 세분화된 데이터와 함께 결합시켜, First Tennessee 은행의 모델은 그들 고객 중 구체화된 고객들에게 주어진 상품의 기대되는 수익성을 양적으로 측정하는 것을 가능케 하였습니다. 이러한 모델을 바탕으로 각 상품이나 세분화 부분은 예상되는 ROI 가치가 할당됩니다. 이제 Marks와 그의 팀은 프로그램의 우선순위를 정하고 그에 알맞게 자원을 분배할 증거를 기반으로 한 구조를 갖추게 되었습니다.


 

늘 새롭게

First Tennessee 은행의 접근방식에 깔려 있는 기본적인 원칙은 단순합니다. 검증되지 않은 가정은 프로그램을 효과적으로 관리하기 위한 기본적 바탕이 아니라는 것입니다. 시장 모형이 소비자의 시시각각 변하는 취향을 전적으로 반영하지 못한다는 것은 사실입니다. 그것이 Marks와 그의 팀이 필수적으로 지속적인 리프레쉬 과정을 설계한 이유입니다. 그 팀이 모델을 채택하는 하나의 방법은 검증하고 배우는 연습과정을 통해서입니다. 본 과정은 미세하게 조정된 기존의 것뿐만 아니라, 새로운 프로그램에 적용될 수 있는 새로운 패턴을 발견하기 위해 모델분석을 채택하였습니다. “우리의 접근방법의 큰 약진 중의 하나는 우리는 빠르게 새로운 생각을 검증하고, 더 빠르고 더 효율적으로 시장에 효율적인 제안을 할 수 있다는 것입니다. 그리고 우리는 그것을 지속적이고 조직적인 과정 중의 부분으로 시행합니다.” 라고 Marks가 말했습니다.

한 달 에 한 번, Marks는 분석 직원과 마케팅 매니저를 함께 데리고 트렌드와 시장 모델에 의해 나온 결과물을 점검합니다. 최적화라고 알려진 것처럼, 그 회의는 주주들이 분석의 업데이트를 점검하고, 이것이 은행의 단기 프로그램 활동에 어떤 의미를 갖는지를 결정합니다. 이 때, ROI를 기반으로 프로그램의 매력을 나타내도록 설계된 Bubble표가 가장 선호되는 발표 도구입니다. Marks의 표현을 빌리자면, 은행의 데이터에 기반한 의사결정의 성공여부의 가장 강력한 지표는 해당조직의 마케팅 DNA에 얼마나 영향을 미쳤는가 입니다. “우리는 가장 수익성이 높은 기회들과 협조관계에 있는 전술적 마케팅 지출 계획을 세우고, 시장을 지켜보는 방법들에 규칙적인 움직임을 만들 수 있었습니다. 그리고 이것이 하나의 공통의 목표를 향해 우리의 전반적인 마케팅 노력들을 일직선상에 놓는 것을 가능하게 했습니다.“

 


똑똑한 은행의 보고 지표

  또한 은행의 수행 수치는 ROI 기반의 최적화의 효과성을 나타냅니다. 예를 들어, 마케팅 캠페인의 응답 비율이 3.1% 증가했다는 것은 고객의 니즈를 기반으로 한 구체적인 고객 세분화에 더욱 정확하게 제안을 목표화 하는 능력을 반영하고 있습니다. 먼저, First Tennessee 은행의 시장 점유율 증가와, Tennessee 은행이 지나온 발자취를 따라 수익을 창출하는 것은 성공을 보여주는 또 다른 지표입니다. 전반적으로 은행은 예측분석 모델에서 더 효과적으로 자원을 배치함으로써 투자대비 600%의 이윤을 기록했습니다. 특정 제안에 대해서 가장 매력적인 세분화 군을 목표로 하는 능력, 양보다 질이라는 접근방식을 얻음으로써, First Tennessee 은행은 그들의 캠페인 지출을 최적화 할 수 있었습니다. 이는 메일 발송 비용 20% 감소, 프린트 가격 17% 감소로 증명되었습니다. 장기적으로 Marks는 은행 시장에서 손에 넣기 힘든 자원들과 심화된 경쟁을 예상합니다. 하지만 예측 분석 능력을 적소에 갖추고 있으면서, 그는 이러한 상황들을 오직 기회를 향한 은행들의 굶주림이 최고점에 다다를 때라고만 보았습니다. 그는 효과적으로 이를 쫓아갈 능력을 가지고 있기 때문입니다. “우리는 수익성을 약속했고, 우리가 행하는 사업방법의 모든 측면을 통해서 고객과의 관계를 강화할 것을 약속했습니다. 예측 분석은 우리가 이러한 약속을 수행하기 위해 필요한 통찰력과 지적 능력을 우리에게 주었습니다.”


출처 : IBM SPSS Software Customer Story (http://www-01.ibm.com/software/analytics/spss/)
Posted by JDATE
고객사 이야기2011. 8. 5. 18:04
매년 예산책정과 의료활동관리 과정은 부분적으로 IBM SPSS 솔루션을 활용한 평가와 분석에 의존하고 있습니다.

 
되세브르에 위치한 니오르 중앙병원의 한 해 예산은 1.73억 유로(2.356억 달러)입니다. 이 예산은 매년 조정 주체이자, 프랑스 정부와 건강 보험사들을 대변하는 사적, 공적 이익 집단의 모임인 ARH(Regional Hospitals Agency, 지역병원국)에 의해서 검토됩니다 

 지역병원국(ARH)은 그 지역에서 공적, 사적 분야의 건강관리 시설들의 활동을 분석하고, 조정하면서 중앙 정부의 의료 정책을 이행하는 책임을 가지고 있는 기관입니다. ARH는 사적, 공적 분야의 건강관리 시설들과 함께 목표를 기반으로 한 다년간의 계약에 합의를 하고, 필요한 요소들을 찾아냅니다. 이러한 목적을 달성하기 위해서, ARH는 근본적으로 병원 의사들과 의사들의 팀이 DIM(Medical Records Department,의료기록부서)에 제공하는 포괄적이고 높은 질의 데이터에 의존합니다.

 의료기록부서(DIM)는 각 원내부서에서부터 의료정보를 수집, 처리하고, 이를 세 개의 규제기관(the ARH, the Directorate for Hospitalisation and Organization of Care, the National Health Authority; 지역병원국, 생활건강 및 병원국, 국민건강기관)으로부터 소개된 의료정보시스템에 적용시킵니다. 이것이 바로 데이터를 모으고, 처리하고, 분석하는 것이 병원에게 결정적으로 중요한 이유입니다.

 

 

주요 이슈

 니오르DIM 에서 근무하는 의사, Delphine Yaebe가 말했습니다. “우리가 사용하는 데이터는 직원개발, 침대관리결정과 같은 수 많은 주요 이슈들에 영향을 미칩니다. 우리는 또한 실질적으로 주의를 기울여야 하는 병원관리팀과 의료직원들에게 모든 의료 통계를 제공합니다.” IBM SPSS Statistics는 또한 치료빈도, 상담, 입원환자 체류기간, , 병원에 있는 환자들의 데이터를 관리합니다.
 이러한 데이터들은 연간 의료 활동 수준과 트렌드를 측정하기 위한 시간 매개변수와 결합하여 시간의 흐름에 따른 변화를 제공합니다. 이러한 전체도를 그리는 능력과 함께, 병원센터는 이제 더 나아가고자 합니다. “IBM SPSS Modeler IBM SPSS data mining workbench 를 사용하면서, 우리는 이제 2008년에서 2012년에 일어날 특정 병원 부서의 의료행위수준을 예상할 것을 계획합니다. 내가 이러한 내용을 관리팀 앞에서 발표하기 위해 준비하는 시간은 일주일 정도일 것입니다.” 라고 의사 Yzebe가 말했습니다.

IBM SPSS Statistics를 향한 충성

의사 Yzebe가 이러한 작업을 성사시키는데 IBM SPSS Statistics는 결정적인 기여를 하였습니다. “나는 IBM SPSS Statistics에 충성해왔습니다. 왜냐면 그것은 사용하기 참 쉽기 때문입니다. 그 해답은 직관적으로 이해가능하고, 프로그램화할 필요가 없습니다. 그리고 혼란 없이 시작하고 운영할 수 있습니다. 또한 계산 능력과 우리에게 제공되는 결과의 자세함에 굉장히 만족합니다. 우리는 또한 언제나 이용 가능할 수 있도록 준비되어 있는 기술팀 직원들로부터 우리가 받는 높은 친절도를 높이 평가합니다. 지금 나의 목표 중 하나는 IBM SPS Statistics IBM SPSS Modeler의 사용법을 다른 사람들에게 교육하는 것입니다.“


출처 : IBM SPSS Software Customer Story (http://www-01.ibm.com/software/analytics/spss/)
Posted by JDATE
행사안내2011. 8. 5. 17:47
Untitled Document
Posted by JDATE

PMML(Predictive Model Markup Language)은 XML기반의 예측모델을 기술하는 표준언어입니다.  데이터마이닝그룹(DMG)를 중심으로 여러 솔루션 개발업체들이 컨소시엄을 이루어 하나의 표준규격을 만들고 예측모델을 생성하는 측과 예측모델을 사용하는 측간의 교류에 사용하였습니다.  PMML은 버전 4.0까지 발전하였으며 20여 업체와 기관에서 PMML지원하게 됨으로써 하나의 응용프로그램, 예를들면 마이닝툴을 사용하여 예측모델을 생성하면, 또다른 응용프로그램 예를들면 캠페인관리툴에서 생성된 예측모델을 읽어서 사용하게 되는 일이 훨씬 쉬워지고 비용이 절감되었습니다.

"PMML 모델 개발의 족쇄에서 모델 배포를 해제. 모델 표현을위한 잘 설립된 개방형 표준으로서, PMML은 비즈니스 인텔리 전스 제품, 데이터웨어 하우스, 그리고 클라우드 컴퓨팅에서 데이터 마이닝 배포 환경의 새로운 세대를 활성화입니다."
 - 
Graham Williams, Togaware Pty Ltd. -

"PMML은 PMML없이, 그것이 통합 및 사용자 정의 코드 또는 독자적인 프로세스를 통해 배포할 수 모델에 수개월이 걸릴 것입니다. 그 모델의 힘을 해방시켜, 현실로 기존 IT 인프라 내에서 배포 및 예측 모델의 실용적인 응용 프로그램을 전환하고, 매우의 높은 추가 비용이 발생합니다."
Cris Payne, Senior Analytics Scientist for XO Communications, Inc. -

이제 PMML은 데이터마이닝에 관심을 갖는 사람들에게는 생소한 용어가 아닙니다.  데이터마이너들에게 널리 알려진 KDD(Knowledge Discovery and Data Mining)에서도 PMML워크샵을 계획하고 있습니다.



PMML에 관한 책도 꾸준히 출간되고 있는데, 이중에서도 최근에 Alex Guazzelli 가 쓴 "PMML in Action"이란 책이 눈길을 끌고 있습니다.  이 책은 실제 비즈니스에서 활용이라는 측면에서 PMML을 개념과 사례를 언급하였습니다.  영어독해에 큰 문제 없으시다면 한번쯤 읽어볼만한 책이라고 생각됩니다.

 
PMML을 이미 알고있는 사람들에게는 사족의 얘기가 되겠지만, PMML을 모르는 사람들은 이쯤되면 도대체 PMML이 뭐야? 라고 질문을 하시게 될겁니다.


위의 예제가 바로 PMML의 한 예입니다.  일반적으로 웹페이지를 표현하는 HTML(Hyper Text Markup Language)은 다양한 요소들을 표현하도록 하기 위해서 XML(eXtended Markup Language)로 확장되었는데, 그중에서도 예측모델을 표현할 수 있는 언어가 바로 PMML입니다.

PMML은 1997년 7월에 Version 0.7 이 공표된 이후에 1999년 8월에 정식버전인 Version 1.0이 공표되었고 2009년 6월에 최신 버전인 Version 4.0이 공표되었습니다.

Version 4.0을 기준으로 PMML의 구성요소를 살펴보면 다음과 같습니다.

PMML이 될, 데이터 마이닝 모델을 설명하는 직관적인 구조를 다음과 인공 신경망 또는 로지스틱 회귀 모델입니다.

PMMLComponents.jpg

순차적으로, PMML은 다음과 같은 구성 요소에 의해 설명 될 수 있습니다.

  • Header : PMML 같은 모델에 저작권 정보와 같은 문서, 그 설명 및 이름 및 버전과 같은 모델을 생성하는 데 사용되는 응용 프로그램에 대한 정보에 대한 일반 정보가 포함되어 있습니다. 또한 모델 창조의 날짜를 지정하는 데 사용할 수있는 타임 스탬프에 대한 속성이 포함되어 있습니다.
  • Data Dictionary : 모델에서 사용 가능한 모든 필드에 대한 정의가 포함되어 있습니다. 그것은 필드 (속성 optype) 연속, 무조건적인, 또는 서수으로 정의되어왔다. 이 정의에 따라 적절한 값 범위는 다음 데이터 형식 (예 : 문자열, 또는 더블)뿐만 아니라 정의합니다.
  • Data Transformations : 변환은 마이닝 모델에서 사용할 수있는보다 바람직한 형태로 사용자의 데이터의 매핑을 허용합니다.PMML 간단한 데이터 변환의 여러 가지를 정의합니다.
    • Normalization : 숫자로지도 값, 입력은 연속 또는 이산 수 있습니다.
    • Discretization : 이산 값을지도 지속적인 가치.
    • Value mapping : 이산 값을지도 이산 값.
    • Functions : 하나 이상의 매개 변수에 함수를 적용하여 가치를 도출.
    • Aggregation : 값의 그룹을 요약하거나 수집하는 데 사용됩니다.
  • Model : 데이터 마이닝 모델의 정의를 포함하고 있습니다. multi-layered feedforward neural network은 가장 일반적인 신경망모델인데 이는 backpropagation으로 알려진 훈련 알고리즘과 함께 효율이 좋은 대부분의 마이닝툴에서 제공하고 있는 마이닝모델입니다. 이러한 신경망모델은 다음과 같은 속성을 포함하는 "NeuralNetwork"요소로 PMML에 표시됩니다 :
    • 모델 이름 (속성 modelName)
    • 함수 이름 (속성 functionName)
    • 알고리즘 이름 (속성 algorithmName)
    • 활성화 기능 (속성 activati​​onFunction)
    • 레이어 수 (속성 numberOfLayers)

이 정보는 다음 PMML 문서에 표시되는 신경 네트워크 모델의 아키텍처를 지정 신경 레이어 세 종류의 뒤에있다. 이러한 특성은 NeuralInputs, NeuralLayer 및 NeuralOutputs 있습니다.신경망 게다가, PMML과 같은 다른 많은 데이터 마이닝 모델의 표현을 Support vector machines , associatio rules , Naive Bayes classifier , 클러스터링 모델, 텍스트 모델, 의사 결정 나무 , 그리고 다른 회귀 모델.

  • Mining Schema : 마이닝 스키마는 모델에서 사용되는 모든 필드를 나열합니다. 이것은 데이터 사전에 정의된 필드의 하위 집합 수 있습니다. 이 같은 각 필드에 대한 특정 정보를 포함 :
    • 이름 (속성 이름) : 데이터 사전의 필드를 참조해야합니다
    • 사용 유형 (속성 usageType가) : 필드의 모델에서 사용할 수있는 방법을 정의합니다. 일반적인 값은 다음과 같습니다 활성화, 예측 및 보조. 예상 필드 값이 모델에 의해 예측 이들입니다.
    • 아웃 리에 트리 트먼트 (속성 outliers)가 사용되도록 국외자 치료를 정의합니다. PMML에서 outliers가없는 값으로 처리 수 있습니다 극단 값 (특정 분야에 대한 높은 낮은 값의 정의에 따라)으로, 또는 있습니다.
    • 누락된 값 교체 정책 (속성 missingValueReplacement) :이 속성이 지정되어 있으면 다음없는 값이 자동으로 특정 값으로 대체됩니다.
    • 값 처리 (속성 missingValueTreatment)을 누락하면 : 누락된 값을 대체합니다 (의미 또는 중간 값, 등 등) 유래 얼마나 나타냅니다.
  • Targets : 모델의 출력이 지속적인 경우 확장의 형식으로 예측된 값을 사후 처리 수 있습니다. 대상은 또한 분류 작업에 사용할 수 있습니다. 이 경우 속성 priorProbability는 해당 대상 범주에 대한 기본 확률을 지정합니다. 예측 로직 자체가 결과를 생산하지 않은 경우 그것이 사용됩니다. 입력 값이없는 경우, 예를 들어, 일어날 수없는 가치를 치료를위한 다른 방법이 없습니다.
  • Output :이 요소는 모델에서 예상되는 모든 원하는 출력 필드 이름을 사용할 수 있습니다. 이들은 예측 분야의 기능을하고 있으므로 일반적으로 예측 값 자체 확률, 클러스터 친화 (클러스터링 모델의 경우), 표준 오류 등 아르

PMML, 4.0의 최신 버전 2009년 6월 16일 일에 릴리스되었습니다.  
새로운 기능의 예는 다음과 같습니다
  • 모델 설명 : PMML 파일 자체 평가 및 모델 성능 조치 저장.
  • 다중 모델 : 모델 구성, ensembles, 그리고 세분화 (예, 회귀 와 의사 결정 나무의 결합기능).

다음은 PMML을 지원하는 소프트웨어의 목록입니다.

§  Angoss KnowledgeSTUDIO: produces PMML 3.2 for regression models (logistic and linear), decision trees, clustering, neural networks and ruleset models (used to represent scorecards).

§  Angoss KnowledgeSEEKER: produces PMML 3.2 for decision trees.

§  Angoss StrategyBuilder (add-on module for KnowledgeSEEKER and KnowledgeSTUDIO): produces PMML 3.2 for decision trees (used to represent strategy trees).

§  IBM InfoSphere Warehouse: produces PMML 3.0 and 3.1 for sequences only models. Consumes (scores and visualizes) PMML 3.1 and earlier.

§  IBM SPSS Modeler: produces and scores PMML 3.2 and 4.0 for a variety of models.

§  IBM SPSS Statistics: produces PMML 3.2 and 4.0 for a variety of models.

§  KNIME: produces and consumes PMML 4.0 for neural networks, decision trees, clustering models, regression models, and support vector machines. As of release 2.4.0, KNIME also offers extensive pre-processing support in PMML, including the ability to edit existing PMML code.

§  KXEN: produces PMML 3.2 for regression models (including mining models) and clustering.

§  Microsoft SQL Server 2008 Analysis Services: produces and consumes PMML 2.1 for decision trees and clustering.

§  MicroStrategy: supports PMML 2.0, 2.1, 3.0, 3.1, 3.2 and 4.0 for linear regression, logistic regression, decision trees, clustering, association rules, time series,neural networks and support vector machines.

§  Open Data Group's Augustus: Produces PMML 4.0 for tree, naive-bayes and ruleset models. It consumes PMML 4.0 tree, naive-bayes, ruleset and regression models. Older versions produce and consume PMML 3.0 regression, tree and naive-bayes.

§  Oracle Data Mining: supports the core features of PMML 3.1 for regression models. The imported models become native Oracle Data Mining (ODM) models capable of Exadata offload.

§  Pervasive DataRush: produces and consumes PMML 3.2 for regression models, decision trees, and naive bayes. Produces PMML 3.2 for association rules andclustering (K-means Center-Based).

§  Predixion PMML Connexion: consumes PMML 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0 for several mining models, including decision trees, ruleset models, support vector machines, neural networks, naive bayes, linear and logistic regression models as well as clustering models.

§  RapidMiner: Using the free PMML extension, several types of models can be exported to PMML.

§  Rattle/R: Uses the R programming language to build several predictive models. It offers a PMML package to export models built in R to PMML 3.2. This package includes export support for support vector machines, linear regression, logistic regression, decision trees, random forests, random survival forests, neural networks,K-means and hierarchical clustering, and association rules.

§  Salford-Systems CART: a decision tree system that produces PMML 3.1.

§  SAND CDBMS 6.1 PMML Extension: consumes PMML versions 3.1 and 3.2 for several mining models, including association rules, clustering, regression, neural networks, naive bayes, support vector machines, rulesets, and decision trees. It also consumes pre-processing elements and built-in functions.

§  SAS Enterprise Miner: produces PMML 2.1 and 3.1 for several mining models, including linear regression, logistic regression, decision trees, neural networks, K-means clustering, and association rules.

§  STATISTICA: generates PMML 2.0 and 3.0 for analyses such as linear regression, logistic regression, decision trees, support vector machines, and neural networks

§  TIBCO Spotfire Miner 8.1: produces and consumes PMML 2.0 for regression models, decision trees, neural networks, clustering, and naive bayes models.

§  TERADATA Warehouse Miner 5.3.1: consumes PMML 2.1 through 3.2 for regression models, decision trees, neural networks, clustering, and mining models (regression type).

§  Weka (Pentaho): consumes PMML 3.2 for regression models, decision trees, neural networks, rule sets, and support vector machines.

§  Zementis ADAPA: batch and real-time scoring of PMML 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0 for several mining models, including decision trees, association rules, support vector machines, neural networks, naive bayes, ruleset models, linear and logistic regression models as well as Cox regression models and clustering models. ADAPA also consumes all pre- and post-processing PMML elements, including transformations, built-in functions, outputs, and targets.

§  Zementis PMML Converter: validates, corrects, and converts PMML files expressed in versions 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0.

§  Zementis Universal PMML Plug-in: in-database scoring of PMML 2.0, 2.1, 3.0, 3.1, 3.2, and 4.0 for several mining models. Available now for the EMC Greenplum Database.

 

Posted by JDATE

정보의 혁명이라 불리는 인터넷(Internet)의 등장은 사회 및 경제 전반에 걸쳐 많은 부분을 혁신적으로 바꾸어 놓았다. 최근 정보의 주체가 기업에서 개인으로 이동되면서 개인과 개인을 연결시켜주는 사회 연결망 서비스 영어로 Social Network Service(이하 SNS)가 근래에 큰 화두가 되고 있다. 그리고 이 Social Network Service를 통해서 나온 각종 개체와 개체들의 연결 관계 및 구조에 대한 다양한 데이터 분석 방법이 바로 사회 연결망 분석(Social Network Analysis, 이하 SNA)이다.

1.1 사회연결망 서비스(Social Network Service)의 정의

 

1.1.1 밀그램(Milgram)의 작은 세상(Small World)

1967년 미국 하버드 대학의 사회 심리학자인 밀그램(Stanley Milgram)은 재미있는 실험을 수행하였는데, 미국 내의 서로 모르는 임의의 두 사람 간의 거리를 파악하는 실험이었다. 즉, 무작위로 추출한 2명 사이의 거리를 알고자 2사람 간의 편지 전달을 시행하여, 상대방에게 닫는 데 거치는 사람의 수를 파악하고자 하는 것이었다. 이 실험 결과 약 5.5명을 거치면, 서로 모르는 임의의 사람 간에도 연결이 될 수 있다는 것을 알아내게 된다. 이 실험이 바로 그 유명한 작은 세상(small world) 실험이다. 언뜻 보기에는 엄청나게 많은 단계(사람들)가 필요할 것 같은 이 실험결과가 단지 5.5명만 거치면 (미국 내) 모르는 사람과도 연결이 될 수 있는 이유는 무엇일까? 이를 설명할 수 있는 것이 바로 사회 연결망(Social Network)이다.

1.1.2 사회 연결망 서비스(Social Network Service)

사회연결망(Social Network)이란는 개인 또는 집단이 하나의 노드(Node)가 되어, 각 노드들 간의 상호 의존적인 관계에 의해서 만들어지는 사회적 관계 구조를 의미한다. 일반적으로 사람이 사회 생활을 하면서, 각종 인간 관계들을 맺고 지내는데, 이러한 인간관계들의 구조들이 바로 대표적인 사회 연결망의 시발이고, 기초적인 반석이라고 할 수 있다. 이러한 실제 사회 연결망이 인터넷 또는 웹(Web)상에서 만들어진 특정한 서비스 시스템을 통해서, 생성되는 것이 근래의 주요 인터넷 트렌드인데, 이런한 사회 연결망 구조의 서비스를 해주는 것을 사회 연결망 서비스 또는 SNS라고 한다.

대표적인 SNS가 바로 미국의 하버드 대 출신의 마크 주커버그(Mark Zuckerberg)등이 개발한 페이스 북(facebook, www.facebook.com 과 바로 트위터(Twitter, www.twitter.com )이며, 한국에서는 SK 커뮤니케이션즈의 사이월드(Cyworld, www.cyworld.com )와 모바일 메신져 기능을 이용한 SNS 서비스인 카카오톡 등이 대표적이라고 할 수 있다.

 

1.2 사회연결망 서비스(Social Network Service)의 현황

앞서 언급한 사회연결망 서비스 즉, SNS의 경우 현재 단순한 홈페이지 및 개인의 블로그 수준을 넘어서서, 대중의 참여의식과 사회현상을 바꾸고, 기업의 주요한 광고/홍보 및 관리 대상이 되었으며, 정부 및 공공기관에서는 여론 수렴의 주요한 창구가 되어져서, 이제는 단순 서비스를 넘어서, 양성적으로나 음성적으로나 가장 영향력이 강력한 서비스 중의 하나가 되었다.

위의 <그림 1.2>는 지난 5년간 페이스 북의 사용자수를 그래프를 나타내어 표시한 것으로 2010년말 월 1회 이상 페이스북을 이용하는 가입자수가 5억명을 돌파한 것을 알 수 있다. 또한 <그림 1.3>을 보면 페이스 북과 함께 SNS의 양대 산맥을 이루는 트위터의 경우 하루 등록되는 글의 건수가 2010년 초에 5000만개를 돌파하는 경이적인 기록을 수립하기도 하는 등 최근에 들어와서 SNS는 사회와 개인의 생활을 변화시키는 서비스가 되었다.

그러나 위의 <그림 1.2>와 <그림 1.3>과 같이, 단순히 SNS의 경우 사용자가 많고, 사용자의 활동이 많다는 것이 중요한 것이 아니다. 소셜 미디어 전략 수립 및 각종 Research를 수행하는 Digital Surgeon에 의하면, 2010년 기준으로 페이스 북의 경우 사용자의 41% 매일 로그인(log-in)을 하고, 이 중 30%가 모바일 기기(휴대전화, 노트북 등)를 이용하여 접속을 하고 있으며, 특히 가입자의 40%가 특정 기업의 상품 브랜드에 팔로잉(following)을 하고 있으며, 이들 브랜드 팔로워(follower)의 51%가 그 해당 브랜드를 구매할 것이라는 것이다. 이는 트위터의 경우에도 상당한 수의 사용자들이 또한 각종 기업의 상품 브랜드와 연결이 되어져 있다. 즉, 위의 통계들은 현재 SNS 서비스는 모바일 소통의 중심이 되고 있고, 특히 기업 및 제품 구매의 정보 창구 그리고 홍보의 주요한 소통 도구인 사회적/상업적인 서비스가 되었다는 것을 말해 주고 있다.

한국에서도 여러 기업들이 SNS를 이용하여, 기업의 홍보, 마케팅, 그리고 고객들의 여론 수렴을 하고 있으며, 통한 2010년 6.2 지방 선거 등에서는 트위터를 이용한 선거 운동과 투표 참여 등이 전체적인 선거의 판세에 영향을 미칠 정도로 한국 내에서도 SNS는 중요한 사회적인 이슈(issue)가 되었다.

 

1.3 사회연결망 서비스(Social Network Service)의 특징

Gene Smith(2007, Social Software Buiding Blocks)에 따르면, SNS는 전체 7가지의 특징을 가지고 있다고 하며, 이를 도식화 한 것이 <그림 1.4>이다.

위의 그림 <1.4>를 보면 Smith가 언급한 SNS의 7가지 특징이 나오는데, 이를 살펴보면 다음과 같다.

■ Presence: 현재성이라고도 하며, SNS에서 사용자가 자신의 현재 상황을 알려주고 싶어 하는 특징을 의미한다.

■ Relationships: 관계성이라고도 하며, SNS를 통해서 연결되는 개체들간의 관계의 깊이와 친밀도가 생성되는 특징을 의미한다.

■ Reputation: 평판도, 명성도라고도 하며, SNS를 통해서 자신의 명성 또는 자신의 성과를 자랑하고자 하는 특징을 의미한다.

■ Groups: 그룹 또는 공통된 관심사에 대한 커뮤니티를 구성하고자 하는 특징이 발생하는 것을 의미한다.

■ Conversations: 대화성이라고도 하며, 사람들 간의 대화와 소통을 하고 싶어 하는 욕구를 충족시키는 특징을 의미한다.

■ Sharing: 공유성이라고도 하며, 개인(노드)이 가진 정보와 컨텐츠 또는 소소한 일상에 대한 정보를 공유하는 특징을 의미한다.

■ Identity: 주체성이라고도 하며, SNS 상에서 개인이 자신의 주체성을 확고하게 하는 특징을 의미한다.

위에서 보는 SNS의 7가지의 특징은 그 동안 수동적으로 남이 만들어 놓은 홈페이지를 조회하고, 간단한 자기 의견 정도를 입력하던 기존의 Web 사용에서, 마치 사람들이 일상생활을 하는 것과 동일한 행태들이 보이는 것이 큰 특징이다. 그리고 이러한 SNS의 특징 중 또 하나는 위와 같은 활동을 하는 행태가 바로 데이터화 될 수 있다는 것이다. 그리고 바로 이 데이터를 이용하여, 실제 세계에서는 알 수 없는 다양한 분석이 가능해지게 되는데, 이것이 바로 사회 연결망 분석(Social Network Analysis: SNA)이다. 즉, SNA는 기본적으로 SNS라는 특정 서비스 상에서 생성되는 데이터를 이용한 분석이므로, 필수적으로 SNS 환경이 갖추어져야지만, SNA를 할 수 있다.

 

1.4 다양한 사회연결망 서비스(Social Network Service)와 미래

1.4.1 다양한 SNS

앞서 언급한 페이스 북이나 트위터 그리고 한국의 사이월드 등이 대표적인 SNS이다. 사실 SNS라고 하면, 이들 이외에는 다른 것들이 크게 언급되지 않으며, 그 외의 SNS들도 전부 페이스 북이나 트위터 등과 유사한 것들이 많이 있다. 그러나 그 외에도 SNA를 하기 위한 SNS들은 의외로 많이 있게 된다. 대표적으로, Social Network 게임(game)업체인 Zynga(www.zynga.com)를 들 수 있다.

Zynga의 경우 게임에 바로 SNS를 접목시킨 것으로, 각종 게임 속에서 상대방과의 소통과 교류를 할 수 있게 하고, 그 자체를 또한 게임화 시킨 기업이라고 할 수 있다. 이런 게임 이외에 기업 및 조직 내의 e-mail 시스템도 훌륭한 SNS가 될 수 있으며, e-mail의 연결 상태와 교류 정도 데이터를 이용한 사내 의사소통 연결망 분석을 할 수 있게 된다. 이 외에도, 각종 다양한 판매자와 구매자 그리고 구매자가 판매자가 될 수 있는 경매 방식의 온라인 쇼핑몰도 SNS와 유사한 시스템이 될 수 있으며, 전화번호 연락처 정보를 가지고 있는 무료 인터넷 폰 서비스의 경우에도 아주 좋은 SNS가 될 수 있다. 또한 기업들 간 또는 기업 들 내의 물류 및 각종 하청/협력 관계 시스템 또한 SNS가 될 수 있다. 이런 SNS 시스템이 많다는 것은 궁극적으로 SNA를 위한 다양한 데이터들이 축적될 수 있으며, 이는 곧 사회 연결망 분석 SNA가 매우 필수적인 분석 아이템이 될 수 있다는 의미이기도 하다.

1.4.2 SNS의 미래

개인 간의 의사 소통과 정보 공유에서 시작한 SNS는 이제 향후 기업 비즈니스 모델의 한 축이 되는 방향으로 진행이 되어 질 것이다. 따라서, 단순 관계형 Network를 지나서, 정보형 Network로 변화가 될 가능성이 있으며, 그로 인한 내부적인 정보 보안의 강화 그로 인한 귓속말과 같은 보안 중시형 기능이 많이 강화될 것으로 보인다. 그리고 기업의 대표 노드를 중심으로 한 사회 연결망이 구축되면서, 브랜드 및 기업 상품의 충성 그룹을 이용한 비즈니스 수익 모델을 개발하는 서비스가 향후 중심이 될 전망이다. 이는 곧 개인들의 재미있는 놀이터이자, 커뮤니티였던 SNS가 이제는 기업 활동과 마케팅의 한 모델로 자리잡아 간다는 의미일 것이다.

 

1.5 사회연결망 분석(Social Network Analysis)

1.5.1 사회 연결망 분석의 정의와 Social Network Graphs

사회 연결망 서비스(SNS)를 이용하면서, 발생하는 관계들 속에는 다양한 연결 형태, 방향성, 강도 등이 나타나게 된다. 사회 연결망 분석은 바로 SNS 내부에서 발생하는 관계들의 형태에 대한 특징을 도출하거나 특성을 설명, 또는 체계를 구성하는 행위를 설명할 수 있는 것을 의미한다.

가장 간단하면서, 일반적인 사회연결망 분석(SNA)으로는 사회 그래프(social graph)가 있다.

 

<그림 1.6>이 대표적인 Social Network Graph의 예이다. 간결하고 시각적으로 각 노드들의 연결 상황을 보여주고 있다. 좀 더 고급화된 그래프로 방향성과 강도 그리고 주요한 노드의 크기의 변화가 그래프에 나타나는 것까지 현재 관련 SNA 소프트웨어에서 지원을 하고 있다.

Graph가 가장 효과적이고, 시각적으로 판단이 매우 편리한 분석 도구이지만, 노드의 수가 많아지는 경우에는 Graph 상의 시각적인 관계로는 식별하기 어려운 단점이 있다.

 

1.5.2 중심성과 연결망 결속

사회 연결망 분석(SNA)은 다양한 분야가 있지만, 가장 중요한 것이 바로 중심성(centrality)이다. SNA에서, 중심성이란 통계 자료에서 평균이나 중앙값, 최빈값과 같이 데이터 셋의 대표성을 가지는 값들과 성격이 유사하다. 즉, 사회 연결망(Social Network)에서, 연결의 핵심적 위치에 있는 특성을 값으로 표현하여 주는 것이 바로 중심성이라고 할 수 있다.

일반적으로 중심성은 다양한 척도로 측정 및 계산이 되어질 수 있는데, 이를 정리한 것이 <표 1.1>과 같다.

중심성 종류

내 용

근접중심성

(Closeness centrality)

노드와 노드 사이의 평균 최단 거리 계산 후 이를 역수로 취한 중심성으로 단순한 연결성과 근접성을 측정하는 중심성이다. 근접 중심성을 계산할 때, 평균 최단 거리를 계산 후 역수를 취하는 방법 이외에 최단 거리를 모두 계산 후 이들의 역수의 평균을 이용하는 방법도 있다.(선후의 변경에 따라 중심성 값이 바뀜)

중개중심성

(Betweennesscentrality)

1개의 노드가 다른 2개의 노드 간의 최단 경로에 놓이게 되는 비율을 합하여 계산한다. 중개 중심성을 통해서 네트워크와 네트워크 사이를 연결하는 허브 역할을 하는 노드를 찾아낼 수 있다.

고유벡터 중심성(Eigenvector

centrality)

특정한 한 개의 노드가 다른 중요한 노드에 얼마나 많이 연결되어 있는 지를 분석하는 중심성 지표이다.

연결선의 수

(Degree centrality)

노드의 중앙성을 파악하기 위한 지표로써, 연결선의 수가 많을수록 전체 네트워크의 중앙에 위치한다는 것을 의미하는 지표이다.

그래프 중심성

(Graphcentrality)

한 노드와 다른 노드간의 최대 최단 거리를 계산하고, 이것의 역수를 취하여 구하는 값으로, 그래프 내에서 최단 경로를 파악하는데 사용되는 지표이다.

<표 1.1>과 같이 다양한 중심성 지표를 이용하여, 사회 연결망의 각 노드들(개인들)의 네트워크 내에서의 성향과 중요성 그리고 역할을 파악하게 되며, 이를 이용하여, 비즈니스 등에서는 입소문 전파자(Big Mouth) 등을 선별하여 마케팅 등에서 활용하게 된다.

중심성의 경우 연결의 상태나 연결의 위치, 경로 등을 중심으로 만들어낸 지표들이라면, 노드와 노드 사이에 결속되는 정도(강도)에 따른 분석이 필요한 경우가 많이 있다. SNA에서는 일반적으로 아래의 <표 1.2>와 같은 연결망 결속 지표를 분석한다.

결속 지표

내 용

연결선의 수

(Degree)

연결정도는 중심성 지표 중 연결선의 수와 동일한 개념이다. 즉, 연결선의 수는 중심성의 지표이자 결속지표가 되기도 한다.

밀도

(Density)

네트워크 내에서 가능한 총 관계 수 중 에서 실제로 맺어진 관계 수의 비율을 의미한다.

포괄성

(Inclusiveness)

네트워크 그래프 내에서 포함된 노드의 총 수에서 연결되어 있지 않은 노드들의 수를 뺀 수의 비율로 정의할 수 있다.

연결강도(Strength)와 지속시간(Duration)

접촉의 빈도수를 이용한 가중치이며, 특정한 네트워크의 경우 빈도수가 아닌 지속 시간(또는 연결 시간)을 이용한 결속을 파악하기도 한다.

1.5.3 그 외의 다양한 사회 연결망 분석(SNA)

사회 연결망 분석에서 일반적으로 가장 중요한 분석이 바로 위에서 언급한 중심성과 연결망 결속 지표이다. 그 외에 다양한 분석 분야가 있다. 일반 연결 중심이 아닌 연결 간의 강도가 추가된 가중 네트워크 분석 그리고 전체 네트워크에서 하부에 존재하는 부그룹을 탐지하는 네트워크 부그룹 분석, 네트워크 자체가 행과 열로 각각의 의미를 가지는 네트워크를 분석하는 2부 네트워크 분석 그리고 네트워크 내에서, 동일한 구조를 가지는 노드를 파악하는 구조적 동치성 분석 등 SNA는 현재 다양한 형태의 분석 방법이 연구되어 지고, 활용이 되고 있다.

 

1.6 사회연결망 분석(Social Network Analysis) 도구들

사회 연결망 분석을 수행하기 위해서는 분석 소프트웨어가 필요하게 되는데, 현재 세계적으로 상당히 많은 제품들이 개발되어져 있고, 또한 이 중에서는 무료 소프트웨어들도 많이 있어, SNA에 관심이 있는 사람들이 손쉽게 접근할 수 있다. 대표적인 사회 연결망 분석 도구들은 외국의 소프트웨어 중에서는 Pajek과 무료 통계 패키지 R, UCINET, Multinet, Structure, Siocnet 등이 있으며, 이중 Pajek과 R 패키지 등의 경우 무료로 활용할 수 있는 장점이 있다. 또한 국내에서는 사이람에서 개발한 Net-Miner가 대표적인 사회 연결망 분석을 위한 소프트 웨어이다.

"SPSS Modeler와 사회네트워크분석" 책에서...

http://www.spss.co.kr/book/book_01_03.asp

 

Posted by JDATE