2010년에 실시된 제4회 연간정기서베이에서 다음과 같은 넘어야할 장애물들이 존재한다고 데이터 마이너들은 언급하였다. 즉,
- 정제되지 않은 데이터 문제
- 데이터 마이닝을 타인에게 설명해야 하는 어려움
- 데이터의 부재/접근의 어려움
데이터 마이너들운 제4회 연간정기서베이(2010)에서 문제점을 극복했던 그들의 경험을 공유하였습니다. 아래에 그들이 공유한 “최고의 연습용”의 예제가 언급되었습니다. 각 데이터 마이닝 문제점들을 극복한 사례들의 완성된 목록은 다음 링크들을 통해서 역시 사용이 가능합니다.
도전과제 : 정제되지 않은 데이터
제4회 연간정기서베이에 응답한 735명의 데이터 마이너들의 85%는 문제점을 극복한 그들의 경험을 설명했습니다. 핵심 주제는 기술통계량의 사용과 데이터 시각화, 비즈니스 규칙, 그리고 전문적인 데이터 내용에 대한 참고였습니다. (비즈니스 사용자) 많고 다양한 세부적인 제안들이 공유되었다. (모든 85가지 응답들을 여기에서 볼 수 있다.) 이 문제를 해결한 선택된 데이터 마이너들의 설문조사 응답 사례 : |
- 모든 프로젝트는 레코드의 수, 핵심 조합(특이 사항, 과부/고아), 그리고 필드 내용의 분포를 보여주는 등 낮은 수준으로 데이터 보고를 시작합니다. 이런 보고서들은 고객의 전문가적인 내용의 데이터로 다시 되풀이됩니다.
- 정제되지 않은 데이터의 한계에서, 우리는 두 가지 방법을 결합하여 사용합니다. : 알려진 데이터를 기반으로 한 직관과 데이터 프로파일입니다. 알려진 데이터를 기반으로 한 직관은 그들의 데이터를 진정으로 알기 위해 우리의 인간의 분석능력을 요구합니다. 만약 그것이 보통치를 넘어서면, 우리는 그 데이터가 정확한 것인지 확인하기 위해 유효성 검증을 거칩니다.
- 결측 데이터(missing data)의 조직전인 패턴을 쉽게 확인하기 위해 플롯에서 결측된 데이터를 보는 것을 잊지 않아야 합니다. (MD) 결측 데이터의 다중 대체는 데이터 셋을 “분리”하거나 결측값을 계산하지 않는 것보다 낫습니다. 대신에 새로운 카테고리로 결측값을 이분화 하고 적극적으로 모델을 만듭니다. 결측 데이터는 곧 정보입니다. 기능 선택으로 랜덤 포레스트를 사용합니다. 나는 너무 많은 변수들을 조합하여 노이즈가 많고 복잡한 모델들을 만들었습니다. 모델링하기 전에 RF를 하면서, 나는 결국 단지 5~10개의 변수로 뛰어난 모델을 만들었습니다.
- quick K-means 군집화 기법은 단일의 관측 군집화로써 가장 안 좋은 것으로 드러났습니다.
- 이분형 레코드에서 (레코드를 이분하기 위해) 이상치 탐지기를 사용 해아합니다.
그들은 보통 Gribot가 주장하기를 내가 훨씬 데이터를 정제하기 위해 사용할 수 있을 것이라는 것보다 더 포괄적인 규칙을 공식화합니다.
- 우리는 데이터에 대한 기술 통계량을 계산하고 모델링 프로세스를 시작하기 전에 데이터를 그려봅니다. 데이터의 비즈니스 고객과의 토론은 더 나은 이해를 위해 도움이 되어왔습니다. 우리는 데이터 값의 다중 결합을 보는 것으로써 데이터의 복잡성을 이해하기 위해 노력합니다.
- 상기자에 의해 주어진 각 변수들의 훈련용 의사결정나무는 a) NULL값으로 대체하고, b) 편향된 값 (전문가)을 확인하는 것을 가능케 합니다.
- 우리는 퍼지 그룹을 사용하는 가상 군집화와 이상치의 인공적인 다차원 정의를 만들었고 정제되지 않은 데이터를 찾아내려고 노력했습니다. 찾아진 결측 데이터의 점검은 “정제되지 않음”의 구체적인 유형에 대한 판별하는 프로그램을 짜는데 실마리를 제공했습니다.
- 빠르게 데이터 시각화가 가능하다는 것은 우리가 고객에게 “정제되지 않은” 데이터의 존재를 알리게 한 것입니다. 업리프트 모델링의 서술은 만약 대조 그룹이 고객이 말한대로 랜덤하게 되어있다는 것이 “진짜”라는 점을 분석자들이 안다는 보고서를 포함합니다. (우리는 종종 편향을 발견합니다.)
- 일반적으로 정제되지 않은 데이터와 같은 다양한 비즈니스 단위로 작업하는 것은 쓸모없는 일은 아닙니다. 문제점을 통해 작업을 함으로써 당신은 단지 정제된 데이터로 작업하는 것보다 더 데이터 셋에 대한 이해가 쉬어질 수 있습니다. 왜냐하면 데이터가 정제되고 확실하다고 해서 모든 변수를 완벽히 이해할 수 있는 것이 아니며 또한 데이터가 처음에 왜 수집되었는지에 대한 원래의 의도도 완벽히 이해한다는 것을 의미하지 않기 때문입니다.
도전 과제 : 데이터 마이닝의 설명
제4회 연간정기서베이에 응답한 735명의 데이터 마이너들의 65%는 문제점을 극복한 그들의 경험을 설명했습니다. 핵심 주제는 그래픽의 사용, 매우 간단한 예제와 유추, 그리고 초보적인 데이터 마이닝의 비즈니스 효과에 초점을 습니맞추는 것입니다. 많고 다양한 세부적인 제안들이 공유되었습니다. (모든 65가지 응답들을 여기에서 볼 수 있다.) 이 문제를 해결한 선택된 데이터 마이너들의 설문조사 응답 사례 : |
- “분석자 간 경쟁”의 영향력과 다른 기관의 사례 연구는 가능성 있는 검정력을 만듭니다. 국내에서 작은 효과가 있는 프로젝트를 가져오면 기업은 채택하는 것을 통해 프로젝트를 증진시킵니다. 마지막으로, 의미있는 적용으로 데이터를 제공하면 – BI 도구 – 데이터 마이닝이 구현 가능하다는 것을 우리의 이해관계자에게 보여줍니다.
- DM 베이직과 목적에 대한 초보 지식 공유 세션.
- 그래픽 표시는 매우 유용합니다. (즉, 이익 도표 또는 리프트 차트)
- 문제는 문제를 낳기 위한 충분한 시간을 가지고 해결책을 보여줍니다. 대부분 상위 경영진은 짧은 프레젠테이션을 원하지만 단지 결과를 얻을 수 있는 원인은 없습니다. 그들은 원인에 대해 관심이 없기 때문에 종종 솔루션을 구입하지 않습니다. 따라서 우리는 그들의 열망하는 직접적인 보고서를 작업하기 위해 노력하고 그들이 전체 프레젠테이션을 볼 수 있도록 합니다. 만약 그들이 솔루션을 구입하는 경우, 상위 경영진들은 그들의 직계 상관과 함께 솔루션을 지킬 것입니다.
- 균형잡힌 시트와 P&L에 대한 모델 적용의 전체적인 이익, 달러에 초점을 맞춥니다.
- 대조 그룹과 비교된 측정결과는 데이터 마이닝 결과에 대하여 사람들을 설득시키기에 가장 좋은 방법입니다.
- 나는 제품 관리자(클라이언트)를 가져와서 그들에게 중요한 분석들을 그들과 함께 일했습니다. 그래서 내가 다양한 측면을 분석하기 위해 그들의 전문성에 따라서 데이터를 다루는 방법이 그들에게 흥미를 주었습니다.
- 영상 및 그래픽 프레젠테이션을 한 비즈니스에 미치는 영향과 결과를 설명하는 것, 역사적 동향 및 변화 분석을 설명하는 것은 논리적으로 비즈니스 사용자에게 데이터의 비즈니스 동향을 설명하는데 도움을 줍니다.
- 진실된 철학 중 하나의 관점. 변수들의 정의는 비즈니스 기능에 따라 모순되지 않습니다.
- 시각화 및 설명 모델 및 모델 공간. 결과를 설명하고 해석합니다. 결과의 유의성과 평가를 보여주고 설명합니다.
도전과제 : 데이터의 부재/접근의 어려움
제4회 연간정기서베이에 응답한 735명의 데이터 마이너들의 46%는 문제점을 극복한 그들의 경험을 설명했습니다. 핵심 주제는 데이터 가용성 향상시키는 것에 대한 자금을 바치는 것과 조직 장벽을 극복하기 위한 방법이었습니다. 많고 다양한 세부적인 제안들이 공유되었습니다. (모든 46가지 응답들을 여기에서 볼 수 있습니다.) 이 문제를 해결한 선택된 데이터 마이너들의 설문조사 응답 사례 : |
- 우리는 더 낫고, 더 쉽고, 더 빠른 데이터 접근을 하기 위해 계속 노력합니다. 사실, 통계 분석자들의 스트레스를 줄이기 위해, 우리는 데이터 수집에만 전체 시간을 할애하면서 일하는 데이터 수집 전문가를 고용했습니다.
- 나는 보통 데이터의 부재 또는 불변의 변수를 다루는데 합리적인 발견을 계획하기 위해 적합한 콘텐츠 전문가와 상의합니다. 데이터 접근이 어려운 것은 전형적으로 우리가 필요한 데이터를 모으는 좋은 계획을 가지지 못했음을 뜻합니다. 나는 제품 관리자와 상의하고 그들의 비즈니스 문제에 대한 데이터 필요를 제안합니다. 만약 우리가 필요와 비즈니스 이슈를 잘 매치할 수 있다면, 데이터 접근과 이용가능성은 대개 해결됩니다.
- 우리의 가장 좋은 사례는 정의된 기간 동안 자동적으로 모집된 데이터 마이닝 목적 – 분석적인 데이터 셋 - 에 대한 온전한 데이터베이스를 이행하는 것과 고안하는 것입니다.
- 직접 ‘고객’과 함께 작업하기 위해 사업부 사이트에서 많이 활동하는 것과 로컬 IT.. 일반적으로 가장 좋은 사례를 두고 이후에 우리가 찾을 수 있는 정제된 거의 적은 데이터를 찾아둡니다. 앞으로 우리는 일반적으로 더욱 로버스트한 데이터 수집과 프로젝트를 계획합니다.
- 데이터가 이용하기 어려울 때, 우리는 데이터가 존재하던지, 장기적 거부자 이던지 상관없이 우리의 “차선책”모델을 제공합니다. 이것은 진짜 현재 솔루션에서 향상되지는 않습니다. 그러나 (i) 우리와 연락을 계속 하는 사람 (ii) 우리가 요구했던 데이터를 얻는 더 나은 일은 하는 사람들을 매우 효과적으로 얻을 수 있는 것으로 증명됩니다.
- 데이터의 접근은 비즈니스 팀 수준에서 해결됩니다. 그 이유가 데이터의 결함은 비즈니스 팀의 목표가 우리의 지원과 맞지 않다는 의미가 되기 때문입니다.
- 심각한 문제 중 하나는 우리가 필요로 하는 정부기간이 데이터를 생성함에 있어서 신뢰성이 결여되어 있다는 것입니다. 그들은 만약에 범할 수 있는 과실을 두려워하거나 데이터 처리작업에 대한 지식이 부족한 사용자를 이해시키는 것을 꺼리기 때문입니다. 우리가 작업했던 데이터 공유를 위한 접근은 데이터 접근을 제한하는 흥미로운 집단을 형성시키는 데이터와 데이터 사용을 다루는 기관을 위한 것입니다.
원문보기
http://www.rexeranalytics.com/Overcoming_Challenges.html
'데이터마이닝 이야기' 카테고리의 다른 글
유통산업 고객을 바라보는 새로운 시각과 분석방법론 (0) | 2012.07.06 |
---|---|
PMML을 아십니까? (0) | 2011.07.26 |
SNA의 개요와 SNS 서비스 (0) | 2011.07.21 |
데이터 마이닝 알고리즘의 새로운 흐름 (0) | 2011.06.24 |
SPSS Modeler 14 출시!! (0) | 2011.06.24 |