데이터마이닝 > 전자상거래 관리사 필기

전자상거래 관리사 필기

마케팅 데이터마이닝

페이지 정보

본문

데이터마이닝 (data mining)


1) 개요

- 대용량 데이터 그리고 예측과 발견

데이터마이닝이란 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기술이다. 그 유용한 정보는 예측과 발견으로 정의할 수 있다. 데이터마이닝의 바람직한 결과는 행동과 경향의 자동화된 예측 그리고 알려지지 않은 패턴의 자동화된 발견 중의 하나이다. 


기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 각종 마케팅활동의 고객 반응 데이터 등과 이외의 기타 외부 데이터를 포함하는 모든 사용 가능한 근원 데이터를 활용하여 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙성 등을 발견해내는 것이 데이터마이닝의 기대효과이다. 


2) 데이터마이닝 작업 (목표)


■ 예측 (Prediction) : 데이터 항목과 예측 모델이 주어졌을 때, 그 데이터 항목의 특정된 속성(attribute)에 대한 값을 예측한다. 예를 들면, 신용 카드 트랜잭션의 예측 모델이 주어지면, 특정한 트랜잭션이 부정사용일 가능성을 예측한다. 예측은 발견된 가설을 정당화시키는 데 사용될수도 있다. 


■ 회귀 (Regression) : 데이터 항목들의 집합이 주어졌을 때, 회귀는 같은 항목에서 다른 속성의 값에 따른 어떤 속성 값들의 종속성의 분석이고, 새로운 레코드들에 대하여 이런 속성 값들을 예측할 수 있는 모델의 자동 생성이다. 예를 들면, 주어진 신용 카드 트랜잭션들의 데이터 집합에서, 새로운 트랜잭션들에 대하여 부정 사용의 가능성을 예측할 수 있는 모델을 구축하는 것이다. 


■ 연관 (Association) 규칙 : 데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업. 마케팅에서는 장바구니분석(MBA : Market Basket Analysis)이라고도 한다. 연관규칙은 신뢰도의 정확성에 오차가 있으므로 확률 또는 도표를 활용한다.


■ 연속 (Sequencing) 규칙 : 연관 규칙에 시간관련 정보가 포함된 형태. 시간이 포함되어 있으므로 연관규칙에 비해 더 구체적이며 마케팅에 즉각적으로 활용이 가능핟. 


■ 분류 (Classification) 규칙 : 일정한 집단의 특성 정의를 추론한다. 집단을 분류하는 분류 값(특성 정의)이 포함된 과거의 데이터로부터 분류별 특성을 찾아내어 분류모형을 만들고 이를 토대로 새로운 레코드의 분류값을 예측.


■ 데이터 군집화 (Clustering) : 구체적인 특성을 공유하는 상품의 그룹을 정의. 분석하려는 데이터에 분류가 포함되어 있으면 분류 규칙 작업이고 아니면 군집화 작업. 


■ 시각화 (Model Visualization) : 시각화는 탐사된 지식을 사람들에게 이해하게 하고 해석하게 하는 데 중요한 역할을 한다. 


■ 탐사 데이터 분석 (Exploratory Data Analysis (EDA)) : 탐사 데이터 분석(EDA)은 예상된 가정과 모델에 강하게 의존하지 않고 데이터 집합을 탐사할 적에 상호 작용하게 하면서, 그래서 관심있는 패턴들을 알아내려고 시도하는 것이다. 



3) 실행 프로세스 

A 타입 

① 표본 데이터 추출 (Sampling / Selection)

② 데이터 정제 및 전처리 (Data Cleansing / Preprocessing)

③ 탐색 및 변형 (Exploration / Transformation)

④ 모형화 (Modeling)

⑤ 보고 및 가시화 (Reporting / Visualization)


B 타입

① 목적 확인 또는 적용 가능성 확인

② 분석에서 사용될 데이터 확인.

③ 데이터를 전처리, 탐색, 정제.

④ 데이터 축소 – 지도학습의 경우 데이터를 학습용, 평가용, 검증용으로 분할하는 단계.

⑤ 데이터마이닝의 작업 종류를 결정 – 연관, 연속, 분류, 군집 등

⑥ 사용할 데이터마이닝 기법을 결정 – 회귀분석, 의사결정나무 분석 등

⑦ 기법에 다른 알고리즘을 적용하여 데이터마이닝 작업을 수행

⑧ 알고리즘의 결과를 해석.

⑨ 결과인 모형을 활용한다. 


C 타입

① 표본추출(sample):데이터 집합에서 표본을 추출하고, 표본을 학습용, 평가용, 검증용 데이터 집합으로 분할한다. 

① 탐색(explore):데이터 집합을 통계 및 그래프를 활용하여 조사한다. 

② 수정(modify):변수를 변환하고 결측치를 대체한다. 

③ 모형화(model):예측모형을 적합시킨다(예를 들어, 회귀나무, 협업 필터링). 

④ 평가(assess):평가용 데이터 집합을 이용하여 모형들을 비교한다.


4) 구분


⑴ 교사학습 (Supervised Learning)

■ 기존의 입력 및 출력 변수의 값을 활용하여 새롭게 주어진 입력변수에 대한 출력 변수의 값을 예측.

■ 모델 (회귀 및 분류 모델) :  판별, 회귀, 로지스틱 회귀, 의사결정나무, 신경망


⑵ 비교사학습 (Unsupervised Learning) 

■ 출력 변수가 없음. 입력변수의 관계를 탐색적으로 분석하여 의미 있는 정보 추출.

■ 모델 : 연관성분석, 군집분석


5) 모델링 기법

⑴ 의사결정나무(Decision tree)

의사결정나무는 의사결정규칙을 나무구조로 도표화하여 분류와 예측(prediction)을 수행하는 분석방법이다. 이 방법은 분류 또는 예측의 과정이 나무구조에 의한 추론 규칙(induction)에 의해서 표현되기 때문에 분석자가 그 과정을 쉽게 이해하고 설명할 수 있다는 장점이 있다. 


의사결정나무는 분류와 예측 모두에 사용될 수 있으며 분석의 정확도보다는 분석과정의 설명이 필요한 경우에 더 유용하게 사용된다. 어느 회사에서 응답할 가능성이 높은 고객에게만 광고 인쇄물을 보내려고 할 때  단순히 광고 인쇄물을 보낼 고객을 추출하는 것 못지않게 중요한 것은 어떤 속성을 가지고 있는 고객이 응답할 가능성이 더 높은지를 찾아내는 것이라 할 수 있는데 이러한 경우 의사결정나무 분석이 매우 유용하다.


- 장점

■ 이해하기 쉬운 규칙을 생성

■ 분류작업이 용이

■ 연속형 변수와 범주형 변수를 모두 다 취급할 수 있음

■ 가장 좋은 변수를 명확히 알아낼 수 있음

■ 이상 수치에 덜 민감


- 단점

■ 목표변수가 연속형인 회귀모형에서는 그 예측력이 떨어짐

■ 나무가 너무 깊은 경우에는 예측력의 저하뿐 아니라 해석도 어려움

■ 계산량이 많을 수 있음

■ 결과가 불안정


⑵ 신경망 (neural networks) 기법

신경망 기법은 인간이 경험으로부터 새로운 사실을 학습해 가는 두뇌의 신경망 활동을 흉내 내어 주어진 데이터로부터 반복적인 학습과정을 거쳐 패턴을 찾아내고 이를 일반화함으로써 특히 향후를 예측(Prediction)하고자 하는 문제에 유용하다. 인공지능의 실현을 가져올 수 있는 기술로 각광을 받아오다가 최근 패턴 인식을 비롯한 데이터 마이닝에서의 응용 가능성이 주목 받고 있는 것이다.  인간의 뇌는 자연스럽게 패턴을 인식하고 일반화하는데 반해, 컴퓨터는 이런 작업이 어렵다는 점에 착안한 신경망 데이터 마이닝은 전통적인 프로그래밍 방식보다는 병렬적으로 움직이는 신경망 회로의 훈련을 통한 패턴 인식을 통해 겉보기에는 별다른 관련이 없을 것 같아 보이는 데이터들로부터 숨어 있는 사실을 뽑아낸다.


- 장점 

경영학의 재무, 회계, 마케팅, 생산 등의 분야에서 다양한 응용이 가능하다. 체계적 순서에 따른 결과도출로 정확도가 뛰어나다.


- 단점

응용하기 위해 많은 연구가 필요하며, 인공신경망 모형을 구축하기 위해서는 기본적으로 기업의 기초자료가 제공되어야 한다. 결과도출에 있어 환경변수 등은 고려되지 않는다.


⑶ 사례기반추론(Case-Based Reasoning) 기법

지나간 사례에서 패턴을 인식하여 활용하는 기법. 어떤 새로운 문제의 해결책을 찾아야 할 때 과거의 사례들을 해결한 방식을 원용하여 해결하려는 기법이 사례기반추론(CBR) 기법이다. 


예) 고객 질의에 대해 응답하기 전에 고객 질의 내용으로 분석하여 동일하거나 유사한 사례를 찾아서 응답에 활용한다. 유사한 문제를 찾기 위해 해당 문제의 Description이 잘 정의 되어 있어야 하고 해결책 및 해결책 도출 방법이 잘 정리되어 있어야 새로운 해결책을 도출할 때 용이하다. 


- CBR의 4단계 : Retrieve(추출) - Reuse(활용) - Revise(수정) - Retain(보유)

- Case 데이터의 구성 : 문제 - 해결책 - 해결책의 도출 방법. 


⑷ 연관성 분석(Association analysis) 기법

상호 연관 관계는 축적된 데이터의 어디에나 존재하며 이런 관계들은 대부분 직접적으로 이용하기는 어렵지만 값진 정보를 담고 있다. 연관성 측정은 그러한 관계들의 맥을 짚는 기술이다.


연관성 분석은 상품 혹은 서비스(이하 상품)의 거래기록 데이터로부터 상품간의 연관성 정도를 측정하여 연관성이 많은 상품들을 그룹화하는 클러스터링의 일종으로서, 동시에 구매될 가능성이 큰 상품들을 찾아낸다. 장바구니 분석(Market Basket Analysis)이 대표적이다.


⑸ 군집 분석(Clustering analysis)

군집 분석은 비슷한 정보나 발현 형태를 갖는 표본을 함께 묶어나가는 과정이다. 모집단 또는 범주에 대한 사전 정보가 없는 경우 주어진 관측 값들 사이의 거리 또는 유사성을 이용하여 전체를 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕는 것이다.


같은 군집 내에 속한 표본들끼리의 유사성은 높게 서로 다른 군집 간에 속하는 표본들끼리는 유사성이 작게 한다. 분석자의 주관에 의하여 결정되는 여러 가지 사항들(예를 들면, 초기 군집수, 가중치 등)이 군집분석의 결과에 어떻게 영향을 미치는가를 알아보기 위해서는 군집분석 결과의 평가가 필수적이다. 

사용되어진 거리의 측도를 이용하여 군집내의 거리의 평균과 군집간의 거리의 평균을 비교할 수 있다. 즉, 군집내의 거리의 평균이 군집간의 거리의 평균 보다 작을수록 좋다. 실제 군집 분석의 예는 많지 않다. 이론에 비해 실제 결과 도출은 쉽지 않기 때문이다.