연관분석
연관분석이란?
데이터 안에 존재하는 항목간의 연관규칙 (association rule)을 발견하는 과정이다. 상품을 구매하거나 서비스를 받는 등의 일련의 거래나 사건들의 연관성에 대한 규칙이다. 연관성 분석을 마케팅에서 손님의 장바구니에 들어있는 품목간의 관계를 알아본다는 의미에서 장바구니분석 (market basket analysis)이라고도 한다
연관분석을 알기 위해 지지도, 신뢰도, 향상도의 개념을 알아야 한다.
참고)
Brute Force - 연관관계에 대한 하나씩 전부 평가. 대신 지지도나 신뢰도에 기준을 설정하여 이상인 값으로 고려
Frequent itemset generation - 빈도수가 높은 관계 위주로 후보군을 축소하여 연관분석 진행
Apriori Principle - 데이터 발생 빈도를 바탕으로 데이터간의 연관관계 파악에 사용
ㅇ Support (지지도)
- 지지도는 0과 1사이의 값이다
- 지지도가 1에 가까울수록 A와 B의 관계가 중요하다는 것을 의미한다
- 0에 가까운 연관관계를 먼저 제거한다 -> 자주 발생하지 않다는 것을 의미
- support(A->B)와 support(B->A) 의 차이점 파악이 불가능하다 (신뢰도 등장의 이유)
ㅇ Confidence (신뢰도)
- A를 선택했을 때, B를 선택할 확률 (조건부 확률 P(B|A) ) (순서 고려)
- 지지도와 마찬가지로 신뢰도 역시 0과 1사이의 값
- 1에 가까울 수록 A는 B에 많은 영향을 받는다 -> minimum support (ex) 지지도가 0.5 이상만 고려하겠다) 중
가장 큰 confidence를 선택한다
- supprot(A->B)와 support(B->A)와 다르게 A와 B 사이의 관계 파악이 가능하다
ㅇ 향상도 (Lift)
- 0과 1사이의 확률값이 아닌 A와 B 사이의 관계를 파악하는 용도로 사용된다
- A를 선택했을 때 B를 선택한 비율이 어떠한지 보기 위한 것
- lift (A ->B) <1 : 상호대체 -> A와 B는 반비례
- lift (A ->B) >1 : 상호보완 -> A와 B는 정비례
- lift (A ->B) =1 : 독립 -> A와 B는 서로에게 영향을 끼치지 않는다
ㅇ 예시)
- 지지도, 신뢰도 계산