빅데이터 모델링 – 분석 기술 – 관련성 분석(Association Rule Learning)

  • by

관련성 분석 개요

  • 여러 거래, 사건에 포함된 항목의 관련성을 파악하는 탐색적 데이터 분석
  • 유사한 개를 그룹화하고 각 집단의 특성을 파악하기 위해 활용
  • 사건 관련 규칙을 찾는 기법에서 목표 변수가없는 비지도 학습
  • 콘텐츠 기반 추천의 기본 방법론
  • 그룹의 특성화는 군중 분석과 병행 가능하며 장바구니 분석이라고도합니다.


관련 규칙 (Assocication Rule) 순서

  1. 데이터 간 규칙 만들기
    • if 조건절(Antecedent) > 결과절(Consequent)
  2. 어떤 규칙이 데이터 속성에 맞는지 기준으로 설정
    • 지도(supprt)
      • 데이터 전체에서 해당 상품을 고객이 구매한 확률
    • 신뢰도
      • 한 데이터를 구매할 때 다른 제품을 구매할 조건 확률
      • P(A,B) / P(A)
    • 향상도
      • 두 상품을 구매할지 여부가 독립적인지 판단하는 개념
      • P(A,B) / P(A)P(B)
      • 1이라면 상호 독립 관계
      • 1보다 큰 경우 양의 상관 관계
      • 1보다 작으면 음의 상관관계
  3. 규칙의 유효성 평가(실제 규칙 만들기)
  • 관련성 분석의 예
  • 7가지 아이템을 구입할 수 있다고 가정
ID 우유 버터 맥주 기저귀 계란 과일
1 1 1 0 0 0 0 1
2 0 0 1 0 0 1 1
3 0 0 0 1 1 0 0
4 1 1 1 0 0 1 1
5 0 1 0 0 0 0 0

  • 지지도 확인, 지지도 = A와 B의 교합
  • 신뢰도 확인, 신뢰도=교집합*조건부 확률(A를 사서 B를 사는 확률)
조건 – 결과 지지 맵(support)
(교합)
지도 * 신뢰도(confidence)
(교차 집합 * 조건부 확률)
우유를 사면 빵을 사 2/5 = 0.4 0.4*1.0 = 0.4
우유를 사면 계란을 사 1/5 = 0.2 0.2*0.5 = 0.1
빵을 사면 과일을 사 2/5 = 0.4 0.4*0.66 = 0.264
과일을 사면 계란을 사 2/5 = 0.4 0.4*0.66 = 0.264
우유와 빵을 사면 과일을 사 2/5 = 0.4 0.4*1.0 = 0.4

  • 향상도 확인, 향상도=A와 B의 화집합/A*B
    • 빵과 우유의 향상도 1 이상이므로 양의 상관 관계



앱리오 알고리즘

  • 최소 지도 이상의 빈발 항목 집합만을 찾아 관련 규칙을 계산하는 기법
  • 최소 지지도 이상의 1항목 집합이 빈발이면
    • 이 항목 집합의 모든 하위 집합은 자주 항목 집합이며 관련 규칙 계산에 포함됩니다.

  • 최소 지지도 미만의 항목 집합이 비빈발인 경우
    • 이 항목의 집합을 포함한 모든 집합은 비빈발 항목 집합으로 전정 진행
  • 그런 다음 최소 신뢰도 기준을 적용하여 최소 신뢰도에 도달하지 않은 관련 규칙을 다시 제거하여 반복 작업을 수행합니다.

  • 새로운 관련 규칙이 없을 때까지 진행

관련성 분석의 장점과 단점

  • 장점
    • 분석 결과를 이해하기 쉽고 실제 적용에 용이
  • 단점
    • 항목이 많을수록 관련 규칙이 더 많이 발견되지만 의미에 대해 미리 결정해야 합니다.

    • 상당수의 계산 과정이 필요

메모