Generative Models(생성 모델)

  • by

생성 모델이란?


주어진 학습 데이터를 학습하고 학습 데이터의 분포를 따릅니다.

유사한 데이터를 생성하는 모델

ex. 강아지의 사진이 주어졌다고 하자.

  • 확률 분포 p(x) -> implicit model라고도 불
    • Generation: 새 강아지의 사진이 주어지면 강아지처럼 보입니다.

    • Density estimation: 개를 닮은 경우 p(x) 값이 높고, 그렇지 않으면 낮아야 합니다.

확률 분포 p(x)를 나타내기 위해 알아야 합니다.

Discrete Distributions(이산 분포)


  • Bernoulli distribution(베르누이 분포): 동전의 반전과 같은 경우에는 두 개가 있습니다.

    • ex. RGB 이미지의 1픽셀을 모델링하려면(0-255)
      • 하나의 픽셀이 가질 수 있는 색상 수 = 256*256*256
      • 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = 2563-1


공식: X~Ber(p)

  • Categorical distribution(카테고리 분포): m개의 면이 있는 주사위 구름과 동일
    • m- 하나의 확률만 알면 나머지 하나를 찾을 수 있습니다.


식 Y~ Cat(p1,….cm)

Independence (독립 변수)


  • ex. 흑백 이미지(pixel이 0 또는 1) n개인 경우
    • 하나의 픽셀이 가질 수 있는 색상 수 = 2n
    • 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = 2n -1
  • ex. n개의 흑백 이미지(픽셀이 0 또는 1)가 독립적인 경우?
    • independent assumption: P(X1,….Xn) = P (X1)P(X2)..P(Xn)
    • 하나의 픽셀이 가질 수 있는 색상 수 = 2n
    • 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = n

따라서 독립 어셈블은 표현의 수를 줄이므로 유의한 분포를 모델링할 수 없습니다.

Conditional Independence(조건부 독립)

  • Chain rule (항상 만족): P(X1,….Xn) = P (X1)P(X2|X1)..P(Xn|X1,…,Xn-1)
    • 파라미터 수 = 1+2+22+…+2n-1=2n-1
    • P(X1): 1개
    • P(X2|X1): 2개(P(X2|X1=0)시와 P(X2|X1=1)시)
    • P(X3|X1,X2): 4개 (P(X3|X1)=0,1 / P(X3|X2)=0,1)
  • Bayes’ rule


  • Chain rule 과 bayes’ rule 에 의한 conditional independence(Markov assumption)의 식은
도출되는 결과

  • Markov assumption
    • 파라미터 수 = 1+2(n-1)=2n-1
    • Markov assumption을 사용하여 매개 변수 수를 지수적으로 줄일 수 있습니다.

    • Autoregressive model은 conditional independence를 사용합니다.

Autoregressive Model (자기 회귀 모델)


  • 변수의 과거 값의 선형 결합을 사용하여 관심 변수를 예측
  • ex. 흑백 이미지(픽셀이 0 또는 1)가 28×28(784)개인 경우
    • 하나의 픽셀이 가질 수 있는 색상 수 = 2n
    • 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = 2n -1
    • 체인 규칙을 사용하여 결합 확률 분포를 계산하는 경우
      • P(X1:784) = P (X1)P(X2|X1)P(X3|X2)…
      • 이것을 Autoregressive model이라고 합니다.

NADE: Neural Autoregressive Density Estimator


  • autoregressive model을 최초로 활용한 논문


i번째 픽셀의 확률 분포

  • explicit model이다!
    단순히 무언가를 생성 할 수있을뿐만 아니라 새로운 입력의 density를 얻을 수 있습니다.

  • i번째 픽셀을 1-i-1번째 픽셀에 의존
  • 연속 확률 변수의 경우 마지막 모델에 Gaussian(MoG)을 사용합니다.

요약


  • Autoregressive model은 sampling이 간단!
  • Autoregressive model은 확률을 계산하기 쉽습니다!
    (generation은 길어집니다)
  • 다른 모델과 달리 연속 확률 변수의 경우 확장하기 쉬운(MoG)