생성 모델이란?
주어진 학습 데이터를 학습하고 학습 데이터의 분포를 따릅니다.
유사한 데이터를 생성하는 모델
ex. 강아지의 사진이 주어졌다고 하자.
- 확률 분포 p(x) -> implicit model라고도 불
- Generation: 새 강아지의 사진이 주어지면 강아지처럼 보입니다.
- Density estimation: 개를 닮은 경우 p(x) 값이 높고, 그렇지 않으면 낮아야 합니다.
- Generation: 새 강아지의 사진이 주어지면 강아지처럼 보입니다.
확률 분포 p(x)를 나타내기 위해 알아야 합니다.
Discrete Distributions(이산 분포)
- Bernoulli distribution(베르누이 분포): 동전의 반전과 같은 경우에는 두 개가 있습니다.
- ex. RGB 이미지의 1픽셀을 모델링하려면(0-255)
- 하나의 픽셀이 가질 수 있는 색상 수 = 256*256*256
- 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = 2563-1
- ex. RGB 이미지의 1픽셀을 모델링하려면(0-255)
- Categorical distribution(카테고리 분포): m개의 면이 있는 주사위 구름과 동일
- m- 하나의 확률만 알면 나머지 하나를 찾을 수 있습니다.
- m- 하나의 확률만 알면 나머지 하나를 찾을 수 있습니다.
Independence (독립 변수)
- ex. 흑백 이미지(pixel이 0 또는 1) n개인 경우
- 하나의 픽셀이 가질 수 있는 색상 수 = 2n
- 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = 2n -1
- ex. n개의 흑백 이미지(픽셀이 0 또는 1)가 독립적인 경우?
- independent assumption: P(X1,….Xn) = P (X1)P(X2)..P(Xn)
- 하나의 픽셀이 가질 수 있는 색상 수 = 2n
- 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = n
따라서 독립 어셈블은 표현의 수를 줄이므로 유의한 분포를 모델링할 수 없습니다.
Conditional Independence(조건부 독립)
- Chain rule (항상 만족): P(X1,….Xn) = P (X1)P(X2|X1)..P(Xn|X1,…,Xn-1)
- 파라미터 수 = 1+2+22+…+2n-1=2n-1
- P(X1): 1개
- P(X2|X1): 2개(P(X2|X1=0)시와 P(X2|X1=1)시)
- P(X3|X1,X2): 4개 (P(X3|X1)=0,1 / P(X3|X2)=0,1)
- Bayes’ rule
- Chain rule 과 bayes’ rule 에 의한 conditional independence(Markov assumption)의 식은
- Markov assumption
- 파라미터 수 = 1+2(n-1)=2n-1
- Markov assumption을 사용하여 매개 변수 수를 지수적으로 줄일 수 있습니다.
- Autoregressive model은 conditional independence를 사용합니다.
Autoregressive Model (자기 회귀 모델)
- 변수의 과거 값의 선형 결합을 사용하여 관심 변수를 예측
- ex. 흑백 이미지(픽셀이 0 또는 1)가 28×28(784)개인 경우
- 하나의 픽셀이 가질 수 있는 색상 수 = 2n
- 하나의 픽셀을 완전히 표현하기 위해 알아야 할 파라미터 수 = 2n -1
- 체인 규칙을 사용하여 결합 확률 분포를 계산하는 경우
- P(X1:784) = P (X1)P(X2|X1)P(X3|X2)…
- 이것을 Autoregressive model이라고 합니다.
NADE: Neural Autoregressive Density Estimator
- autoregressive model을 최초로 활용한 논문
- explicit model이다!
단순히 무언가를 생성 할 수있을뿐만 아니라 새로운 입력의 density를 얻을 수 있습니다. - i번째 픽셀을 1-i-1번째 픽셀에 의존
- 연속 확률 변수의 경우 마지막 모델에 Gaussian(MoG)을 사용합니다.
요약
- Autoregressive model은 sampling이 간단!
- Autoregressive model은 확률을 계산하기 쉽습니다!
(generation은 길어집니다) - 다른 모델과 달리 연속 확률 변수의 경우 확장하기 쉬운(MoG)