반응형

머신러닝&딥러닝/베이지안 5

Gaussian Process Regression

지난 gaussian process regression 글은 weight space view로 설명하여 어려운 느낌이 든다. 이번에는 좀 더 쉽게 정리해 보려고 한다. Purpose gpr의 목적은 데이터(x, y)를 몇 개 가지고 있고 새로운 x가 있을 때 y를 구하고 싶은 것이 목적이다. 사실 이런 목적은 gpr 뿐 아니라 다른 방법으로도 달성할 수는 있다. linear regression 같은 것이 대표적이다. 하지만 gpr의 장점은 좀 더 복잡한 분포를 잡아낼 수 있다는 것이다. How 가지고 있는 데이터(x,y)를 가지고 새로운 x에 대해 y를 추론하는 게 목적이라면 기존 데이터를 어떻게 사용할 것인지 정해야 한다. gpr의 핵심은 기존 데이터들의 관계를 gaussian과 kernel을 이용하여..

베이지안 딥러닝 (4) - variational inference

베이지안 딥러닝의 목적은 새로운 입력(x*,y*)에 대한 Posterior를 추론하는 것이고 그에 대한 식은 다음과 같이 나타낼 수 있다. $$P(y_{*},x_{*}) = \int_{w}P(y|x_{*},w)P(w|x,y)dw$$ 이전 글에서 본 바와 같이 posterior $P(w|D)$를 구하기 어렵고 구했다해도 수많은 파라미터 w에 대해 적분을 해주는 것이 불가능하다. 그래서 다른 방법을 이용하여야 하는데 이때 사용하는 방법 중 하나가 variational inference이다. 간단히 말하면 우리가 알고 있는 어떤 분포 Q(w)를 Posterior $P(w|D)$로 근사하는 것이다. 그렇다면 그 방법은 무엇인가? 이때 등장하는 것이 KL-divergence 와 Evidence Lower BOun..

베이지안 딥러닝 (3) - 베이지안 딥러닝은 무엇인가?

Deep Learning에 베이지안을 사용하면 뭐가 좋은가? 불확실성에 대해 알 수 있다. 이에 대한 지표로 Expected Calibration Error (ECE)를 알면 좋다. 이번에 새롭게 알게 된 지표인데 상당히 유용한 것 같다. Classification을 하게 될 때 softmax를 사용하게 된다. 이 softmax는 결과값에 대한 확률 값을 주게 되는데 일반적인 머신러닝 방법에서는(특히 데이터가 별로 없을 때) 그 값이 over-confident 하게 나온다. 쉽게 예를 들어보면 고양이와 강아지를 분류하는 모델인데 어떤 사진을 주었을 때, 결과에 대한 확률 값이 한쪽으로 쏠려서 높게 나온다는 이야기이다. 제대로 분류를 하여 잘 나온다면 괜찮겠지만 아리송한 경우에도 그 값이 높을 때는 문제가..

베이지안 딥러닝 (2) - Gaussian Process Regression (1)

Gaussian Process Regression(GPR)은 Non-parametric Bayesian regression 방법으로 Gaussian Process의 성질을 이용한다. 이를 이해하기 위해 먼저 Gaussian Process(GP)를 알아야 한다. GP는 처음 들어보는 것으로 낯설지만 어렵지 않은 개념이다. GP는 Random Process의 한 종류인데 Random Process는 시간(혹은 공간) 별로 표시된 확률변수의 조합이다. 직관적 이해를 돕기 위해 시간을 t 하나로 고정시키면 Random Process는 Random Variable이 된다. 즉 하나의 시간별로 Random Variable이 있고 이것이 시간만큼 나열되어 있는 것이다. Random Process X(t)인 $t_{1..

베이지안 딥러닝 (1) - 기초 정리 (베이즈룰,ML,MAP)

딥러닝에서 Uncertainty 추정에 관심을 갖다 보니 베이지안 딥러닝이 자주 보인다. 하지만 통계를 전공하지 않아 어려움이 많았다. 그래서 따로 기초부터 심화까지 정리를 하려고 한다. 우선 가장 기초인 베이즈 룰부터 시작한다. 베이즈 룰의 수식은 아래와 같다. $$P(B|A) = \frac{P(B \cap A)} {P(A)} = \frac{P(A \cap B)} {P(A)} = \frac{P(A|B) P(B)} {P(A)} $$ *$(P(A \cap B) = P(A|B)P(B))$ 이때 각각의 수식이 어떤 용어로 불리며 어떤 의미를 가지고 있는지를 잘 이해하고 있어야 뒤에 나오는 내용들을 이해하기 쉽다. 우선 $P(B|A)$ 는 구하고자 하는 값으로 Posterior Probability라고 하며 사..

반응형