반응형

머신러닝&딥러닝 52

Likelihood, Maximum likelihood estimation 이란?

딥러닝 공부를 하다 보면 likelihood가 자주 등장한다. 기본적인 내용들을 다시 한번 remind 하기 위해 정리해둔다. Likelihood를 식으로 표현하면 다음과 같다. $$ L(\theta|D) $$ $\theta$는 parameter이고 D는 data를 의미한다. 식을 그대로 해석해보면, 가능도는 관측값(D)이 주어졌을 때(given) 관측값이 $\theta$에 대한 확률분포 $P(\theta)$에서 나왔을 확률이다. likelihood가 익숙하면서 안 익숙한(?) 이상한 느낌이 드는 이유는 likelihood와 비슷하게 생긴 $Pr(D|\theta)$라는 식을 자주 보았기 때문이다. 이 식은 '확률'을 나타내는데 중, 고등학교 과정에서 자주 봤었다. 확률은 가능도와 다르게 확률분포 $P(\..

Gaussian Process Regression

지난 gaussian process regression 글은 weight space view로 설명하여 어려운 느낌이 든다. 이번에는 좀 더 쉽게 정리해 보려고 한다. Purpose gpr의 목적은 데이터(x, y)를 몇 개 가지고 있고 새로운 x가 있을 때 y를 구하고 싶은 것이 목적이다. 사실 이런 목적은 gpr 뿐 아니라 다른 방법으로도 달성할 수는 있다. linear regression 같은 것이 대표적이다. 하지만 gpr의 장점은 좀 더 복잡한 분포를 잡아낼 수 있다는 것이다. How 가지고 있는 데이터(x,y)를 가지고 새로운 x에 대해 y를 추론하는 게 목적이라면 기존 데이터를 어떻게 사용할 것인지 정해야 한다. gpr의 핵심은 기존 데이터들의 관계를 gaussian과 kernel을 이용하여..

논문 리뷰: Learning towards Minimum Hyperspherical Energy

"Learning towards Minimum Hyperspherical Energy" (2018, NIPS) - Liu et al. 이 논문은 효율적인 neural network 학습을 위해 서로 다른 neuron이 나타내는 feature 사이의 distance가 증가하게 하고 그로 하여금 generalization 성능을 이끌어 내려고 한다. Introduction 최근 Neural Network 관련 paper들을 보면 크면 클수록(over parameterization) 잘 된다라고 한다. 그런데 한편으로는 클수록 correlation이 높은 neurons가 많아서 redundant 하다고도 한다. 그래서 큰 모델을 학습시키고 Pruning을 시켜 compression 하는 방법이나 efficie..

논문 리뷰: Sharpness-Aware Minimization for Efficiently Improving Generalization

"Sharpness-Aware Minimization for Efficiently Improving Generalization" (2020, google research) Introduction 이번 논문은 flat minima를 찾아 Generalization 성능을 이끌어내는 알고리즘을 제안한 논문이다. Flat minimum의 loss는 주위 loss와 차이가 별로 나지 않을 것임을 안다. 이런 조건을 만족하도록 optimize 하는게 핵심이다. 기존부터 loss landscape은 generalization 논문에서 자주 등장한다. 보통의 경우 landscape이 flat 할수록 general 한 성능을 보이고 sharp 할수록 그렇지 않다고 주장한다 (보통의 경우라 한 이유는 그 반대의 주장을 ..

Variational AutoEncoder란?

오토인코더의 모든 것(youtube) - 이활석 Variational AutoEncoder와 ELBO(blog) - Seon Guk "Auto-Encoding Variational Bayes"(2014) - Kingma et al. "An Introduction to Variational AutoEncoders(2019)" - Kingma et al. 이활석님의 명강의 '오토인코더의 모든 것' , VAE와 ELBO에 대해 슬라이드로 잘 정리한 블로그, Variational AutoEncoder(VAE)에 대한 논문을 참조하였다. VAE는 Autoencoder와는 다르게 latent variable을 Gaussian 분포 같이 잘 알려진 Prior 분포를 설정하고 거기에 맞출 수 있어서 이미지 등을 만들 ..

KL-divergence with Gaussian distribution 증명

https://stats.stackexchange.com/questions/7440/kl-divergence-between-two-univariate-gaussians https://namu.wiki/w/%EA%B0%80%EC%9A%B0%EC%8A%A4%20%EC%A0%81%EB%B6%84 https://mathcs.clarku.edu/~djoyce/ma217/contexp.pdf https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC 이번에는 두 개의 서로 다른 Gaussian 분포를 가정했을 때 KL-divergence(Kullback–Leibler divergence, KLD)를 구하는 유도 과정을 정리한다. 위의 여러 링크들을 참고..

논문 리뷰: SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates

"SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates" (2020, ICML) - Lingkai Kong et al. https://en.wikipedia.org/wiki/Euler%E2%80%93Maruyama_method https://arxiv.org/abs/1806.07366 https://en.wikipedia.org/wiki/Euler_method https://github.com/msurtsukov/neural-ode/blob/master/Neural%20ODEs.ipynb https://github.com/Lingkai-Kong/SDE-Net 이번 논문은 2018 nips에 올라온 Neural ordinary differe..

논문 리뷰: Learning Deep Features for Discriminative Localization

"Learning Deep Features for Discriminative Localization" (CVPR 2015) - Bolei Zhou 이번 논문은 오래됐지만 아직도 많이 인용되고 논문의 실험 결과로 자주 사용되는 Class Activation Maps (CAM)을 다룬 논문에 대한 리뷰이다. 문제와 해결책 딥러닝 기술이 점점 정확도가 높아져가며 성능이 좋아졌지만 그것이 왜 그런 결과를 내는지는 알기 어려웠다. 이러한 것을 두고 딥러닝은 black box와 같다고 묘사를 하곤 한다. 그 안에서 무슨 일이 일어나는지 왜 그런 판단을 하는지 어렵기 때문이다. 이 어두컴컴한 상자에 빛을 내려준 기술 중 하나가 이 논문에서 제시한 Class Activation Maps (CAM)이다. 기존의 CNN에..

논문 리뷰: Uncertainty-Aware Learning From Demonstration Using Mixture Density Networks with Sampling-Free Variance Modeling

"Uncertainty-Aware Learning From Demonstration Using Mixture Density Networks with Sampling-Free Variance Modeling" - Sunjun Choi (2017) https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 이번 논문은 Mixture Density Network 구조를 이용하여 Sampling을 하지 않고 Uncertainty를 알 수 있는 모델링 방법을 제시하였다. 2가지 Uncertainty에 대해 비슷한 의미를 가진 용어가 많이 사용되는데 여기서 정리하고 시작한다. (Uncertainty를 variance로 혼용해서도 사용한다.) Aleatoric U..

논문 리뷰: What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision

"What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision" (NIPS 2017) - Alex Kendal, Yarin Gal https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 이번 논문은 Computer Vision 분야에서 Uncertainty를 다룬 논문이다. 사실 Computer Vision에 관심이 있지는 않지만 Uncertainty에 대해 새로운 방법을 제시하여 읽어보았다. 문제제기 및 해결책 어플리케이션에서 AI가 흑인 여성 2명을 고릴라라고 판단한 사건이 있다. 이는 인종 차별 문제로 번져 문제가 되었다.(기사 링크) 또 자율주행 시스템이 하얀 트레일..

반응형