반응형

분류 전체보기 66

Multi-task learning & Meta-learning

이번 글은 Multi-task learning과 Meta-learning 알고리즘 비교와 특징을 비교하여 설명한다. Multi-task learning은 처음 딥러닝을 공부할 때부터 많이 들어온 알고리즘이다. 알고리즘의 목적은 여러 task를 함께 풀어내어 좋은 성능을 내는 것이다. 여러 task를 함께 학습하여 general 한 feature를 뽑게 하여 학습에 도움을 주며 한 번에 여러 개를 풀 수 있으므로 efficient 한 장점이 있다. Meta-learning은 익숙하지 않은 경우가 많을 것 같다. 논문은 많이 나왔지만 실제 사용하여 문제를 푸는 경우는 거의 못봤기 때문인 것 같다. 알고리즘의 목적은 unseen task에 대해 few 개의 데이터를 주었을 때 그것을 빠르게 학습하도록 만드는 ..

논문 리뷰: multi-task learning using uncertainty to weigh losses for scene geometry and semantics

"multi-task learning using uncertainty to weigh losses for scene geometry and semantics" (CVPR 2018) - Gal et al. multi-task learning 시 loss는 여러 task에 대한 sum으로 주게 된다. 이때 loss를 주는 비율이 중요한데 보통은 hyper-parameter로 주어진다. 그런데 이 논문은 Uncertainty를 사용하여 weight를 learning 하게 해 줄 수 있는 방법을 제시한다. Introduction Multi-task learning은 여러 task를 한 번에 풀어내는 neural network를 만들어내므로 efficient 한 장점이 있으며 shared representatio..

Likelihood, Maximum likelihood estimation 이란?

딥러닝 공부를 하다 보면 likelihood가 자주 등장한다. 기본적인 내용들을 다시 한번 remind 하기 위해 정리해둔다. Likelihood를 식으로 표현하면 다음과 같다. $$ L(\theta|D) $$ $\theta$는 parameter이고 D는 data를 의미한다. 식을 그대로 해석해보면, 가능도는 관측값(D)이 주어졌을 때(given) 관측값이 $\theta$에 대한 확률분포 $P(\theta)$에서 나왔을 확률이다. likelihood가 익숙하면서 안 익숙한(?) 이상한 느낌이 드는 이유는 likelihood와 비슷하게 생긴 $Pr(D|\theta)$라는 식을 자주 보았기 때문이다. 이 식은 '확률'을 나타내는데 중, 고등학교 과정에서 자주 봤었다. 확률은 가능도와 다르게 확률분포 $P(\..

Gaussian Process Regression

지난 gaussian process regression 글은 weight space view로 설명하여 어려운 느낌이 든다. 이번에는 좀 더 쉽게 정리해 보려고 한다. Purpose gpr의 목적은 데이터(x, y)를 몇 개 가지고 있고 새로운 x가 있을 때 y를 구하고 싶은 것이 목적이다. 사실 이런 목적은 gpr 뿐 아니라 다른 방법으로도 달성할 수는 있다. linear regression 같은 것이 대표적이다. 하지만 gpr의 장점은 좀 더 복잡한 분포를 잡아낼 수 있다는 것이다. How 가지고 있는 데이터(x,y)를 가지고 새로운 x에 대해 y를 추론하는 게 목적이라면 기존 데이터를 어떻게 사용할 것인지 정해야 한다. gpr의 핵심은 기존 데이터들의 관계를 gaussian과 kernel을 이용하여..

논문 리뷰: Learning towards Minimum Hyperspherical Energy

"Learning towards Minimum Hyperspherical Energy" (2018, NIPS) - Liu et al. 이 논문은 효율적인 neural network 학습을 위해 서로 다른 neuron이 나타내는 feature 사이의 distance가 증가하게 하고 그로 하여금 generalization 성능을 이끌어 내려고 한다. Introduction 최근 Neural Network 관련 paper들을 보면 크면 클수록(over parameterization) 잘 된다라고 한다. 그런데 한편으로는 클수록 correlation이 높은 neurons가 많아서 redundant 하다고도 한다. 그래서 큰 모델을 학습시키고 Pruning을 시켜 compression 하는 방법이나 efficie..

논문 리뷰: Sharpness-Aware Minimization for Efficiently Improving Generalization

"Sharpness-Aware Minimization for Efficiently Improving Generalization" (2020, google research) Introduction 이번 논문은 flat minima를 찾아 Generalization 성능을 이끌어내는 알고리즘을 제안한 논문이다. Flat minimum의 loss는 주위 loss와 차이가 별로 나지 않을 것임을 안다. 이런 조건을 만족하도록 optimize 하는게 핵심이다. 기존부터 loss landscape은 generalization 논문에서 자주 등장한다. 보통의 경우 landscape이 flat 할수록 general 한 성능을 보이고 sharp 할수록 그렇지 않다고 주장한다 (보통의 경우라 한 이유는 그 반대의 주장을 ..

Variational AutoEncoder란?

오토인코더의 모든 것(youtube) - 이활석 Variational AutoEncoder와 ELBO(blog) - Seon Guk "Auto-Encoding Variational Bayes"(2014) - Kingma et al. "An Introduction to Variational AutoEncoders(2019)" - Kingma et al. 이활석님의 명강의 '오토인코더의 모든 것' , VAE와 ELBO에 대해 슬라이드로 잘 정리한 블로그, Variational AutoEncoder(VAE)에 대한 논문을 참조하였다. VAE는 Autoencoder와는 다르게 latent variable을 Gaussian 분포 같이 잘 알려진 Prior 분포를 설정하고 거기에 맞출 수 있어서 이미지 등을 만들 ..

KL-divergence with Gaussian distribution 증명

https://stats.stackexchange.com/questions/7440/kl-divergence-between-two-univariate-gaussians https://namu.wiki/w/%EA%B0%80%EC%9A%B0%EC%8A%A4%20%EC%A0%81%EB%B6%84 https://mathcs.clarku.edu/~djoyce/ma217/contexp.pdf https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC 이번에는 두 개의 서로 다른 Gaussian 분포를 가정했을 때 KL-divergence(Kullback–Leibler divergence, KLD)를 구하는 유도 과정을 정리한다. 위의 여러 링크들을 참고..

논문 리뷰: SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates

"SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates" (2020, ICML) - Lingkai Kong et al. https://en.wikipedia.org/wiki/Euler%E2%80%93Maruyama_method https://arxiv.org/abs/1806.07366 https://en.wikipedia.org/wiki/Euler_method https://github.com/msurtsukov/neural-ode/blob/master/Neural%20ODEs.ipynb https://github.com/Lingkai-Kong/SDE-Net 이번 논문은 2018 nips에 올라온 Neural ordinary differe..

논문 리뷰: Learning Deep Features for Discriminative Localization

"Learning Deep Features for Discriminative Localization" (CVPR 2015) - Bolei Zhou 이번 논문은 오래됐지만 아직도 많이 인용되고 논문의 실험 결과로 자주 사용되는 Class Activation Maps (CAM)을 다룬 논문에 대한 리뷰이다. 문제와 해결책 딥러닝 기술이 점점 정확도가 높아져가며 성능이 좋아졌지만 그것이 왜 그런 결과를 내는지는 알기 어려웠다. 이러한 것을 두고 딥러닝은 black box와 같다고 묘사를 하곤 한다. 그 안에서 무슨 일이 일어나는지 왜 그런 판단을 하는지 어렵기 때문이다. 이 어두컴컴한 상자에 빛을 내려준 기술 중 하나가 이 논문에서 제시한 Class Activation Maps (CAM)이다. 기존의 CNN에..

반응형