전체 글 61

논문 리뷰: Sharpness-Aware Minimization for Efficiently Improving Generalization

"Sharpness-Aware Minimization for Efficiently Improving Generalization" (2020, google research) Introduction 이번 논문은 flat minima를 찾아 Generalization 성능을 이끌어내는 알고리즘을 제안한 논문이다. Flat minimum의 loss는 주위 loss와 차이가 별로 나지 않을 것임을 안다. 이런 조건을 만족하도록 optimize 하는게 핵심이다. 기존부터 loss landscape은 generalization 논문에서 자주 등장한다. 보통의 경우 landscape이 flat 할수록 general 한 성능을 보이고 sharp 할수록 그렇지 않다고 주장한다 (보통의 경우라 한 이유는 그 반대의 주장을 ..

Variational AutoEncoder란?

오토인코더의 모든 것(youtube) - 이활석 Variational AutoEncoder와 ELBO(blog) - Seon Guk "Auto-Encoding Variational Bayes"(2014) - Kingma et al. "An Introduction to Variational AutoEncoders(2019)" - Kingma et al. 이활석님의 명강의 '오토인코더의 모든 것' , VAE와 ELBO에 대해 슬라이드로 잘 정리한 블로그, Variational AutoEncoder(VAE)에 대한 논문을 참조하였다. VAE는 Autoencoder와는 다르게 latent variable을 Gaussian 분포 같이 잘 알려진 Prior 분포를 설정하고 거기에 맞출 수 있어서 이미지 등을 만들 ..

KL-divergence with Gaussian distribution 증명

https://stats.stackexchange.com/questions/7440/kl-divergence-between-two-univariate-gaussians https://namu.wiki/w/%EA%B0%80%EC%9A%B0%EC%8A%A4%20%EC%A0%81%EB%B6%84 https://mathcs.clarku.edu/~djoyce/ma217/contexp.pdf https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC 이번에는 두 개의 서로 다른 Gaussian 분포를 가정했을 때 KL-divergence(Kullback–Leibler divergence, KLD)를 구하는 유도 과정을 정리한다. 위의 여러 링크들을 참고..

논문 리뷰: SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates

"SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates" (2020, ICML) - Lingkai Kong et al. https://en.wikipedia.org/wiki/Euler%E2%80%93Maruyama_method https://arxiv.org/abs/1806.07366 https://en.wikipedia.org/wiki/Euler_method https://github.com/msurtsukov/neural-ode/blob/master/Neural%20ODEs.ipynb https://github.com/Lingkai-Kong/SDE-Net 이번 논문은 2018 nips에 올라온 Neural ordinary differe..

논문 리뷰: Learning Deep Features for Discriminative Localization

"Learning Deep Features for Discriminative Localization" (CVPR 2015) - Bolei Zhou 이번 논문은 오래됐지만 아직도 많이 인용되고 논문의 실험 결과로 자주 사용되는 Class Activation Maps (CAM)을 다룬 논문에 대한 리뷰이다. 문제와 해결책 딥러닝 기술이 점점 정확도가 높아져가며 성능이 좋아졌지만 그것이 왜 그런 결과를 내는지는 알기 어려웠다. 이러한 것을 두고 딥러닝은 black box와 같다고 묘사를 하곤 한다. 그 안에서 무슨 일이 일어나는지 왜 그런 판단을 하는지 어렵기 때문이다. 이 어두컴컴한 상자에 빛을 내려준 기술 중 하나가 이 논문에서 제시한 Class Activation Maps (CAM)이다. 기존의 CNN에..

논문 리뷰: Uncertainty-Aware Learning From Demonstration Using Mixture Density Networks with Sampling-Free Variance Modeling

"Uncertainty-Aware Learning From Demonstration Using Mixture Density Networks with Sampling-Free Variance Modeling" - Sunjun Choi (2017) https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 이번 논문은 Mixture Density Network 구조를 이용하여 Sampling을 하지 않고 Uncertainty를 알 수 있는 모델링 방법을 제시하였다. 2가지 Uncertainty에 대해 비슷한 의미를 가진 용어가 많이 사용되는데 여기서 정리하고 시작한다. (Uncertainty를 variance로 혼용해서도 사용한다.) Aleatoric U..

논문 리뷰: What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision

"What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision" (NIPS 2017) - Alex Kendal, Yarin Gal https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 이번 논문은 Computer Vision 분야에서 Uncertainty를 다룬 논문이다. 사실 Computer Vision에 관심이 있지는 않지만 Uncertainty에 대해 새로운 방법을 제시하여 읽어보았다. 문제제기 및 해결책 어플리케이션에서 AI가 흑인 여성 2명을 고릴라라고 판단한 사건이 있다. 이는 인종 차별 문제로 번져 문제가 되었다.(기사 링크) 또 자율주행 시스템이 하얀 트레일..

논문 리뷰: Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles

"Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles" (ICML 2017) - DeepMind https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 기존의 연구와 한계, 해결책 딥러닝이 발전하며 많은 발전을 이루었지만 아직 부족한 것들이 많이 있다. Uncertainty를 구하는 일이 그중 하나다. 특히 의료, 금융, 자율주행 등의 task에서 overconfident 한 예측은 치명적인 결과를 이끌 수 있기 때문에 불확실성이 더욱 중요한 키워드가 되었다. 이 논문이 나오기 전에 uncertainty를 구하는 방법들은 대부분 베이지안과 관련이 되어 있었다. 베이지..

베이지안 딥러닝 (4) - variational inference

베이지안 딥러닝의 목적은 새로운 입력(x*,y*)에 대한 Posterior를 추론하는 것이고 그에 대한 식은 다음과 같이 나타낼 수 있다. $$P(y_{*},x_{*}) = \int_{w}P(y|x_{*},w)P(w|x,y)dw$$ 이전 글에서 본 바와 같이 posterior $P(w|D)$를 구하기 어렵고 구했다해도 수많은 파라미터 w에 대해 적분을 해주는 것이 불가능하다. 그래서 다른 방법을 이용하여야 하는데 이때 사용하는 방법 중 하나가 variational inference이다. 간단히 말하면 우리가 알고 있는 어떤 분포 Q(w)를 Posterior $P(w|D)$로 근사하는 것이다. 그렇다면 그 방법은 무엇인가? 이때 등장하는 것이 KL-divergence 와 Evidence Lower BOun..

Challenges with Extreme Class-Imbalance and Temporal Coherence: A Study on Solar Flare Data

이번 논문은 Class-Imbalance와 Temporal Cocherence 한 데이터를 다룰 때 어떤 방법들이 있으며 어떤 함정을 피해야 하는지를 소개한 논문이다. Solar Flare Data로 예시를 들며 설명을 하였는데 마침 플레어와 관련한 논문을 작성하기로 해서 본 논문이다. 실제로 플레어는 X-ray flux의 파장에 따라 등급을 나누는데 굉장히 Imbalance 하다. 강한 것부터 나열하면 X, M, C, B, N인데 갈수록 많아지는 구조이다. 또한 태양은 11년이라는 주기를 가지고 있어 각 연도별로 X등급이 나오는 비율도 다르다. 논문에서는 2009~2019까지의 데이터를 사용해 아래와 같은 그래프를 나타냈다. X Class의 분포가 나머지에 비해 굉장히 적음을 알 수 있다. 논문 제목에..