simpling

  • 홈
  • 태그
  • 방명록

마르코프 1

강화학습 기초 다지기 (1) - 마르코프

마르코프는 강화 학습 기초에 꼭 등장하는 개념이다. 이번 글에서는 마르코프와 관련된 개념들을 정리할 것이다. 마르코프 특성 (Markov Property) '마르코프 하다'라는 것은 미래 상태 $s_{t+1}$은 현재 상태 $s_{t}$에만 의존한다는 것을 의미한다. 다른 말로 하면 현재 상태를 알면, 그 이전의 모든 역사를 아는 것과 동일하게 미래 상태 $s_{t+1}$를 추론할 수 있다는 의미다. 이를 수식으로 표현하면 다음과 같이 나타낼 수 있다. $$ P(s_{t+1}|s_{t}) = P(s_{t+1}|s_{t}, s_{t-1},..., s_{0}) $$ 마르코프 과정 (Markov Process - MP : $$) 마르코프 특성을 만족하는 상태의 반복을 마르코프 과정(Markov process)..

머신러닝&딥러닝/강화학습 2022.05.01
이전
1
다음
더보기
프로필사진

인공지능 및 파이썬 공부를 하며 정리하는 공간입니다.

  • 분류 전체보기
    • 퀀트투자
    • Story
      • 여행
    • python
    • 머신러닝&딥러닝
      • Tensorflow&keras
      • 강화학습
      • 자연어처리
      • 논문리뷰
      • 기초정리
      • 베이지안
      • Torch
    • django
    • 컴퓨터 과학
      • 컴퓨터 구조
      • 운영체제
      • 네트워크

Tag

베이지안 딥러닝, self attention, CNN, TRANSFORMER, multi-task-learning, LSTM, Generalization, 자연어처리, 일본여행, uncertainty, aleatoric, swa, 마르코프, 트랜스포머, bayesian deep learning, interpretable, 딥러닝, 경사하강, epistemic, bayesian,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

Archives

Copyright © Kakao Corp. All rights reserved.

티스토리툴바