simpling

  • 홈
  • 태그
  • 방명록

Keras 1

Embedding 이란 무엇인가 이해하기

인간의 언어(자연어)는 수치화되어 있지 않은 데이터이기 때문에 머신러닝, 딥러닝 기법을 바로 사용할 수가 없다. (수치화되어있는 데이터의 예로는 Mnist나 꽃의 종류처럼 숫자로 분류가 가능한 것들을 말함.) 그래서 자연어 처리에서 특징 추출을 통해 수치화를 해줘야 하는데 이때 사용하는 것이 "언어의 벡터화"이다. 이런 벡터화의 과정을 Word Embedding이라고 한다. 가장 기본적인 벡터화의 방법은 One-hot encoding 방법이다. 예를 들어, 남자와 여자를 표현하는 벡터를 만든다고 할 때 각각을 [1,0] [0,1]로 만드는 방법이다. 그런데 이 방법은 단어가 많아지면 벡터 공간이 매우 커지고 실제 1인 값은 한 개뿐 이므로 매우 비효율적이다. 또 이런 표현방식은 단어가 뭔지만을 알려줄 뿐..

머신러닝&딥러닝/자연어처리 2019.12.20
이전
1
다음
더보기
프로필사진

인공지능 및 파이썬 공부를 하며 정리하는 공간입니다.

  • 분류 전체보기
    • 퀀트투자
    • Story
      • 여행
    • python
    • 머신러닝&딥러닝
      • Tensorflow&keras
      • 강화학습
      • 자연어처리
      • 논문리뷰
      • 기초정리
      • 베이지안
      • Torch
    • django
    • 컴퓨터 과학
      • 컴퓨터 구조
      • 운영체제
      • 네트워크

Tag

CNN, multi-task-learning, Generalization, bayesian deep learning, 경사하강, LSTM, aleatoric, interpretable, swa, 자연어처리, bayesian, 베이지안 딥러닝, uncertainty, 일본여행, 딥러닝, epistemic, 마르코프, TRANSFORMER, self attention, 트랜스포머,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

Archives

Copyright © Kakao Corp. All rights reserved.

티스토리툴바