Transformer의 핵심인 Multi-Head Attention을 모두 알아보았고 남은 Feed forward, Residual Connection, Positional Encoding에 대해 알아볼 것이다. Transformer는 입력값을 줄 때, RNN과 달리 입력을 순차적으로 주지 않는다. 따라서 시퀀스 정보를 넣어줘야 하는 문제가 생긴다. 이 문제를 해결한 것이 Positional Encoding이다. Positional Encoding의 기본적 메커니즘은 Embedding 된 input과 같은 크기의 벡터를 각각에 더해줌으로써 상대적인 위치정보에 대해서 알려주는 것이다. 이 포지셔널 인코딩은 보통 sin,cos을 이용하여 계산하는데 식은 다음과 같다. pos는 전체 시퀀스에서 몇번째 단어(임..