'attention' 태그의 글 목록

본문 바로가기

attention

RNN에 attention 더하기 RNNRNN은 시퀀스 단위로 입력과 출력을 처리하는 모델을 말해요. 여기서 시퀀스는 “순서가 있는 데이터”, 우리가 쓰는 언어의 문장같은 게 시퀀스인데요.(정확하게는 단어나 문장만이 아니라 시간 순서가 있는 모든 데이터를 포괄하는 뜻). 쉽게 말해 한글 문장을 입력하면, 영어 문장으로 번역해서 출력해주는 것을 상상하면 됩니다. 이런 시퀀스를 처리하기 위해 개발된 가장 기본적인 모델이 RNN이죠. 순서가 있는 데이터이기 때문에, 이전 상태를 다음 상태에 기억시키기 위해 정보를 넘겨주면서 가는 방식이에요. 이걸로 번역기 모델을 짠다고 치면,(이게 Seq2seq 모델인데) 크게 이런 구조로 짜여 있어요. 인코더 RNN -> 컨텍스트 벡터 -> 디코더 RNN인코더는 입력받은 문장을 일정한 크기를 가진 벡터로 바.. 더보기

Attention! Attention! Attention! Attention은 왜 등장한 걸까?seq2seq 모델은 문장을 입력하면 -> 문장이 출력되는 모델이다. 예를 들어서 번역이라고 했을 때, 나는 점심을 먹었다 -> I ate lunch 이렇게 문장을 넣고 다른 문장이 나오는 것. 예를 들어 RNN에서 seq2seq 방식은, 인코더 -> 컨텍스트 벡터 -> 디코더인코더는 문장의 단어들을 입력받은 뒤에 모든 정보를 하나의 고정된 컨텍스트 벡터에 담고 디코더로 넘긴다. 디코더는 컨텍스트 벡터를 받아 단어를 출력.그런데 여기서 문제가 발생!long term dependency 입력하는 문장 전체를 하나의 고정된 벡터로 압축해서 디코더로 전달하는 과정에서 문제가 발생. 인코더가 입력 시퀀스를 고정 길이의 컨텍스트로 압축하는 과정에서 정보가 소실되어서 이전 정보를.. 더보기

이전 1 다음

티스토리툴바