본문 바로가기
반응형

RNN3

RNNLM의 언어모델 개선 방법 안녕하세요. 하이퍼(Hyper)입니다. RNNLM(RNN Language Model)의 개선 방법에 대해 소개해드리겠습니다. RNNLM 개선 방법 LSTM 계층 다층화 드롭아웃(Dropout) 가중치 공유(Weight tying) LSTM 모델의 정확도 향상을 위해 LSTM을 여러개 쌓아 RNNLM을 만들 수 있다. 이때 쌓는 층 수가 많으면 하이퍼파라미터가 그만큼 많아지므로 모델이 복잡해진다. 따라서 일반적으로 2~4개가 적당하다고 알려져 있다. 드롭아웃(Dropout) 과적합(Overfitting)은 훈련데이터에만 치중하여 학습된 상태를 뜻합니다. 훈련 데이터에서는 높은 성능을 보이지만, 다른 데이터에서는 성능이 많이 떨어집니다. 보통 일반화 능력이 떨어진다고 말합니다. 과적합을 억제하는 방법은 다음.. 2023. 6. 13.
LSTM, GRU 개념 및 용어 정리 안녕하세요. 하이퍼(Hyper)입니다. 오늘은 기존 RNN의 문제를 보완한 LSTM(Long Short-Term Memoty),GRU(Gated Recurrent Unit))에 대해 간략히 알아보겠습니다. 기본적인 RNN의 경우 시계열 데이터에서 시간적으로 멀리 떨어져 있는 즉 장기(Long Term)의 의존관계를 잘 학습할 수가 없었습니다. 기울기가 소실 되거나 폭발되기 때문이죠. 이런 문제는 Gate라는 구조가 추가 된 LSTM, GRU로 장기 의존 관계를 학습하여 해결할 수 있습니다. 그렇다면 왜 기울기 소실이 되는 걸까요? RNN은 순전파 시 tanh함수를 사용하는데, 여기서 문제가 발생하는 것입니다. tanh의 미분 값은 1이하이며 x가 0으로 부터 멀어질수록 값이 점점 작아지며 0에 근사하게 .. 2023. 6. 12.
RNN 용어 정리 안녕하세요. 하이퍼(Hyper)입니다. 이번에 RNN가 무엇인이 간단히 알아보려합니다. CBOW(Continuous bag-of-words) Truncated BPTT(Backpropagation Through Time) RNNLM(RNN Language Model) CBOW (Continuous bag-of-words) '가방 속의 단어'로 직역할 수 있다. 순서는 무시된다는 속 뜻을 내포하고 있다. (순서 대신 분포를 이용한다.) 단어 벡터를 은닉층에서 연결하는 방식이다. [단점] 맥락의 크기에 비례해 가중치 매개변수도 늘어난다. 이런 문제를 RNN으로 해결한다. Truncated BPTT(Backpropagation Through Time) 순전파 신경망은 그대로 유지하고, '역전파'의 신경망 연결.. 2023. 6. 12.
반응형