ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
subinium opened this issue · comments
Subin An commented
- https://arxiv.org/abs/2003.10555
- ELECTRA
Subin An commented
Introduction
- BERT의 MLM 방식에는 큰 문제가 있다.
- 15%만 마스킹을 통해 그레디언트를 흘리는데,
- 그럼 열심히 모은 데이터를 너무 일부만 사용하는 게 아닐까??
- 데이터를 더 사용할 수 있는 새로운 방법을 제안한다!
Replaced Token Detection
-
기존 MLM은 [MASK]의 단어를 맞추는 것에서 끝냈다면
- 이러면 일부 단어에 대해만 학습하는 경우도 문제.
-
ELECTRA는 한발 더 나아가 이후 단어들이 MLM을 통해 만든 것인지, 원래 단어인지 Classification을 추가
- 마치 Discriminator
- 다만 텍스트는 back-propagation이 어렵기 대문에 Maximum likelihood를 통해 학습
-
GPU로 4일만에 GPT GLUE score을 뛰어넘음 (30배 적은 연산량)
Model Extension
- Weight Sharing : Gen/Dis 사이즈가 달라야해서 embedding만 share
- Smaller Generator : Generator의 사이즈가 Discriminator의 사이즈 1/2~1/4일때 성능이 제일 좋음
- Training Algorithms : 여러 개 했는데 성능이 엄청 좋지는 않았음
- MLM loss를 이용해 n step만 학습
- Dis를 Gen 모델로 초기화하고, Gen만 고정
- 강화학습도 해봄
- Small Models : 사이즈를 줄여 BERT보다 좋고, GPT보다도 좋았음
- Large Models : 사이즈를 늘려서 XLNet/RoBERTa보다 계산량 1/4로 비슷한 성능
Subin An commented
도움되는 자료
- 개인적으로 ELECTRA는 논문 실험 디테일들이 재밌어서 원문으로 읽어보는 것 추천추천
- [고려대 ICPS lab. 논문리뷰] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS