subinium / Deep-Papers

Deep Learning Paper Simple Review + Helpful Article

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

subinium opened this issue · comments

Introduction

  • BERT의 MLM 방식에는 큰 문제가 있다.
    • 15%만 마스킹을 통해 그레디언트를 흘리는데,
    • 그럼 열심히 모은 데이터를 너무 일부만 사용하는 게 아닐까??
    • 데이터를 더 사용할 수 있는 새로운 방법을 제안한다!

Replaced Token Detection

  • 기존 MLM은 [MASK]의 단어를 맞추는 것에서 끝냈다면

    • 이러면 일부 단어에 대해만 학습하는 경우도 문제.
  • ELECTRA는 한발 더 나아가 이후 단어들이 MLM을 통해 만든 것인지, 원래 단어인지 Classification을 추가

    • 마치 Discriminator
    • 다만 텍스트는 back-propagation이 어렵기 대문에 Maximum likelihood를 통해 학습
  • GPU로 4일만에 GPT GLUE score을 뛰어넘음 (30배 적은 연산량)

Model Extension

  • Weight Sharing : Gen/Dis 사이즈가 달라야해서 embedding만 share
  • Smaller Generator : Generator의 사이즈가 Discriminator의 사이즈 1/2~1/4일때 성능이 제일 좋음
  • Training Algorithms : 여러 개 했는데 성능이 엄청 좋지는 않았음
    • MLM loss를 이용해 n step만 학습
    • Dis를 Gen 모델로 초기화하고, Gen만 고정
    • 강화학습도 해봄
  • Small Models : 사이즈를 줄여 BERT보다 좋고, GPT보다도 좋았음
  • Large Models : 사이즈를 늘려서 XLNet/RoBERTa보다 계산량 1/4로 비슷한 성능

도움되는 자료