GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
subinium opened this issue · comments
Subin An commented
Subin An commented
Concept
- GLUE는 General Language Understanding Evaluation의 약자 -> 다양한 NLU tasks의 성능 체크용
- 일단 3가지로 나뉘고 각각은 또 2, 3, 4개로 분류하여 총 9가지 tasks
- Single Sentence
- CoLA : 언어학적(문법적 영어 문장)으로 맞는지
- SST-2 : 영화 문장에 대한 긍정부정 체크
- Similarity and Paraphrase
- MRPC : 뉴스 문장 쌍을 사용하여 의미가 동일한지 체크, 클래스 불균형으로 F1도 측정
- QQP : Quora 질문쌍 모음, MRPC와 유사
- STS-B : 뉴스 헤드라인, 비디오 및 이미지 캡션, 자연어 추론 데이터셋에서 가져온 문장 쌍. 1~5로 사람이 유사성 점수를 수기로 달아둠. Pearson/Spearman 상관계수로 체크
- Natural Language Inference
- MNLI : 전체 문장과 가설 문장이 주어지고, 수반/모순/중립 여부 판별. 연설, 소설, 정부 보고서 등 10가지 소스에서 수집된 정보
- QNLI : SQuAD(Stanford Question Answering Dataset)은 문단 쌍으로 구성된 질문/응답(위키피디아의 문단 중 문장에 대한 질문)인데 이를 문단이 답변이 포함된 답을 하는지 안하는지로 변환
- RTE : MNLI와 유사
- WNLI : 대명사가 주어진 문장에서 어떤 대상인지 선택
- Single Sentence
ETC
- SuperGLUE가 그 다음 논문으로 나왔는데 언젠가 읽어보자.
- 생각보다 GLUE는 설명글이 없다. 그래서 번역이 막히면 답답했는데 도움이 된 게시물
- K-GLUE인 KLUE 프로젝트
- NLU 간단한 설명은 이수경, 최요중 : 2018-2020 NLU 연구 동향을 소개합니다를 참고
- 더 많은 자연어 공부는 Huffon/NLP101 레포 추천(나도 언젠간...)