Hagazzusa / korquad_qg_data

KorQuAD에서 질문생성용으로 전처리한 데이터

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

KorQuAD QG data

KorQuAD 1.0 데이터를 전처리 했으며 세종 형태소 태그로 태깅되어 있습니다.

본 깃허브는 아래 논문들에서 사용한 데이터입니다.

[1] 김건영, 이창기. 정답 분리 인코더와 복사 메커니즘을 이용한 질문 생성, 제31회 한글 및 한국어 정보처리 학술대회, 2019, 419~423

[2] 김건영, 이창기. Sequence-to-sequence 모델을 이용한 한국어 질문 생성, KCC, 2019, 590~592

임베딩은 단어 0.1 0.2 ...\n 구조로 되어있습니다. 단어사전은 <pad> <mask> <unk> <eos> <sos>를 포함합니다.

origin은 정답 위치 피쳐가 추가 안된 문장이며 feat는 피쳐가 추가된 데이터입니다.

About

KorQuAD에서 질문생성용으로 전처리한 데이터

License:MIT License