상세한 프로젝트 내용은 랩업 리포트를 참고해주세요!!
Wrap up
💡 Open-Domain Question Answering (ODQA)
- **Question Answering (QA)**은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야입니다.
- 다양한 QA 시스템 중 ODQA는 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Knowledge resource 에서 질문에 대답할 수 있는 문서를 찾는 과정이 추가되기 때문에 더 어려운 문제입니다.
- 질문에 관련된 문서를 찾아주는 "retriever" 와 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 "reader"를 구현하여 질문에 대한 원하는 답변을 얻을 수 있습니다.
- 데이터 유형 (Source) :
wikipedia_documents
(약 57,000개) - **Train_dataset 데이터 개수 : train (**3,952), validation (240)
- Test_dataset 데이터 개수 : validation (600)
- Exact Match (EM) : 모델의 예측과, 실제 답이 정확하게 일치할 때만 점수가 주어지는 평가방식
- F1 Score : 일치하지 않더라도 겹치는 단어도 있는 것을 고려해 부분 점수가 주어지는 평가방식
제공된 학습 데이터셋 구성
- 김효연 : Haystack, Elasticsearch(Retrieval), DPR(Retrieval)
- 서유현 : 데이터 전처리/후처리, Question Generation, PEFT
- 손무현 : 데이터 증강 (BackTranslation), Retrieval 실험 및 앙상블, PEFT
- 이승진 : 데이터 전처리, Haystack, BM25(Retrieval), Reranker, DAPT-TAPT-Fine tuning(twice)
- 최규빈 : 프로젝트 서칭, Base-code 작성, Curriculum learning
- 황지원 : PM, 데이터 증강 (Hanspell), 데이터 샘플링 및 전처리, Bigbird(Reader), DPR(Retrieval)