Awesome_Korean_Data
한국어 데이터 세트 링크
팁: ragsgo 전처리 데이터 에서는 한국어 위키피디아를 포함한 전처리 데이터와 위젯을 이용한 데이터 다운로드를 제공하고 있음!
한국어 텍스트 데이터
번호 | 데이터 종류 | 링크 | 비고 |
---|---|---|---|
1. | 한국 정치인 뉴스 데이터 세트 | - | |
2. | 네이버 뉴스 중 IT/과학 분야에서 50개를 선정해서 요약에 해당하는 문장을 태깅해둔 데이터 세트 | - | |
3. | 영화추천시스템을 위한 데이터 세트 | - | |
4. | Naver sentiment movie corpus v1.0(네이버 악평과 선평을 구분해 놓은 데이터) | - | |
5. | Naver sentiment movie corpus v1.0를 다운 받아서 감성분석 레이블링을 상세화('toxic', 'obscene', 'threat', 'insult', 'identity_hate')한 데이터 | - | |
6. | Paired Question(질문쌍이 같은 질문인지 다른 질문인지 구별하는 데이터) | - | |
7. | 한국어 개체명 정의 및 표지 표준화 기술보고서와 이를 기반으로 제작된 개체명 형태소 말뭉치 | - | |
8. | KoreanNERCorpus(개체명 말뭉치) | - | |
9. | 한국어 NER 사전 | - | |
10.1 | 챗봇용 대화 세트 | - | |
10.2 | 챗봇용 대화 세트와 코드 | 10.1과 10.2는 거의 겹치는 질문이 없다고 할 만큼 주제가 다르다. 10.1은 "위로해 줘"와 같이 좀 더 사적 담화의 성격이 강하다면 10.2는 "어떤 메일이 더 유용해?" 와 같이 지식인 QnA에 나올 법한 질문들도 많다. | |
11. | 한영/한불 병렬말뭉치(번역용) | - | |
12. | 한영 병렬 말뭉치 | Korean-English parallel corpus | - |
13. | 청와대 국민청원 사이트의 만료된 청원 데이터 모음 | - | |
14. | 공공데이터포털 뉴스빅데이터 분석 정보(뉴스데이터베이스 'Kinds' 기반 분석 자료, 기사 메타정보) | https://www.data.go.kr/dataset/15012945/fileData.do | - |
14 | 혐오표현 관련 데이터 | Hate-speech-data | - |
회사나 팀에서 구축한 데이터
번호 | 데이터 종류 | 링크 | 비고 |
---|---|---|---|
1. | Kyubyong Park 외(2019), 한국어 Text to Speech 를 위한 데이터 | https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset?fbclid=IwAR1WltCqIATEfpPsglqNgQm4zv6-rkmLvf7XMTJwuQ8nlRvaLpukZhtRhvw | - |
2. | 질의 응답용 데이터 KorQuAD 2.0 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터 세트 | KorQuAD 데이터 세트와 관련된 설명 동영상 -> https://www.youtube.com/watch?v=ntGwv6Ifoe8 | |
3. | 카카오 브레인에서 발표한 RTE (recognizing text entailment) 데이터 세트 | - | |
4 | AI API·DATA | http://aiopen.etri.re.kr/service_dataset.php | 자연어처리의 각 단계를 모두 반영하여 표준 가이드와 태깅된 데이터를 제시한다는 장점이 있다. |
국가적 규모에서 구축한 데이터
번호 | 데이터 종류 | 링크 | 비고 |
---|---|---|---|
1. | 우리말샘 : 다양한 어휘와 유의어 정보 등을 얻을 수 있는 대사전 : 로그일 필요, 전체 사전 데이터 다운로드 가능 | https://opendict.korean.go.kr/main | 이 사전에 대한 설명 github |
2. | 전자 사전 : NIA 사전, 묻지도 따지지도 않고 다음 링크에서 엑셀로 다운로드 가능 | https://kbig.kr/portal/kbig/knowledge/files/bigdata_report.page?bltnNo=10000000016451 | - |
3. | AIHub : 텍스트와 음성 멀티모달까지 가장 광범위한 데이터, 로그인 및 사용 목적과 기간을 명시한 사용 신청서 작성 후 허가 메일이 오면(하루 정도 걸린다) 다운로드 가능 | http://aihub.or.kr/ | - |
4. | 국립국어원 언어정보나눔터 : 로그인 후 세종2007 말뭉치나 낭독체 음성 파일 등도 다운로드 가능, 다운 받을 때 간단한 서약에 체크만 하면 되는데 자료의 크기를 작게 나누어 놓아서 여러번 체크해야 한다는 것이 단점 | https://ithub.korean.go.kr/user/total/database/corpusManager.do | - |