Yngie-C / AwesomeKorean_Data

한국어 데이터 세트 링크

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Awesome_Korean_Data

한국어 데이터 세트 링크

팁: ragsgo 전처리 데이터 :octocat:에서는 한국어 위키피디아를 포함한 전처리 데이터와 위젯을 이용한 데이터 다운로드를 제공하고 있음!

한국어 텍스트 데이터

번호 데이터 종류 링크 비고
1. 한국 정치인 뉴스 데이터 세트 :octocat: -
2. 네이버 뉴스 중 IT/과학 분야에서 50개를 선정해서 요약에 해당하는 문장을 태깅해둔 데이터 세트 :octocat: -
3. 영화추천시스템을 위한 데이터 세트 :octocat: -
4. Naver sentiment movie corpus v1.0(네이버 악평과 선평을 구분해 놓은 데이터) :octocat: -
5. Naver sentiment movie corpus v1.0를 다운 받아서 감성분석 레이블링을 상세화('toxic', 'obscene', 'threat', 'insult', 'identity_hate')한 데이터 :octocat: -
6. Paired Question(질문쌍이 같은 질문인지 다른 질문인지 구별하는 데이터) :octocat: -
7. 한국어 개체명 정의 및 표지 표준화 기술보고서와 이를 기반으로 제작된 개체명 형태소 말뭉치 :octocat: -
8. KoreanNERCorpus(개체명 말뭉치) :octocat: -
9. 한국어 NER 사전 :octocat: -
10.1 챗봇용 대화 세트 :octocat: -
10.2 챗봇용 대화 세트와 코드 :octocat: 10.1과 10.2는 거의 겹치는 질문이 없다고 할 만큼 주제가 다르다. 10.1은 "위로해 줘"와 같이 좀 더 사적 담화의 성격이 강하다면 10.2는 "어떤 메일이 더 유용해?" 와 같이 지식인 QnA에 나올 법한 질문들도 많다.
11. 한영/한불 병렬말뭉치(번역용) :octocat: -
12. 한영 병렬 말뭉치 Korean-English parallel corpus -
13. 청와대 국민청원 사이트의 만료된 청원 데이터 모음 :octocat: -
14. 공공데이터포털 뉴스빅데이터 분석 정보(뉴스데이터베이스 'Kinds' 기반 분석 자료, 기사 메타정보) https://www.data.go.kr/dataset/15012945/fileData.do -
14 혐오표현 관련 데이터 Hate-speech-data -

회사나 팀에서 구축한 데이터

번호 데이터 종류 링크 비고
1. Kyubyong Park 외(2019), 한국어 Text to Speech 를 위한 데이터 https://www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset?fbclid=IwAR1WltCqIATEfpPsglqNgQm4zv6-rkmLvf7XMTJwuQ8nlRvaLpukZhtRhvw -
2. 질의 응답용 데이터 KorQuAD 2.0 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터 세트 :octocat: KorQuAD 데이터 세트와 관련된 설명 동영상 -> https://www.youtube.com/watch?v=ntGwv6Ifoe8
3. 카카오 브레인에서 발표한 RTE (recognizing text entailment) 데이터 세트 :octocat: -
4 AI API·DATA http://aiopen.etri.re.kr/service_dataset.php 자연어처리의 각 단계를 모두 반영하여 표준 가이드와 태깅된 데이터를 제시한다는 장점이 있다.

국가적 규모에서 구축한 데이터

번호 데이터 종류 링크 비고
1. 우리말샘 : 다양한 어휘와 유의어 정보 등을 얻을 수 있는 대사전 : 로그일 필요, 전체 사전 데이터 다운로드 가능 https://opendict.korean.go.kr/main 이 사전에 대한 설명 github :octocat:
2. 전자 사전 : NIA 사전, 묻지도 따지지도 않고 다음 링크에서 엑셀로 다운로드 가능 https://kbig.kr/portal/kbig/knowledge/files/bigdata_report.page?bltnNo=10000000016451 -
3. AIHub : 텍스트와 음성 멀티모달까지 가장 광범위한 데이터, 로그인 및 사용 목적과 기간을 명시한 사용 신청서 작성 후 허가 메일이 오면(하루 정도 걸린다) 다운로드 가능 http://aihub.or.kr/ -
4. 국립국어원 언어정보나눔터 : 로그인 후 세종2007 말뭉치나 낭독체 음성 파일 등도 다운로드 가능, 다운 받을 때 간단한 서약에 체크만 하면 되는데 자료의 크기를 작게 나누어 놓아서 여러번 체크해야 한다는 것이 단점 https://ithub.korean.go.kr/user/total/database/corpusManager.do -

About

한국어 데이터 세트 링크