Giters
lovit
/
sejong_corpus_cleaner
세종 말뭉치 데이터를 정제하기 위한 utils
Geek Repo:
Geek Repo
Github PK Tool:
Github PK Tool
Stargazers:
36
Watchers:
3
Issues:
17
Forks:
6
lovit/sejong_corpus_cleaner Issues
Non-ASCII character '\xed' in file 오류
Updated
5 years ago
Comments count
5
부사 + VCP 를 두 개의 어절로 구분
Closed
5 years ago
이(VCP) 가 사라진 경우 L 을 명사로, R 을 조사로 처리
Closed
5 years ago
구어 말뭉치의 원 발음 기록 처리
Closed
5 years ago
Comments count
1
파일별 import 구문 정리하기
Closed
5 years ago
Comments count
1
(Eojeol, Morphtags) & Morpheme count table loader
Closed
5 years ago
L-R 변환이 제대로 이뤄졌는지 확인하는 함수
Closed
5 years ago
한 어절이 여러 개의 분석된 형태소를 지닐경우, 이를 이용하여 잘못된 형태소 분석 결과를 수정
Updated
5 years ago
여러 개의 어미들이 동시에 축약되는 경우: 세워져 = 세우/VV + 어/EC + 지/VX + 어/EC)
Closed
5 years ago
Comments count
2
L-R 변형 시 R 의 세종말뭉치 품사 체계 변형 테이블도 함께 생성
Closed
5 years ago
Comments count
1
오타
Closed
5 years ago
Comments count
1
UNA 라는 tag 은 무엇인지요?
Closed
5 years ago
Comments count
2
인용문의 기호 때문에 단어가 제대로 정리되지 않음
Closed
5 years ago
Comments count
2
load_texts_as_corpus NameError
Closed
6 years ago
Comments count
2
명사 뒤 동사/형용사전성어미는 조사가 아닌 동사/형용사로 변경
Closed
6 years ago
복합형태소를 하나의 형태소로 합치는 함수
Closed
6 years ago
형태소 품사를 단순화 하는 함수
Closed
6 years ago