haven-jeon / PyKoSpacing

Automatic Korean word spacing with Python

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

인풋에 알파벳 포함시 정합성 관련

leethamen opened this issue · comments

인풋에 알파벳이 포함되면 대체적으로 정합성이 떨어지는 경향이 있는것 같습니다. (아래 예시)

혹시 보정 가능한 방법이 있을까요?

c타입자석케이블 -> c타입자 석 케이블

3d풋브러쉬 -> 3d풋 브러쉬

tv다 이 책장 -> tv다 이 책장

bmw썬바이저 -> bm w 썬바이저

모델 자체에서 보정은 현재 어려운 상황이구요. 모델 입력 전에 전처리(영문 연속, 한글연속) 분리 하시고 한글연속(공백포함) 시퀀스에 대해서 Spacing을 하신뒤 그 결과를 영문 연속 결과로 붙이는 작업을 진행하는게 현실적이라 생각합니다.

해당 이슈는 추가 코멘트 올려주실때 다시 오픈하겠습니다.