coolengineer / sejong-corpus

Korean sejong corpus download and simple analysis

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

html에 1kb, 2kb 파일 문의

sljh0214 opened this issue · comments

안녕하세요, 올려주신 코드를 사용해봤습니다.
make와 make dic 실행하고
html에 있는 파일을 확인해보면
크기가 이상한 1kb, 2kb 파일들이 1715개 있고
정상 파일(30kb이상) 1277개 있습니다.

예를 들어, article-3.html 은 1kb 인데, html 태그만 조금 있고 본문이 없습니다.
다운로드가 잘 되었는지 download.log 보면 진행된 것으로 나옵니다
[003] (3) download/3.txt

download에서 3.txt 파일을 열어보면 <요청하신 페이지를 찾을 수 없습니다>는 내용입니다. 이와 같은 파일이 상당 수 있어서, 다운로드가 일부만 된것같은데요, 어떻게 해결해야 할까요?

문의를 이제야 확인해서 죄송합니다.

#3 에도 비슷한 문제를 해결하는 코드를 주셨군요.
둘을 같은 문제로 보고 재현하여 수정하도록 하겠습니다.

201904-04 일자 (d1cc7f1) 소스를 확인하여주세요.