leh60245 / manual-to-text

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

개발 일지

이슈 #1: 소제목의 숫자가 text type이 아닌 image라 text에서 소제목을 찾지 못함

  • 일자: 204년 5월 8일
  • 해결(○): html 형식으로 가져와 Bold 채 text 중 소제목을 가져옴

서브 이슈 #1: table이나 더 작은 제목이 Bold 채 -> 소제목은 앞에 한 칸 뛰어져 있는 공통점이 있음

서브 이슈 #2: 문장을 나눌 때 두 문장 띄어진 경우도 있음 -> 삭제 처리

이슈 #2: 한 문장이 연속되지 않고 \n으로 나뉘어져 있음

  • 일자: 204년 5월 8일
  • 처리(○): 소제목 단위로 그 아래 text는 모두 한 문장으로 취급

이슈 #3: 소제목 중 예외인 경우가 있음.

  • 일자: 204년 5월 8일
  • 처리(△): 사소한 경우는 넘어가기로 함
  • 발견한 문제
    1. page 34쪽 내용에 들어간 그림과 볼드채 때문에 소제목으로 식별 -> 4.3.2 4.3.3
    2. 6장 부분에 소제목들이 이상하게 처리되어 있는지 소제목으로 식별 못하고 건너뛰는 문제 발생
    3. ...
    4. 14장 마지막 소제목 text가 이상하게 처리되어 제목으로 식별 못함

About


Languages

Language:Jupyter Notebook 100.0%