wwjddbss126 / myDLP_textNocr

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

myDLP (text + OCR)

made by BoB 10th 디지털포렌식트랙 강정윤, 박준성 교육생

Overview

해당 프로그램의 로직은 다음과 같다.

  1. 선택한 파일이 pdf 파일인지 시그니처 기반으로 검사
  2. 맞을 시, 이메일 전송 또는 USB로의 이동/복사할 경우 선택한 pdf 파일 내에 개인 정보가 있는지 text- based 검사 실행
  3. text-based 검사 결과 검출되지 않았을 경우, image-based 검사 실행
  4. 모든 행위에 대한 검사 결과는 myDLP_Log.txt에 저장됨 image

사용한 정규 표현식

\b(?:[0-9]{2}(?:0[1-9]|1[0-2])(?:0[1-9]|[1,2][0-9]|3[0,1]))-[1-4][0-9]{6}\b 주민등록번호 형식의 정규표현식

^b\'%PDF\'$ 확장자가 아닌 시그니처 기반의 PDF 파일 업로드 검사

\s+ OCR 탐지 결과에서 공백을 제거하기 위한 정규표현식

Usage

1. Set Target PDF

1.1 if not PDF

image image

2-1. open log file

코드가 실행되는 디렉터리 내에 myDLP_Log.txt라는 이름의 로그 파일이 저장되고, Open Log File 버튼을 클릭하면 해당 파일이 열린다.

KakaoTalk_20210724_200446900

2-2. Send e-mail

PDF 파일 선택 후, 이메일을 보낼 송신 주소, 제목, 본문을 입력하고 Send e-mail 버튼을 클릭하면, 입력한 정보로 PDF 파일이 첨부된 메일이 보내진다. 이 때, 선택한 PDF 파일 내에 개인 정보 (주민번호)가 포함되어 있으면 알림을 띄운다. KakaoTalk_20210724_200557919 KakaoTalk_20210724_202034902

2-3. check PDF signeture

KakaoTalk_20210724_201436832

Result

Detected with Text

KakaoTalk_20210724_200704598

Detected with OCR

KakaoTalk_20210724_200958522

Detected Nothing

KakaoTalk_20210724_201124419

About


Languages

Language:Python 100.0%