ksm0517 / OCR-in-Editor

final-project-level3-cv-07 created by GitHub Classroom

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

🎥 오이(OCR_In_Editor)

CV-07 컴퓨터구조 💻

김성민 박지민 박진형 심세령 윤하정

🎬Project 소개

  • 편집 툴에 영상을 넣고 "Send Current Frame" 버튼을 눌러주면 선택한 프레임 속 텍스트를 자동번역 해주는 프로그램
  • 모델이 구한 글자와 배경색을 같이 계산하여 최대한 영상에 자연스럽게 적용될 수 있도록 결과를 출력
  • 번역된 자막을 원하는 내용만 선택 적용할 수 있어 영상 편집 시 유용하게 사용할 수 있음
  • 효율적인 배포를 위해 Github ActionDocker를 사용하여 CI/CD를 진행

예시

예시

🎬Pipeline

화면 캡처 2021-12-23 210528

Model 설정

  • 영상 편집이라는 상황에 맞게 inference가 빠르고 가벼운 모델 선정

화면 캡처 2021-12-24 110128

종류 모델
Detector EAST
Recognizer CRNN or R-Net

Datasets

데이터셋
Train dataset ICDAR 2015 & ICDAR2017
Test dataset ICDAR_2017_valid

🎬Openshot(영상편집툴)

open

🎬Server via FastAPI

ser

  1. 기능
    • 이미지 POST
    • OCR Model Inference
    • Get background & word color
    • Text Translate with Papago
  2. CI & CD
    • Github Action과 Docker사용
    • CI & CD 결과를 즉각적으로 알 수 있게 Slack으로 결과 전송
    • base Docker Image 생성하여 재배포 시간 30초 이내 시행

🎬Work Directory

├──models          # model & trainer
|   ├──configs           
|   ├──modules   # crnn & rnet
|   ├──config.json 
|   ├──eval.py     
|   └──train.py    
├──openshot-qt     # front OpenShot Video Editor
|   ├──doc          
|   ├──images      
|   ├──installer   
|   ├──xdg         
|   └──src         
├──server          # fastAPI server
|   ├──modules
|   ├──saved/new
|   ├──scripts
|   └──server
└──.github/workflows

🎬Requirements

Install packages : pip install -r requirements.txt

About

final-project-level3-cv-07 created by GitHub Classroom


Languages

Language:Python 99.3%Language:JavaScript 0.4%Language:Jupyter Notebook 0.2%Language:CSS 0.0%Language:HTML 0.0%Language:Shell 0.0%Language:Inno Setup 0.0%Language:Makefile 0.0%Language:Batchfile 0.0%Language:Dockerfile 0.0%