๐ AIFFEL Hackathon๐
๐ช TT ( Text Transformer ) ๐ช
A technology that converts the text inside an image to another content or language while preserving the style.
๐ Contents
๐ Description
TT๋ ์ด๋ฏธ์ง ๋ด๋ถ์ ํ ์คํธ๋ฅผ ๋ค๋ฅธ ๋ด์ฉ์ผ๋ก ๋ฐ๊พธ์ด์ฃผ๋ ํ๋ก์ ํธ๋ก ๋จ์ํ ํ ์คํธ๋ฅผ ๋ฐ๊พธ๋ ๊ฒ์ด ์๋๋ผ ๊ธฐ์กด์ ํ ์คํธ ์คํ์ผ์ ์ ์นํ ์ฑ ๋ณํ ์์ผ์ค๋ค.
์ด ํ๋ก์ ํธ๋ฅผ ์คํ์ํค๊ธฐ ์ํด End-to-End ๋ฐฉ์์ผ๋ก Scene Text Editing์ ํด์ฃผ๋ clova ai์์ ์ ์ํ RewriteNet
์ ์ฌ์ฉํ๋ค.
๐
RewriteNet [Network]
- Encoder, Generator, Recognizer, Discriminator ์ด 4๊ฐ์ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ
- Encoder : Pre-trained ResNet-18
- Content Encoder : Bidirectional LSTM
- Generator : U-Net
- Recognizer : LSTM with Attention
- Discriminator : Discriminator of PatchGAN
- Encoder : Pre-trained ResNet-18
- Training phase๋ ๋๊ฐ๋ก ๊ตฌ์ฑ
- Synthetic phase : ํฉ์ฑ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ํ๋ จ์ผ๋ก Recognizer ๋ถ๋ถ์ด ์์ด์ ์ด๋ฏธ์ง์์ content๋ฅผ ์ผ๋ง๋ ์ ์ถ์ถํด ๋ด๋์ง๋ฅผ ํ์ต
- Synthetic data๋ SynthTIGER ๋ฅผ ์ด์ฉํด์ ์์ฑ
- Real phase : ์ค์ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ํ๋ จ์ผ๋ก ์๋ ค์ง ์ด๋ฏธ์ง๋ฅผ ์๋ณธ์ ์คํ์ผ๊ณผ ์ผ๋ง๋ ๋น์ทํ๊ฒ ๋ง๋ค์ด ๋ด๋์ง๋ฅผ ํ๋ จ
- Synthetic phase : ํฉ์ฑ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ํ๋ จ์ผ๋ก Recognizer ๋ถ๋ถ์ด ์์ด์ ์ด๋ฏธ์ง์์ content๋ฅผ ์ผ๋ง๋ ์ ์ถ์ถํด ๋ด๋์ง๋ฅผ ํ์ต
- Inference ๋จ๊ณ์์๋ Encoder์ Generator๋ฅผ ์ฌ์ฉ
[Loss]
๐ Environment
Python 3.9
PyTorch 1.11