Keracorn / geulstagram

๐Ÿ“ท ๊ธ€์Šคํƒ€๊ทธ๋žจ ๋ฐ์ดํ„ฐ์…‹ ๋งŒ๋“ค๊ธฐ

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

HashTagBot

HashTagBot ์†Œ๊ฐœ

2019๋…„ ์ผ€๋ผ์Šค ๊ณต๊ฐœ SW ์ปจํŠธ๋ฆฌ๋ทฐํ†ค ํ”„๋กœ์ ํŠธ ์ค‘ ํ•˜๋‚˜์ธ ์ผ€๋ผ์Šค ๊ธฐ๋ฐ˜ ์ฑ—๋ด‡ ๋งŒ๋“ค๊ธฐ์— ์ฐธ๊ฐ€ํ•˜์—ฌ ํ•ด์‹œํƒœ๊ทธ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธ€์„ ์ƒ์„ฑํ•ด์ฃผ๋Š” ์ฑ—๋ด‡์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฐœํ‘œ์ž๋ฃŒ์™€ ์ƒ์„ธ ๋‚ด์šฉ์€ README.pdf์—์„œ ์ฐธ๊ณ ํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๊ธฐ๋Šฅ

  • ์ฑ—๋ด‡์— ํ•ด์‹œํƒœ๊ทธ๋ฅผ ์ ์œผ๋ฉด ์‚ฌ์ „์— ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋žœ๋ค์œผ๋กœ ๋ฌธ์žฅ๋“ค์„ ๋ฝ‘์•„์ค๋‹ˆ๋‹ค.
  • ๋ฝ‘ํžŒ ๋ฌธ์žฅ๋“ค์€ ๋ฒˆ์—ญ / ๋ชจ๋ธ ๋“ฑ์„ ๊ฑฐ์ณ ์ƒˆ๋กœ์šด ๋ฌธ์žฅ์œผ๋กœ ๋ณ€ํ˜•๋˜์–ด ์ฑ—๋ด‡์˜ ์•„์›ƒํ’‹ ๊ฐ’์œผ๋กœ ๋ฐ˜ํ™˜๋ฉ๋‹ˆ๋‹ค.

๊ฐœ๋ฐœ ํ™˜๊ฒฝ

๊ฐœ๋ฐœ ์–ธ์–ด : python
๋ชจ๋ธ ํ”„๋ ˆ์ž„ ์›Œํฌ : Keras
ํ˜•ํƒœ์†Œ ๋ถ„์„๊ธฐ : Konlpy

ํ”„๋กœ์ ํŠธ ํ•ด์‹œํƒœ๊ทธ ๊ตฌ์„ฑ์›

  • Mentee
    • ๊น€์šฐ์ • [์•„์ฃผ๋Œ€ํ•™๊ต ์ปดํ“จํ„ฐ๊ณตํ•™๊ณผ ๋Œ€ํ•™์›์ƒ gks3284@ajou.ac.kr]
    • ๋ฐฐํ˜„์ง„ [์ˆ™๋ช…์—ฌ์ž๋Œ€ํ•™๊ต IT๊ณตํ•™์ „๊ณต ์žฌํ•™ gloria9705@sookmyung.ac.kr]
    • ์•ˆ์˜์ง„ [์—ฐ์„ธ๋Œ€ํ•™๊ต Economics ํ•™๋ถ€์ƒ young_ahn@yonsei.ac.kr]
    • ๋ฐฑ์Šน์ฃผ [์•„์ฃผ๋Œ€ํ•™๊ต ์‚ฐ์—…๊ณตํ•™๊ณผ / halucinor0@gmail.com]
  • Mento
    • ๊น€์Šฌ๊ธฐ ๋ฉ˜ํ† ๋‹˜

ํ”„๋กœ์ ํŠธ ์ง„ํ–‰ ๊ณผ์ •

๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘

์ธํ”Œ๋ฃจ์—”์„œ ๋ฆฌ์ŠคํŠธ์—… / ์ธ์Šคํƒ€ ๊ทธ๋žจ ๊ฒŒ์‹œ๊ธ€ ํฌ๋กค๋ง / ์ด๋ฏธ์ง€ ๋‹ค์šด ์œผ๋กœ ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

instagram crawler: https://github.com/huaying/instagram-crawler

  1. [๊ฒŒ์‹œ๊ธ€ ์ž‘์„ฑ์ž, ๊ฒŒ์‹œ๊ธ€ ์‚ฌ์ง„(jpg/png), ๊ฒŒ์‹œ๊ธ€ ๋ณธ๋ฌธ(string), ํ•ด์‹œํƒœ๊ทธ, ๊ฒŒ์‹œ๊ธ€ ๋Œ“๊ธ€] ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋Š” json ํŒŒ์ผ์„ ์ƒ์„ฑ
  2. ํ•ด๋‹น json ์ด๋ฏธ์ง€ ํŒŒ์ผ์„ ๋‹ค์šดํ•˜๊ณ  Google Vision API๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ๋ณ„ ํ…์ŠคํŠธ ์ถ”์ถœ
  3. ์ตœ์ข… ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ (์ธ์Šคํƒ€๊ทธ๋žจ crawling ๋ฐ์ดํ„ฐ + ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ OCR์„ ์ด์šฉํ•ด ์ถ”์ถœํ•œ ๊ธ€ ํ…์ŠคํŠธ)

<USER_ID | CONTENT_ID | CONTENT_IMAGE_ID | Image_Content_txt | Content_txt | Hashtags>

  1. ์ด ๋ฐ์ดํ„ฐ : 32,099, ๋™์ผ ๊ฒŒ์‹œ๊ธ€ ๋ณ‘ํ•ฉ : 25,196
  • ig_query_parser.py : URL ์ƒ์—์„œ ์œ ์ €์˜ ์•„์ด๋””๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์†Œ์Šค์ฝ”๋“œ
  • json_image_crawler.py : json์˜ url์„ ํ†ตํ•ด ์ธ์Šคํƒ€ ๊ฒŒ์‹œ๊ธ€ ์ด๋ฏธ์ง€๋ฅผ ๋‹ค์šด๋กœ๋“œ ๋ฐ›๋Š” ์†Œ์Šค์ฝ”๋“œ
  • googleapi.py : OCR์„ ์ž‘๋™์‹œํ‚ค๋Š” ์†Œ์Šค
  • _human_parsing : ๊ฒŒ์‹œ๊ธ€์„ ๋ถ„์„ํ•˜์—ฌ json ํŒŒ์ผ์„ ๋งŒ๋“œ๋Š” ์†Œ์Šค์ฝ”๋“œ

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

  • ์ด๋ฏธ์ง€ ์ฝ˜ํ…์ธ  ๋‚ด์— ํ•ด์‹œํƒœ๊ทธ๊ฐ€ ๊ฑธ๋ ค ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์–ด ์œ ์ € ์„œ๋ช… ์‚ญ์ œ ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๊ธฐ ์ „์— ์ œ๊ฑฐํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์œ ์ €๊ฐ€ ์“ด ๊ธ€๋งˆ๋‹ค ์œ ์ €์˜ ํ•„๋ช… ๋“ฑ์ด ์„œ๋ช…์ฒ˜๋Ÿผ ๋“ค์–ด๊ฐ€์žˆ์Šต๋‹ˆ๋‹ค. ๊ธ€์˜ ์•ž๋ถ€๋ถ„์ด๋‚˜ ๋’ท๋ถ€๋ถ„์—์„œ ํ•œ ์œ ์ €๋‹น ๋™์ผํ•œ ์–ด์ ˆ์ด ์œ ์ €๋‹น ๊ฒŒ์‹œ๊ธ€์˜ 50% ์ด์ƒ์ผ ์‹œ ์ œ๊ฑฐ ์ฒ˜๋ฆฌํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์„œ๋ช…์ด ๋‘ ์–ด์ ˆ ์ด์ƒ์ธ ๊ฒฝ์šฐ๋„ ์žˆ์–ด, ์ œ๊ฑฐ ์š”์†Œ๊ฐ€ ๋‚˜์˜ค์ง€ ์•Š์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต ์ฒ˜๋ฆฌํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋™์ผํ•œ ํ•ด์‹œํƒœ๊ทธ๊ฐ€ ๋ชจ๋“  ๊ธ€์— ๋ฐ˜๋ณต์ ์œผ๋กœ ๋“ฑ์žฅํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žฆ์•˜์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ์œ ์ €์˜ ํ•ด์‹œํƒœ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ์นด์šดํŠธํ•ด ๋นˆ๋„์ˆ˜ 1ํšŒ์ด๊ฑฐ๋‚˜ ์ตœ๋‹ค ๋นˆ์ถœ 3๊ฐœ ์ด์ƒ์ธ ํƒœ๊ทธ๋Š” ์ œ๊ฑฐํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋งž์ถค๋ฒ•์ด ํ‹€๋ฆฐ ๊ธ€์€ ๊ฒ€์‚ฌํ•˜์—ฌ ์ˆ˜์ •ํ•ด์ฃผ๋Š” ์ž‘์—…์„ ๊ฑฐ์ณค์Šต๋‹ˆ๋‹ค.
    hanspell: https://github.com/ssut/py-hanspell/blob/master/README.md
    ํ•ด๋‹น ๋งž์ถค๋ฒ• ๊ฒ€์‚ฌ๊ธฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ถ”์ถœ๋œ ์ด๋ฏธ์ง€ ํ…์ŠคํŠธ์˜ ๋งž์ถค๋ฒ•์„ ๊ฒ€์‚ฌ
    ๋งž์ถค๋ฒ• ๊ฒ€์‚ฌ๋Š” py-hanspell ๋‚ด๋ถ€์ ์œผ๋กœ ๋„ค์ด๋ฒ„ ๋งž์ถค๋ฒ• ๊ฒ€์‚ฌ๊ธฐ๋ฅผ ์‚ฌ์šฉ

๋ชจ๋ธ ์ƒ์„ฑ

gpt2 colab https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce

Modeling

  • RNN, Seq2Seq ์ž๋ฃŒ์กฐ์‚ฌ
  • GPT-2๋ฅผ ์ด์šฉํ•œ ์ƒ์„ฑ ๋ชจ๋ธ ํ•™์Šต ์ง„ํ–‰ ์ค‘

๋ฐ์ดํ„ฐ ๋ณ€ํ˜•

  • Translation (ํ•œ๊ธ€ โ†’ ๋‹ค๋ฅธ ๋‚˜๋ผ ์–ธ์–ด โ†’ ํ•œ๊ธ€)

  • Google Translation API ์ด์šฉ

  • translateAPU.py : ์ž…๋ ฅ๋œ ๊ธ€์„ ์˜์–ด๋กœ ๋ฒˆ์—ญํ•œ ๋’ค ํ•œ๊ตญ์–ด๋กœ ๋‹ค์‹œ ๋ฒˆ์—ญํ•ด์ฃผ๋Š” ์ฝ”๋“œ

  • ๋ช…์‚ฌ ์œ ์˜์–ด๋กœ ๋ณ€๊ฒฝํ•˜๊ธฐ

    • Word2Vec
  • word2vec_train_and_save.py : ์‚ฌ์šฉ์ž์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•ด์„œ Word2Vec ๋ชจ๋ธ๋กœ ๋ฐ˜ํ™˜ํ•ด์ฃผ๋Š” ์ฝ”๋“œ

  • word2vec_train_and_save.py : Word2vec ๋ชจ๋ธ์„ ์ด์šฉํ•ด ๋ฐ›์•„๋‚ธ ๋‹จ์–ด ๋ณ„ ์œ ์˜์–ด๋ฅผ ๋ฌธ์žฅ ๋‚ด ๋ชจ๋“  ๋ช…์‚ฌ์— ์ ์šฉ์‹œ์ผœ ๋ฌธ์žฅ์„ ๋ณ€ํ˜•ํ•ด์ฃผ๋Š” ์ฝ”๋“œ

์ฐธ๊ณ  ๋ฌธํ—Œ

NLP

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

๋ชจ๋ธ๋ง


Prize

2020 ์ธ๊ณต์ง€๋Šฅ ๋ฐ์ดํ„ฐ์…‹ ๊ฒฝ์ง„๋Œ€ํšŒ ์ธ์Šคํƒ€๊ฐฌ์„ฑํ„ฐ์ง ํŒ€, 3๋“ฑ ์ˆ˜์ƒ
์ฃผ๊ด€ : ์…€๋ ‰ํŠธ์Šคํƒ€

About

๐Ÿ“ท ๊ธ€์Šคํƒ€๊ทธ๋žจ ๋ฐ์ดํ„ฐ์…‹ ๋งŒ๋“ค๊ธฐ

License:MIT License


Languages

Language:Python 56.8%Language:Jupyter Notebook 43.2%