๐ฐ NEWS.tar
Intro : ํ ์๊ฐ/ ํ๋ก์ ์ค ์๊ฐ(๋ฌธ์ ์ ์) / ๊ฐ๋ฐ ๋ชฉํ
Dataset & Model: ๋ฐ์ดํฐ์
/ ๋ชจ๋ธ / ์ฐ๊ตฌ / ์ต์ข
์ ์ฉ ๋ชจ๋ธ
Product Serving: ์ํคํ
์ณ/ ๊ตฌํ/ ๋ฐ๋ชจ
Result / Conclusion: ์์ฐ ์์ / ํ์ ๊ฐ๋ฐ ๋ฐ ์ฐ๊ตฌ / ๊ฒฐ๊ณผ ๋ฐ ๊ณ ์ฐฐ
Appendix: ๋์ ์ ์ธ ์คํ / ๋ ์จ๋ฐ / ์์ Q&A
โํ๋์ ํ์
ํ๋ ๊ธฐ์
๋ด์ค NEWS.tar"
NEWs.tar๋ ๋ด์ค ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ ๋ณ๋ก ๋ถ๋ฅํ๊ณ ๊ธฐ์ฌ ๋ด์ฉ์ ์์ฝํ์ฌ ๋ณด์ฌ์ค์ผ๋ก์จ ์ฌ์ฉ์๋ค์ด ์งง์ ์๊ฐ์ ์ฃผ์ ๋ด์ค ๋ด์ฉ์ ํ์
ํ ์ ์๋๋ก ๋์์ค๋๋ค.*
โ๏ธ ๋ด์ค๋ฐ์ดํฐ๋ ์์ด ๋ฐฉ๋ํ๊ณ ์ฝ๊ฒ ๊ตฌํ ์๊ฐ ์์
โ๏ธ ํ์ง๋ง ํฌ์๋ฅผ ํ๊ณ ์ถ์ด ๊ธฐ์
๊ด๋ จ ๋ด์ค๋ฅผ ๊ฒ์ํ๋ฉด ๋๋ฌด๋ ๋ง์ ์ ๋ณด๋ค์ด ์ ๊ณต์ด๋จ
โ๏ธ ์ด๋ฌํ ๋ด์ค๋ฐ์ดํฐ๋ฅผ ํด๋ฌ์คํฐ๋ง & ์์ฝํด์ ํน์ ๊ธฐ์
์ ๋ํ ์ฃผ์ ๋ฅผ ๋น ๋ฅด๊ฒ ํ์
ํ๊ณ ์ถ์
๋น์ทํ ์ฃผ์ ์ ๋ด์ค๋ฅผ ๋ชจ์์ ์ ๊ณต
๊ฐ ์ฃผ์ ์ ๊ธฐ์ฌ๋ค์ ํ๋์ ๋ฌธ์ฅ์ผ๋ก ์์ฝ
ํด๋น ์ฃผ์ ์ ๋ํ ๊ฐ์ ๋ถ์ ์ ๊ณต
๊ฐ์ ์ฃผ์ ๋ก ๋ฌถ์ธ ๊ธฐ์ฌ๋ค์ ์ ๋ฐ์ ์ธ ์์ฝ ๋ฌธ๋จ ์ ๊ณต
๊น์งํธ
์ ํ์ง
์ดํจ์
์ด์๋ฌธ
์ ์งํ
ํ ํฝ ๋ชจ๋ธ๋ง
๋ณธ๋ฌธ ์ถ์ถ ์์ฝ ํ์ค ์์ฑ ์์ฝ
ํ๋ก ํธ, ๋ฐฑ์๋ ํ์ค ์์ฝ ๊ฐ์ฑ ๋ถ์
๋ด์ค ๋ฐ์ดํฐ ์์ง DB ๊ตฌ์ถ
ํ์ค ์์ฑ ์์ฝ ์ ์ฌ๋ ๋ถ๋ฅ
Naver developer api์ bigkinds์ ๋ด์ค๋ฐ์ดํฐ๋ฅผ ํ์ฉํด์ ๋ด์ค ๋ณธ๋ฌธ ๋ฐ์ดํฐ ์์ง
2022.11.01 ~ 2023.02.03 ๊ธฐ๊ฐ์ ์ด 66๋ง๊ฑด์ ๋ฐ์ดํฐ ์์ง
์์งํ ๋ฐ์ดํฐ๋ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๊ฑฐ์ณ ElasticSeach์ Insert
ํ ํฝ๋ชจ๋ธ๋ง(BERTopic)
BERTopic์ Document๋ค์ Embedding ๋ชจ๋ธ์ ๊ฑฐ์ณ ์ดํ์ ๋จ๊ณ๋ฅผ ๊ฑฐ์น ํ TF_IDF๋ฅผ ํตํ์ฌ document๋ฅผ topic๋ณ๋ก ํด๋ฌ์คํฐ๋ง ํจ
Embedding ๋ชจ๋ธ์ ๋ํ ์คํ์ ์งํํ์๊ณ Paraphrase mpnet์ ์ฌ์ฉ
Embedding Model
Shilhoutte Score
Speed(sec)
Paraphrase mpnet
0.7585
7.34
KR-SBERT
0.7439
6.68
DistillBERT
0.7012
7.88
Paraphrase MiniLM
0.6994
5.81
QA mpnet
0.6927
11.16
ํ ํฝ ํ ์ค ์์ฝ(Generative summary)
๊ฐ๊ฐ์ ๊ธฐ์ฌ์ ์ ๋ชฉ๊ณผ ๋ณธ๋ฌธ ์ 2๋ฌธ์ฅ์ Concatํ๊ณ ๊ฐ์ ์ฃผ์ ๋ก ํด๋ฌ์คํฐ๋ง ๋ ๊ธฐ์ฌ๋ค์ Concat ํ์ฌ ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ๋ฃ์
KoBART ๋ชจ๋ธ์ ํ์ฉํ์ฌ ํ๋์ ํ ํฝ์ ๋ํด์๋ ํ๋์ ํ์ค ์์ฝ๋ฌธ ์์ฑ
Embedding Model
Rouge-1(F1)
Rouge-2(F1)
Rouge-3(F1)
Length
Speed(sec)
kobart-summarization
0.495
0.339
0.413
115.83
0.46
KR-SBERT
0.495
0.329
0.385
201.49
3.19
DistillBERT
0.488
0.324
0.394
180.29
0.64
๊ฐ์ฑ ๋ถ์(Sentimental analysis)
ํ ํฝ๋ณ๋ก ์์ฑ๋ ๊ฐ๊ฐ์ ๋ฌธ์ฅ์ ๋ํ์ฌ Sequence Classification Model์ ์
๋ ฅ์ผ๋ก ๋ฃ์
Positive, Neutral, Negative 3์ข
๋ฅ์ Class๋ก ๋ถ๋ฅ
roberta-large ๋ชจ๋ธ์ ์ฌ์ฉ
Model
Loss
AUPRC
Micro F1
Speed(sec)
Easy data (#48)
Medium data(#22)
Hard data (#23)
Total data (#93)
roberta-large
0.4667
88.1713
82.7956
0.7371
43
18
16
77
roberta-base 1
0.9074
87.4126
76.3440
0.2793
42
17
12
71
roberta-base 2
0.5078
88.6208
78.4946
0.2668
42
14
17
73
KorFinASC-XLM-RoBERTa
4.3266
29.8050
32.2580
0.8201
14
7
7
28
ํ ํฝ ๋ด ๋ด์ค ์์ฝ(Extractive summary)
์ฌ์ฉ ์ถ์ถ ์์ฝ ๋ชจ๋ธ : KorBertSum
Etri์์ ์ ๊ณตํ๋ pretrained ํ๊ตญ์ด BERT ์ธ์ด๋ชจ๋ธ์ AIHub์ ์ถ์ถ์์ฝ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ต
ํ๋์ ํ ํฝ์ผ๋ก ํด๋ฌ์คํฐ๋ง ๋ ๋ด์ค๊ธฐ์ฌ๋ค์์ ์ค์ํ ๋ฌธ์ฅ๋ค๋ง ์ถ์ถํ์ฌ ์์ฝ ์คํ
Model
Rouge-1(F1)
Rouge-2(F1)
Rouge-3(F1)
Rouge-1(Recall)
Rouge-2(Recall)
Rouge-3(Recall)
Etri pretrained model
0.7550
0.5944
0.7045
0.7213
0.5661
0.6714
AIHub data fine-tuned model
0.7834
0.6365
0.7295
0.7969
0.6467
0.7421
๋ชจ๋ ์๋ฒ๋ aistage ์๋ฒ(V100) ํ์ฉ
Database Server
Naver Developer api ์ bigkinds ๋ด์ค๋ฐ์ดํฐ๋ฅผ ํฌ๋กค๋ง & ์ ์ฒ๋ฆฌ & ElasticSearch์ ์ฝ์
Kibana๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ์ ์ํ ๊ฐ์ํ
Airflow๋ฅผ ์ด์ฉํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ์ถ๊ฐ ์์
์๋ํ
Frontend Server
Streamlit์ผ๋ก Frontend server ์ด์ฉ
Client์ query๋ฅผ Database server๋ก ์์ฒญ
Database์ ์๋ต์ Model server๋ก ์ ๋ฌ ํ ์๋ต ์์
Model Server
Frontend Server์์ ์ค๋ ์์ฒญ ์ํ ํ ์๋ต
์ ์ ์ query๋ฅผ ๋ฐ์ ๊ด๋ จ๋ ๋ด์ค๋ฅผ ํ ํฝ๋ณ๋ก ํด๋ฌ์คํฐ๋ง & ํ์ค ์์ฑ ์์ฝ (ex. ์ผ์ฑ์ ์)
ํ์ค๋ก ์์ฝ๋ ํด๋ฌ์คํฐ๋ ํ ํฝ ํด๋ฆญ -> ํด๋ฌ์ค๋ง๋ ๋ด์ค๋ค์ ์ถ์ถ ์์ฝ
Result / Conclusion / Appendix
Conclusion & ํ์ ๊ฐ๋ฐ & Appendix
5,6 ๋ฌธ๋จ ์ฐธ์กฐ
์ต์ข
๋ฐํ ์๋ฃ : ๋ฐํ์๋ฃ
Grootendorst, Maarten. "BERTopic: Neural topic modeling with a class-based TF-IDF procedure." arXiv preprint arXiv:2203.05794 (2022).
Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts." Journal
of the Association for Information Science and Technology 65.4 (2014): 782-796.
Lewis, Mike, et al. "Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension." arXiv preprint arXiv:1910.13461 (2019).
Lee, Dongyub, et al. "Reference and document aware semantic evaluation methods for Korean language summarization." arXiv preprint arXiv:2005.03510 (2020).
Liu, Yang, and Mirella Lapata. "Text summarization with pretrained encoders." arXiv preprint arXiv:1908.08345 (2019).