์ฑ ๊ณผ ๊ด๋ จ๋ ์ ๋ณด์ ์๋น์์ ์ ๋ณด, ๊ทธ๋ฆฌ๊ณ ์๋น์๊ฐ ์ค์ ๋ก ๋ถ์ฌํ ํ์ ์ ํ์ฉํ์ฌ ์ฌ์ฉ์๊ฐ ์ฃผ์ด์ง ์ฑ ์ ๋ํด ์ผ๋ง๋ ํ์ ์ ๋ถ์ฌํ ์ง์ ๋ํด ์์ธกํฉ๋๋ค.
ํด๋น ๊ฒฝ์ง๋ํ๋ ์๋น์๋ค์ ์ฑ ๊ตฌ๋งค ๊ฒฐ์ ์ ๋ํ ๋์์ ์ฃผ๊ธฐ ์ํ ๊ฐ์ธํ๋ ์ํ ์ถ์ฒ ๋ํ์ ๋๋ค.
- ์ ์ฒด ํ ์คํธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ
- ์ฌ์ฉ์ ์ฐ๋ น๋ ๋ถ์
- ๋์ ISBN ์ฒ๋ฆฌ
- ๋์ ์ ์ ์ฒ๋ฆฌ
- ์ถํ ๋ ๋ ์ฒ๋ฆฌ
- ์ถํ์ฌ ์ฒ๋ฆฌ
- ์ด๋ฏธ์ง URL ์ฒ๋ฆฌ
- ๋์ ์นดํ ๊ณ ๋ฆฌ ์ฒ๋ฆฌ
- ์ฑ ์์ฝ ์ ๋ณด ์ฒ๋ฆฌ
- ๋ชจ๋ Feature๋ฅผ Categorizationํ์ฌ ์ฌ์ฉํ์์ต๋๋ค.
- Categorical features์ ํจ๊ณผ์ ์ธ Gradient Boosting Library์ธ
Catboost
๋ฅผ ํ์ฉํ์ต๋๋ค. - HPO(Hyper Parameter Optimization)๋
Optuna
๋ฅผ ํ์ฉํ์ต๋๋ค.
CatBoostPruningCallback
์ ํ์ฉํ์ฌ HPO ๋์ค ๋ถํ์ํ ์คํ์ ์ค๋จํ๋ ๊ธฐ๋ฒ์ ์ ์ฉํ์ต๋๋ค. (GPU ์ง์ x)- ์ผ๋ฐ์ ์ธ Regression ๋ฌธ์ ์์ ์ฐ์ํ Label์ ๋ํด
Starfield K-Fold
๋ฅผ ์ง์ํ์ง ์์ง๋ง, ๋ณธ ํ๋ก์ ํธ์ Rating์ด ์ด์ฐํ์ผ๋ก ๋์ด์์ด ์ฌ์ฉํ์ต๋๋ค. - ํนํ, Rating ๊ฐ์ ๋ถํฌ ์ฐจ์ด๊ฐ ์ปค์
Starfield K-Fold
ํ๋ ๊ฒ์ด ์ข๋ค๊ณ ํ๋จํ์ต๋๋ค.
- ์ฑ๋ฅ ํฅ์์ ์ํด ๋น์ ํ ๋ฐ์ดํฐ(์ด๋ฏธ์ง, ํ
์คํธ)๋ฅผ ํ์ฉํ๋
CNN_FM
๊ณผDeepCoNN
๋ชจ๋ธ์ ํ์ตํ์์ต๋๋ค. - ์ถํ์,
Catboost
๋ชจ๋ธ๊ณผ ์์๋ธ ์งํํ์ต๋๋ค.
Optuna
๋ฅผ ํ์ฉํ์ฌ HPO ์ํํ์์ต๋๋ค.- ๋ค์ํ Feature Engineering์ ์ํํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
๋ ธ๊ด์ฅ | ๋ฐ๊ฒฝ์ | ์ด์๊ท | ์ด์ง์ | ์ฅ์ฑ์ค |
ํ๋ก์ ํธ ์ํ ์ ์ฐจ, ๋ฐฉ๋ฒ, ๊ฒฐ๊ณผ, ์ต์ข ํ๊ฐ, ํ์๋ณ ํ๊ณ ๋ wrap-up report์์ ๋ ์์ธํ ํ์ธํ์ค ์ ์์ต๋๋ค.
ํ๋ก์ ํธ ๊ฒฐ๊ณผ ๋ฐํ ์๋ฃ์ ๋๋ค.