#1. 상품별 고유 번호 크롤링 후 해당 상품들의 리뷰와 별점 크롤링 : ReviewCrawling_from_each_item_number_based
[ 별점 : 100 / 80 / 60 / 40 / 20 ] == [ 별점 : 5점 / 4점 / 3점 / 2점 / 1점 ]
Need in #1 Files | File Name | LINK |
---|---|---|
1. | reset_star_train.tsv | DATA |
2. | reset_star_test.tsv | DATA |
#2. 긍정 / 부정 사전 만들기 & 모델 학습 : Making Dicctionary_Positive,Negative - Model_Training
Need in #2 Files | File Name | LINK | NOTES |
---|---|---|---|
1. | [Org]_Musinsa_Standard_review_Label.csv | DATA | Raw Crawling Data |
2. | Total(Pos+Neg)_Word_Counts.csv | DATA | ipynb file 'df_1' 내용 참조 |
3. | 1000_Total(Pos+Neg)_Word_Counts.csv | DATA | ipynb file 'df_2' 내용 참조 |
4. | [HandWork]SCORE_Intersection_3_to-3.csv | DATA | df_1,df_2 Intersection Words |
5. | [Using_For_Training]_Review_Dataset.csv | DATA | For Training |
[ 참조 ]
- Stopwords List : https://raw.githubusercontent.com/yoonkt200/FastCampusDataset/master/korean_stopwords.txt
NO. | File Name | LINK | NOTE |
---|---|---|---|
1-1. | TotalPage_Crawling&Refine&Tokenize | DATA | - MusinsaStandard 상품 전체 상세설명 크롤링 + 토큰화. - 큐레이팅 글과의 유사도 비교를 위함. |
1-2. | Curating_TotalDate&CuratingNumber | DATA | - 2021년 기준 큐레이팅 작성 날짜 및 큐레이팅 번호 크롤링 + 데이터 정제. - 2021년 분기별로 큐레이팅 글 및 번호 추출을 위한 전처리 작업. |
1-3. | CurationgQuarterly_Remove_StopWords For_this_ipynb_[Download] |
DATA | - 2021년 큐레이팅 각 분기별 불용어 제거 - 상품 상세설명 토큰화 데이터와 유사도 비교를 위한 작업 |
1-4. | Curating_Total_Check For_this_ipynb_[Download] |
DATA | - 큐레이팅 전체 상세설명 크롤링 + 토큰화. - 큐레이팅 글 / 큐레이팅 번호+작성날짜 / 토큰화 DataFrame. |
업로드예정