Portfolio

[ MUSINSA PROJECT ]

  [ 별점 : 100 / 80 / 60 / 40 / 20 ] == [ 별점 : 5점 / 4점 / 3점 / 2점 / 1점 ]

Need in #1 Files	File Name	LINK
1.	reset_star_train.tsv	DATA
2.	reset_star_test.tsv	DATA

Need in #2 Files	File Name	LINK	NOTES
1.	[Org]_Musinsa_Standard_review_Label.csv	DATA	Raw Crawling Data
2.	Total(Pos+Neg)_Word_Counts.csv	DATA	ipynb file 'df_1' 내용 참조
3.	1000_Total(Pos+Neg)_Word_Counts.csv	DATA	ipynb file 'df_2' 내용 참조
4.	[HandWork]SCORE_Intersection_3_to-3.csv	DATA	df_1,df_2 Intersection Words
5.	[Using_For_Training]_Review_Dataset.csv	DATA	For Training

[ 참조 ]

NO.	File Name	LINK	NOTE
1-1.	TotalPage_Crawling&Refine&Tokenize	DATA	- MusinsaStandard 상품 전체 상세설명 크롤링 + 토큰화. - 큐레이팅 글과의 유사도 비교를 위함.
1-2.	Curating_TotalDate&CuratingNumber	DATA	- 2021년 기준 큐레이팅 작성 날짜 및 큐레이팅 번호 크롤링 + 데이터 정제. - 2021년 분기별로 큐레이팅 글 및 번호 추출을 위한 전처리 작업.
1-3.	CurationgQuarterly_Remove_StopWords For_this_ipynb_[Download]	DATA	- 2021년 큐레이팅 각 분기별 불용어 제거 - 상품 상세설명 토큰화 데이터와 유사도 비교를 위한 작업
1-4.	Curating_Total_Check For_this_ipynb_[Download]	DATA	- 큐레이팅 전체 상세설명 크롤링 + 토큰화. - 큐레이팅 글 / 큐레이팅 번호+작성날짜 / 토큰화 DataFrame.

업로드예정