Nhận diện cảm xúc tiếng Việt
Dự án nghiên cứu về bài toán nhận diện cảm xúc tiếng Việt, được phát triển bởi nhóm nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt - underthesea. Chứa mã nguồn các thử nghiệm cho việc xử lý dữ liệu, huấn luyện và đánh giá mô hình, cũng như cho phép dễ dàng tùy chỉnh mô hình đối với những tập dữ liệu mới.
Nhóm tác giả
- Vũ Anh (anhv.ict91@gmail.com)
- Bùi Nhật Anh (buinhatanh1208@gmail.com)
Tham gia đóng góp
Mọi ý kiến đóng góp hoặc yêu cầu trợ giúp xin gửi vào mục Issues của dự án. Các thảo luận được khuyến khích sử dụng tiếng Việt để dễ dàng trong quá trình trao đổi.
Nếu bạn có kinh nghiệm trong bài toán này, muốn tham gia vào nhóm phát triển với vai trò là Developer, xin hãy đọc kỹ Hướng dẫn tham gia đóng góp.
Mục lục
Yêu cầu hệ thống
Hệ điều hành: Linux (Ubuntu, CentOS), Mac
Python 3.6+
conda 4+
Thiết lập môi trường
Tải project bằng cách sử dụng lệnh git clone
$ git clone https://github.com/undertheseanlp/sentiment.git
Tạo môi trường mới và cài đặt các gói liên quan
$ cd sentiment
$ conda create -n sentiment python=3.6
$ pip install -r requirements.txt
Hướng dẫn sử dụng
Trước khi chạy các thử nghiệm, hãy chắc chắn bạn đã activate môi trường sentiment
, mọi câu lệnh đều được chạy trong thư mục gốc của dự án.
$ cd sentiment
$ source activate sentiment
Kết quả thử nghiệm
Xem thêm về mô tả vlsp 2018 SA task
Kết quả các thử nghiệm
Dữ liệu restaurant
Mô hình | F1 % |
---|---|
XGBoost(n_iter=500, max_depth=500) + Countvectorizer(bigram, max_features=4000) | 65.55 |
LogisticRegression + Countvectorizer(Bigram) | 64.59 |
LinearSVC + Countvectorizer(Trigram) | 64.49 |
LinearSVC + Countvectorizer(Bigram) | 64.24 |
MultinomialNB + Countvectorizer(Trigram) | 53.66 |
SVC + Countvectorizer(Trigram) | 48.55 |
Dữ liệu hotel
Mô hình | F1 % |
---|---|
XGBoost(n_iter=100, max_depth=200) + Countvectorizer(bigram, max_features=2000) | 65.79 |
LinearSVC + Countvectorizer(Trigram) | 65.09 |
LinearSVC + Countvectorizer(Bigram) | 64.95 |
LogisticRegression + Countvectorizer(Bigram) | 64.82 |
MultinomialNB + Countvectorizer(Bigram) | 54.79 |
SVC + Countvectorizer(Trigram) | 48.55 |
Dữ liệu fb_bank
Mô hình | F1 % |
---|---|
LinearSVC + Tfidfvectorizer(Bigram) | 69.60 |
MultinomialNB + Countvectorizer (Bigram, Max Feature=1000) | 68.40 |
XGBoost(n_iter=100, max_depth=300) + Countvectorizer(bigram, max_features=2000) | 65.70 |
LogisticRegression + Countvectorizer(Trigram, max_features=5000) | 65.70 |
SVC + Countvectorizer(Trigram, Max Feature=700) | 29.60 |
Trích dẫn
Đang cập nhật