hoadm-net / VNews8td

Tập dữ liệu Tiếng Việt dành cho bài toán phân loại văn bản

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

VNews8td

Vietnamese Dataset, Text Classification.

  • Tập dữ liệu VNews8td là tập dữ liệu Tiếng Việt. Được thu thập từ trang báo mạng VnExpress từ ngày 01/06/2023 - 01/06/2024. Phiên bản 8td bao gồm 8 danh mục lớn nhất, mỗi văn bản bao gồm tiêu đề (title) và phần mô tả (description) của bài báo.
  • Tập dữ liệu giành cho bài toán phân loại văn bản (Text Classification / Document Classification).
  • Tập dữ liệu được chia thành 3 phần:
    • Training set - 70%
    • Validation set - 10%
    • Test set - 20%
  • Tập dữ liệu gồm 8 lớp, tương ứng với 8 danh mục phổ biến trên VnExpress là:
    • doisong (Đời sống)
    • giaoduc (Giáo dục)
    • khoahoc (Khoa học)
    • kinhte (Kinh tế)
    • suckhoe (Sức khỏe)
    • thegioi (Thế giới)
    • thethao (Thể thao)
    • thoisu (Thời sự)

About

Tập dữ liệu Tiếng Việt dành cho bài toán phân loại văn bản