undertheseanlp / text_normalization

Vietnamese Text Normalization

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Chuấn hóa văn bản tiếng Việt

Chuẩn hóa ký tự

  • Ký tự đựng sẵn hay tổ hợp
  • Encode utf-8

Tài liệu tham khảo

  • Mã dựng sẵn và mã tổ hợp, bàn thêm về Unicode và TCVN, link
  • Tiêu chuẩn TCVN 6909:2001 – “Công nghệ thông tin - Bộ mã ký tự Tiếng Việt 16-bít” (65), link
  • Một vài góp ý về TCVN-6909-2001, link
  • Hướng dẫn sử dụng tiếng Việt trên máy tính, link

Chuẩn hóa âm tiết

  • Vấn đề bỏ dấu (hòa/hoà)
  • Vấn đề âm y/i (luân lý/luân lí, lý luận/lí luận, công ty/công ti)
  • Vấn đề âm ẩ (xẩy ra/xảy ra, bẩy/bảy, xẩy ra/xảy ra, gẫy tay/gãy tay)

Tài liệu tham khảo

About

Vietnamese Text Normalization

License:GNU General Public License v3.0


Languages

Language:Python 100.0%