McSinyx / viwikipi

Vietnamese Wikipedia Paraphase Identity experiments

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Label pretests for extra training

McSinyx opened this issue · comments

I've just split the tests into 4 proportions in branch train-pretest.
To label them,

git clone https://github.com/McSinyx/viwikipi.git # if you have not already
cd viwikipi/tests
git checkout train-pretest

The plain text tests to be label are tests-{0,1,2,3}.txt. I'd take the 0 one, who ever came next pick the consecutive index.

The format of each case is

test_0501 p3
Tuần lễ cấp cao APEC 2017 diễn ra tại tỉnh thành phố nào
Ngày 6/11/2017 đã diễn ra sự kiện Khai mạc Tuần lễ Cấp cao APEC ở Đà Nẵng , bắt đầu với Hội nghị Tổng kết các quan chức cấp cao APEC ( CSOM ) ( diễn ra 6 - 7/11 ) do Thứ trưởng Ngoại giao , Chủ tịch SOM APEC 2017 , Bùi Thanh Sơn chủ trì .

The expected format after labeling is either 0 or a non-zero integer after the IDs, i.e.

test_0501 p3 1
Tuần lễ cấp cao APEC 2017 diễn ra tại tỉnh thành phố nào
Ngày 6/11/2017 đã diễn ra sự kiện Khai mạc Tuần lễ Cấp cao APEC ở Đà Nẵng , bắt đầu với Hội nghị Tổng kết các quan chức cấp cao APEC ( CSOM ) ( diễn ra 6 - 7/11 ) do Thứ trưởng Ngoại giao , Chủ tịch SOM APEC 2017 , Bùi Thanh Sơn chủ trì .

After doing the first 10%, I noticed that the pretest is not any more balanced than the train dataset. Let's cancel this can shift our focus on other issues.