本项目主要试验对比focal loss, dice loss, cross entropy 在处理样本不平衡性问题上的效果。试验数据为一中文数据集,label的类目数量为20,编码用简单的CNN模型。

About loss

image image

About data

实验用的是一个中文数据集,包含一个train.txt与test.txt文件,对应的样本数量分别为:9804,9832。label的类目数量为20,分布为:['Art', 'Literature', 'Education', 'Philosophy', 'History', 'Space', 'Energy', 'Electronics','Communication', 'Computer','Mine','Transport','Enviornment','Agriculture','Economy','Law','Medical','Military','Politics','Sports'],数据集存在极度样本不平衡性问题。训练集中数据统计详细见下表。

label the number of samples the weight of samples
Art 740 0.66
Literature 33 14.85
Education 59 8.31
Philosophy 44 11.14
History 466 1.05
Space 640 0.77
Energy 32 15.32
Electronics 27 18.16
Communication 25 19.61
Computer 1357 0.36
Mine 33 14.85
Transport 57 8.6
Enviornment 1217 0.4
Agriculture 1021 0.48
Economy 1600 0.31
Law 51 9.61
Medical 51 9.61
Military 74 6.62
Politics 1024 0.48
Sports 1253 0.39

从上面统计可以看出,在训练集中,有些label的样本数量很少,最少为'Communication',只有25个样本,最多为'Economy',有1600样本,呈现样本不平衡问题。样本的权重计算,是采用sklearn中compute_class_weight的balanced计算方法。数据集可以下载,链接,密码: 6yor

About training


Hyperparameter value Description
loss_type str('normal','focal_loss','dice_loss') normal指的正常cross_entropy
use_weight bool(True,False) 代表是否要用样本权重进行损失计算
category_weight float(list) 对应各个label的权重值

训练: python run.py train
测试: python run.py test

About experiment



loss accuracy
cross_entropy(normal) 0.956
weight_cross_entropy 0.954
focal_loss 0.955
weight_focal_loss 0.944
dice_loss 0944


loss accuracy precision recall f1-score
cross_entropy(normal) 0.94 0.82 0.71 0.75
weight_cross_entropy 0.94 0.79 0.68 0.72
focal_loss 0.94 0.80 0.71 0.74
weight_focal_loss 0.94 0.80 0.72 0.75
dice_loss 0.94 0.75 0.76 0.75



label num cross_entropy weight_cross_entropy focal_loss weight_focal_loss dice_loss
Art 741 0.93 0.93 0.93 0.92 0.93
Literature 34 0.14 0.25 0.15 0.31 0.16
Education 61 0.65 0.70 0.72 0.69 0.64
Philosophy 45 0.67 0.69 0.64 0.61 0.46
History 468 0.91 0.92 0.91 0.88 0.89
Space 642 0.96 0.95 0.96 0.95 0.94
Energy 33 0.44 0.29 0.47 0.39 0.48
Electronics 28 0.51 0.28 0.32 0.43 0.50
Communication 27 0.62 0.68 0.67 0.60 0.64
Computer 1358 0.98 0.98 0.98 0.98 0.98
Mine 34 0.68 0.30 0.59 0.77 0.75
Transport 59 0.81 0.71 0.75 0.75 0.72
Enviornment 1218 0.97 0.97 0.97 0.96 0.96
Agriculture 1022 0.95 0.95 0.95 0.95 0.95
Economy 1601 0.94 0.95 0.95 0.95 0.95
Law 52 0.60 0.55 0.53 0.59 0.63
Medical 53 0.75 0.73 0.65 0.73 0.77
Military 76 0.63 0.59 0.67 0.59 0.66
Politics 1026 0.95 0.95 0.95 0.94 0.95
Sports 1254 0.99 0.99 0.99 0.99 0.99

从各个label的F1值来看,并没有那个loss表现的更好。在样本特别少的label(数量<100,有11个)中,相对来说,focal_loss,dice_loss稍微好一些,各自有3个label取得最佳。对比cross_entopy,其他损失函数地区在样本少的label上表现好些,但也不完全绝对,如"Transport"; 在样本多的label上,各个损失表现趋于稳定。




1.Focal Loss for Dense Object Detection
2.Dice Loss for Data-imbalanced NLP Tasks
3.利用Dice Loss来解决NLP任务中样本不平衡性问题


