duanyu/LabelFast

简单样本，交给LabelFast

LabelFast是中文世界的NLP自动标注开源工具，旨在用LLM技术，快速识别并标注简单文本数据。

使用LabelFast，人类只需关注那些少量而关键的难样本，达到降本增效的效果。

其特点如下：

标注任务	支持模型
CLS	mt5、seq-gpt
NER	seq-gpt

受创空间计算资源限制，Demo只部署了mt5模型，仅支持CLS任务标注。

pip3 install modelscope transformers torch scikit-learn sentencepiece

参照test.py

Instruction-Tuning Language Model。以Flan-T5、SeqGPT为代表，基于预训练LLM，在庞大的instruction data（将NLP任务改写为prompt->output的格式）上进行Fine-Tuning，使得模型在NLP任务上具备较强的Zero-Shot Task Generalization能力，能够以Zero-Shot的形式执行众多NLP任务。这部分对应LabelFast中的标注模型。
Confidence Estimation。得到模型对于标注结果的置信度，目标是尽可能well-calibrated（高confidence -> 高Acc、低confidence -> 低Acc），得到confidence之后，可用于决定何时信任模型标注、何时采用人工标注。计算方法包括Prompting、Entropy、Token Prob等，方法的细节可参照refuel.ai的这篇博文。

如果您对LabelFast有任何建议，欢迎添加作者微信进行交流~（VX：duanyu027，最好备注一声“LabelFast”）

如果这个项目对您有帮助，欢迎Buy Me a Coffee

中文世界的NLP自动标注开源工具，简单样本，交给LabelFast。

Language:Python 100.0%