CaMA: 中英双语LLaMA模型。

Question

CaMA: 中英双语LLaMA模型。

ziwang-com opened this issue a year ago · comments

https://github.com/zjunlp/CaMA
CaMA: A Chinese-English Bilingual LLaMA Model
CaMA: 中英双语LLaMA模型。
伴随着ChatGPT的诞生，人工智能也迎来了“iPhone时刻”，各种大语言模型（Large Language Model，LLM）如雨后春笋般涌现，这股大模型的风也迅速席卷到除了自然语言处理的其他人工智能领域。但是训练这样一个模型需要极高的硬件成本，此外由于各种原因，开源的语言模型很少，支持中文的语言模型就更为稀缺了。直到LLaMA的开源，随后各式各样的、基于LLaMA的语言模型也层出不穷。而本项目也同样是基于LLaMA模型，为了进一步提供中文能力，且不破坏原来的分布，我们首先（1）使用中文语料首先对LLaMA（13B）进行进一步全量预训练，在尽可能保留原来的英文和代码能力的前提下，进一步提高模型对于中文理解能力和知识储备；接着（2）使用指令数据集对第一步的模型微调，来提高语言模型对于人类指令的理解。

本项目的特点如下：

用我们构建的中文预训练语料对LLaMA进行全量预训练，提高了模型对于中文的理解能力
用我们构建的中文指令数据集（约1400K条样本），使用LoRA微调，提高模型对于人类指令的理解
对信息抽取（Information Extraction，IE）任务，包括NER、RE、IE进行优化，可以使用人类指令来完成信息抽取任务
开源了预训练模型的权重、指令微调的LoRA权重
开源了全量预训练脚本（提供大型语料的转换、构建和加载），LoRA指令微调脚本
所有权重均已上传huggingface。CaMA的diff权重位于此处，LoRA权重位于此处。