carbonz0 / alpaca-chinese-dataset

alpaca中文指令微调数据集

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

我们发布了更完整、不是机器翻译的中文数据

Guanaco-Model opened this issue · comments

期待你们的工作!希望能早日开源权重,体验到模型的惊艳效果!

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

不错👍,看是不是能合作一下,做个合并,我也在生成这样的数据

机器翻译的数据,对小模型可能是一种数据污染。
在数据生成上面,GuanacoDataset迄今已花费$5K在OpenAI。
对中文数据方面,我们公开发布了Alpaca175任务中文版本的185,702条项目,重复度0.7以内;含有中文的对话任务48,967条。
所有中文包含了简体中文、香港繁体和**正体,均是本地化的 seed tasks 独立生成,并且未使用蒸馏过的turbo模型。
如果您有新的生成结构,欢迎向社区分享。

commented

@Guanaco-Model
很感谢您发布的数据和模型。

我在使用https://huggingface.co/nyanko7/alpaca-multilang/tree/main时,生成的句子会重复,
image

我使用的config如下:
generation_config = GenerationConfig(
temperature=0.1,
top_p=0.75,
num_beams=4,
**kwargs,
)
generation_output = model.generate(
input_ids=input_ids,
generation_config=generation_config,
return_dict_in_generate=True,
output_scores=True,
max_new_tokens=256,
)

机器翻译的数据,对小模型可能是一种数据污染。 在数据生成上面,GuanacoDataset迄今已花费$5K在OpenAI。 对中文数据方面,我们公开发布了Alpaca175任务中文版本的185,702条项目,重复度0.7以内;含有中文的对话任务48,967条。 所有中文包含了简体中文、香港繁体和**正体,均是本地化的 seed tasks 独立生成,并且未使用蒸馏过的turbo模型。 如果您有新的生成结构,欢迎向社区分享。

==================
这份数据我看过了,问题在于没有去除包含图片和文件相关的内容,这部分会扰乱模型

commented

@Guanaco-Model @wac81 请问你们有对中文数据上的效果进行评测吗?方便展示一下结果吗?

您可以参考协作者的一份实现:https://colab.research.google.com/drive/1nn6TCAKyFrgDEgA6X3o3YbxfbMm8Skp4?usp=sharing
特别地,针对Chat模式,如果效果不佳,请适当增大temperature,出现重复增加repetition_penalty。
最终的作品仍在筹划中,目前正在对超长输入(比如pdf文档)的非文段匹配方式的阅读总结和QA进行研究。

您似乎没有设定repetition_penalty

Hi @Guanaco-Model
请问

含有中文的对话任务48,967条

这个对话任务是什么样子的,数据是怎么构造的