我们发布了更完整、不是机器翻译的中文数据

Question

我们发布了更完整、不是机器翻译的中文数据

Guanaco-Model opened this issue a year ago · comments

Guanaco commented a year ago

https://guanaco-model.github.io/
https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

acadaiaca · Answer 1 · Mon Mar 20 2023 18:56:54 GMT+0800 (China Standard Time)

期待你们的工作！希望能早日开源权重，体验到模型的惊艳效果！

carbonz · Answer 2 · Mon Mar 20 2023 20:27:13 GMT+0800 (China Standard Time)

https://guanaco-model.github.io/ https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

不错👍，看是不是能合作一下，做个合并，我也在生成这样的数据

Guanaco · Answer 3 · Mon Mar 20 2023 21:39:41 GMT+0800 (China Standard Time)

机器翻译的数据，对小模型可能是一种数据污染。
在数据生成上面，GuanacoDataset迄今已花费$5K在OpenAI。
对中文数据方面，我们公开发布了Alpaca175任务中文版本的185,702条项目，重复度0.7以内；含有中文的对话任务48,967条。
所有中文包含了简体中文、香港繁体和**正体，均是本地化的 seed tasks 独立生成，并且未使用蒸馏过的turbo模型。
如果您有新的生成结构，欢迎向社区分享。

cxj01 · Answer 4 · Tue Mar 21 2023 14:55:18 GMT+0800 (China Standard Time)

@Guanaco-Model
很感谢您发布的数据和模型。

我在使用https://huggingface.co/nyanko7/alpaca-multilang/tree/main时，生成的句子会重复，

我使用的config如下：
generation_config = GenerationConfig(
temperature=0.1,
top_p=0.75,
num_beams=4,
**kwargs,
)
generation_output = model.generate(
input_ids=input_ids,
generation_config=generation_config,
return_dict_in_generate=True,
output_scores=True,
max_new_tokens=256,
)

Arthur Wu · Answer 5 · Tue Mar 21 2023 15:26:35 GMT+0800 (China Standard Time)

机器翻译的数据，对小模型可能是一种数据污染。在数据生成上面，GuanacoDataset迄今已花费$5K在OpenAI。对中文数据方面，我们公开发布了Alpaca175任务中文版本的185,702条项目，重复度0.7以内；含有中文的对话任务48,967条。所有中文包含了简体中文、香港繁体和**正体，均是本地化的 seed tasks 独立生成，并且未使用蒸馏过的turbo模型。如果您有新的生成结构，欢迎向社区分享。

==================
这份数据我看过了，问题在于没有去除包含图片和文件相关的内容，这部分会扰乱模型

Syno8 · Answer 6 · Tue Mar 21 2023 19:46:33 GMT+0800 (China Standard Time)

@Guanaco-Model @wac81 请问你们有对中文数据上的效果进行评测吗？方便展示一下结果吗？

Guanaco · Answer 7 · Wed Mar 22 2023 11:26:00 GMT+0800 (China Standard Time)

您可以参考协作者的一份实现：https://colab.research.google.com/drive/1nn6TCAKyFrgDEgA6X3o3YbxfbMm8Skp4?usp=sharing
特别地，针对Chat模式，如果效果不佳，请适当增大temperature，出现重复增加repetition_penalty。
最终的作品仍在筹划中，目前正在对超长输入（比如pdf文档）的非文段匹配方式的阅读总结和QA进行研究。

Guanaco · Answer 8 · Wed Mar 22 2023 11:26:38 GMT+0800 (China Standard Time)

您似乎没有设定repetition_penalty

Nipi64310 · Answer 9 · Thu Mar 23 2023 16:51:33 GMT+0800 (China Standard Time)

Hi @Guanaco-Model ，
请问

含有中文的对话任务48,967条

这个对话任务是什么样子的，数据是怎么构造的