请问数据集都是从哪里搜集的？

Question

Janet-Baker opened this issue 3 months ago · comments

请问 我们的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成，随后经过清洗、数据增强等来构造对话数据。 这里面的论坛、新闻、法律咨询都是从哪里找到的呢？

能够提供一些数据集吗？链接和爬虫脚本可以提供吗？

谢谢！

chengyineng38 · Answer 1 · Fri May 03 2024 02:27:11 GMT+0800 (China Standard Time)

我也有相同问题。请问data size 多大呢？最后的token 是在 million/billion/trillion 那个范围内？