请问数据集都是从哪里搜集的?
Janet-Baker opened this issue · comments
请问 我们的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。
这里面的论坛、新闻、法律咨询都是从哪里找到的呢?
能够提供一些数据集吗?链接和爬虫脚本可以提供吗?
谢谢!
我也有相同问题。请问data size 多大呢? 最后的token 是在 million/billion/trillion 那个范围内?
ChatLaw:A Powerful LLM Tailored for Chinese Legal. 中文法律大模型
Janet-Baker opened this issue · comments
请问 我们的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。
这里面的论坛、新闻、法律咨询都是从哪里找到的呢?
能够提供一些数据集吗?链接和爬虫脚本可以提供吗?
谢谢!
我也有相同问题。请问data size 多大呢? 最后的token 是在 million/billion/trillion 那个范围内?