PKU-YuanGroup / ChatLaw

ChatLaw:A Powerful LLM Tailored for Chinese Legal. 中文法律大模型

Home Page:https://chatlaw.cloud/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问数据集都是从哪里搜集的?

Janet-Baker opened this issue · comments

请问 我们的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。 这里面的论坛、新闻、法律咨询都是从哪里找到的呢?

能够提供一些数据集吗?链接和爬虫脚本可以提供吗?

谢谢!

我也有相同问题。请问data size 多大呢? 最后的token 是在 million/billion/trillion 那个范围内?