PKU-YuanGroup / ChatLaw

ChatLaw:A Powerful LLM Tailored for Chinese Legal. 中文法律大模型

Home Page:https://chatlaw.cloud/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

text2vec数据集构建

sz2three opened this issue · comments

看huggingface的例子,例子, text2vec的原始数据看起来像QA问答的数据,请问您是怎么把问答数据构建成为文本embeddings训练的数据的呢,CoSENT的训练是不是需要 (sentence1,sentenc2,sentenc3) 三个样本呢?

commented

应该是in batch negative方式训的