ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

coco-LoR大型语言模型小规模学习

ziwang-com opened this issue · comments

https://github.com/oldgrev/coco-LoRA

于低秩适应的计算文本化
大型语言模型小规模学习。本德说最好记住我。LoRA 可以实现什么来增强本地模型的内存?

remember me

局部模型的上下文相对较低,使用嵌入会很快耗尽上下文空间。有较长的上下文模型,但它们是资源密集型的。获得准确信息的答案通常是使用嵌入和向量数据库,这很好,但不完美。社区中的讨论通常始于人们听说 LoRA 并认为“我可以训练新知识”,这在某种程度上是可能的, 但也是不完美的.在任何一种情况下,由于短暂的幻觉或偏见,都不能信任本地语言模型提供事实。根据我的经验,始终如一的嵌入更准确。

挑战已知范式;模型对非常非常小的数据集上的训练有何反应?我们可以通过更大的数据集将这种能力扩展到多远?

这个git不是科学™,它采取的方法是完美可以成为好的敌人,而好的信息有它的用途。

结果

一个疯狂的目标 - 动态 LoRa 训练和加载
对于当今大多数 vram 级别来说,可能无法达到,但我正在玩的选项是:

文档上的 QnA,但更多的嵌入是动态 LoRA tized 的,并且其中一部分也用作输入,以便模型可以更好地响应 QnA 上下文。
跟踪哪些文本已被 LoRA 化,以避免重复工作/扭曲结果.
定期汇总/合并 LoRA 以最大程度地减少开销.
卸载到第二个 GPU/服务器。云?云服务是大多数人的选择?对于某些人来说,这可能是一种商业模式,但该领域的变化率存在很多风险。
我之前训练过一个模型,也对 QnA 使用了嵌入。这很好,但它也是一个静态模型。
故事/聊天生成, 但是当上下文超出本地模型的容量时, 历史记录被 LoRA 化并应用于模型.
我相信故事/聊天需要某种标记来指示文本的相对时间戳,而不会使模型产生不和谐并推断“他们在晚上 9 点早餐时聊天???”
目前还不清楚在这个领域使用LoRA和语言模型可以实现什么。我可以从动态 LoRA 化 python 代码开始并修改/开发该代码,但第一个问题又回到了模型是否会以有意义的方式响应它.此外,QnA 与故事/聊天将具有不同的训练参数以获得最佳结果,因此这一切都始于一些测试。

LLM不断发展的方式的“有趣”方面之一是不断涌现出新的模型来使用和测试。一个不太有趣的方面是,确定要使用的模型是一个挑战。