coco-LoR大型语言模型小规模学习

Question

coco-LoR大型语言模型小规模学习

ziwang-com opened this issue a year ago · comments

于低秩适应的计算文本化
大型语言模型小规模学习。本德说最好记住我。LoRA 可以实现什么来增强本地模型的内存？

remember me

局部模型的上下文相对较低，使用嵌入会很快耗尽上下文空间。有较长的上下文模型，但它们是资源密集型的。获得准确信息的答案通常是使用嵌入和向量数据库，这很好，但不完美。社区中的讨论通常始于人们听说 LoRA 并认为“我可以训练新知识”，这在某种程度上是可能的，但也是不完美的.在任何一种情况下，由于短暂的幻觉或偏见，都不能信任本地语言模型提供事实。根据我的经验，始终如一的嵌入更准确。

挑战已知范式;模型对非常非常小的数据集上的训练有何反应？我们可以通过更大的数据集将这种能力扩展到多远？

这个git不是科学™，它采取的方法是完美可以成为好的敌人，而好的信息有它的用途。

结果

一个疯狂的目标 - 动态 LoRa 训练和加载
对于当今大多数 vram 级别来说，可能无法达到，但我正在玩的选项是：

文档上的 QnA，但更多的嵌入是动态 LoRA tized 的，并且其中一部分也用作输入，以便模型可以更好地响应 QnA 上下文。
跟踪哪些文本已被 LoRA 化，以避免重复工作/扭曲结果.
定期汇总/合并 LoRA 以最大程度地减少开销.
卸载到第二个 GPU/服务器。云？云服务是大多数人的选择？对于某些人来说，这可能是一种商业模式，但该领域的变化率存在很多风险。
我之前训练过一个模型，也对 QnA 使用了嵌入。这很好，但它也是一个静态模型。
故事/聊天生成，但是当上下文超出本地模型的容量时，历史记录被 LoRA 化并应用于模型.
我相信故事/聊天需要某种标记来指示文本的相对时间戳，而不会使模型产生不和谐并推断“他们在晚上 9 点早餐时聊天???”
目前还不清楚在这个领域使用LoRA和语言模型可以实现什么。我可以从动态 LoRA 化 python 代码开始并修改/开发该代码，但第一个问题又回到了模型是否会以有意义的方式响应它.此外，QnA 与故事/聊天将具有不同的训练参数以获得最佳结果，因此这一切都始于一些测试。

LLM不断发展的方式的“有趣”方面之一是不断涌现出新的模型来使用和测试。一个不太有趣的方面是，确定要使用的模型是一个挑战。