soulteary / ml-engineering

《机器学习工程》开源电子书,欢迎一起贡献完善《Machine Learning Engineering》中文版

Home Page:https://soulteary.com/2024/03/13/use-yi-34b-chat-200k-model-and-dify-to-quickly-build-model-application.html

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

《机器学习工程》开放书籍

这本著作是一份有关大型语言模型和多模式模型训练方法的综合性资料汇编,涵盖了理论框架、工具使用以及详细的步骤指引。

这些资料专为大型语言模型(LLM)和视觉语言模型(VLM)培训工程师和管理员设计,包含了大量的脚本文档和可以直接复制的命令行示例,旨在帮助读者快速解决问题。

该存储库汇集了我多年来在开源大型语言模型(例如2022年的BLOOM-176B)和多模式模型(例如2023年的IDEFICS-80B)的训练过程中积累的专业知识和经验。目前,我正任职于Contextual.AI,专注于开发和训练开源的基于检索增强生成的(RAG)模型。

我将这些信息汇总在一起的主要目的是方便自己在需要时可以快速查找解决方案,但我也非常愿意与更广阔的机器学习社区分享这些内容。

目录

如果发现页面布局不稳,这可能是因为我一直在不断地新增章节并逐步优化内容的结构,使之更为清晰易懂。敬请理解!

第一部分:洞见

  1. 人工智能战场工程 - 在这一领域的成功所需的知识

第二部分:硬件

  1. 计算资源 - GPU、CPU 和 CPU 内存。

  2. 存储系统 - 本地、分布式和共享文件系统。

  3. 网络 - 节点内部和节点之间的网络连接。

第三部分:调度

  1. SLURM - 主要的管理系统。

第四部分:训练

  1. 训练指南 - 与模型训练相关的指南。

第五部分:开发

  1. 调试与排错 - 如何轻松处理简单的或复杂的调试问题。

  2. 更多的调试技巧

  3. 测试 - 许多提示和工具,使编写测试变得愉悦。

第六部分:其他

  1. 资源链接 - LLM/VLM的历史记录。

更新通知

任何重大更新的公告都会在我的Twitter频道上公布:@StasBekman

PDF版本

下载本书的PDF版本。

我会尽量保持每周更新一次,但如果想要最新版本,你也可以按照此处的说明自行编译。

感谢Hugging Face允许我在其平台上托管此书的PDF版本。

讨论区

如果你想在机器学习工程的任何方面展开讨论,可以在本仓库的社区讨论板块中发起新的话题或者加入已有的讨论。我们鼓励大家分享经验和相互学习!

快速链接

以下是一些你可能频繁访问的资源的直接链接:

工具类

指南类

鸣谢

如果没有过去委托给我的一些大规模模型训练项目,我不会有今天这样的成就。这种特权只属于少数人,因为租赁庞大的 ML 计算集群成本极为高昂。我希望他人可以通过阅读这些笔记来间接学习我的经验教训。

特别感谢Thomas Wolf,是他建议我领导 BLOOM-176B 的训练工作,尽管当时我对大规模训练几乎一无所知。正是那个项目点燃了我深入探索的热情。当然,也要感谢 Hugging Face 给了我机会全职投入到 BLOOM-176B 和后来的 IDEFCIS-80B 项目的训练工作中去。

我将这些信息汇总在一起的主要目的是为了让自己在需要时可以快速找到解决方案,但我很高兴也很愿意与更广泛的机器学习社区分享这些内容。

贡献

如果您发现任何错误、拼写错误或者其他需要改进之处,请毫不犹豫地通过提交问题报告或者直接提交拉取请求的方式帮助我们改善这份文档。

许可证

本网站内容遵循知识共享署名-相同方式共享 4.0 国际许可协议

About

《机器学习工程》开源电子书,欢迎一起贡献完善《Machine Learning Engineering》中文版

https://soulteary.com/2024/03/13/use-yi-34b-chat-200k-model-and-dify-to-quickly-build-model-application.html

License:Creative Commons Attribution Share Alike 4.0 International


Languages

Language:Python 84.4%Language:Shell 12.6%Language:CSS 1.9%Language:Makefile 1.1%