llamafia.github

LLaMafia 是一个中文前沿 AI / LLM 开源讨论空间。LLaMa 指 LLaMA 模型， Mafia 指极客群体，合起来叫 LLaMafia

LLaMafia 关注最扎实的工程和最前沿的科学，所有讨论基于第一性科学原理和第一手工程经验，鼓励 critical thinking, promote insightful work

在当下的时代，人们研究 AI 原因有很多，可以是追求产品价值，投资机会，学术资源，社会影响力

LLaMafia 研究 AI，是因为纯粹的热爱

Tech Log

20231213 蒸馏方法的局限与 MOE 讨论录像

数字切开验证&&数字计算
Instruction following 能力
论文分析：1.《我在Performer中发现了Transformer-VQ的踪影》2.Multimodal understanding benchmark!
讨论：1.LLama2 预测结果不一致 2.LLama 的 tokenizer 和 titoken 本质区别 3.特定的domain用self-instruct 的效果 4.大模型SFT阶段训练不稳定的探索

对 AI Safety / AI open source 以及 large scale AI deployment 的看法
轻量方法动态压缩序列
论文分享：1. Transformer升级之路：15、Key归一化助力长度外推 2. Component-Wise Gradient Norm Clipping 3. Superalignment 4. Detecting Pretraining Data from Large Language Models
讨论： 1. 召回向量 & RAG 2. Claude 2.1上下文信息提取能力 3.Medusa 框架 & lookahead decoding 4. LLM局域信息

20231022 Compression Theory. 讨论录像