CleanTransformer

项目特点：

平时工作忙，如果有同学有精力和意愿来一起完善代码和教程，欢迎私信联系

文字教程见：

计划

分词器Tokenizer: BPE, WordPiece
原始Transformer: LayerNorm, Multi-Head Attention, TransformerLayer
完整模型搭建及推理: Bert, GPT1/2/3, Bert Inference
生成策略: Greedy Search, Beam Search
模型训练: Optimizer (SGD, Adam), Loss (MSELoss, CrossEntropyLoss), Trainer, Deployment
类ChatGPT模型训练: LLaMA + SFT + RLHF
训练及推理加速: Data Parallel, Tensor Parallel, Pipeline Parallel, Activition Checkpoint, Model Quantization
文生图: Diffusion Model

an implementation of transformer, bert, gpt, and diffusion models for learning purposes

MIT License

Language:Python 100.0%