lingxier / StarrySky

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 1000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!

Home Page:http://www.wuwenjie.xyz/wordpress

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

StarrySky

GitHub issues GitHub stars GitHub forks GitHub license

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

Selected more than 1000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc.

让更多优秀的项目被人发现,让更多的人感受开源的魅力。

Let more excellent projects be discovered by people, let more people feel the charm of open source.

持续更新!欢迎star!😀😀😀 Continue to update! Welcome to star! 😀😀😀

目录

Star数变化

  • 关注者

机器学习与深度学习

  • Coursera-ML-AndrewNg-Notes stars [教程/笔记]吴恩达老师的机器学习课程个人笔记

  • d2l-ai/d2l-zh stars [教程/笔记]《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被60多个国家的400多所大学用于教学。

  • apachecn/AiLearning stars [教程/笔记]AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP

  • microsoft/ai-edu [教程/笔记]微软人工智能教育与学习共建社区。由基础教程实践案例实践项目三大模块构成,通过系统化的理论教程和丰富多样的实践案例,帮助学习者学习并掌握人工智能的知识,并锻炼在实际项目中的开发能力。

  • microsoft/Data-Science-For-Beginners [教程/笔记]10 周20 节课,全民数据科学!

  • mli/paper-reading 深度学习经典、新论文逐段精读。包括视频讲解。

  • josephmisiti/awesome-machine-learning 机器学习框架、库和软件的精选列表

  • AMAI-GmbH/AI-Expert-Roadmap 2022年成为人工智能专家的路线图

  • dair-ai/ML-YouTube-Courses 在 YouTube 上发现最新的机器学习/人工智能课程。

  • visenger/awesome-mlops 机器学习操作 (MLOps),可自动执行并加速机器学习生命周期。精选的参考文献列表。

  • fengdu78/lihang-code 《统计学习方法》第二版的代码实现

  • Dod-o/Statistical-Learning-Method_Code 手写实现李航《统计学习方法》书中全部算法

  • datawhalechina/pumpkin-book 本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节。

  • ShusenTang/Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。

  • datawhalechina/leedl-tutorial 《李宏毅深度学习教程》,PDF下载

  • ageron/handson-ml2 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • fengdu78/deeplearning_ai_books deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)

  • GitHub - GokuMohandas/Made-With-ML 了解如何设计、开发、部署和迭代生产级 ML 应用程序。在本课程中,将从实验(设计 + 开发)到生产(部署 + 迭代)。我们将通过激励组件来迭代地做到这一点,这些组件将使我们能够构建可靠的生产系统。

  • kmario23/deep-learning-drizzle 通过从这些令人兴奋的讲座中学习,让自己沉浸在深度学习、强化学习、机器学习、计算机视觉和 NLP

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。算法大牛笔记汇总

  • EthicalML/awesome-production-machine-learning 精选的开源库列表,用于部署、监控、版本控制和扩展您的机器学习

  • FavioVazquez/ds-cheatsheets **世界的数据科学备忘单列表

  • nndl/nndl.github.io 《神经网络与深度学习》 邱锡鹏著

  • ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code 500个AI机器学习 深度学习 计算机视觉 NLP 代码项目

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • NirantK/awesome-project-ideas 机器学习、NLP、视觉、推荐系统项目创意的精选列表

  • Mikoto10032/DeepLearning 深度学习入门教程, 优秀文章

  • chefyuan/algorithm-base 用动画将算法说的通俗易懂

  • MorvanZhou/tutorials 机器学习相关教程

  • rougier/scientific-visualization-book 一本关于使用 python 和 matplotlib 进行科学可视化的开放获取书籍

  • bangoc123/learn-machine-learning-in-two-months 在 2 个月内学习好机器学习所需的知识。

  • ukas/ml-class 专为工程师设计的机器学习课程和教学项目

  • Mohitkr95/Best-Data-Science-Resources 该存储库包含最好的数据科学免费精选资源,可为您提供所有行业驱动的技能和面试准备工具包。

  • academic/awesome-datascience 很棒的数据科学存储库,用于学习和应用现实世界的问题。

  • eugeneyan/applied-ml 关于生产中的数据科学和机器学习的精选论文、文章和博客。

  • eriklindernoren/ML-From-Scratch 从头开始机器学习。机器学习模型和算法的裸骨 NumPy 实现,重点关注可访问性。旨在涵盖从线性回归到深度学习的所有内容。

  • roboticcam/machine-learning-notes 不间断更新的机器学习,概率模型和深度学习的讲义(2000+页)和视频链接

  • donnemartin/data-science-ipython-notebooks 数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python essentials,AWS和各种命令行。

  • NLP-LOVE/ML-NLP 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。

  • tangyudi/Ai-Learn 人工智能学习路线图,整理近200个实战案例与项目,免费提供配套教材,零基础入门,就业实战!包括:Python,数学,机器学习,数据分析,深度学习,计算机视觉,自然语言处理,等热门领域

  • dragen1860/Deep-Learning-with-TensorFlow-book 深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • openmlsys/openmlsys-zh 《机器学习系统:设计与实现》- 中文版

  • PKUFlyingPig/cs-self-learning 计算机自学指南深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • 1c7/Crash-Course-Computer-Science-Chinese 计算机速成课 | Crash Course 字幕组 (全40集 2018-5-1 精校完成)

  • mml-book/mml-book.github.io 《机器学习数学》一书的配套网页

  • abmlai/annotated_deep_learning_paper_implementations 神经网络和相关算法的简单 PyTorch 实现的集合。将这些呈现为并排格式化的笔记。我们相信这些将帮助您更好地理解这些算法。

  • yunjey/pytorch-tutorial 深度学习研究人员的 PyTorch 教程

  • PyTorchLightning/PyTorch-lightning 基于Pytorch的轻量高级计算框架,相当于Keras框架。

  • bharathgs/Awesome-pytorch-list github上pytorch相关内容的完整列表,例如不同的模型,实现,帮助程序库,教程等。

  • sgrvinod/Deep-Tutorials-for-PyTorch 使用 PyTorch 自行实现深度学习模型的深入教程。

  • apachecn/pytorch-doc-zh Pytorch 中文文档

  • zergtant/pytorch-handbook pytorch handbook是一本开源的书籍,目标是帮助那些希望和使用PyTorch进行深度学习开发和研究的朋友快速入门,其中包含的Pytorch教程全部通过测试保证可以成功运行

  • ELS-RD/kernl 第一个使用 OpenAI Triton 编写的 OSS 推理引擎,这是一种由 OpenAI 设计的新语言,可以更轻松地编写 GPU 内核。每个内核不到200行代码,易于理解和修改。

  • BoltzmannEntropy/interviews.ai 深度学习面试书:数百个完全解决的工作面试问题,来自 AI 的广泛关键主题。

  • ChristosChristofidis/awesome-deep-learning 精选深度学习教程、项目和社区列表。

  • microsoft/AI-For-Beginners Microsoft的 Azure 云倡导者很高兴提供为期 12 周、每节课的人工智能课程。

  • google-research/tuning_playbook 系统地最大化深度学习模型性能的手册。重点是超参数调优的过程。我们涉及深度学习训练的其他方面,例如管道实现和优化,但我们对这些方面的处理并不打算完整。

  • floodsung/Deep-Learning-Papers-Reading-Roadmap 深度学习论文阅读路线图,适合任何渴望学习这项惊人技术的人!

  • scutan90/DeepLearning-500-questions 深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 分为18个章节,50余万字。

  • mrdbourke/pytorch-deep-learning 学习用于深度学习的 PyTorch:从零到精通课程的材料。

  • ageron/handson-ml3 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • girls-in-ai/Girls-In-AI 免费学代码系列:小白python入门、数据分析data analyst、机器学习machine learning、深度学习deep learning、kaggle实战

  • kailashahirwar/cheatsheets-ai 深度学习和机器学习工程师的基本备忘单

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。

  • apachecn/pytorch-doc-zh Pytorch 中文文档,PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (张量库)

  • PaddlePaddle/Paddle 『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署

  • alibaba/MNN 轻量级的深度神经网络推理引擎

  • Tencent/TNN 移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势

  • microsoft/nnfusion 灵活高效的深度神经网络(DNN)编译器,可从DNN模型描述生成高性能的可执行文件。

  • apache/incubator-tvm 用于深度学习系统的编译器堆栈。它旨在缩小以生产力为中心的深度学习框架与以性能和效率为重点的硬件后端之间的差距。TVM与深度学习框架一起使用,以提供对不同后端的端到端编译

  • geohot/tinygrad 不到1000行的深度学习框架,麻雀虽小,但五脏俱全,这个深度学习框架使用起来和PyTorch类似

  • karpathy/micrograd 微型标量自动求导引擎,类似PyTorch API的神经网络库

  • Jittor/jittor 基于 JIT 编译和元运算符的高性能深度学习框架。整个框架和元运算符是及时编译的。它使我们能够生成专门针对您的模型的高性能代码。Jittor 还包含丰富的高性能模型库,包括:图像识别、检测、分割、生成、可微渲染、几何学习、强化学习等。

  • wandb/client Weights and Biases 组织和分析机器学习实验 它与框架无关,并且比TensorBoard轻巧。每次您运行带有的脚本时wandb,都会保存您的超参数和输出指标。在训练过程中可视化模型,并轻松比较模型的版本。我们还将自动跟踪您的代码状态,系统指标和配置参数。

  • NUAA-AL/ALiPy 基于Python实现的主动学习工具包

  • facebookresearch/nevergrad 无梯度优化平台

  • yzhao062/combo 用于机器学习模型组合的 Python 工具箱。模型组合可以被认为是整体学习的子任务,并且已被广泛用于诸如Kaggle [3]之类的现实任务和数据科学竞赛中。

  • google/trax 代码更清晰的神经网络代码库

  • Oneflow-Inc/oneflow OneFlow是一个以性能为中心的开源深度学习框架。

  • jonasrauber/eagerpy 编写与PyTorch,TensorFlow,JAX和NumPy本地兼容的代码

  • tensorlayer/TensorLayerX 跨平台开发框架,支持TensorFlow, Pytorch, MindSpore, PaddlePaddle, OneFlow和Jittor,用户不需要修改任何代码即可以运行在各类操作系统和AI硬件上(如Nvidia-GPU 和 Huawei-Ascend),并支持混合框架的开发。

  • borgwang/tinynn 用 Python3 编写的轻量级深度学习框架(用于学习目的)。

  • rushter/MLAlgorithms 机器学习算法

  • MLEveryday/100-Days-Of-ML-Code 100-Days-Of-ML-Code中文版

  • csuldw/MachineLearning csuldw/MachineLearning

  • luwill/machine-learning-code-writing luwill/machine-learning-code-writing

  • geekinglcq/CDCS CDCS **数据竞赛优胜解集锦

  • mlpack/mlpack C++ 快速、灵活的机器学习库

  • apple/coremltools 包含用于 Core ML模型转换、编辑和验证的支持工具。

  • tensorflow/ranking TensorFlow中的排名学习

  • scikit-survival 生存分析

  • ShichenXie/scorecardpy Scorecard Development in python, 评分卡

  • lavender28/Credit-Card-Score 申请信用评分卡模型

  • modin-project/modin 通过更改一行代码来扩展加速pandas

  • vaexio/vaex 适用于Python的核外DataFrame,以每秒十亿行的速度可视化和探索大型表格数据

  • cupy/cupy 使用 CUDA 加速类似 NumPy 的 API

  • serge-sans-paille/pythran 将 Python 代码转成 C++ 代码执行 一个 AOT (Ahead-Of-Time - 预先编译) 编译器,大幅度提升性能。

  • RAPIDS Open GPU Data Science RAPIDS 开放 GPU 数据科学库

    • cudf cuDF - GPU DataFrame Library GPU数据表库
    • cuml cuML - RAPIDS Machine Learning Library RAPIDS 机器学习库
    • cugraph cuGraph - RAPIDS Graph Analytics Library RAPIDS 图分析库
    • cusignal cuSignal - RAPIDS Signal Processing Library RAPIDS信号处理库
  • AtsushiSakai/PythonRobotics 包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM 、路径跟踪算法。

  • sql-machine-learning/sqlflow 连接 SQL 引擎的桥接,与机器学习工具包连接

  • esa/pagmo2 大规模并行优化的科学库 生物启发式算法和进化算法

  • geatpy-dev/geatpy 高性能遗传进化算法工具箱

  • guofei9987/scikit-opt 强大的启发式算法Python模块 遗传算法 粒子群优化 模拟退火 蚁群算法 免疫算法 人工鱼群算法

  • interpretml/interpret 训练可解释的机器学习模型和解释黑匣子系统

  • alexmojaki/heartrate 调试 Python程序执行的简单实时可视化

  • bojone/keras_recompute 通过重计算来节省显存,参考论文《Training Deep Nets with Sublinear Memory Cost》。

  • yuanming-hu/taichi_mpm 带有切割和耦合(CPIC)的高性能MLS-MPM(基于移动最小二乘法的物质点法)求解器

  • pytorch/opacus Opacus是一个库,可以使用不同的隐私训练PyTorch模型。

  • pycaret/pycaret Python中的开源,低代码机器学习库

  • thuml/Transfer-Learning-Library 用于迁移学习的开源且文档齐全的库。它基于具有高性能和友好API的纯PyTorch。当前支持的算法包括:领域对抗神经网络(DANN)深度适应网络(DAN)联合适应网络(JAN)条件域对抗网络(CDAN)最大分类器差异(MCD)Margin Disparity Discrepancy 保证金差异(MDD)

  • jxhe/unify-parameter-efficient-tuning 参数高效迁移学习 (PETL) 方法仅调整少量(额外)参数以使大型预训练模型适应下游任务。

  • FedML-AI/FedML 面向研究的联邦学习库。支持分布式计算,移动/IoT设备训练和模拟

  • bytedance/fedlearner 字节开源联邦机器学习平台,采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。

  • mit-han-lab/mcunet IoT硬件上精简的深度学习库 Tiny Deep Learning on IoT Devices

  • Aimhubio/Aim 一个超级简单的记录、查找、比较AI实验的库。

  • microsoft/onnxruntime 跨平台深度学习训练和推理机加速器,与深度学习框架,可以兼容TensorFlow、Keras和PyTorch等多种深度学习框架。Open Neural Network Exchange 是用于表示深度学习模型的开放格式,定义了通用运算符、机器学习和深度学习模型的构建块以及通用文件格式,可与各种框架工具和编译器一起使用。

  • microsoft/hummingbird 将训练有素的机器学习模型编译为张量计算,以加快推理速度。 用于将经过训练的传统ML模型编译为张量计算的库。

  • microsoft/EdgeML Microsoft Research India开发的边缘设备提供了机器学习算法。

  • ml-tooling/best-of-ml-python 很棒的机器学习Python库的排名列表。

  • terryyz/PyArmadillo Python 语言的线性代数库,强调易用性。该库旨在提供类似于 Matlab 或者 Octave 的高级语法和功能,使得用户以熟悉且自然的方式表达数学运算。提供了用于矩阵和多维数据集(cube)的对象,以及 200 多个用于处理对象中存储数据的相关函数。所有功能都可以在一个平面结构中访问,并且支持整数、浮点数和复数。通过集成 LAPACK 或者 Intel MKL、OpenBLAS 等高性能替代产品,该库可以提供各种矩阵分解。

  • raminmh/liquid_time_constant_networks 一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据。

  • mlech26l/keras-ncp 设计灵感直接来自秀丽隐杆线虫 由感官神经元接收环境信息、而后经过中间神经元,传递给指令神经元进而形成决策信息,最后由动作神经元完成决策的执行并完成动作。

  • skorch-dev/skorch 综合scikit-learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。

  • OpenMined/PySyft 用于安全和私有深度学习的Python库。PySyft使用联合学习,差分隐私和加密计算(例如PyTorch和TF中的多方计算 (MPC) 和同态加密 (HE) 将模型训练中的私人数据进行解耦。

  • pyro-ppl/pyro 基于PyTorch作为后端的通用概率编程语言 (PPL)。

  • PytorchLightning/metrics PyTorch原生的函数和度量模块的集合,用于简单的性能评估。可以使用常见的指标,如准确性,召回率,精度,AUROC, RMSE, R²等,或者创建你自己的指标。支持超过25个指标,并不断增加更多通用任务和特定领域的标准(目标检测,NLP等)。

  • teddykoker/torchsort 快速可微分排序算法PyTorch包,配有自定义C ++和CUDA

  • man-group/dtale pandas数据结构的可视化工具

  • google/model_search 帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。

  • neuronika/neuronika 纯Rust的张量和动态神经网络库。

  • matazure/mtensor 一个tensor计算库, 支持cuda的延迟计算

  • e-tony/best-of-ml-rust 一个令人赞叹的Rust机器学习排名表。

  • awslabs/autogluon 为文本、图像、表格数据开发的自动机器学习库(AutoML)。

  • luwill/Machine_Learning_Code_Implementation 机器学习算法的数学推导和纯Python代码实现。

  • ml-tooling/best-of-ml-python 一个令人赞叹的python机器学习排名表,每周更新。

  • thuwyh/InferLight 提高模型的线上推理吞吐量近2.5倍。

  • ContrastiveSR/Contrastive_Learning_Papers 对比学习的相关论文列表。内容包括:计算机视觉、NLP、推荐系统、图模型等方面的应用。

  • Tencent/WeChat-TFCC C++深入学习推理框架。提供以下工具包,便于您开发和部署训练 DL 模型:TFCC深度学习推理库的核心、TFCC 代码生成器、TFCC 运行时。

  • idrl-lab/idrlnet 基于内嵌物理知识神经网络的开源求解框架

  • KaiyuYue/torchshard 马里兰大学帕克分校计算机科学系的研究者开源了一个轻量级的引擎,用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层(例如 BERT、GPT)或者很多类(数百万)时,TorchShard 可以减少 GPU 内存并扩展训练规模,它具有与 PyTorch 相同的 API 设计。

  • marcotcr/lime LIMELocal Interpretable Model-agnostic Explanations被用作解释机器学习模型。

  • MAIF/shapash 非常炫酷的模型解释性工具包。

  • microsoft/ML-For-Beginners 微软给初学者开源了一份机器学习课程。

  • sfu-db/dataprep Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

  • scikit-learn-contrib/hdbscan 用无监督学习来查找数据集的集群聚类或密集区域的工具。主要算法是HDBSCAN。该算法的高性能实现,以及用于分析结果聚类的工具。

  • nvidia/TensorRT C++库,用于对 NVIDIA GPU 和深度学习加速器进行高性能推论。

  • dropreg/R-Drop 填补Dropout缺陷,简单又有效的正则方法。在每个 mini-batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。

  • ucbrise/actnn PyTorch的激活压缩训练框架。在同样内存限制下,通过使用 2 bit 激活压缩,可将 batch size 扩大 6-14 倍,将模型尺寸或者输入图片扩大 6-10 倍。

  • softsys4ai/FlexiBO 基于成本感知的多目标优化深度神经网络

  • XuezheMax/apollo Apollo:用于非凸随机优化的自适应参数对角拟牛顿法

  • statsmodels/statsmodels Statsmodels:Python 中的统计建模和计量经济学库。

  • evidentlyai/evidently 在验证或生产监控期间分析机器学习模型的交互式报告。

  • louisfb01/best_AI_papers_2021 按发布日期列出的人工智能最新突破(2021 年)的精选列表,附有清晰的视频说明、更深入文章的链接和代码。

  • DataCanvasIO/DeepTables DeepTables:表格数据的深度学习工具包

  • arogozhnikov/Einops 深度学习操作被彻底改造(用于 pytorch、tensorflow、jax 等). einops(爱因斯坦标记法),让代码可读性更强.

  • haifengl/smile Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

  • wesm/pydata-book Wes McKinney的“Python for Data Analysis”材料和IPython笔记本,由O'Reilly Media出版

  • Visualize-ML/Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习

  • roatienza/Deep-Learning-Experiments 了解深度学习的视频、笔记和实验

  • MingchaoZhu/DeepLearning 该书为《深度学习》(花书) 数学推导、原理剖析与源码级别代码实现

  • aladdinpersson/Machine-Learning-Collection 在此存储库中,您将找到与机器学习相关的教程和项目。我尝试使代码尽可能清晰,目标是用作学习资源和查找问题以解决特定问题的方法。对于大多数人,如果您想要代码的演练,我还在YouTube上做了视频解释。

  • fastai/fastai 一个深度学习库,它提供了高级组件,可以在标准深度学习领域快速轻松地提供最先进的结果,并为研究人员提供可以混合和匹配以构建新方法的低级组件。它旨在做到这两件事,而不会在易用性、灵活性或性能方面做出实质性妥协。这要归功于精心分层的架构,该架构以解耦抽象的形式表达了许多深度学习和数据处理技术的共同底层模式。这些抽象可以通过利用底层Python语言的动态性和PyTorch库的灵活性来简洁明了地表达。

  • rasbt/deeplearning-models 各种深度学习架构、模型和技巧的集合。Jupyter Notebooks中TensorFlow和PyTorch的深度学习架构、模型和技巧的集合。

  • bfortuner/ml-glossary 机器学习术语表

  • fastai/fastbook 这些笔记本介绍了深度学习、fastai 和 PyTorch。fastai 是用于深度学习的分层 API。

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • terryum/awesome-deep-learning-papers 被引用最多的深度学习论文 on Oct 19, 2018

  • d2l-ai/d2l-en 交互式深度学习书籍,包含多框架代码、数学和讨论。被斯坦福大学、麻省理工学院、哈佛大学和剑桥大学等 60 个国家的 400 所大学采用。

  • dragen1860/TensorFlow-2.x-Tutorials TensorFlow 2.x版本的教程和示例,包括CNN,RNN,GAN,Auto-Encoders,FasterRCNN,GPT,BERT示例等。 TF 2.0版入门实例代码,实战教程。

  • BayesWitnesses/m2cgen 将 ML 模型转换为零依赖的本机代码(Java、C、Python、Go、JavaScript、Visual Basic、C#、R、PowerShell、PHP、Dart、Haskell、Ruby、F#、Rust)

  • Jack-Cherish/Machine-Learning 机器学习实战(Python3):kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归

  • Vay-keen/Machine-learning-learning-notes 周志华《机器学习》又称西瓜书是一本较为全面的书籍,书中详细介绍了机器学习领域不同类型的算法(例如:监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等),记录了本人在学习过程中的理解思路与扩展知识点,希望对新人阅读西瓜书有所帮助!

  • Yorko/mlcourse.ai 由 OpenDataScience (ods.ai) 领导的开放式机器学习课程,由 Yury Kashnitsky(Yorko)领导。Yury拥有应用数学博士学位和Kaggle竞赛大师级学位,旨在设计一门在理论与实践之间取得完美平衡的ML课程。因此,该课程在讲座中为您提供数学公式,并以作业和 Kaggle 课堂竞赛的形式进行大量练习。目前,该课程处于自定进度模式。

  • lawlite19/MachineLearning_Python 机器学习算法python实现

  • jindongwang/MachineLearning 一些关于机器学习的学习资料与研究介绍

  • dotnet/machinelearning .NET 的开源和跨平台机器学习框架。

  • dustinvtran/ml-videos 机器学习视频资源的集合

  • Visualize-ML/Book4_Power-of-Matrix Book_4_《矩阵力量》 | 鸢尾花书:从加减乘除到机器学习;上架!

  • ShusenTang/Deep-Learning-with-PyTorch-Chinese 将PyTorch官方书籍《Deep learning with PyTorch》(基本摘录版)翻译成中文版并给出可运行的相关代码。

  • ritchieng/the-incredible-pytorch 一个精选的教程、项目、库、视频、论文、书籍以及与令人难以置信的 PyTorch 相关的任何内容。

  • jeffgerickson/algorithms 杰夫·埃里克森的算法书、笔记等。杰夫·埃里克森(Jeff Erickson)是伊利诺伊大学厄巴纳-香槟分校的计算机科学教授;这本书基于他自 1998 年以来在那里教授的算法课程。

特征工程

  • FeatureLabs/featuretools 特征工程工具箱

  • ScienceKot/kydavra 特征筛选工具

  • aerdem4/lofo-importance LOFO(Leave One Feature Out)重要性基于选择的度量计算一组特征的重要性,对于选择的模型,通过迭代地从集合中删除每个特征,并评估模型的性能。

  • imbalanced-learn 解决机器学习中不平衡数据集

  • ResidentMario/missingno 灵活且易于使用的缺失数据可视化和实用程序,可让您快速直观地了解数据集的完整性(或缺乏完整性)。

  • RUCAIBox/Negative-Sampling-Paper 该知识库收录了与负采样方法相关的 100 篇论文,涵盖推荐系统(RS)、计算机视觉(CV)、自然语言处理(NLP)和对比学习(CL)等多个研究领域。

  • haifengl/smile Smile(统计机器智能和学习引擎)是Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

异常检测

参数优化

梯度提升和树模型

  • dmlc/xgboost 可扩展、可移植和分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 在单机、Hadoop、Spark、Dask、Flink 和 DataFlow 上运行。

  • microsoft/LightGBM 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。

  • motefly/DeepGBM 为在线预测任务提炼的深度学习GBDT框架

  • catboost/catboost 一个快速、可扩展、高性能的决策树梯度提升库,用于 Python、R、Java、C++ 的排名、分类、回归和其他机器学习任务。 支持在 CPU 和 GPU 上进行计算。

  • Xtra-Computing/thundergbm ThunderGBM:GPU 上的快速 GBDT 和随机森林

  • GBDT-PL/GBDT-PL 使用分段线性树进行梯度提升

  • mesalock-linux/gbdt-rs MesaTEE GBDT-RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE

  • tensorflow/decision-forests 一组最先进的算法,用于训练、服务和解释 Keras 决策森林模型。

  • kingfengji/gcForest 这是论文“深度森林:走向深度神经网络的替代方案”的官方实现

  • LAMDA-NJU/Deep-Forest Deep Forest 2021.2.1的实现

  • hlamotte/decision-tree 在C++的决策树

  • augboost-anon/augboost 逐步特征增强的梯度提升。

  • DataCanvasIO/HyperGBM 用于表格数据的完整管道 AutoML 工具, 涉及多个梯度提升树模型(GBM),即XGBoost、LightGBM和Catboost。

  • Microstrong0305/WeChat-zhihu-csdnblog-code Regression Tree 回归树 深入理解提升树(Boosting tree)算法 深入理解GBDT回归 GBDT二分类算法 GBDT多分类算法 XGBoost LightGBM CatBoost 深入浅出Word2Vec原理解析 Doc2vec原理解析及代码实践

  • antmachineintelligence/mtgbmcode 提出了多任务梯度提升机 (MT-GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。

神经网络结构搜索 Neural Architecture Search

分布式机器学习

  • horovod/horovod Uber开源的分布式训练框架。它的发展吸取了Facebook "Training ImageNet In 1 Hour" 与百度 "Ring Allreduce" 的优点,可为用户实现分布式训练提供帮助。

  • dask/dask 用Python编写的,是一个灵活的、开源的并行计算库,提供大规模性能 高级并行性。

  • hpcaitech/ColossalAI 用于大规模并行训练的统一深度学习系统,具有高效并行化技术的集成大规模模型训练系统。可以让您在几行代码内快速开始分布式训练,通过并行化策略、异构内存管理为深度学习任务加速或者节省显存。

  • microsoft/DeepSpeed 深度学习优化库,它使分布式训练变得容易,高效和有效。

  • FMInference/FlexGen 高吞吐量的生成引擎,用于在GPU内存有限的情况下运行大型语言模型。FlexGen允许通过IO高效分载、压缩和大有效批处理大小生成高吞吐量。

  • microsoft/SynapseML 简单和分布式机器学习。基于 Apache Spark 分布式计算框架构建,与 SparkML/MLLib 库共享相同的 API,允许您将 SynapseML 模型无缝嵌入到现有的 Apache Spark 工作流程中。

  • Oneflow-Inc/libai 基于OneFlow的大规模模型训练开源工具箱。支持丰富的并行训练配置,包括但不限于分布式训练、混合精度训练、后向重计算、ZeRO,多样化的训练技巧,同时支持视觉与自然语言处理任务、简单易用,便于上手。

  • Qihoo360/XLearning 支持多种机器学习、深度学习框架调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。

  • sql-machine-learning/elasticdl Kubernetes原生的深度学习框架,支持容错和弹性调度,支持TensorFlow和PyTorch。

  • kubeflow/kubeflow 用于机器学习操作的云原生平台 - 管道、训练和部署。

  • alibaba/euler 大规模分布式的图学习框架,配合TensorFlow或者阿里内部的XDL等深度学习工具,可以支持数十亿点数百亿边的复杂异构图上进行模型训练。

  • Angel-ML/angel 用于大规模机器学习的灵活而强大的参数服务器。基于参数服务器理念的高性能分布式机器学习和图计算平台。

  • ray-project/ray 提供用于构建分布式应用程序的简单通用API的开源框架。Ray与RLlib(可扩展的强化学习库和Tune(可扩展的超参数调优库)打包在一起。

  • alibaba/Alink Alink是基于Flink的机器学习算法平台,由阿里巴巴计算平台的PAI团队开发。

  • kakaobrain/torchgpipe pytorch的可扩展管道并行性库,可有效地训练大型的,消耗内存的模型。

  • tensorflow/mesh 简化模型并行化 Mesh TensorFlow: Model Parallelism Made Easier

  • uber/fiber 简化AI的分布式计算 该项目是实验性的,API不稳定。

  • petuum/adaptdl 资源自适应深度学习(DL)训练和调度框架。AdaptDL的目标是使分布式DL在动态资源环境(如共享集群和云)中变得轻松高效。

  • learning-at-home/hivemind 一个用于在互联网上训练大型神经网络的库

  • petuum/adaptdl 一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。

  • huggingface/accelerate 一个简单的API,将与多GPUTPU、fp16相关的样板代码抽离了出来,保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码,就可以直接上手多 GPU 或 TPU。Accelerate 支持的集成包括:CPU 单 GPU 单一节点多 GPU 多节点多 GPU TPU 带有本地 AMP 的 FP16.

  • BaguaSys/bagua 八卦是由快手科技和DS3 Lab共同开发的PyTorch深度学习训练加速框架。目前支持:高级分布式训练算法:用户只需添加几行代码(可选择弹性模式)即可将单个 GPU 上的训练扩展到多 GPU(可能跨多台机器)。

  • facebookresearch/fairscale 用于高性能和大规模训练的 PyTorch 扩展。

  • PKU-DAIR/Hetu 针对大规模和自动化分布式训练的高性能分布式深度学习系统。

  • alibaba/FederatedScope 综合性的联邦学习平台,为学术界和工业界的各种联邦学习任务提供方便的使用和灵活的定制。FederatedScope基于事件驱动的架构,集成了丰富的功能集合,以满足联邦学习日益增长的需求,旨在构建一个易于使用的平台,以安全有效地促进学习。

  • Xtra-Computing/FedTree 基于树的模型的联合学习系统。它的设计目的是高效、有效和安全。目前具有以下特点:梯度提升决策树的联合训练。多核 CPU 和 GPU 上的并行计算。支持同态加密、安全聚合和差分隐私。支持分类和回归。

  • youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data 图形和表格数据相关论文、框架和数据集的联邦学习。

  • microsoft/PersonalizedFL 面向研究的个性化联邦学习代码库

其他_机器学习与深度学习

  • JuliaLang/julia 用于科学计算的高级、高性能动态语言。

  • vikasverma1077/manifold_mixup 数据增强⽅法,目标是通过插入示例的隐藏状态来学习鲁棒的特征。 我们的方法学习到的表征更具判别性和紧凑性。

  • pytorch/serve 在生产环境中提供、优化和扩展 PyTorch 模型。特色:模型管理 API:通过优化从角色到模型的分配进行多模型管理、推理 API:对批量推理的 REST 和 gRPC 支持、TorchServe 工作流:使用多个相互依赖的模型部署复杂的 DAG、导出模型以进行优化推理:开箱即用的Torchscript,ORT和ONNX,IPEX,TensorRT,FasterTransformer、性能指南:内置支持优化、基准测试和分析 PyTorch 和 TorchServe 性能、富有表现力的处理程序:一种富有表现力的处理程序体系结构,通过开箱即用的支持,支持对用例的推理变得微不足道、指标 API:通过 Prometheus 导出、自定义指标和 PyTorch 分析器支持对系统级指标的开箱即用支持

  • PaddlePaddle/PaddleHub 基于PaddlePaddle的真棒预训练模型工具包。(400+模型,包括图像,文本,音频,视频和跨模态,易于推理和服务)

  • streamlit/streamlit 用 Python 构建数据应用程序的最快方法

  • huggingface/optimum 性能优化工具,AI 生态发展迅速,越来越多的专用硬件及其优化每天都在涌现,可实现在目标硬件上训练和运行模型的最高效率。

  • mosaicml/composer 将神经网络训练速度提高 7 倍 更低的成本和更高的准确度更快地训练神经网络。我们已经实现了两打以上的加速方法,只需几行代码即可应用于您的训练循环,或与我们的内置 Trainer 一起使用。

  • China-UK-ZSL/Resources_for_KZSL KZSL:对知识驱动的零样本学习进行基准测试.用于零样本图像分类 ( ZS-IMGC)、零样本关系提取 ( ZS-RE) 和零样本知识图 (KG) 完成 ( ZS-KGC )

  • alibaba/Elastic-Federated-Learning-Solution 经过百亿规模工业级场景实战验证的跨互联网企业信息合作的联邦学习框架。EFLS有以下核心特性:云原生支持自定义特征工程——大规模高可用;首开水平聚合,层次聚合双模型——更强大更便捷。

  • wuba/dl_inference 通用深度学习推理工具,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。

  • activeloopai/Hub AI的数据集格式。为深度学习构建、管理和可视化数据集。将数据实时流式传输到PyTorch/TensorFlow并对其进行版本控制。

  • gradio-app/gradio 在 3 分钟内使用 Python 为您的机器学习模型创建 UI

  • PKU-DAIR/mindware 一个高效的开源 AutoML 系统,用于自动化机器学习生命周期,包括特征工程、神经架构搜索和超参数调整。

  • DataCanvasIO/Hypernets 通用自动化机器学习框架,用于简化特定领域中端到端 AutoML 工具包的开发。包括 tensorflow、keras、pytorch 等深度学习框架,以及 sklearn、lightgbm、xgboost 等机器学习库。引入了抽象的搜索空间表示,同时兼顾了超参数优化和神经架构搜索(NAS)的要求,使 Hypernets 成为能够适应各种自动化机器学习需求的通用框架。

  • RadeonOpenCompute/ROCm ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台

  • PaddlePaddle/Paddle-Lite 飞桨多端多平台高性能深度学习推理引擎.支持多平台:涵盖 Android、iOS、嵌入式 Linux 设备、Windows、macOS 和 Linux 主机。支持多种语言:包括 Java、Python、C++。轻量化和高性能:针对移动端设备的机器学习进行优化,压缩模型和二进制文件体积,高效推理,降低内存消耗

  • nvdla/hw NVIDIA 深度学习加速器 (NVDLA) 是一种免费的开放式架构,它促进了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA 具有可扩展性、高度可配置性,并且旨在简化集成和可移植性。

  • lowRISC/opentitan OpenTitan是一个开源硅信任根 (RoT) 项目。使企业、平台提供商和芯片制造商的硅 RoT 设计和实现更加透明、可信和安全,以生产高质量的开放 IP 以作为全功能产品的实例化。制造商越来越多地开始关注防篡改处理器(或其中一部分),通常被称为“安全区域(Secure Enclave)”,以阻止各种攻击。芯片中使用“信任根(Root of Trust)”,在系统每次启动时进行加密检查,确保没有任何内容被恶意篡改。如果发现问题,安全区域会阻止计算机启动。

  • scikit-hep/awkward-1.0 使用类似 NumPy 的习语来处理类似 JSON 的数据。

  • alibaba/Curvature-Learning-Framework 基于Tensorflow的非欧深度学习框架。实现了多种非欧流形、非欧算子和黎曼优化器,基于与Tensorflow相似的底层接口,可以便捷的迁移模型空间而不改变模型细节。背景:欧氏空间不可能无损表征树、环结构,然而双曲(负曲率)、球面(正曲率)空间无损表征。由于对结构性强的如无尺度网络、层次数据、环状数据等的优良表征能力,非欧深度学习逐渐应用到各个领域并展示出优越性,包括链接预测、推荐系统等。

  • facebookresearch/bitsandbytes 用于 8 位优化器和量化例程的库。

  • openai/triton OpenAI的Triton是一种类 Python 的开源编程语言。能够高效编写 GPU 代码。它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核。此外,使用 Triton 成功生成比同类实现效率高 2 倍的内核。

  • nebuly-ai/nebullvm 易于使用的库,可利用最先进的优化技术促进 AI 推理。利用多种优化技术(深度学习编译器、量化、稀疏性、蒸馏等),以确定在特定硬件上执行 AI 模型的最佳方式。可以在不损失性能的情况下将您的模型加速 2 到 10 倍,如果为超低延迟和更轻的模型牺牲准确度/精度,则可加速至 30 倍.

  • baifanxxx/awesome-active-learning 很棒的主动学习精选列表。主动学习是机器学习的特殊情况,它可以与专家进行交互(或其他信息源),再使用输出的新样本进行学习。

  • 4paradigm/OpenMLDB 一个开源机器学习数据库,它提供了一个计算一致特征的特征平台,用于训练和推理。

  • scikit-learn-contrib/MAPIE 用于估计预测间隔的 scikit-learn 兼容模块。

  • 4paradigm/AutoX 高效的 automl 工具,针对具有表格数据的数据挖掘任务。

  • dair-ai/ml-visuals 包含图形和模板,重复使用和自定义以改进您的科学写作。

  • mindsdb/mindsdb 使用 SQL语法,在数据库和数据仓库启用机器学习工作流。

  • kaidic/LDAM-DRW 使用标签分布感知边际损失学习不平衡数据集

  • Jianf-Wang/RSG 可以在训练过程中生成稀有类样本,并且可以与任何骨干网络相结合。RSG 仅用于训练阶段,因此在测试阶段不会给骨干网带来额外的负担。

  • ZhiningLiu1998/mesa 设计元知识驱动的采样器解决类别不平衡问题

  • YyzHarry/imbalanced-regression 深度不平衡回归(DIR)旨在从具有连续目标的不平衡数据中学习,解决某些区域的潜在缺失数据,并推广到整个目标范围。

  • dataease/dataease 开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。

  • google/tensorstore 用于读取和写入大型多维数组的库。

  • ahkarami/Deep-Learning-in-Production 有关在生产中部署基于深度学习的模型的有用说明和参考。

  • bentoml/BentoML ML模型服务框架.创建部署和扩展机器学习服务变得容易。

  • iterative/dvc Data 版本控制、用于数据和模型的 Git、机器学习实验管理

  • bokeh/bokeh 浏览器中的交互式数据可视化,来自 Python

  • nterpretml/interpret 适合可解释的模型。 解释黑盒机器学习。

  • Guang000/Awesome-Dataset-Distillation 数据集蒸馏是合成一个小数据集的任务,使得在其上训练的模型在原始大数据集上实现高性能。 数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估。 一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,持续学习、隐私、神经架构搜索等)。

  • TimDettmers/bitsandbytes PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;LLM.int8() 推理;8 位优化器:Adam、AdamW、RMSProp、LARS、LAMB(节省 75% 的内存);稳定嵌入层:通过更好的初始化和规范化;提高稳定性 8 位量化:分位数、线性和动态量化;快速分位数估计:比其他算法快 100 倍

  • ydataai/ydata-profiling 从 pandas DataFrame 对象创建 HTML 分析报告

  • fbdesignpro/sweetviz 用一行代码可视化和比较数据集、目标值和关联。

  • AutoViML/AutoViz 使用一行代码自动可视化任何大小的任何数据集。

  • pola-rs/polars 速度极快的 DataFrames 库,使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现。

  • facebookincubator/AITemplate Python 框架,可将神经网络渲染为高性能 CUDA/HIP C++ 代码。 专门用于 FP16 TensorCore(NVIDIA GPU)和 MatrixCore(AMD GPU)推理。

  • salesforce/OmniXAI 用于可解释 AI (XAI) 的 Python 机器学习库,提供全向可解释 AI 和可解释机器学习功能,以解决实践中解释模型做出的决策时的许多痛点。

  • MegEngine/MegCC 一个运行时超轻量,高效,移植简单的深度学习模型编译器

  • microsoft/Semi-supervised-learning 统一的半监督学习基准,可应用于人脸识别、语音识别和音频分类

  • polyaxon/traceml 用于机器学习/数据跟踪、可视化、可解释性、漂移检测和仪表板的引擎。

  • dabl/dabl 数据分析基线库,当前主要侧重于探索性可视化和预处理。

  • Speedml/speedml 一个Python包,用于加速启动机器学习项目。

  • TimDettmers/bitsandbytes 用于 PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;8位优化器:Adam,AdamW,RMSProp,LARS,LAMB,Lion(节省75%的内存);稳定嵌入层:通过更好的初始化和规范化提高稳定性;8 位量化:分位数、线性和动态量化、快速分位数估计:比其他算法快 100 倍。

  • yassouali/awesome-semi-supervised-learning 最新和精选的令人敬畏的半监督学习论文,方法和资源列表。未标记的数据可能相对容易收集,但很少有方法可以使用它们。半监督学习通过使用大量未标记的数据以及标记的数据来构建更好的分类器来解决此问题。由于半监督学习需要更少的人力并且具有更高的准确性,因此它在理论和实践中都非常有趣。

  • vespa-engine/vespa 开放的大数据服务引擎。开放的大数据服务引擎 - 在服务时存储、搜索、组织和对大数据进行机器学习推理。

  • ctgk/PRML 实现Bishop的书“模式识别和机器学习”中描述的算法的Python代码

  • slundberg/shap 一种博弈论方法,用于解释任何机器学习模型的输出。SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。它将最优信用分配与局部解释联系起来,使用博弈论中的经典Shapley值及其相关扩展(有关详细信息和引用,请参阅论文)。虽然SHAP可以解释任何机器学习模型的输出,但我们已经为树集成方法开发了一种高速精确算法(请参阅我们的Nature MI论文)。XGBoost,LightGBM,CatBoost,scikit-learn和pyspark tree模型支持快速C++实现。

  • Baiyuetribe/paper2gui 让每个人都简单方便的使用前沿人工智能技术。一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 40+AI 模型,内容涵盖 AI 绘画、语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux 系统。

  • zjhellofss/KuiperInfer 带你从零实现一个高性能的深度学习推理库

  • huggingface/datasets 最大的 ML 模型即用型数据集中心,提供快速、易用和高效的数据处理工具

  • NVIDIA/DeepLearningExamples 按模型组织的最先进的深度学习脚本 - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。

  • xorbitsai/xorbits 一个开源计算框架,可以轻松扩展数据科学和机器学习工作负载 - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。

  • plotly/dash 下载量最大,最值得信赖的Python框架,用于构建ML和数据科学Web应用程序。

  • trekhleb/homemade-machine-learning 流行的机器学习算法的Python示例,并解释了交互式Jupyter演示和数学

  • MorvanZhou/tutorials 莫烦Python 机器学习相关教程

  • rougier/numpy-100 100 个 numpy 练习(含解决方案)

  • fastai/numerical-linear-algebra 用于计算线性代数课程 fast.ai Jupyter 笔记本的免费在线教科书

  • numba/numba 开源的、NumPy 感知的 Python 优化编译器,由 Anaconda, Inc. 赞助。它使用 LLVM 编译器项目从 Python 语法生成机器代码。Numba 可以编译一个以数字为中心的 Python 子集,包括许多 NumPy 函数。此外,Numba 还支持循环的自动并行化、GPU 加速代码的生成以及 ufuncs 和 C 回调的创建。

  • lanpa/tensorboardX PyTorch的张量板(以及Chainer,MXNET,Numpy等)。使用简单的函数调用编写张量板事件。

  • swyxio/ai-notes 软件工程师了解新 AI 开发速度的说明。用latent.space 编写和产品头脑风暴的数据存储,但已清理 /Resources 文件夹下的规范引用。

  • tensorflow/tfjs WebGL 加速的 JavaScript 库,用于训练和部署 ML 模型。

  • aws/sagemaker-python-sdk 用于在 Amazon SageMaker 上训练和部署机器学习模型的库

  • ggerganov/ggml 用于机器学习的张量库,用 C 语言编写、16 位浮点支持、整数量化支持(4 位、5 位、8 位等)、自动区分、ADAM和L-BFGS优化器、针对苹果芯片进行了优化、在x86架构上利用AVX / AVX2内部函数、在 ppc64 架构上利用 VSX 内部函数、无第三方依赖关系、运行时内存分配为零

  • probml/pyprobml Kevin Murphy的“概率机器学习”一书的Python代码

  • rasbt/python-machine-learning-book “Python Machine Learning (1st edition)” 一书代码存储库和信息资源

  • huggingface/candle Rust 的极简主义 ML 框架,专注于性能(包括 GPU 支持)和易用性。

  • ashleve/lightning-hydra-template PyTorch Lightning + Hydra。一个非常用户友好的 ML 实验模板。

  • mljar/mljar-supervised 用于表格数据 AutoML 的 Python 包,具有特征工程、超参数优化、解释和自动文档

  • kserve/kserve 提供了一个 Kubernetes 自定义资源定义,用于在任意框架上提供机器学习 (ML) 模型。它旨在通过为 Tensorflow、XGBoost、ScikitLearn、PyTorch 和 ONNX 等常见 ML 框架提供高性能、高抽象的接口来解决生产模型服务用例。

NLP自然语言处理

Transformer库与优化

  • huggingface/transformers 支持Pytorch、TensorFlow和JAX的最先进的机器学习Transformers库。提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。

  • jadore801120/attention-is-all-you-need-pytorch PyTorch 实现的Transformer模型在“注意力就是你所需要的一切”。

  • adapter-hub/adapter-transformers HuggingFace 的 Transformers 的友好分支,将适配器添加到 PyTorch 语言模型。可用作 HuggingFace 的直接替代品,并定期同步新的上游更改。

  • microsoft/DeBERTa 注意力分散的增强解码的BERT,使用了BERT和RoBERTa模型,显着提高了预训练的效率和下游任务的性能。

  • pytorch/fairseq Python的Facebook AI Research Sequence-to-Sequence包。

  • ml-jku/hopfield-layers NLP 领域里大热的 Transformer,其网络更新规则其实是和 Hopfield 网络在连续状态下是相同的。Transformer 中的这种注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。作者来自奥地利林茨大学、挪威奥斯陆大学,与 Jürgen Schmidhuber 合著 LSTM 的 Sepp Hochreiter 也是作者之一。

  • laiguokun/Funnel-Transformer Transformer优化,一种新的自我注意模型,可以将隐藏状态的序列逐渐压缩为较短的状态,从而降低了计算成本。

  • mit-han-lab/hardware-aware-transformers 用于高效自然语言处理的硬件感知型Transformers.实现高达3倍的加速和3.7倍的较小模型尺寸,不会降低性能。

  • mit-han-lab/lite-transformer 具有长距离短距离注意的Lite transformer

  • allenai/longformer 用于长文档的类似BERT的模型

  • Tencent/TurboTransformers 在 CPU 和 GPU 上进行Transformer推断的快速且用户友好的运行库。

  • idiap/fast-transformers Pytorch实现的快速Transformer库

  • bytedance/lightseq 高效的序列处理与生成库,提供 Bert, GPT, Transformer,beam search, diverse beam search, topp/topk sampling

  • google-research/bigbird 基于稀疏注意力(随机注意力机制+局部注意力机制+全局注意力机制)的transformer,它将基于transformer的模型(例如 BERT)扩展到更长的序列。 由于能够处理更长的上下文,BigBird 极大地提高了各种 NLP 任务(例如问答和摘要)的性能。

  • lucidrains/performer-pytorch 一个高效的线性广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+(Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。

  • microsoft/fastformers 实现Transformers在CPU上223倍的推理加速 它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。论文FastFormers的作者表明,利用知识蒸馏、结构化剪枝和数值优化可以大幅提高推理效率。我们表明,这种改进可以达到200倍的加速,并在22倍的能耗下节省超过200倍的推理成本。

  • mit-han-lab/lite-transformer 轻量级Transformer,注意力长短搭配 长依赖和短依赖的剥离,并引入卷积来捕捉短依赖,总体**和Transformer之自适应宽度注意力有点类似。文章中发现低层次上的注意力都比较短,层次越高,注意力的所关注的依赖越长。

  • ThilinaRajapakse/simpletransformers 用于分类、NER、QA、语言建模、语言生成、T5、多模态和会话AI的transformer

  • cloneofsimo/RealFormer-pytorch 通过在Transformer架构上进行改造来提升BERT训练效果,具体为:使用attention残差机制改造Transformer。1、realformer在标签数量较少的分类任务上有一定的提升效果,提升的幅度与数据集和任务难度有关,一般越难的任务提升的幅度越大。2、realformer在标签数量达到一定的数值时,其效果便会大打折扣,在某些数据集上甚至会无法学习。

  • openai/sparse_attention 稀疏Attention

  • sacmehta/delight 提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。

  • BSlience/transformer-all-in-one 记录了学习Transformer过程中的一些疑问和解答,并且实现Transformer的全过程。

  • mlpen/Nystromformer 利用了 Nyström 方法来近似标准的Attention。

  • xuanqing94/FLOATER 基于连续动态系统学习更加灵活的位置编码

  • ELS-RD/transformer-deploy Hugging Face Transformer 亚毫秒推理和部署到生产环境

  • lucidrains/x-transformers 一个简单但完整的全注意力转换器,具有来自各种论文的一组有希望的实验特征 Full encoder / decoder 、Decoder-only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。

  • lucidrains/FLASH-pytorch 线性时间的Transformer变体

  • NVIDIA/FasterTransformer Transformer相关优化,包括BERT、GPT 。提供了一个脚本和配方来运行高度优化的基于转换器的编码器和解码器组件,它由 NVIDIA 测试和维护。可以带来性能加速。

  • HazyResearch/flash-attention 快速且节省内存的精确注意力

  • NetEase-FuXi/EET 针对Transformer-based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。

  • NVIDIA/transformer-ls 将原始 Transformer 的全部自注意力替换为考虑长期和短期相关性的有效注意力。每个查询都关注分段滑动窗口中的标记以捕获短期相关性,以及动态投影特征以捕获长期相关性。为了对齐原始特征、投影特征向量的范数并提高聚合的效率,使用两组层归一化对原始特征向量和投影特征向量进行归一化。

  • thuml/Flowformer 任务通用的线性复杂度Transformer 。在图论中的经典网络流(Flow network)模型中,“守恒”(Conservation)是一个重要现象,即每个节点的流入量等于流出量。受到“固定资源情况下,必定引起竞争”的启发,通过网络流视角重新分析经典注意力机制中的信息流动,并通过守恒性质将竞争引入注意力机制设计,以避免平凡注意力问题。

  • alipay/Pyraformer 用于长期时间序列建模和预测的低复杂度金字塔注意。

  • NVIDIA/Megatron-LM 由 NVIDIA 的应用DL研究团队开发的大型、强大的transformer。开发了高效、模型并行(张量、序列和流水线)和多节点预训练,基于 Transformer 的模型(例如 GPT、BERT 和 T5)使用混合精度。

  • facebookresearch/bit 鲁棒二值化多次蒸馏Transformer

  • Tongjilibo/bert4torch 优雅的pytorch transformers库

  • cmhungsteve/Awesome-Transformer-Attention 包含视觉转换器和注意力机制(Vision Transformer&Attention)的综合论文列表,包括论文,代码和相关网站。

  • FlagOpen/FlagAttention 用 Triton 语言实现的内存高效注意力运算符的集合。它的灵感来自FlashAttention和FlashAttention v2,并扩展了它们以满足大型语言建模研究的需求。FlashAttention 和 FlashAttention-2 可以节省内存占用和流量以提高内存效率,但要修改它们并添加更多选项和功能需要熟练掌握 cuda 编程。因此,Flag Attention 是用 Triton 语言实现的,它更容易用于编写自定义 GPU 内核。

BERT优化

  • google-research/bert Bidirectional Encoder Representations from Transformers 来自Transformers的双向编码器表示法

  • google-research/ALBERT 用于语言表达自我监督学习的Lite BERT

  • bojone/bert-of-theseus BERT 模型压缩方法 ,theseus(忒修斯之船 如果忒修斯的船上的木头被 逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),将原始大模型切分为多个大模块,固定大模型权重,训练时随机替换为小模块,充分训练后,将小模型继续微调。

  • brightmart/albert_zh 使用TensorFlow 进行自我监督学习语言表示的Lite Bert的实现预训练的汉语模型

  • bojone/bert4keras 更清晰、更轻量级的keras版bert,提供丰富的应用例子。

  • codertimo/BERT-pytorch 谷歌AI 2018 BERT pytorch实现。Google AI的BERT论文显示了各种NLP任务(新的17个NLP任务SOTA)的惊人结果,包括在SQuAD v1.1 QA任务上优于人类F1分数。本文证明了基于Transformer(自注意力)的编码器可以作为先前语言模型的替代方法,并采用适当的语言模型训练方法。

  • huawei-noah/Pretrained-Language-Model 华为诺亚方舟实验室开发的预训练语言模型及其相关优化技术NEZHA是一种经过预训练的中文语言模型,可以在多项中文NLP任务上实现最先进的性能TinyBERT是一种压缩的BERT模型,推理时可缩小7.5倍,加快9.4倍

  • ymcui/MacBERT MacBERT是一种改进的BERT,具有新颖的M LM校正预训练任务,它减轻了预训练和微调的差异。我们建议使用类似的词来进行掩蔽,而不是使用在微调阶段从未出现过的 [MASK] 令牌进行掩蔽。通过使用基于 word2vec (Mikolov et al., 2013) 相似度计算的Synonyms 工具包 (Wang and Hu, 2017)获得相似词。如果选择 N-gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。

  • Lisennlp/TinyBert 基于华为的TinyBert进行修改的,简化了数据读取的过程,方便我们利用自己的数据进行读取操作。

  • epfml/collaborative-attention 整合多头注意力,任何经过预训练的注意力层重新配置为协作注意力层。

  • ZhuiyiTechnology/WoBERT 以词为基本单位的中文BERT(Word-based BERT)

  • autoliuweijie/FastBERT 具有自适应推断时间的自蒸馏BERT pip install fastbert

  • alexa/bort 论文 Optimal Subarchitecture Extraction for BERT. “ BERT的最佳子体系结构提取”的代码。Bort是用于BERT架构的最佳子集,它是通过对神经架构搜索应用完全多项式时间近似方案(FPTAS)提取的。 Bort的有效(即不计算嵌入层)大小是原始BERT大型体系结构的5.5%,是净大小的16%。它在CPU上也比基于BERT的速度快7.9倍,并且比体系结构的其他压缩变体和某些非压缩变体性能更好。与多个公共自然语言理解(NLU)基准上的BERT-large相比,它的平均性能提高了0.3%至31%。

  • valuesimplex/FinBERT 基于 BERT 架构的金融领域预训练语言模型

  • yitu-opensource/ConvBert ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。依图研发团队从模型结构本身的冗余出发,提出了一种基于跨度的动态卷积操作,并基于此提出了 ConvBERT 模型。

  • wtma/CharBERT 字符敏感的预训练语言模型 通过结合字符级别和词级别的信息实现了更为全面的输入编码,同时,结合 RNN 和 CNN 的优势,基本上 CNN,RNN,Transformer 都使用上了,体现了新老研究成果的结合在一定程度上能进一步提升方法的性能。

  • Sleepychord/CogLTX 将BERT应用于长文本CogLTX遵循一种特别简单直观的范式,即抽取关键的句子=>通过BERT得到答案的两步流程。

  • ShannonAI/service-streamer 服务流媒体BERT服务,每秒处理1400个句子的BERT服务.

  • Sleepychord/CogLTX 可将当前类似BERT的预训练语言模型应用于长文本。使用动态规划算法将长文本划分为文本块集合;使用MemRecall对原长句中的子句进行打分:从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。

  • bojone/BERT-whitening 简单的线性变换(白化)操作,就可以达到BERT-flow的效果。

  • thunlp/ERNIE 用知识图谱增强 BERT 的预训练效果

      1. 对于抽取并编码的知识信息,研究者首先识别文本中的命名实体,然后将这些提到的实体与知识图谱中的实体进行匹配。研究者并不直接使用 KG 中基于图的事实,相反他们通过知识嵌入算法(例如 TransE)编码 KG 的图结构,并将多信息实体嵌入作为 ERNIE 的输入。基于文本和知识图谱的对齐,ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
      1. 与BERT类似,采用了带Mask的语言模型,以及预测下一句文本作为预训练目标。除此之外,为了更好地融合文本和知识特征,研究者设计了一种新型预训练目标,即随机 Mask 掉一些对
  • ShannonAI/ChineseBert 融合字形与拼音信息的中文Bert预训练模型

  • alibaba/AliceMind/LatticeBERT Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models 利用多粒度的词格信息(word lattice),相对字级别的模型取得了性能提升。

  • Langboat/Mengzi 孟子预训练模型 轻量级但更强大,对部署和工业落地更友好的模型。

  • huawei-noah/DynaBERT dynamic BERT 可以通过选择自适应宽度和深度来灵活地调整网络大小,从而得到一个尺寸可变的网络。首先通过知识蒸馏的方法将teacher BERT的知识迁移到有自适应宽度的子网络student  DynaBERTw中,然后再对DynaBERTw进行知识蒸馏得到同时支持深度自适应和宽度自适应的子网络DynaBERT。

  • microsoft/LoRA 大型语言模型的低秩适应。 冻结原始权重的同时学习成对的秩分解矩阵来减少可训练参数的数量。降低了适用于特定任务的大型语言模型的存储需求,并在部署期间实现了高效的任务切换,所有这些都不会引入推理延迟。在 GLUE 基准上获得与完全微调相当或更好的结果,同时只训练和存储一小部分参数。

  • guillaume-be/rust-bert Rust-native 最先进的自然语言处理模型和管道。 Hugging Face 的 Transformers 库的端口,使用 tch-rs crate 和 rust-tokenizers 预处理。 支持多线程标记化和GPU推理。 公开了模型基础架构、特定于任务的头和随时可用的管道。

  • volcengine/veGiantModel 字节跳动应用ML团队的基于torch的高效训练库。 使巨型模型(例如GPT、BERT和T5)训练变得简单高效。 建立在 Megatron 和 DeepSpeed 之上,通过集成高效通信库BytePs并提供定制的管道分区来提高通信效率。

  • extreme-bert/extreme-bert 可加速 BERT 在自定义数据集上的预训练和微调。

预训练模型

  • THUDM/GLM 一种预训练的通用语言模型,具有自回归空白填充目标,可以根据各种自然语言理解和生成任务进行微调。

  • facebookresearch/metaseq Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B,Open Pre-trained Transformers,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3。从完整模型到训练代码、部署代码全部开放。

  • dbiir/UER-py 一个用于对通用语料进行预训练并对下游任务进行微调的工具包。提供了非常丰富的模型库。包括:中文RoBERTa、基于词的中文RoBERTa、中文GPT-2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。

  • OpenBMB/BMInf BMInf (Big Model Inference) 是一个用于大规模预训练语言模型(PLM)推理阶段的低资源工具包。最低支持在NVIDIA GTX 1060单卡运行百亿大模型。在此基础上,使用更好的gpu运行会有更好的性能。模型能力覆盖文本补全、文本生成与对话场景。文本生成能力大幅提高。目前支持下列模型:

    • CPM2.1. CPM2.1是CPM2 [1] 的升级版本。拥有110亿参数的通用中文预训练语言模型。基于CPM2,CPM2.1新增了一个生成式的预训练任务并基于持续学习范式进行训练。CPM2.1比CPM2具有更好的生成能力。
    • CPM1. CPM1 [2] 是拥有26亿参数的生成式中文预训练语言模型。CPM1的模型架构与GPT [4] 类似,它能够被应用于广泛的自然语言处理任务,如对话、文章生成、完形填空和语言理解。
    • EVA. EVA [3] 是有着28亿参数的中文预训练对话模型。EVA在很多对话任务上表现优异,尤其是在多轮人机交互对话任务上。
  • CyberZHG/keras-xlnet XLNet的非官方实现。

  • hwchase17/langchain 通过可组合性使用大型语言模型构建应用程序 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度

  • IDEA-CCNL/Fengshenbang-LM Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。

  • ymcui/Chinese-XLNet 面向中文的XLNet预训练模型

  • microsoft/unilm UniLM-NLP及更高版本的统一语言模型预训练

    • layoutlm 多模态文档理解预训练模型LayoutLM 2.0,模型首先将文本、图像、布局三种模态的输入转换成向量表示,然后再交给编码器网络,最终输出的表示向量可以供下游任务使用。下游任务:表单理解、票据理解、复杂布局长文档理解、文档图像分类、视觉问答。
  • YunwenTechnology/Unilm UniLM模型既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。论文来自微软研究院。模型虽然强大,但微软并没有开源中文的预训练模型。因此云问本着开源之前,将我们预训练好的中文unilm_base模型进行开源。

  • ymcui/Chinese-ELECTRA 中文ELECTRA预训练模型 其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10

  • THUDM/GLM-130B 开放的双语(英汉)双向密集模型,1300亿参数,使用通用语言模型(GLM)进行预训练。 支持单台A100(40G * 8)或V100(32G * 8)服务器上具有130B参数的推理任务。 通过 INT4 量化,降低到 4 * RTX 3090(24G),而性能几乎没有下降。 截至 2022 -7-3 ,已接受了超过 4000 亿个文本标记(中文和英文各 200B)的训练。

  • alibaba/EasyTransfer 自然语言处理的迁移学习工具。主要特性:预训练语言模型工具,丰富且高质量的预训练模型库 BERT, ALBERT, RoBERTa, T5, etc,丰富且易用的NLP应用 如文本匹配、分本分类、机器阅读理解MRC,自动化的知识蒸馏,易用且高效的分布式训练。

  • microsoft/unilm/layoutlm 多模态预训练模型 LayoutLM 2.0,不仅考虑了文本和页面布局信息,还将图像信息融合到了多模态框架内。下游任务微调:表单理解 票据理解 复杂布局长文档理解 文档图像分类 视觉问答

  • google-research/byt5 ByT5:通过预先训练的字节到字节模型迈向无令牌的未来.ByT5 是 mT5 模型的无标记器扩展。 我们的 ByT5 模型不像大多数其他预训练语言模型(BERT、XLM-R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。

  • sunyilgdx/NSP-BERT 利用句子级别(sentence-level) 的预训练任务 NSP (下一句预测,Next Sentence Prediction) 来实现不同的NLP下游任务, 例如 单句分类(single sentence classification), 双句分类(sentence pair classification), 指代消解(coreference resolution), 完形填空(cloze-style task), 实体链接(entity linking), 实体类型识别(entity typing).

  • thunlp/OpenPrompt Prompt-learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。

  • google-research/flan 微调语言模型是零样本学习器

  • PaddlePaddle/ERNIE ERNIE 家族各种预训练模型的官方实现,涵盖语言理解与生成、多模态理解与生成等主题。

  • airaria/TextPruner 用于预训练语言模型的基于 PyTorch 的模型修剪工具包.它提供了低成本免训练的方法,通过去除冗余神经元来减小模型大小并加快模型推理速度。在 TextPruner 中,共有三种剪枝模式:词汇剪枝变压器剪枝管道剪枝

  • Tencent/PatrickStar 提供更大、更快、更环保的预训练模型,并为所有人普及人工智能。PatrickStar 的内存管理支持将模型的当前计算部分以外的所有内容卸载到 CPU 以节省 GPU。此外,在扩展到多个 GPU 时,基于块的内存管理对于集体通信非常有效。通过异构训练(DeepSpeed Zero Stage 3 也使用它),PatrickStar 可以充分利用 CPU 和 GPU 内存,这样您就可以使用更少的 GPU 来训练更大的模型。

  • ymcui/PERT 提出了一种基于乱序语言模型的预训练模型,在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。PERT在部分中英文NLU任务上获得性能提升,但也在部分任务上效果较差,请酌情使用。

  • THUDM/P-tuning-v2 P-tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。

  • EleutherAI/gpt-neox 基于 DeepSpeed 库的 GPU 上模型并行自回归转换器(autoregressive transformers)的实现。目前基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。希望在此过程中训练和开源 175B 参数 GPT-3 复制。

  • OpenBMB/BMTrain 高效的大型模型训练工具包,可用于训练具有数百亿参数的大型模型。 它可以以分布式方式训练模型,同时保持代码像单机训练一样简单。

  • microsoft/CodeBERT 针对编程语言的预训练模型,在Py、Java、JS、PHP、Ruby、Go的 NL-PL 对上进行预训练的多编程语言模型。

  • clue-ai/PromptCLUE 大规模多任务Prompt预训练中文开源模型。千亿中文token上大规模预训练,累计学习1.5万亿中文token,亿级中文任务数据上完成训练,训练任务超过150+。比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。

  • BlinkDL/RWKV-LM 具有 Transformer 级 LLM 性能的 RNN。它可以像 GPT(可并行化)一样直接训练。因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入。

  • FlagOpen/FlagEmbedding 可以将任何文本映射到低维密集向量,该向量可用于检索、分类、聚类或语义搜索等任务。它也可以用于LLM的矢量数据库。

  • XiaoMi/MiLM-6B 由小米开发的一个大规模预训练语言模型,参数规模为64亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。

文本分类

  • kk7nc/Text_Classification 一项文本分类算法的调查

  • cnn_multilabel_classification 基于TextCNN和Attention的多标签分类

  • ilivans/tf-rnn-attention Tensorflow实现文本分类任务的关注机制。

  • skdjfla/toutiao-text-classfication-dataset 中文文本分类数据集 共38.2万条,分布于15类中。

  • xiaoqian19940510/text-classification-surveys 文本分类资源汇总,包括深度学习文本分类模型,如SpanBERT、ALBERT、RoBerta、Xlnet、MT-DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…

  • 649453932/Chinese-Text-Classification-Pytorch 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。

  • 649453932/Bert-Chinese-Text-Classification-Pytorch 使用Bert,ERNIE,进行中文文本分类

  • SanghunYun/UDA_pytorch Unsupervised Data Augmentation with BERT 一种半监督学习方法,可在多种语言和视觉任务上实现SOTA结果。仅用20个标记的示例,UDA的性能就优于之前在25,000个标记的示例上训练的IMDb上的SOTA。

  • TextCNN与ALBERT分类效果的实践 详解小样本短文本多分类-对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)

  • GT-SALT/MixText 文本半监督方法MixText 提出一种全新文本增强方式——TMix,在隐式空间插值,生成全新样本。对未标注样本进行低熵预测,并与标注样本混合进行TMix。MixText可以挖掘句子之间的隐式关系,并在学习标注样本的同时利用无标注样本的信息。超越预训练模型和其他半监督方法

  • beyondguo/label_confusion_learning 利用标签之间的混淆关系,提升文本分类效果。利用标签信息时能够充分考虑标签之间的重叠或者依赖关系。

  • AIRobotZhang/STCKA 基于知识图谱的文本分类.将每个短文本与其在KB中的相关概念相关联,将概念信息作为先验知识整合到深度神经网络中。

  • ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果.足量的领域内语料U使模型不需要再在通用领域语料上预训练;无论是采用预训练还是自训练的方式,都可以显著提升模型效果,二者结合可以得到最佳结果;当领域内标注数据D较小的时候,在伪平行数据D'上训练、再在D上微调可以提升更多的效果;当D更大的时候,在D和D'上联合训练取得的效果更好。

  • xmu-xiaoma666/External-Attention-pytorch 17篇注意力机制 PyTorch 实现

  • DunZhang/LM-MLC 基于完型填空(模板)的多标签分类算法.

  • bojone/r-drop 使用r-drop机制实验了中文文本分类、文本生成任务,有提升。

  • BUPT-GAMMA/CompareNet_FakeNewsDetection 与知识比较:使用外部知识进行图神经假新闻检测 (ACL 2021)

  • pangwong/pytorch-multi-label-classifier pytorch 实现的多标签分类分类器

  • xuyige/BERT4doc-Classification 如何微调 BERT 进行文本分类

  • timoschick/pet 该存储库包含“利用小样本文本分类和自然语言推理的完形填空题”的代码.介绍了模式利用训练 (PET),这是一种半监督训练程序,可将输入示例重新表述为完形填空式短语。在低资源环境中,PET 和 iPET 显着优于常规监督训练、各种半监督基线甚至 GPT-3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。

  • YerevaNN/warp ACL'2021 论文 WARP Cyclone Word-level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。

  • whatissimondoing/CoG-BART 对比度和生成使BART成为很好的对话情感识别器

  • hiyouga/Dual-Contrastive-Learning 双重对比学习。 通过在同一空间内同时学习输入样本的特征和分类器的参数,为监督分类任务提出了一种新颖的对比学习框架。

  • thunlp/KnowledgeablePromptTuning 将知识整合到 Prompt Verbalizer 中进行文本分类

  • zhouj8553/FlipDA 提供了一种基于 T5 和翻转标签自训练的自动数据增强方法。 我们在 FewGLUE 上对其进行评估,并提高其性能。

文本摘要

  • xcfcode/Summarization-Papers 文本摘要论文总结

  • abisee/pointer-generator 使用指针生成器网络进行汇总

  • AIKevin/Pointer_Generator_Summarizer 指针生成器网络:具有关注,指向和覆盖机制的Seq2Seq,用于抽象性摘要。 tensorflow 2.0

  • kjc6723/seq2seq_Pointer_Generator_Summarizer 中文会话中生成摘要总结的项目 tensorflow 2.0

  • steph1793/Pointer_Transformer_Generator 指针生成器网络 tensorflow 2.0

  • magic282/NeuSum 通过共同学习评分和选择句子进行神经文本摘要

  • dmmiller612/bert-extractive-summarizer BERT易于使用的提取文本摘要

  • nju-websoft/NEST 输入知识图谱的基于联合编码的弱监督神经实体摘要方法

  • bojone/SPACES 端到端的长本文摘要模型(法研杯2020司法摘要赛道)

  • xcfcode/Summarization-Papers 文本摘要论文列表,包括各种主题。

  • yym6472/ms_pointer_network 用多来源Pointer Network的产品标题摘要方法.从两个信息来源:原始商品标题和知识信息knowledge中抽取信息,然后将二者进行综合得到最后的结果。

  • FeiSun/ProductTitleSummarizationCorpus Dataset for CIKM 2018 paper "Multi-Source Pointer Network for Product Title Summarization" 用于产品标题摘要的多源指针网络

  • jiacheng-ye/kg_one2set 解决关键词生成任务,给一篇源文档(比如论文的摘要),关键词预测任务就是预测出一些表达文档重点信息的关键词,或者更准确的说是关键短语。提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。并行预测,在 inference 效率上是Transfomer的6.44倍。

  • MaartenGr/keyBERT 一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。

  • xcfcode/PLM_annotator 探索对话总结的 DialoGPT

  • RowitZou/topic-dialog-summ 具有显着性感知主题建模的客户服务的面向主题的口语对话摘要。数据集是从阿里巴巴客户服务中心收集的。所有对话都是在客户和服务代理之间进行的普通话来电。脱敏数据可在 Google Drive百度盘(提取码:t6nx)上获得。

  • maszhongming/MatchSum 背景: 传统抽取式摘要模型都是基于句子级提取的,即未考虑句子间关系,对所有句子逐个打分,取topN的句子为摘要。主要贡献:考虑句子间的关系,通过候选句间的组合句来抽取摘要;基于摘要与原文档在语义上应该有较大匹配度的考量,本文提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的模型.对六个摘要提取数据集进行分析,验证了句子级得分高的摘要并不是摘要级得分最高的。如果仅以句子级,容易产生pearl-summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。

  • nlpyang/PreSumm 基于BERT的文档级编码器,该编码器能够表达文档的语义,并获得文档的句子表示。并分别提出了抽取式和生成式的摘要模型。

  • nlpyang/BertSum BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。(1)将文档中每句话前加 [CLS]后加[SEP],然后输入 BERT,而每个[CLS]对应的位置就是每句的句向量。(2)为了进一步增加句之间的互动,在 BERT 之上加了一层 Transformer 的 Summarization Layer,只输入每个[CLS]的向量,最后输出预测当前句是否保留,finetune。

  • OpenSUM/CPSUM 半监督抽取式摘要的噪声注入一致性训练和熵约束伪标签

  • krystalan/ClidSum 一个跨语言对话摘要的基准数据集

文本生成、文本对话

类ChatGPT大语言对话模型及数据

  • Significant-Gravitas/Auto-GPT 使用GPT4来自动完成目标任务。一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“**”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。

  • facebookresearch/llama facebook LLaMA 模型的推理代码。最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业访问,以便他们可以负责任地进行实验、创新和扩展他们的想法。

  • facebookresearch/llama-recipes facebook LLaMA 模型的示例和手册

  • THUDM/ChatGLM2-6B 开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:更强大的性能:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。更高效的推理:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。更开放的协议:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • THUDM/ChatGLM-6B 开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

  • THUDM/GLM-130B GLM-130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。

  • QwenLM/Qwen-7B 由阿里云提出的Qwen-7B(通义千问-7B)聊天和预训练大语言模型的官方存储库。使用高质量的预训练数据进行训练。我们已经在超过2.2万亿个代币的自建大规模高质量数据集上预训练了Qwen-7B。该数据集包括纯文本和代码,涵盖广泛的领域,包括一般领域数据和专业领域数据。更好地支持语言。我们的分词器基于超过 150K 个代币的大词汇表,与其他分词器相比更有效。它对多种语言都很友好,并且有助于用户进一步微调Qwen-7B以扩展对某种语言的理解。支持 8K 上下文长度。Qwen-7B和Qwen-7B-Chat都支持8K的上下文长度,这允许输入长上下文。支持插件。Qwen-7B-Chat 是用插件相关的对齐数据训练的,因此它能够使用工具,包括 API、模型、数据库等,并且能够作为代理进行游戏。

  • baichuan-inc/Baichuan2 百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时,开发者通过邮件申请并获得官方商用许可后,即可免费商用。

  • baichuan-inc/Baichuan-13B 由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。

  • imoneoi/openchat 使用不完善的数据推进开源语言模型。OpenChat是一系列基于监督微调(SFT)的开源语言模型。我们利用 ~80k ShareGPT 对话与条件反射策略和加权损失,尽管我们的方法很简单,但仍实现了卓越的表现。我们的最终愿景是开发一个高性能、开源和商用的大型语言模型,并且我们正在不断取得进展。

  • lonePatient/awesome-pretrained-chinese-nlp-models 高质量中文预训练模型集合。包括:基础大模型、对话大模型、多模态对话大模型、大模型评估基准、开源模型库平台、开源数据集库、中文指令数据集。

  • Vision-CAIR/MiniGPT-4 MiniGPT-4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。

  • ggerganov/llama.cpp 纯C/C++中LLaMA模型的CPU推理。2023年FacebookResearch 开源了大规模语言模型LLaMA,包含从 7B 到 65B 的参数范围,训练使用多达 1.4万亿 tokens 语料。LLaMA-13B在大部分基准测评上超过了GPT3-175B,LLaMA可能是目前公开模型权重中效果最好的语言模型。

  • juncongmoo/pyllama LLaMA - 在单个 4GB GPU 中运行 LLM

  • tatsu-lab/stanford_alpaca 斯坦福大学的LLaMA羊驼模型。用2K数据微调模型,构建和共享一个遵循指令的LLaMA模型。

  • LC1332/Chinese-alpaca-lora 在LLaMA、斯坦福大学Alpaca、Alpaca LoRA、Cabrita、Japanese-Alpaca-LoRA的基础上,调试了一个**LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。

  • tloen/alpaca-lora 在消费者硬件上使用指令来微调LLaMA模型。使用低秩自适应(LoRA)重现斯坦福大学Alpaca结果的代码。我们提供了一个与 text-davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。

  • mymusise/ChatGLM-Tuning 平价的chatgpt实现方案, 基于ChatGLM-6B + LoRA

  • OpenLMLab/MOSS 支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。

  • baichuan-inc/baichuan-7B 百川开发的大规模7B预训练语言模型。一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿词元上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。

  • InternLM/InternLM InternLM开源了70亿和200亿参数基础模型,以及针对实际场景和训练系统量身定制的聊天模型。开源的轻量级训练框架,旨在支持模型预训练,而无需广泛的依赖关系。通过单个代码库,它支持在具有数千个 GPU 的大规模集群上进行预训练,并在单个 GPU 上进行微调,同时实现卓越的性能优化。InternLM 在 1024 个 GPU 上训练期间实现了近 90% 的加速效率。InternLM-20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。

  • InternLM/InternLM-techreport 书生·浦语由上海人工智能实验室和商汤科技(同等贡献)与香港中大、复旦和上海交大联合开发的多语言大语言模型。具有104B参数的多语言基础语言模型。在具有 1.6T 代币的大型语料库上进行预训练,并具有多阶段渐进过程,然后进行微调以符合人类偏好。我们还开发了一个名为Uniscale-LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和**文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。

  • clue-ai/ChatYuan 用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

  • Xwin-LM/Xwin-LM 旨在为大型语言模型开发和开源对齐技术,包括监督微调(SFT),奖励模型(RM),拒绝采样,来自人类反馈的强化学习(RLHF)等。我们的第一个版本建立在Llama2基本模型的基础上,在AlpacaEval上排名TOP-1。值得注意的是,它是第一个在此基准测试上超过 GPT-4 。

  • PCL-Platform.Intelligence/PanGu-Alpha 2000亿开源中文预训练语言模型「鹏城·盘古α」,以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏城·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。

  • PCL-Platform.Intelligence/PanGu-Dialog 鹏城.盘古对话生成大模型,简称PanGu-Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。

  • CStanKonrad/long_llama 一种大型语言模型,能够处理256k个甚至更多的长上下文。建立在OpenLLaMA的基础上,并使用聚焦变压器(FoT)方法进行微调。聚焦转换器:上下文缩放的对比训练 (FoT) 提供了一种简单的方法,使语言模型能够处理可能包含数百万个令牌的上下文,同时在明显更短的输入上进行训练。FoT 允许注意力层的子集访问(键、值)对的内存缓存,以扩展上下文长度。FoT的独特之处在于其训练程序,借鉴了对比学习。具体来说,将内存注意层暴露给相关和不相关的键(如来自不相关文档的负样本)。这种策略激励模型区分与语义上不同的值相关的键,从而增强它们的结构。反过来,这使得推断有效上下文长度远远超出训练中看到的范围成为可能。

  • lm-sys/FastChat 令人印象深刻的 GPT-4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。

  • project-baize/baize-chatbot 使用 LoRA 训练的开源聊天模型.它使用通过让 ChatGPT 与自己聊天生成的 100k 对话。还使用羊驼的数据来提高其性能。已发布了 7B、13B 和 30B 模型。

  • wenge-research/YaYi 为客户打造安全可靠的专属大模型,基于大规模中英文多领域指令数据训练的 LlaMA 2 & BLOOM 系列模型,由中科闻歌算法团队研发。在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

  • AI4Finance-Foundation/FinGPT 以数据为中心的 FinGPT。开源开放金融!革新

  • EleutherAI/gpt-neox 在GPU上训练大规模语言模型。基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。目标是使这个存储库成为一个集中且可访问的地方,以收集用于训练大规模自回归语言模型的技术,并加速对大规模训练的研究。

  • visual-openllm/visual-openllm 文心一言的开源版,基于 ChatGLM + Visual ChatGPT + Stable Diffusion

  • hikariming/alpaca_chinese_dataset 人工精调的中文对话数据集和一段chatglm的微调代码

  • michael-wzhu/Chinese-LlaMA2 META最新发布的LlaMA2的汉化版! (完全开源可商用)

  • ymcui/Chinese-LLaMA-Alpaca 中文LLaMA模型和经过指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,在中文LLaMA的基础上,本项目使用了中文指令数据进行指令精调,显著提升了模型对指令的理解和执行能力。

  • Facico/Chinese-Vicuna 一个中文低资源的llama+lora方案,结构参考alpaca

  • lucidrains/PaLM-rlhf-pytorch 在PaLM架构上实现RLHF(人工反馈强化学习),类似ChatGPT

  • liltom-eth/llama2-webui 从任何地方(Linux/Windows/Mac)在GPU或CPU上本地运行任何Llama 2。使用“llama2-wrapper”作为生成代理/应用程序的本地llama2后端。

  • togethercomputer/OpenChatKit 一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。该工具包包括一个指令调优的语言模型,一个审核模型,和一个可扩展的检索系统,用于包括来自自定义存储库的最新响应。

  • LianjiaTech/BELLE 开源中文对话大模型,现阶段基于开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。开放了数据集:Stanford Alpaca 生成的中文数据集1M + 0.5M;0.25M数学指令数据集和0.8M多轮任务对话数据集。

  • carbonz0/alpaca-chinese-dataset alpaca中文指令微调数据集

  • cryscan/multilingual-share 为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了 ShareGPT-90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。RWKV-Wiki/MultilingualShareGPT

  • TigerResearch/TigerBot 多语言多任务LLM,在 BLOOM 基础上的模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。

  • masa3141/japanese-alpaca-lora 日文指令来微调LLaMA模型

  • nlpxucan/WizardLM 由Evol-Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。

  • luban-agi/Awesome-Domain-LLM 本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。

  • 22-hours/cabrita 葡萄牙语微调指令LLaMA

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。将您的LLM API成本降低10倍,将速度提高100倍。采用了语义缓存等替代策略。语义缓存识别并存储相似或相关的查询,从而提高缓存命中概率并提高整体缓存效率。采用嵌入算法将查询转换为嵌入,并使用向量存储对这些嵌入进行相似性搜索。此过程允许 GPTCache 从缓存存储中识别和检索类似或相关的查询。

  • Stability-AI/StableLM 稳定性AI语言模型。使用 Stanford Alpaca 的程序对模型进行了微调,结合了五个最近的对话代理数据集:Stanford 的 Alpaca 、Nomic-AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。

  • LC1332/Luotuo-Chinese-LLM 中文大语言模型开源项目,包含了一系列语言模型。Luotuo-Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。

  • FreedomIntelligence/LLMZoo 一个为大型语言模型提供数据,模型和评估基准的项目。发布基于BLOOMZ的凤凰Phoenix7B模型、Chimera奇美拉模型。Phoenix-inst-chat-7b 达到85.2% 的ChatGPT效果。

  • openai/evals 一个评估LLM和LLM系统的框架,也是一个开源的基准测试表。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • mlfoundations/open_flamingo 用于训练大型多模态模型的开源框架。DeepMind Flamingo模型的开源版本。提供了用于训练和评估模型的PyTorch 实现。还提供了在新的多模式 C4 数据集上训练的初始 9B 模型。

  • dandelionsllm/pandallm 海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练。

  • OptimalScale/LMFlow 一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型。我们的目标是开发一套用户友好、快速可靠,并对整个社区开放的全流程微调代码库。

  • yangjianxin1/Firefly Firefly(流萤): 中文对话式大语言模型,包括高质量的包含1.1M中文多任务指令微调数据集,包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重

  • PlexPt/awesome-chatgpt-prompts-zh ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。

  • dalinvip/Awesome-ChatGPT ChatGPT资料汇总学习

  • rockbenben/ChatGPT-Shortcut 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。

  • PhoebusSi/Alpaca-CoT 将CoT数据扩展到Alpaca以提高其推理能力,同时我们将不断收集更多的instruction-tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。Alpaca-CoT · Datasets

  • unit-mesh/unit-minions 《AI 研发提效研究:自己动手训练 LoRA》,包含 Llama (Alpaca LoRA)模型、ChatGLM (ChatGLM Tuning)相关 Lora 的训练。训练内容:用户故事生成、测试代码生成、代码辅助生成、文本转 SQL、文本生成

  • microsoft/JARVIS 一个将LLM与ML社区联系起来的系统。该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。

  • mlc-ai/mlc-llm 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型。解决方案的基石是机器学习编译(MLC),我们利用它来有效地部署AI模型。我们建立在开源生态系统的肩膀上,包括来自Hugging Face和Google的令牌化器,以及Llama,Vicuna,Dolly,MOSS,RWKV等开源LLM。我们的主要工作流程基于 Apache TVM Unity。

  • mlc-ai/web-llm 将大语言模型和聊天引入 Web 浏览器。一切都在浏览器中运行,没有服务器支持。WebLLM是MLC LLM的姊妹项目。它重用了模型工件并构建了MLC LLM的流程。

  • wangzhaode/ChatGLM-MNN 纯C++,易于部署的ChatGLM-6B。

  • vllm-project/vllm 适用于 LLM 的高吞吐量和内存效率推理和服务引擎。在吞吐量方面,vLLM 的性能比拥抱面转换器 (HF) 高出 24 倍,文本生成推理 (TGI) 高出 3.5 倍。使用PagedAttention分页注意力高效管理注意力键和值存储器。

  • yizhongw/self-instruct 一种将预训练语言模型与指令对齐的方法。可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。

  • adams549659584/go-proxy-bingai用 Vue3 和 Go 搭建的微软 New Bing 演示站点,拥有一致的 UI 体验,支持 ChatGPT 提示词,国内可用。

  • f/awesome-chatgpt-prompts 包含 ChatGPT 提示,以更好地使用 ChatGPT

  • humanloop/awesome-chatgpt ChatGPT和GPT-3的惊人工具、演示和文档

  • encx/ChatGPT ChatGPT 桌面应用程序(Mac、Windows 和 Linux)

  • xtekky/chatgpt-clone 具有更好用户界面的聊天GPT界面

  • wong2/chatgpt-google-extension 浏览器扩展,用ChatGPT增强搜索引擎效果

  • acheong08/ChatGPT 逆向工程 ChatGPT 的API

  • ddiu8081/chatgpt-demo 基于 OpenAI GPT-3.5 Turbo API 的 demo。

  • LAION-AI/Open-Assistant 基于聊天的助理,它理解任务,可以与第三方系统互动,并能动态地检索信息。将提供基于RLHF的大型语言模型,并公开训练数据。

  • acheong08/EdgeGPT 微软必应聊天的逆向工程API

  • yoheinakajima/babyagi 使用GPT3/4来自动完成任务。一个 AI 支持的任务管理系统示例. 该系统使用 OpenAI 和 Pinecone API 创建, 优先级排序和执行任务. 该系统背后的主要**是基于先前任务的结果和预定义的目标创建任务. 脚本然后使用 OpenAI 的自然语言处理(NLP)能力根据目标创建新任务, 并使用 Pinecone 存储和检索任务结果以获得上下文. 这是原始的任务驱动的自驱代理的简化版本.

  • TransformerOptimus/SuperAGI SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。

  • StanGirard/quivr 将所有文件和想法转储到您的生成式AI(如chatgpt)的第二大脑中并与之聊天。旨在轻松存储和检索非结构化信息。

  • transitive-bullshit/chatgpt-api OpenAI提供的ChatGPT的Node.js包装器。

  • zhayujie/chatgpt-on-wechat 用ChatGPT搭建微信聊天机器人

  • openai/openai-python OpenAI Python库提供了从用Python语言编写的应用程序对OpenAI API的方便访问。

  • chenking2020/FindTheChatGPTer ChatGPT/GPT4开源“平替”汇总,持续更新

  • madawei2699/myGPTReader 由chatGPT提供支持,Slack上的一个机器人,可以阅读和总结任何网页,包括电子书在内的文档,甚至是YouTube上的视频。它可以通过语音和你交流。

  • JosephusCheung/GuanacoDataset Guanaco 模型的数据集旨在增强多语言能力并解决各种语言任务。以 Alpaca 模型的 175个任务为基础,提供了用不同语言重写的种子任务,并添加了专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别设计的新任务。数据集总共包含53万个条目,以6k美元的低成本生成。英语\中文\日语。

  • thunlp/UltraChat 大规模、信息丰富、多样化的多轮聊天数据(和模型)

  • ziliwangnlp/RefGPT 包含5万对中文多轮对话数据。用如下方法自动生成数据。采集优质的事实型文档,reference,来源是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题。利用已有LLM生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。

  • gururise/AlpacaDataCleaned 经过清理和整理的斯坦福的羊驼数据集

  • wangrui6/Zhihu-KOL 知乎对话数据,parquet格式400多MB的大小

  • BAAI/COIG 中文开放教学通才 (COIG) 项目,以维护一套无害、有用且多样化的中文对话语料库。具体包括:人工验证的翻译指令 (67798) 、考试指令 (63532) 、人类价值对齐指令 (34471) 、反事实修正多轮聊天(13653)、Leetcode 指令 (11737)

  • nomic-ai/pyllamacpp 支持 llama.cpp + gpt4all 的 Python 绑定

  • abetlen/llama-cpp-python llama.cpp 的 Python 绑定

  • BlinkDL/ChatRWKV 使用RWKV语言模型(100%RNN)的类ChatGPT开源聊天模型。

  • rawandahmad698/PyChatGPT 非官方 ChatGPT API 的 Python 客户端,具有自动令牌重新生成、对话跟踪、代理支持等功能。

  • qunash/chatgpt-advanced 一种浏览器扩展,可通过网络结果增强您的 ChatGPT 提示。

  • liady/ChatGPT-pdf 用于将 ChatGPT 历史下载为 PNG、PDF 或创建可共享链接的 Chrome 扩展

  • imartinez/privateGPT 使用 LLM 的强大功能,无需互联网连接就可以对您的文档提出问题。 100% 私有,任何时候都没有数据离开您的执行环境。您可以在没有互联网连接的情况下提取文档和提问!

  • xtekky/gpt4free 免费使用GPT4模型 typescript版本

  • saharmor/awesome-chatgpt 精选的 ChatGPT 演示、工具、文章等

  • JushBJJ/Mr.-Ranedeer-AI-Tutor GPT-4 AI 导师提示,用于可定制的个性化学习体验。

  • binary-husky/chatgpt_academic 科研工作专用ChatGPT/GLM拓展,特别优化学术Paper润色体验,模块化设计支持自定义快捷按钮&函数插件,支持代码块表格显示,Tex公式双显示,新增Python和C++项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持gpt-3.5/gpt-4/chatglm

  • AetherCortex/Llama-X 关于将LLaMA提高到SOTA LLM的开放学术研究

  • WangRongsheng/ChatGenTitle 使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型

  • nishiwen1214/ChatReviewer 使用ChatGPT分析论文优缺点,提出改进建议

  • bhaskatripathi/pdfGPT 允许您使用 GPT 功能与 PDF 文件的内容聊天。在聊天机器人中转换您的 pdf 文件的唯一开源解决方案

  • kaixindelele/ChatPaper 全流程加速科研,利用chatgpt进行论文总结+润色+审稿+审稿回复

  • eimenhmdt/autoresearcher 使用 GPT 自动化科学工作流程

  • gragland/chatgpt-chrome-extension ChatGPT Chrome 扩展。将 ChatGPT 集成到互联网上的每个文本框中。

  • vincelwt/chatgpt-mac Mac 版 ChatGPT,就在您的菜单栏中。

  • huggingface/chat-ui 开源模型的聊天界面,例如OpenAssistant或Llama。SvelteKit应用程序,它为 hf.co/chat 上的HuggingChat应用程序提供支持。

  • GaiZhenbiao/ChuanhuChatGPT 为ChatGPT ChatGLM LLaMA StableLM MOSS等多种LLM提供了一个轻快好用的Web图形界面

  • sonnylazuardi/chat-ai-desktop 使用 Tauri 和 Rust 的 Mac 和 Windows 菜单栏的非官方 ChatGPT 桌面应用程序

  • xx025/carrot 准备了众多免费好用的ChatGPT镜像站点,当前100+站点

  • LiLittleCat/awesome-free-chatgpt 免费的 ChatGPT 镜像网站列表,持续更新。

  • yzfly/awesome-chatgpt-zh ChatGPT 中文指南,ChatGPT 中文调教指南,指令指南,精选资源清单,更好的使用 chatGPT 让你的生产力

  • terry3041/pyChatGPT OpenAI的ChatGPT API的非官方Python包装器

  • platelminto/chatgpt-conversation 用你的声音与 ChatGPT 对话,让它回话。

  • 202252197/ChatGPT_JCM OpenAI管理界面,聚合OpenAI的所有接口进行界面操作(所有模型、图片、音频、微调、文件)等,支持Markdown格式(公式、图表,表格)等

  • memochou1993/gpt-ai-assistant 使用 OpenAI API 和 LINE 消息传递 API 实现的应用程序。通过安装过程,您可以使用LINE移动应用程序开始与自己的AI助手聊天。

  • yanqiangmiffy/Chinese-LangChain 小必应,Q.Talk,强聊,QiangTalk,基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成

  • cesarhuret/docGPT ChatGPT 直接在 Google Docs 中作为编辑器的插件

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-3.5 + DALL·E + Whisper)= 飞一般的工作体验 rocket 语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • terror/chatgpt.nvim 在 Neovim 中查询 ChatGPT

  • clmnin/summarize.site 浏览器扩展使用ChatGPT总结网页内容

  • Zero6992/chatGPT-discord-bot 将 ChatGPT 集成到您自己的discord机器人中

  • m1guelpf/chatgpt-telegram 运行您自己的GPT电报机器人,只需一个命令

  • transitive-bullshit/chatgpt-twitter-bot ChatGPT API支持的Twitter机器人

  • kxxt/chatgpt-action 让 ChatGPT 为您审查 PR 拉取请求

  • RomanHotsiy/commitgpt 使用 ChatGPT 自动生成git提交消息

  • oceanlvr/ChatGPT-ProBot 基于 ChatGPT 的 GitHub APP,键入 /chatgpt 与机器人 robot 聊天。

  • kazuki-sf/ChatGPT_Extension 非常简单的Chrome扩展(v3),您可以从网络上的任何地方访问OpenAI的ChatGPT。

  • abielzulio/chatgpt-raycast ChatGPT raycast(Mac的快捷启动器) 扩展

  • bupticybee/ChineseAiDungeonChatGPT 中文版的ai地牢,直接使用的openai的ChatGPT api作为讲故事的模型。

  • domeccleston/sharegpt 轻松与您的朋友分享 ChatGPT 对话的永久链接

  • Yidadaa/ChatGPT-Next-Web 一键拥有你自己的 ChatGPT 网页服务。

  • pengzhile/pandora 实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • Chanzhaoyu/chatgpt-web 用Express和Vue3搭建的 ChatGPT 演示网页

  • elyase/awesome-gpt3 关于 OpenAI GPT-3 API 的演示和文章的集合。

  • dair-ai/Prompt-Engineering-Guide 提示工程是一门相对较新的学科,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解大型语言模型 (LLM) 的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。开发人员使用提示工程来设计与 LLM 和其他工具交互的强大且有效的提示技术。

  • reworkd/AgentGPT 在浏览器中组装、配置和部署自治 AI 代理。为您自己的自定义 AI 命名,让它开始任何可以想象的目标。它将尝试通过思考要完成的任务、执行它们并从结果中学习来达到目标。

  • openai/chatgpt-retrieval-plugin ChatGPT 检索插件可让您通过自然语言提问来轻松查找个人或工作文档。

  • kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference 在本地CPU推理上运行Llama 2和其他开源LLM,用于文档问答

  • Bin-Huang/chatbox 开源的 ChatGPT API (OpenAI API) 桌面客户端,Prompt 的调试与管理工具,支持 Windows、Mac 和 Linux

  • openai/openai-cookbook 使用 OpenAI API 的示例和指南

  • smol-ai/developer 随着Anthropic Claude的100k 上下文窗口的出现,现在每个开发人员都可以拥有自己的辅助开发助手

  • e2b-dev/e2b 允​​许您创建和部署虚拟软件开发人员。这些虚拟开发人员由专门的 AI 代理提供支持,这些代理可以根据您的指令构建软件并可以使用工具。

  • csunny/DB-GPT 使用本地 GPT 与您的数据和环境交互,无数据泄漏,100% 私密,100% 安全 目前支持Vicuna(7b, 13b), ChatGLM-6b(int4, int8)

  • acheong08/Bard Google 的 Bard 聊天机器人 API 的逆向工程

  • jtsang4/claude-to-chatgpt 将 Anthropic 的 Claude 模型的 API 转换为 OpenAI Chat API 格式。

  • databrickslabs/dolly dolly-v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布

  • openlm-research/open_llama 一个在RedPajama数据集上训练的Meta AI的LLaMA 7B的许可开源复制品。

  • mbzuai-nlp/LaMini-LM 来自大规模指令的多样化蒸馏模型群。从ChatGPT提炼出来的小型高效语言模型的集合,并在2.58M指令的大规模数据集上进行训练。我们通过执行句子/离线提炼从大型语言模型中提取知识。我们基于几个现有的提示资源,使用 gpt-3.5-turbo 生成总共 2.58M 对指令和响应。

  • microsoft/TaskMatrix 连接了ChatGPT和一系列Visual Foundation模型,以便在聊天期间发送和接收图像。

  • huggingface/peft 最先进的参数高效微调 (PEFT) 方法,LoRA、Prefix Tuning、P-Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。

  • artidoro/qlora 量化LLM的有效微调。QLoRA使用bitsandbytes进行量化。QLoRA是一种高效的微调方法,可减少内存使用量,足以在单个 48GB GPU 上微调 65B 模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练LM将梯度反向传播到低秩适配器 (LoRA) 中。我们最好的模型 Guanaco,在 Vicuna 基准测试中优于之前所有公开的模型,达到了 ChatGPT 性能水平的 99.3%,而只需在单个 GPU 上进行 24 小时的微调。QLoRA 引入了许多创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种理论上最适合正态分布权重的新数据类型 (b) 双重量化,通过量化常量来减少平均内存占用,以及 (c) 分页优化器来管理内存峰值。我们使用QLoRA对1k个模型进行微调,对 8 个指令数据集、多种模型(LLaMA、T5)和模型规模(如33B和65B参数)的指令遵循和聊天机器人性能进行详细分析。结果表明,QLoRA在小型高质量数据集上进行微调可以产生最先进的结果,即使用比以前的SoTA更小的模型也是如此。GPT4评估是人类评估的廉价且合理的替代方案。当前的聊天机器人基准测试不值得信赖,无法准确评估聊天机器人的性能水平。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。

  • hiyouga/ChatGLM-Efficient-Tuning 基于 PEFT 的高效 ChatGLM 微调

  • ZrrSkywalker/LLaMA-Adapter 在1小时内遵循指令微调LLaMA , 1.2M参数

  • h2oai/h2o-llmstudio 用于微调LLM的框架和无代码GUI。轻松有效地微调LLM,无需任何编码经验。使用专为大型语言模型设计的GUI。使用各种超参数微调任何LLM。使用最新的微调技术,例如低秩适配 (LoRA) 和具有低内存占用的 8 位模型训练。使用强化学习 (RL) 微调模型(实验性)。使用高级评估指标来判断模型生成的答案。直观地跟踪和比较模型性能。

  • stochasticai/xTuring 轻松构建、定制和控制您自己的 LLM。提供快速、高效和简单的LLM微调,如LLaMA,GPT-J,Galactica等。通过提供一个易于使用的界面来微调LLM到您自己的数据和应用程序,xTuring使构建,自定义和控制LLM变得简单。整个过程可以在您的计算机内部或私有云中完成,确保数据隐私和安全。

  • punica-ai/punica 将多个 LoRA 微调 LLM 作为一个整体提供服务。Punica 支持运行多个 LoRA 微调模型,但代价是运行一个模型。通过分段收集矩阵向量乘法 (SGMV)的 LoRA 是高效的,并保留了强大的批处理效果.

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。存储库包含:

    • 英语教学 - 遵循数据由 GPT-4 使用 Alpaca 提示进行微调 LLM。
    • 由 GPT-4 使用由 ChatGPT 从羊驼翻译的中文提示生成的中文指令跟踪数据。
    • 按 GPT-4 排名以训练奖励模型的比较数据。
    • 关于非自然指令的答案 来自 GPT-4 的数据,用于大规模量化 GPT-4 和指令调整模型之间的差距。
  • lxe/simple-llm-finetuner 初学者友好的界面,旨在通过商用NVIDIA GPU上的PEFT库,使用LoRA方法微调各种语言模型。使用较小的数据集和 256 的样本长度,您甚至可以在常规的 Colab Tesla T4 实例上运行它。

  • Jittor/JittorLLMs 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点。成本低:相比同类框架,本库可大幅降低硬件配置要求(减少80%),没有显卡,2G内存就能跑大模型;支持广:目前支持了4种大模型:ChatGLM大模型、鹏程盘古大模型、BlinkDL的ChatRWKV、国外Meta的LLaMA大模型等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。

  • RUCAIBox/LLMSurvey 与大型语言模型相关的论文和资源集合。

  • Lunabot 在任何网页为你服务的AI助理,通过快捷指令释放AI工作潜力,无需KEY和ChatGPT账号

  • jerryjliu/llama_index 您的 LLM 应用程序的数据框架。高级 API 允许初学者使用 LlamaIndex 在 5 行代码中摄取和查询他们的数据。我们的低级 API 允许高级用户自定义和扩展任何模块(数据连接器、索引、检索器、查询引擎、重新排名模块)以满足他们的需求。

  • amazon-science/mm-cot 语言模型中的多模式思维链推理。包括两个训练阶段:(i) 基本原理生成和 (ii) 答案推理。这两个阶段共享相同的模型架构,但输入和输出不同。

  • haotian-liu/LLaVA 面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。

  • BradyFU/Awesome-Multimodal-Large-Language-Models 多模态大型语言模型的最新论文和数据集

  • THUDM/VisualGLM-6B 多模态中英双语对话语言模型

  • LC1332/Luotuo-Silk-Road 中文大语言模型的数据。对话与指令数据集:Luotuo-Chinese-Alpaca 骆驼-**-羊驼、Chinese-Dolly **多莉、Chinese-WizardLM **巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding

  • logspace-ai/langflow LangChain(大语言模型链式开发工具,强大的框架,可以简化构建高级语言模型应用程序的过程。) 的 UI,采用反应流设计,提供一种轻松的方式来实验和原型流。

  • liaokongVFX/LangChain-Chinese-Getting-Started-Guide LangChain 的中文入门教程

  • YeungNLP/firefly-train-1.1M 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。

  • togethercomputer/RedPajama-Data 包含用于准备大型数据集以训练大型语言模型的代码。重现LLaMA训练数据集的开源配方。Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia、StackExchange。合计1.2万亿令牌

  • Voine/ChatWaifu_Mobile 移动版二次元 AI 老婆聊天器 语言大模型来自 GhatGPT\语音推理为客户端本地 VITS - ncnn\图形渲染基于 Native Live2D\语音输入识别为客户端本地 Sherpa - ncnn

  • yizhongw/self-instruct 将预训练的语言模型与自身生成的指令数据对齐。自我指导是一个框架,可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己的代数来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。自指令过程是一种迭代引导算法,它从一组手动编写的指令种子开始,并使用它们来提示语言模型生成新指令和相应的输入输出实例。然后对这些世代进行过滤以删除低质量或类似的代数,并将生成的数据添加回任务池。此过程可以重复多次,从而产生大量教学数据,可用于微调语言模型以更有效地遵循说明。

  • Timothyxxx/Chain-of-ThoughtsPapers 大型语言模型中的思维链促使引出推理。**链论文集合

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • YiVal/YiVal 一个开源的 GenAI-Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。

  • jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 聚宝盆(Cornucopia): 基于中文金融知识的LLaMA微调模型;涉及SFT、RLHF、GPU训练部署等

  • THUDM/WebGLM 迈向具有人类偏好的高效网络增强问答系统。WebGLM希望使用100亿参数的GLM,提供高效且具有成本效益的Web增强问答系统。它旨在通过将 Web 搜索和检索功能集成到预先训练的语言模型中来改进实际应用程序部署。

  • FlowiseAI/Flowise 拖放UI以构建自定义LLM流程

  • xcanwin/KeepChatGPT ChatGPT的畅聊与增强插件。开源免费。不仅能解决所有报错不再刷新,还有保持活跃、取消审计、克隆对话、净化首页、展示大屏、展示全屏、言无不尽、拦截跟踪、日新月异等多个高级功能。让我们的AI体验无比顺畅、丝滑、高效、简洁。

  • ShishirPatil/gorilla LLM的API商店 。使 LLM 能够通过调用 API 来使用工具。给定一个自然语言查询,Gorilla 会提出语义和语法上正确的 API 来调用。通过Gorilla,我们是第一个演示如何使用LLM准确调用1,600+(并且不断增长的)API调用,同时减少幻觉的人。

  • microsoft/guidance 指南使你能够比传统的提示或链接更有效、更高效地控制新式语言模型。指导程序允许您将生成、提示和逻辑控制交错到单个连续流中,以匹配语言模型实际处理文本的方式。简单的输出结构,如思维链及其许多变体(例如,ART,Auto-CoT等)已被证明可以提高LLM的性能。像 GPT-4 这样更强大的 LLM 的出现允许更丰富的结构,而 guidance 使该结构更容易、更便宜。

  • fuergaosi233/wechat-chatgpt 通过微信在微信上使用ChatGPT

  • steven-tey/novel Notion风格的所见即所得编辑器,具有 AI 驱动的自动完成功能。

  • h2oai/h2ogpt 私人问答和文档+图像摘要或与本地GPT聊天,100%私人,Apache 2.0。支持 LLaMa2、llama.cpp等。

  • chat2db/Chat2DB 一个智能且通用的通用SQL客户端和数据库报告工具,集成了ChatGPT功能。能够将自然语言转换为SQL。还可以将SQL转换为自然语言,并为SQL提供优化建议,从而大大提高开发人员的效率。

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 旨在共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。

  • akoksal/LongForm 使用语料库提取生成长文本的指令调优数据集和模型。通过利用英语语料库示例和增强指令创建的。从现有的语料库(如C4和维基百科)中选择一组多样化的人类编写的文档,并通过LLM为给定的文档生成指令。然后,用结构化的语料库示例(如Stack Exchange和WikiHow)和任务示例(如问答,电子邮件写作,语法错误更正,故事/诗歌生成和文本摘要)来扩展这些示例。

  • BelleGroup/train_3.5M_CN 约350万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_2M_CN 约200万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_1M_CN 约100万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_0.5M_CN 约50万条由BELLE项目生成的中文指令数据。

  • BelleGroup/generated_chat_0.4M 包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。

  • BelleGroup/school_math_0.25M 包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程。

  • juletxara/mgsm 多语言小学数学基准(MGSM)是小学数学问题的基准。8.5K高质量语言多样化的小学数学单词问题的数据集。创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。

  • XueFuzhao/InstructionWild InstructWild v2,其中包括超过 110K 个基于用户的高质量指令。我们没有使用自导来生成任何指令。我们还用指令类型和特殊标签标记这些指令的子集。

  • sunzeyeah/chinese_chatgpt_corpus 该存储库收集了用于监督微调(SFT)和来自人类反馈的强化学习(RLHF)的中文语料库。

  • PlexPt/chatgpt-corpus ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

  • zxbsmk/webnovel_cn 从12560本网文提取的约21.7M条可用于训练小说生成的中文指令数据

  • QingyiSi/Alpaca-CoT 该存储库将不断收集各种指令调优数据集。并且我们将不同的数据集标准化为相同的格式,可以直接通过羊驼模型的代码加载。

  • datasets/BAAI/COIG 中文开放教学通才(COIG)项目来维护一套无害、有用和多样化的中文教学语料库。BAAI-Zlab/COIG

  • CLUEbenchmark/pCLUE 基于提示的大规模预训练数据集,用于多任务学习和零样本学习,120万训练数据。

  • X-PLUG/CValues 面向中文大模型价值观的评估与对齐研究。邀请**知名专家学者,每位专家提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。项目吸引了环境科学、心理学、法理学等多个领域专家参与,并召开了专家研讨会,会后发布业内首个大语言模型治理开源中文数据集100PoisonMpts,包含专家提出的问题、专家自己撰写或认可的答案。

  • DA-southampton/RedGPT 提出一种自动生成事实型对话的方法,并公开我们的部分数据。我们公开的第一批数据(RedGPT-Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。

  • X-PLUG/ChatPLUG 旨在建立和共享一个中文开放域对话系统。在推理过程中集成外部知识是灵活的,这是一个可选的输入。您可以利用 获取最新信息或使用本地知识库获取 search engine 领域知识。通过设置 bot profiles 或使用 role-paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。

  • chathub-dev/chathub 多合一的聊天机器人客户端。在一个应用程序中使用不同的聊天机器人,目前支持ChatGPT,新的Bing Chat,Google Bard,Claude和10 +开源模型,包括Alpaca,Vicuna,ChatGLM等。

  • lencx/nofwl 一个跨平台的桌面应用,它可以让你和一个基于 GPT-3 的聊天机器人进行有趣的对话。

  • songquanpeng/one-api OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问以及 360 智脑,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用.

  • labring/FastGPT 基于 LLM 构建的基于知识的 QA 系统,提供开箱即用的数据处理和模型调用功能,允许通过 Flow 可视化进行工作流编排

  • go-skynet/LocalAI 自托管、社区驱动、本地 OpenAI 兼容 API。在消费级硬件上运行LLM的OpenAI的直接替代品。免费的开源OpenAI替代品。LocalAI是一个运行ggml兼容模型的API:llama,gpt4all,rwkv,whisper,vicuna,koala,gpt4all-j,cerebras,falcon,dolly,starcoder和许多其他

  • getumbrel/llama-gpt 一个自托管的、离线的、类似 ChatGPT 的聊天机器人。由骆驼 2 提供动力。100%私密,没有数据离开您的设备。新功能:代码支持

  • sunner/ChatALL 同时与ChatGPT,Bing Chat,Bard,Alpaca,Vicuna,Claude,ChatGLM,MOSS,讯飞星火,文心一言等聊天,发现最佳答案

  • li-plus/chatglm.cpp C++实现ChatGLM-6B和ChatGLM2-6B,以便在MacBook上进行实时聊天。

  • ztxz16/fastllm 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

  • gventuri/pandas-ai Python库,它将生成人工智能功能集成到Pandas中,使数据帧成为对话式的。为流行的数据分析和操作工具pandas添加了生成AI功能。

  • howl-anderson/unlocking-the-power-of-llms 使用 Prompts 和 Chains 让 ChatGPT 成为神奇的生产力工具

  • eugeneyan/open-llms 可用于商业用途的开放LLM列表。

  • Mooler0410/LLMsPracticalGuide LLM实用指南资源的精选列表。它基于我们的调查论文:在实践中利用LLM的力量:关于ChatGPT及其他的调查。该调查部分基于本博客的后半部分。我们还构建了现代大型语言模型(LLM)的进化树,以追踪近年来语言模型的发展,并重点介绍一些最著名的模型。

  • imaurer/awesome-decentralized-llm LLM资源的集合,可用于构建您可以“拥有”的产品或进行可重复的研究。

  • Open LLM Leaderboard 开放LLM排行榜旨在跟踪,排名和评估LLM和聊天机器人的发布。

  • EwingYangs/awesome-open-gpt GPT相关开源项目合集

  • botpress/botpress 由 OpenAI 提供支持的下一代聊天机器人和助手的终极平台。开始以闪电般的速度为您的项目或业务构建令人难以置信的助手。

  • dice2o/BingGPT 新必应AI聊天的桌面应用程序(Windows,macOS和Linux)

  • josStorer/chatGPTBox 将 ChatGPT 深度集成到您的浏览器中,您需要的一切都在这里

  • lss233/chatgpt-mirai-qq-bot 一键部署!真正的 AI 聊天机器人!支持ChatGPT、文心一言、讯飞星火、Bing、Bard、ChatGLM、POE,多账号,人设调教,虚拟女仆、图片渲染、语音发送 | 支持 QQ、Telegram、Discord、微信 等平台

  • promptslab/Promptify 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为流行的生成模型(如 GPT、PaLM 等)生成不同的 NLP 任务提示

  • enricoros/big-agi 由 GPT-4 及更高版本提供支持的个人 AI 应用程序,具有 AI 角色、AGI 功能、文本到图像、语音、响应流、代码突出显示和执行、PDF 导入、开发人员预设等等。使用Next.js,React,Joy。

  • jaymody/picoGPT NumPy实现的一个不必要的微小的GPT-2。40 行代码。

  • bentoml/OpenLLM 用于在生产中操作大型语言模型 (LLM) 的开放平台。轻松微调、服务、部署和监控任何 LLM。

  • karpathy/llama2.c 在一个纯 C 文件中推理Llama 2大型语言模型

  • geekan/MetaGPT 多代理框架:给定一行需求,返回 PRD、设计、任务、存储库。为 GPT 分配不同的角色,以形成用于复杂任务的协作软件实体。

  • ModelTC/lightllm 基于Python的LLM(大型语言模型)推理和服务框架,以其轻量级设计,易于扩展和高速性能而著称。LightLLM利用了许多备受推崇的开源实现的优势,包括但不限于FasterTransformer,TGI,vLLM和FlashAttention。

  • PanQiWei/AutoGPTQ 易于使用的LLM量化包,有用户友好的API,基于GPTQ算法。

  • princeton-nlp/tree-of-thought-llm 正式实现“**之树:用大语言模型刻意解决问题”

  • thomas-yanxin/LangChain-ChatGLM-Webui 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答

  • ssbuild/chatglm_finetuning Chatglm 6b微调和羊驼微调

  • liucongg/ChatGLM-Finetuning 基于ChatGLM-6B、ChatGLM2-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等

  • HqWu-HITCS/Awesome-Chinese-LLM 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

  • OpenGVLab/Ask-Anything [视频聊天GPT]聊天GPT与视频理解!还有更多支持的LM,如miniGPT4,StableLM和MOSS。

  • OpenMotionLab/MotionGPT 一个统一且用户友好的运动语言模型,用于学习两种模态的语义耦合,并在多个运动任务上生成高质量的运动和文本描述。

  • Hannibal046/Awesome-LLM 大型语言模型(LLM)已经席卷了NLP社区AI社区的整个世界。以下是关于大型语言模型的精选论文列表,尤其是与 ChatGPT 相关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和API。

  • DSXiangLi/DecryptPrompt 总结Prompt&LLM论文,开源数据&模型,AIGC应用

  • GoogleCloudPlatform/generative-ai 包含笔记本、代码示例、示例应用和其他资源,用于演示如何使用 Google Cloud 上的生成式 AI 使用、开发和管理生成式 AI 工作流程,这些工作流由 Vertex AI 和生成式 AI App Builder 提供支持。

  • catqaq/ChatPiXiu 开源chatgpt替代方案/实现的调查,复制和领域/任务适应。

  • DAMO-NLP-SG/LLM-Zoo 本项目收集了以下各种开源和闭源LLM的信息

  • wgwang/LLMs-In-China 旨在记录**大模型发展情况

  • OpenBMB/BMList 希望使用此列表来显示大模型的最新趋势。

  • nichtdax/awesome-totally-open-chatgpt ChatGPT 的完全开放的替代品列表

  • ikaijua/Awesome-AITools 收藏AI相关的实用工具,大型语言模型

  • datawhalechina/prompt-engineering-for-developers 面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版

  • datawhalechina/hugging-llm 拥抱LLM,拥抱未来。介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

  • promptingguide.ai/zh 提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。基于对大语言模型的浓厚兴趣,我们编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。

  • phodal/aigc 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

  • prompt-engineering/understand-prompt 理解 Prompt:基于编程、绘画、写作的 AI 探索与总结

  • brexhq/prompt-engineering 使用大型语言模型(如 OpenAI 的 GPT-4)的提示和技巧。

  • mshumer/gpt-prompt-engineer 只需输入任务的描述和一些测试用例,系统就会生成、测试和排名大量提示,以找到性能最佳的提示。

  • km1994/LLMsNineStoryDemonTower 分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。

  • iguodongiot/llm-action 本项目旨在分享大模型相关技术原理以及实战经验。

  • hiyouga/LLaMA-Efficient-Tuning 易于使用的LLM微调框架(LLaMA-2,BLOOM,Falcon,Baichuan,Qwen,ChatGLM2)

  • FlagOpen/FlagEval AI大型基础模型的评估工具包。我们的目标是探索和整合科学、公平、开放的基础模型评估基准、方法和工具。FlagEval将在未来支持在不同模态(如NLP,音频,CV和多模态)中/跨基础模型的多维评估(如准确性,效率,鲁棒性等)。我们希望通过对基础模型的评估,加深对基础模型的理解,促进相关的技术创新和产业化应用。

  • InternLM/opencompass LLM评估平台,支持超过50 +数据集的各种模型(LLaMA,LLaMa2,ChatGLM2,ChatGPT,Claude等)。

  • OpenLMLab/GAOKAO-Bench 一个评估框架,利用高考问题作为数据集来评估大型语言模型。

  • mikegu721/xiezhibenchmark 獬豸是语言模型(LMs)的综合评估套件。它由249587道多项选择题组成,涵盖 516 个不同的学科和四个难度级别。希望可以帮助开发人员跟踪进度并分析其LM的重要优势/缺点。

  • haonan-li/CMMLU 综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的**驾驶规则等。此外,CMMLU中的许多任务具有**特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全**化的中文测试基准。

  • CLUEbenchmark/SuperCLUElyb SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准

  • Felixgithub2017/MMCU 本评测只是对大模型语义理解能力的测试,并不能代表模型的全面能力评测,评测结果仅供参考。整个评测方式、评测数据集、评测记录都公开,确保可以复现。

  • Felixgithub2017/CG-Eval 此项测试中,受测的中文大语言模型需要对科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试这六个大科目类别下的55个子科目的1.1W不同类型问题做出准确且相关的回答。 我们设计了一套复合的打分系统,对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和。对于计算题目,我们会提取最终计算结果和解题过程,然后综合打分。

  • GAIR-NLP/factool 工具增强框架,用于检测由大型语言模型(例如ChatGPT)生成的文本的事实错误。Factool现在支持4个任务:基于知识的QA:Factool检测基于知识的QA中的事实错误。代码生成:Factool检测代码生成中的执行错误。数学推理:Factool检测数学推理中的计算错误。科学文献综述:Factool检测幻觉的科学文献。

  • jeinlee1991/chinese-llm-benchmark 中文大模型能力评测榜单:覆盖文心一言、chatgpt、通义千问、讯飞星火、belle / chatglm 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

  • CLUEbenchmark/CLUE 中文语言理解测评基准 中文理解评估基准:数据集、基线、预训练模型、语料库和排行榜

  • CLUEbenchmark/SuperCLUE 中文通用大模型综合性基准。superclueai

  • hkust-nlp/ceval 一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别

  • LaVi-Lab/CLEVA 由香港中文大学LaVi实验室开发的中文模型评估平台,主要功能包括:综合中文基准,包含31个任务(11个应用评估+20个能力评估任务),共37万个中文测试样本(33.98%是新采集的,缓解数据污染问题);标准化的基于提示的评估方法,包含对所有数据的统一预处理,并使用一套一致的中文提示模板进行评估。值得信赖的排行榜,因为使用大量新数据来最大限度地减少数据污染并定期组织评估。

  • EleutherAI/lm-evaluation-harness 自回归语言模型的少样本评估框架。

  • declare-lab/instruct-eval 用于定量评估指令调优模型的代码。Flan-T5和Alpaca等指令调整模型代表了一个令人兴奋的方向,以更低的成本接近ChatGPT等大型语言模型(LLM)的性能。但是,定性比较不同模型的性能具有挑战性。为了评估模型在各种看不见和具有挑战性的任务中的泛化程度,我们可以使用MMLU和BBH等学术基准。与评估工具和 HELM 等现有库相比,此存储库可以简单方便地评估多个模型。支持HuggingFace Transformers 的大多数模型。

  • DAMO-NLP-SG/M3Exam 一种新颖的基准,来自真实和官方的人类考试问题,用于在多语言,多模态和多层次的背景下评估LLM。

  • tjunlp-lab/M3KE 面向汉语大语言模型的大规模多层次多学科知识评估基准

  • thu-coai/Safety-Prompts 中文安全prompts,评估和提升大模型的安全性。

  • RUCAIBox/HaluEval 大型语言模型的大规模幻觉评估基准。包括 5,000 个带有 ChatGPT 响应的一般用户查询和来自三个任务的 30,000 个特定于任务的示例,即问答、基于知识的对话和文本摘要。

  • noahshinn024/reflexion 反思:语言代理与语言强化学习,提出了Reflexion框架,使用语言反馈信号(verbalre inforcement)来帮助agent从先前的失败经验中学习。具体地,Reflexion将传统梯度更新中的参数信号转变为添加在大模型上下文中的语言总结,使得agent在下一个episode中能参考上次执行失败的失败经验,从而提高agent的执行效果。这个过程和人类反思(reflexion)过程十分相似。

  • Azure-Samples/azure-search-openai-demo 在 Azure 中运行的检索增强生成模式的示例应用,使用 Azure 认知搜索进行检索,并使用 Azure OpenAI 大型语言模型为 ChatGPT 风格和问答体验提供支持。

  • sindresorhus/awesome-chatgpt 基于ChatGPT 开发的应用的列表 — 由 OpenAI 开发的人工智能聊天机器人

  • smol-ai/GodMode AI聊天浏览器:快速,完整的网络应用程序访问ChatGPT / Claude / Bard / Bing / Llama2

  • llm-workflow-engine/llm-workflow-engine 适用于 LLM 的 命令行工具 和工作流管理器(核心包)

  • Yue-Yang/ChatGPT-Siri Siri的快捷方式使用ChatGPT API gpt-3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。

  • skydoves/chatgpt-android 在 Android 上使用 Stream Chat SDK for Compose 演示 OpenAI 的 ChatGPT。

  • Licoy/ChatGPT-Midjourney 一键拥有自己的 ChatGPT+Midjourney 网页服务

  • JimmyLv/BibiGPT-v1 音视频内容 AI 一键总结 & 对话:哔哩哔哩丨YouTube丨推特丨小红书丨抖音丨快手丨百度网盘丨阿里云盘丨网页丨本地文件等

  • 0xk1h0/ChatGPT_DAN 越狱提示,巧妙的解决方法,使我们能够充分利用 ChatGPT 的全部潜力。

  • waylaidwanderer/node-chatgpt-api ChatGPT 和 Bing AI 的客户端实现。可用作node.js模块、REST API 服务器和 CLI 应用程序。

  • khoj-ai/khoj 第二个大脑的AI副驾驶。在线或离线搜索和聊天您的个人知识库

  • yihong0618/xiaogpt 使用小米AI扬声器播放ChatGPT和其他LLM

  • openai/plugins-quickstart 在 5 分钟内启动并运行 ChatGPT 插件!

  • futantan/OpenGpt 在几秒钟内创建您自己的聊天GPT应用程序。

  • wzpan/wukong-robot 一个简单、灵活、优雅的中文语音对话机器人/智能音箱项目,支持ChatGPT多轮对话能力,还可能是首个支持脑机交互的开源智能音箱项目。

  • openai-translator/bob-plugin-openai-translator 基于 ChatGPT API 的文本翻译、文本润色、语法纠错 Bob 插件,让我们一起迎接不需要巴别塔的新时代

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • xiangsx/gpt4free-ts 提供免费的OpenAI GPT-4 API!这是 xtekky/gpt4free 版本的复制项目

  • sashabaranov/go-openai 为 OpenAI API 提供了非官方的 Go 客户端

  • ztjhz/BetterChatGPT OpenAI的ChatGPT(网站+ Windows + MacOS + Linux)的惊人UI。Better ChatGPT 是任何想要体验对话式 AI 无限力量的人的终极目的地。没有限制,完全免费使用,充分利用OpenAI的ChatGPT API的全部潜力,为您提供无与伦比的聊天机器人体验。

  • ramonvc/freegpt-webui GPT 3.5/4 与聊天网页用户界面。无需 API 密钥。

  • vercel/ai 使用 React、Svelte、Vue 和 Solid 构建 AI 驱动的应用程序

  • reorx/awesome-chatgpt-api 精选的应用程序和工具列表,这些应用程序和工具不仅使用新的 ChatGPT API,还允许用户配置自己的 API 密钥,从而免费和按需使用自己的配额。

  • embedchain/embedchain LLM 的数据平台 - 加载、索引、检索和同步任何非结构化数据,可以在任何数据集上轻松创建LLM驱动的机器人。支持的数据类型:视频、PDF、网页、网站地图、文档等

  • shibing624/textgen 文本生成模型的实现,包括LLaMA,BLOOM,GPT2,BART,T5,SongNet等。文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。

  • wangrui6/Zhihu-KOL 用于训练开放助手的知乎数据

  • JosephusCheung/GuanacoDataset Guanaco模型的数据集旨在增强多语言能力并解决各种语言任务。它以 Alpaca 模型中的 175 个任务为基础,提供不同语言的种子任务重写,并添加专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别而设计的新任务。该数据集总共包含 534,530 个条目,以 6K 美元的低成本生成。

  • shawwn/llama-dl 高速下载 LLaMA,Facebook 的 65B 参数 GPT 模型

  • mit-han-lab/streaming-llm 具有注意力接收器的高效流语言模型,可以无限长度地输入LLM进行推理,而不会牺牲效率和性能。在需要长时间交互的多轮对话等流应用程序中部署大型语言模型 (LLM),但存在两个主要挑战。首先,在解码阶段,缓存先前令牌的键和值状态 (KV) 会消耗大量内存。其次,流行的LLM不能推广到比训练序列长度更长的文本。窗口注意,其中仅缓存最新的 KV,是一种自然的方法---但我们表明,当文本长度超过缓存大小时,它会失败。我们观察到一个有趣的现象,即注意力下沉,即保留初始代币的 KV 将在很大程度上恢复窗口注意力的性能。在本文中,我们首先证明了注意力下沉的出现是由于对初始令牌作为“接收器”的强烈注意力得分,即使它们在语义上并不重要。基于上述分析,我们引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度,而无需任何微调。StreamingLLM可以使Llama-2,MPT,Falcon和Pythia使用多达400万个代币或更多代币执行稳定高效的语言建模。此外,发现在预训练期间添加占位符令牌作为专用的注意力接收器可以进一步改进流式处理部署。在流设置中,StreamingLLM 的性能优于滑动窗口重新计算基线高达 22.2 倍的加速。

  • OpenBMB/AgentVerse 提供了一个灵活的框架,简化了为大型语言模型 (LLM) 构建自定义多代理环境的过程。

  • hahnyuan/PB-LLM 提出了部分二值化LLM(PB-LLM)的方法,可以实现极端低比特量化,同时保持量化LLM的语言推理能力。 具体来说,我们的探索首先揭示了现有二值化算法朴素应用的无效性,并强调了显著权重在实现低比特量化中的重要作用。因此,PB-LLM在二值化过程中过滤了一小部分突出权重,将它们分配给更高位的存储,即部分二值化。PB-LLM通过从训练后量化(PTQ)和量化感知训练(QAT)的角度进行分析,扩展以恢复量化LMM的能力。在PTQ下,结合GPTQ的概念,我们重构了以Hessian矩阵为指导的二值化权重矩阵,并成功恢复了PB-LLM在低位的推理能力。在QAT下,我们在训练过程中冻结了显著权重,探索了对最小化量化误差至关重要的最优比例因子的推导,并提出了一种基于该派生的残差二值化权重缩放策略的缩放机制。这些探索和开发的方法大大有助于恢复低比特量化LLM的性能,并在LLM的网络二值化领域取得实质性进展。

  • openai/openai-python OpenAI API 的官方 Python 库。提供了从用 Python 语言编写的应用程序对 OpenAI API 的便捷访问。它包括一组预定义的API资源类,这些类从API响应动态初始化自身,使其与各种版本的OpenAI API兼容。

  • Lightning-AI/lit-llama 基于nanoGPT的LLaMA语言模型的实现。支持flash注意力, Int8 和 GPTQ 4 位量化, LoRA 和 LLaMA 适配器微调, 预训练.Apache 2.0 许可。

  • NVIDIA/TensorRT-LLM TensorRT-LLM 为用户提供了一个易于使用的 Python API,用于定义大型语言模型 (LLM) 并构建包含最先进优化的 TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM还包含用于创建Python的组件,以及执行这些TensorRT引擎的C++运行时。

  • HuiMi24/chatppt 由chatgpt提供支持,它可以帮助您生成PPT /幻灯片。它支持英文和中文输出

  • zhile-io/pandora 潘多拉实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • cpacker/MemGPT 创建具有自我编辑记忆的永久聊天机器人!Memory-GPT是一个系统,它智能地管理LLM中的不同内存层,以便在LLM的有限上下文窗口中有效地提供扩展上下文。例如,MemGPT 知道何时将关键信息推送到矢量数据库,以及何时在聊天中检索它,从而实现永久对话。

  • NExT-GPT/NExT-GPT 任意多模态大语言模型,第一个端到端MM-LLM,可感知输入并以文本,图像,视频和音频等的任意组合(任意对任意)生成输出。NExt-GPT建立在现有的预训练LLM,多模态编码器和SoTA扩散模型之上,具有足够的端到端指令调谐。1. 多模态编码阶段。利用已建立的编码器以各种模式对输入进行编码,其中这些表示通过投影层投影为LLM可理解的类似语言的表示。2. LLM理解和推理阶段。利用现有的开源LLM作为核心来处理语义理解和推理的输入信息。LLM不仅直接生成文本标记,而且还生成独特的“模态信号”标记,这些令牌作为指令来指示解码层是否以及相应地输出什么模态内容。3. 多模式生成阶段。基于变压器的输出投影层通过来自LLM(如果有)的特定指令接收多模态信号,将信号令牌表示映射到以下多模态解码器可以理解的表示中。

  • mleoking/PromptAppGPT 一个基于提示的低代码快速应用开发框架。包含低代码提示开发、GPT 文本生成、DALLE 图像生成、在线提示编辑器+编译器+运行器、自动用户界面生成、支持插件扩展等功能。PromptAppGPT旨在实现基于GPT的自然语言应用程序开发。

  • EmbraceAGI/LifeReloaded 由GPT-4的“高级数据分析”功能提供支持的生活模拟游戏,为您提供第二次生活机会。由GPT4的Advanced Data Analysis功能驱动的人生重来模拟器,给您人生第二春。

  • srush/llama2.rs CPU 上 Llama2 推理的 Rust 实现

  • OpenLMLab/LOMO 提出了一个新的优化器,LOw-Memory Optimization,它将梯度计算和参数更新融合在一步中,以减少内存使用。 我们的方法使得在单张 RTX 3090 上可以进行 7B 模型的全参数微调,或者在单个 8×RTX 3090 的机器上可以进行 65B 模型的全参数微调(RTX 3090 的内存为 24GB)。

  • spcl/graph-of-thoughts **图Graph of Thoughts (GoT):用大型语言模型解决复杂问题的官方实现。此框架使您能够通过将复杂问题建模为操作图 (GoO) 来解决复杂问题,该操作图以大型语言模型 (LLM) 作为引擎自动执行。该框架设计为灵活且可扩展,不仅允许您使用新的 GoT 方法解决问题,还可以实现类似于以前方法(如 CoT 或 ToT)的 GoO。

  • TheoKanning/openai-java 用于使用 OpenAI 的 GPT API 的 Java 库。支持 GPT-3、ChatGPT 和 GPT-4。

  • langgenius/dify 开源助手 API 和 GPT 的替代方案。Dify.AI 是一个 LLM 应用程序开发平台。它集成了后端即服务和 LLMOps 的概念,涵盖了构建生成式 AI 原生应用程序所需的核心技术堆栈,包括内置的 RAG 引擎。

  • mckaywrigley/chatbot-ui 一个开源的 ChatGPT UI。

编程语言大模型及相关项目

  • AntonOsika/gpt-engineer GPT 工程师易于调整、扩展,它根据提示生成整个代码库。指定您希望它构建的内容,AI 要求澄清,然后构建它。

  • THUDM/CodeGeeX2 更强大的多语言代码生成模型。基于 ChatGLM2 架构加入代码预训练实现,得益于 ChatGLM2 的更优性能,CodeGeeX2 在多项指标上取得性能提升(+107% > CodeGeeX;仅60亿参数即超过150亿参数的 StarCoder-15B 近10%)

  • KillianLucas/open-interpreter 终端中的 OpenAI 代码解释器,在本地运行。允许LLM在本地运行代码(Python,Javascript,Shell等)。您可以通过终端中类似 ChatGPT 的界面与开放解释器聊天。

  • THUDM/CodeGeeX 一个具有130亿个参数的大型多语言代码生成模型,在20多种语言的大型代码语料库上进行了预训练。

  • fauxpilot/fauxpilot GitHub Copilot服务器的开源替代品。构建GitHub Copilot的本地托管替代方案的尝试。它在NVIDIA的Triton Inference Server中使用SalesForce CodeGen模型和FasterTransformer后端。

  • facebookresearch/codellama 基于 Llama 2 的代码大型语言模型系列,在开放模型中提供最先进的性能、填充功能、对大型输入上下文的支持以及编程任务的零镜头指令跟踪能力。我们提供多种风格来涵盖广泛的应用:基础模型(Code Llama),Python 专业化(Code Llama - Python)和指令遵循模型(Code Llama - Instruct),每个模型都有 7、13 和 34B 参数。所有模型都在16k 个令牌的序列上进行训练,并显示对最多 100k 个令牌的输入的改进。7B 和 13B 代码骆驼和代码骆驼 - 指示变体支持基于周围内容的填充。通过使用更高的代码采样微调 Llama 2 开发的。

  • bigcode-project/starcoder 一种在源代码和自然语言文本上训练的语言模型 (LM)。它的训练数据包含了 80 多种不同的编程语言,以及从 GitHub 问题和提交以及笔记本中提取的文本。

  • Pythagora-io/gpt-pilot 使用GPT 帮助开发人员将构建应用的速度提高 20 倍

  • codefuse-ai/MFTCoder CodeFuse 的一个开源项目,用于多任务处理 Code-LLM(代码任务的大型语言模型),其中包括模型、数据集、训练代码库和推理指南。

  • salesforce/CodeT5 CodeT5的主页:用于代码理解和生成的开放代码LLM

  • mckaywrigley/ai-code-translator 使用 AI 将代码从一种语言翻译成另一种。

  • joshpxyne/gpt-migrate 轻松地将代码库从一种框架或语言迁移到另一种。由于 GPT-Migrate 旨在编写(并可能重写)整个代码库,因此成本可能会迅速增加。

  • microsoft/semantic-kernel 快速轻松地将尖端的LLM技术集成到您的应用程序中。将OpenAI,Azure OpenAI和Hugging Face等大型语言模型(LLM)与C#,Python和Java等传统编程语言集成在一起。语义内核通过允许您定义可以在几行代码中链接在一起的插件来实现这一点。

  • gencay/vscode-chatgpt 一个非官方的Visual Studio Code - OpenAI ChatGPT集成,在编程集成环境中使用GPT-4、3.5、3 或 Codex 模型加速编程开发。

  • shobrook/stackexplain 用 ChatGPT 解释您编程中的错误消息

  • eth-sri/lmql 一种用于类型化、约束引导和高效 LLM 编程的语言。一种基于Python超集的大型语言模型(LLM)的编程语言。LMQL 提供了一种将传统编程与在代码中调用 LLM 的能力交织在一起的新方法。它超越了传统的模板语言,在程序代码级别原生集成LLM交互。

  • ricklamers/gpt-code-ui OpenAI的ChatGPT代码解释器(生成代码、运行代码)的开源实现。

  • leetcode-mafia/cheetah Mac 应用程序,用于粉碎 AI 的远程技术面试。由 AI 驱动的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间为用户提供帮助。

  • continuedev/continue 软件开发的开源自动驾驶仪——将 ChatGPT 的强大功能引入 VS Code

  • TheR1D/shell_gpt 由 GPT-3 和 GPT-4 提供支持的命令行生产力工具将帮助您更快、更高效地完成任务。作为开发人员,我们可以利用 AI 功能来生成 shell 命令、代码片段、注释和文档等。忘记备忘单和笔记,使用此工具,您可以在终端中获得准确的答案,您可能会发现自己减少了日常Google搜索,从而节省了宝贵的时间和精力。

  • paul-gauthier/aider 命令行工具,可让您将程序与 GPT-3.5/GPT-4 配对,以编辑存储在本地 git 存储库中的代码。可以启动新项目或使用现有存储库。您可以在帮助者聊天(要求 GPT 编辑代码)和您自己的编辑器自己进行更改之间流畅地来回切换。

  • di-sukharev/opencommit 1秒内用AI自动生成令人印象深刻的git commit提交

  • zurawiki/gptcommit 一个 git prepare-commit-msg 钩子,用于使用 GPT-3 创作提交消息。使用此工具,您可以轻松生成清晰、全面和描述性的提交消息,让您专注于编写代码。

  • intitni/CopilotForXcode 一个 Xcode 源代码编辑器扩展,为 Xcode 提供 GitHub Copilot、Codeium 和 ChatGPT 支持。

  • mpociot/chatgpt-vscode 允许您使用 ChatGPT 的 VSCode 扩展

  • sahil280114/codealpaca 在代码生成指令上训练的 Instruction-following LLaMA Model。包括用于微调模型的 20K 数据。

  • ddzipp/AutoAudit 专门针对网络安全领域的大语言模型,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。采用了数据集组织方法Self-Instruct,该方法结合了人工标注和自我生成的数据。数据集主要来自于Github、Kaggle、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据。数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分,我们规定在output输出中应当包含对具体内容的分析(analysis),安全评级(label),安全风险(risk),以及对应的解决方案(solution)。

  • shroominic/codeinterpreter-api ChatGPT 代码解释器的 LangChain 实现。使用 CodeBox 作为沙盒 python 代码执行的后端。CodeBox是LLM应用程序的最简单的云基础架构。您可以使用自己的OpenAI API密钥在本地运行除LLM之外的所有内容。

  • gofireflyio/aiac 命令行工具,用于通过 OpenAI 的 API 生成 IaC(基础设施即代码)模板、配置、实用程序、查询等。CLI 允许您要求模型为不同的场景生成模板。它将发出请求,并将结果代码存储到文件中,或者只是将其打印到标准输出。

  • anc95/ChatGPT-CodeReview 由 ChatGPT 提供支持的代码审查机器人

  • sqlchat/sqlchat 基于聊天的 SQL 客户端和编辑器。基于聊天的 SQL 客户端,它使用自然语言与数据库通信,实现数据库的查询、修改、添加、删除等操作。

  • CodedotAl/gpt-code-clippy GitHub Copilot的开源版本,这是一种基于GPT-3的语言模型,称为GPT-Codex,根据GitHub公开可用的代码进行微调。

  • kuafuai/DevOpsGPT 用于 AI 驱动软件开发的多智能体系统。将LLM与DevOps工具相结合,将自然语言需求转换为工作软件。支持任何开发语言并扩展现有代码。

  • OpenBMB/ChatDev 使用自然语言创意创建定制软件(通过LLM驱动的多代理协作)

  • pleisto/flappy 适用于每个开发人员的生产就绪型 LLM 代理 SDK

  • TabbyML/tabby 自托管的AI编码助手,提供GitHub Copilot的开源和本地替代方案。

  • WisdomShell/codeshell PKU-KCL开发的一系列代码大型语言模型。北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。

健康医学大模型及语料库

  • FreedomIntelligence/HuatuoGPT 华佗GPT,迈向驯服语言模型成为医生。在庞大的**医学语料库上训练的大型语言模型(LLM)。我们与华拓GPT的目标是为医疗咨询场景构建更专业的“ChatGPT”。demo
  • SCIR-HI/Huatuo-Llama-Med-Chinese 本草(原名:华驼)模型仓库,基于中文医学知识的大语言模型指令微调

  • FreedomIntelligence/HuatuoGPT-sft-data-v1 华驼大语言模型的微调数据集

  • shibing624/medical 医疗数据集,可用于医疗领域大模型训练。共36万条,来自医疗百科数据。共8475条,来自医疗教材的文本数据。共195万条,来自1)中文医疗对话数据集 2)在线医疗百科 3)医疗知识图谱

  • michael-wzhu/PromptCBLUE 面向医学领域多任务少样本学习的中文大规模指令调优数据集

  • UCSD-AI4H/Medical-Dialogue-System 包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。数据的所有版权均属于 haodf.com。

  • lemuria-wchen/imcs21 IMCS-21 的新语料库基准,用于自动医疗咨询系统

  • 中文医疗信息处理评测基准CBLUE_数据集-阿里云天池 **中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云、腾讯天衍、平安医疗、阿里夸克、北京、郑州、鹏城实验室、哈工大(深圳)、同济、中山、复旦、华东师范等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。

  • shibing624/MedicalGPT 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。

  • SupritYoung/Zhongjing 基于LLaMa的**医学ChatGPT,基于大规模训练前语料库和多回合对话数据集的训练。

  • PharMolix/OpenBioMed PharMolix和AI产业研究院(AIR)联合发布的首个商业友好型多模式生物医学基础模型。它将生命语言(分子结构和蛋白质序列)与人类自然语言保持一致,在生物医学QA基准上的表现与人类专家不相上下,并在跨模态分子和蛋白质问答任务中表现出强大的性能。DrugFM是由AIR和北京人工智能研究院(BAAI)联合开发的多模态分子基础模型。它利用UniMAP,一种预先训练的分子模型,可以捕获分子的细粒度属性和表示,并结合了我们的多模态分子基础模型MolFM。DrugFM在跨模态检索上实现了SOTA。

  • datasets/medical_dialog MedDialog数据集(中文)包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。MedDialog数据集(英语)包含医生和患者之间的对话(英语)。它有26万次对话。数据在不断增长,并将添加更多对话。原始对话来自 healthcaremagic.com 和 icliniq.com。

  • FreedomIntelligence/huatuo_encyclopedia_qa 该数据集共有 364,420 条医学 QA 数据,其中一些以不同的方式存在多个问题。我们从纯文本(例如,医学百科全书和医学文章)中提取医学QA对。我们在中文维基百科上收集了8,699个疾病百科词条和2,736个药物百科词条。此外,我们还从前文健康网站上抓取了226,432篇高质量的医学文章。

  • BillGPT/Chinese-medical-dialogue-data 中文医疗对话数据

  • FreedomIntelligence/CMB 全方位多层次测评模型医疗知识;测评复杂临床问诊能力;中药科考试;临床项目

  • WangRongsheng/XrayGLM 首个会看胸部X光片的中文多模态医学大模型

  • WangRongsheng/CareLlama 医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

  • michael-wzhu/ChatMed 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题

  • X-jun-0130/LLM-Pretrain-FineTune 医疗大模型、预训练、微调

  • michael-wzhu/ShenNong-TCM-LLM “神农”大模型,首个中医药中文大模型.

  • michaelwzhu/ShenNong_TCM_Dataset 中医药指令数据集

  • michaelwzhu/ChatMed_Consult_Dataset 来自于互联网上的医疗问诊问题(11W),反映了真实世界的不同用户/患者的医疗问诊需求。目前response都是由OpenAI GPT-3.5引擎回答的。后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。

  • CMKRG/QiZhenGPT 利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。

  • scutcyr/BianQue 中文医疗对话模型扁鹊(BianQue)。实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为 询问链(CoQ, Chain of Questioning) ,当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。基于扁鹊健康大数据BianQueCorpus,我们选择了 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue2.0。扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。BianQue

  • thomas-yanxin/Sunsimiao 孙思邈中文医疗大模型 :提供安全、可靠、普惠的中文医疗大模型

  • scutcyr/SoulChat 中文领域心理健康对话大模型

  • kbressem/medAlpaca 用于医学问答的微调大型语言模型,包括相关数据。

  • llSourcell/DoctorGPT 一种通过了美国医疗执照考试的大型语言模型。使命是为每个人提供自己的私人医生。基于 Meta 的 Llama2 70 亿参数语言模型,该模型在医学对话数据集上进行微调,然后使用强化学习和进一步改进。由于该模型的大小仅为 3 GB,因此它适用于任何本地设备,因此无需 API 即可使用它。免费的,供离线使用,可以保护患者的机密性,并且可以在iOS,Android和Web上使用。

  • itsharex/CareLlama 一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

  • FudanDISC/DISC-MedLLM 利用大型语言模型在端到端对话式医疗保健服务中提供准确和真实的医疗响应。它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询等,为您提供高质量的健康支持服务。构建了一个高质量的数据集Flmc/DISC-Med-SFT,包含超过47万个衍生于现有的医疗数据集重新构建得到的样本。采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。

  • HIT-SCIR-SC/QiaoBan 中文儿童情感陪伴大模型“巧板”。基于通用大模型,使用了通用域人机对话数据、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,训练得到,是通用大语言模型迁移至儿童情感陪伴领域的一次成功实践。三大特点:首先,基于情绪辅导理论构建的儿童情感陪伴对话数据,能够更有效地守护孩子的心理健康。其次,具有儿童心理学背景的志愿者与专家参与完成高质量对话数据的收集。使得能够更加准确地理解和回应儿童的需求,真正与他们建立深入的情感连接。最后,模型与儿童的交互方式更加贴心,让他们能够感受到温暖和认同,成为他们坚实成长道路上的得力伙伴。

  • qiuhuachuan/smile 开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。

  • camel-ai/camel 骆驼:大规模语言模型社会“心灵”探索的交际代理。一种名为角色扮演的新型交流代理框架。我们的方法涉及使用开始提示来指导聊天代理完成任务,同时保持与人类意图的一致性。我们展示了如何使用角色扮演来生成对话数据,以研究聊天代理的行为和功能,为研究对话语言模型提供宝贵的资源。我们的贡献包括引入一种新的通信代理框架,为研究多智能体系统的协作行为和能力提供可扩展的方法,以及开源我们的库以支持通信代理及其他方面的研究。演示,展示了两个 ChatGPT 代理之间的对话,扮演 python 程序员和股票交易员的角色,合作开发股票市场的交易机器人。

  • pariskang/CMLM-ZhongJing 首个中医大语言模型——"仲景"。受古代中医学巨匠张仲景深邃智慧启迪,专为传统中医领域打造的预训练大语言模型。有史以来第一个中医大语种模型——“CMLM-中京”。受**古代医学大师张仲景深邃智慧的启发,是专为中医领域设计的预训练大语言模型。

  • Zlasejd/HuangDI 在 Ziya-LLaMA-13B-V1的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的语言模型(pre-trained ),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。以《中华医典》数据库为语料来源,约338MB,由两部分组成:①非结构化的“古籍文本”:涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”:包含“名医”、“名言”、“名词”、“名著”等六大类,由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理,是中医古籍内容精华最为直接的集中体现。

  • 2020MEAI/TCMLLM 通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。构建的指令微调数据集包含8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》(即“内外妇儿”,Internal medicine,Surgery, Gynecology,Pediatrics,简称ISGP)、2020版**药典(Chinese pharmacopeia,简称CHP)、中医临床经典医案数据(Chinese Medicine Clinical Cases,简称CMCC)、以及多个三甲医院的肺病(Lung)、中风病(Stroke)、糖尿病(Diabetes)、肝病(Liver)、脾胃病(Splenic and stomach diseases)等多病种的临床病历。共68k条,token总数约为10M。

  • Kent0n-Li/ChatDoctor 使用医学领域知识在大型语言模型(LLaMA)上进行微调的医学聊天模型。数据集:来自 HealthCareMagic.com 100k的患者和医生之间的真实对话。 来自 ICLiniq-10K 的患者医生之间的 10k 真实对话。 5k从ChatGPT GenMedGPT-5k疾病数据库 生成了患者和医生之间的对话

  • chaoyi-wu/PMC-LLaMA 迈向构建医学开源语言模型”的官方代码。

  • X-D-Lab/MindChat 从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平. 作为一个心理大模型, MindChat通过营造轻松、开放的交谈环境, 以放松身心、交流感受或分享经验的方式, 与用户建立信任和理解的关系

  • FreedomIntelligence/huatuo_knowledge_graph_qa 华佗医疗知识图谱问答数据集

  • hejunqing/webMedQA 从在线健康咨询网站收集的真实**医学问答数据集。

  • pubmedqa/pubmedqa 生物医学研究问答数据集

  • WENGSYX/CMCQA **医学领域庞大的对话问答数据集。收集自**医学会话问答网站春雨,拥有男科、风暴科、妇产科等45个科室的医学对话资料。具体来说,CMCQA 有 130 万个完整的会话或 1983 万个语句或 6.5 亿个词元。同时,我们进一步开源所有数据,推动医疗领域会话问答相关领域的发展。

  • wangrongsheng/HealthCareMagic-100k-en 从在线医疗咨询网站HealthCareMagic收集了约10万例真实的医生-患者对话。通过手动和自动方式过滤这些数据,删除医生和患者的身份信息,并使用语言工具纠正语法错误。

  • wangrongsheng/icliniq-10k-en icliniq.com的1万例实际患者与医生之间对话

  • FreedomIntelligence/Huatuo-26M 规模最大的**医学质量保证数据集:包含 2600万个问答对。

  • liyucheng/zhihu_rlhf_3k 知乎3000个用于RLHF(Reinforcement Learning from Human Feedback 基于人类反馈的强化学习)的数据

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • SCIR-HI/Med-ChatGLM 基于中文医学知识的ChatGLM指令微调

  • xionghonglin/DoctorGLM 基于ChatGLM-6B的中文问诊模型

  • WangRongsheng/MedQA-ChatGLM 基于真实医疗对话数据在ChatGLM上进行LoRA、P-Tuning V2、Freeze、RLHF等微调

  • Toyhom/Chinese-medical-dialogue-data 中文医疗对话数据集:Andriatria_男科 94596个问答对 IM_内科 220606个问答对 OAGD_妇产科 183751个问答对 Oncology_肿瘤科 75553个问答对 Pediatric_儿科 101602个问答对 Surgical_外科115991个问答对 总计 792099个问答对

  • WangRongsheng/IvyGPT 最贴近真实医生问诊效果的医疗大语言模型

  • 189569400/MedicalGPT-zh 基于医疗指令微调的中文医疗问诊模型

  • DUTIR-BioNLP/Taiyi-LLM 太一:一种双语(中英文)微调的大语言模型,适用于各种生物医学任务

  • bigscience-workshop/biomedica 用于管理用于大规模语言建模的生物医学训练数据的工具,大规模轻量级、程序化访问生物医学数据集,提高数据处理的可重复性,126+ 生物医学数据集、10+ 种语言、12 个任务类别、按任务类型协调的数据集架构、有关许可、粗粒度/细粒度任务类型、域等的元数据

  • GitHub - openmedlab/PULSE: PULSE: Pretrained and Unified Language Service Engine 中文医疗大语言模型,使用约400万个中文医学领域和通用领域的指令微调数据进行进一步调优。PULSE支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。

  • GitHub - openmedlab/XrayPULSE 基于 PULSE。我们利用MedCLIP作为我们的医疗视觉编码器,并利用Q-former(BLIP2)作为适配器,通过简单的线性变换将图像注入PULSE。为了通过适配器对齐冷冻视觉编码器和LLM,我们借助chatGPT从两个数据集(MIMIC-CXR和OpenI)的自由文本放射学报告中生成中文版Xray-Report配对数据。为了促进生物医学多模态学习的研究,我们将向公众发布数据。

法律大模型及语料库

  • PKU-YuanGroup/ChatLaw 中文法律大模型。目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

  • AndrewZhe/lawyer-llama 中文法律LLaMA,在大规模法律语料上进行了continual pretraining,让它系统的学习**的法律知识体系。 在此基础上,我们借助ChatGPT收集了一批对**国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

  • CSHaitao/LexiLaw 经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。

  • LiuHC0428/LAW-GPT 中文法律对话语言模型,由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。

  • siat-nlp/HanFei 国内首个全参数训练的法律大模型 HanFei-1.0 韩非

  • davidpig/lychee_law 律知, 法律咨询大模型,Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.

  • coastalcph/lex-glue 英语法律语言理解的基准数据集

  • JoelNiklaus/LEXTREME 涵盖24种语言的11个数据集的法律基准测试。

  • zhihaiLLM/wisdomInterrogatory 由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型。核心**:以“普法共享和司法效能提升”为目标,从推动法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持,形成数字化和智能化的司法基座能力。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • seudl/JurisLMs 根据不同的场景在法律法规、法律咨询、裁判文书等多种不同的语料上进一步预训练了多个模型。其中,AI Judge是由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到的一个可解释法律判决预测模型。基于中文LLaMA的智能法律咨询模型,AI Lawyer。由于缺乏标注法条的咨询语料,我们采用主动学习(Active Learning)在少量数据上进行微调获得一个法律适用模型,使得AI Lawyer可以根据用户咨询适用正确的法律法规回答问题。

  • lvwzhen/law-cn-ai AI 法律助手,使用 pgvector 存储嵌入向量,使用OpenAI GPT 回答用户。

  • LawRefBook/Laws 本项目收集各类法律法规、部门规章、案例等,并将其按照章节等信息进行了处理。

  • FudanDISC/DISC-LawLLM 利用大型语言模型(LLM)提供广泛法律服务的智能法律系统。DISC-Law-SFT 数据集

其他大模型

  • gmftbyGMFTBY/science-llm 科学领域的大规模语言模型,在redpajama arXiv上训练

  • IMOSR/MediaGPT 中文的自媒体大语言模型MediaGPT(曾用名Media LLaMA)

  • ymcui/Chinese-LLaMA-Alpaca-2 中文 LLaMA-2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)

  • FlagAlpha/Llama2-Chinese Llama中文社区,最好的中文Llama大模型,完全开源可商用

  • CVI-SZU/Linly 提供中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。

  • OpenBMB/CPM-Bee 一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

  • OpenBMB/VisCPM 基于CPM基础模型的中英双语多模态大模型系列。支持面向图像进行中英双语多模态对话。该模型使用Muffin视觉编码架构,使用CPM-Bee(10B)作为语言基座模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段:1.预训练:我们使用约100M高质量英文图文对数据对VisCPM-Chat进行了预训练,数据包括CC3M、CC12M、COCO、Visual Genome、Laion等。在预训练阶段,语言模型参数保持固定,仅更新视觉编码器的参数,以支持大规模视觉-语言表示的高效对齐。2.指令精调:采用LLaVA-150K英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,更新全部模型参数,以提升指令精调数据的利用效率。有趣的是,发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。表明模型的多语言多模态能力已得到良好泛化。在指令精调阶段进一步加入少量中文翻译数据,可以将模型回复语言和用户问题语言对齐。

  • zjunlp/KnowLM 一个开源的知识渊博的大型语言模型框架。以知识和大模型为中心,利用构建的中英文预训练语料库,对LLaMA等大型模型进行全面预训练。基于KG2Instructions的技术,优化了包括NER、RE和IE在内的知识提取任务,可以使用人工指令完成。

  • zjunlp/KnowLM-IE · Datasets at Hugging Face 基于知识图谱构建的,提取实体关系三元组的指令数据集

  • ictnlp/BayLing “百聆”是基于LLaMA的对齐增强的英语/中文大语言模型,具有优越的中英文能力,在多语言和通用任务等测试中取得ChatGPT 90%的性能。

  • AtomEcho/AtomGPT 基于LLaMA的模型架构,从0开始训练,希望能在训练的过程中,将模型能力得到提升的进化过程展示出来,感受到模型学习的过程。

  • FMInference/FlexGen 单个 GPU 上运行大型语言模型,以实现面向吞吐量的方案。

  • bigscience-workshop/petals 在家运行LLM,BitTorrent风格。微调和推理速度比卸载快10 倍。Petals协作运行像Llama和BLOOM这样的大型语言模型 - 你加载模型的一小部分,然后加入为其他部分提供服务的人来运行推理或微调。

  • Anthropic/hh-rlhf Human preference data about helpfulness and harmlessness,有用性和无害性的人类偏好数据,关于有用和无害的人类偏好数据,来自从人类反馈中强化学习训练有用和无害的助手。这些数据旨在为后续的RLHF训练训练偏好(或奖励)模型。这些数据不适用于对话代理的监督训练。就这些数据对对话代理进行培训可能会导致有害的模型,应避免这种情况。来自红队语言模型的人工生成和注释的红队对话,以减少危害:方法、缩放行为和经验教训。这些数据旨在了解众包工人红队模型以及哪些类型的红队攻击成功与否。这些数据不用于微调或偏好建模(使用上面的数据进行偏好建模)。这些数据是从上述无害偏好建模数据派生的对话的完整记录,其中只有选择的响应被合并到整个脚本中。此外,成绩单还带有人工和自动测量的注释,以衡量整体对话的危害程度。

  • RUC-GSAI/YuLan-Chat 基于聊天的大型语言模型,由**人民大学GSAI的研究人员开发(YuLan,代表玉兰,是**人民大学的校园花)。最新版本是通过不断预训练和指令调整LLaMA-2开发的,具有高质量的中英文数据。

  • Yu-Yang-Li/StarGLM 整合了司天工程相关的语料数据与知识库资料,训练得到了天文大模型。司天工程是时域天文学所提出的“十五五”天文重大基础设施,一期计划在国内多个优选观测台址布置54台(18组)口径1米级的大视场望远镜,组成多波段同时监测网络,每30分钟完成1万平方度天区的高精度三色“凝视”巡天。司天的采样频率比全球其它巡天项目高近两个量级,将突破目前探测时标的限制,在新的空域和时域下发现大批新天体、新现象,在宇宙极端高能爆发源、引力波电磁对应体、系外行星和太阳系天体等理论和观测研究中形成新的突破,在“两暗一黑三起源”等重大科学问题研究以及地球文明灾难预警等国家空间安全问题方面发挥重要作用。

  • cocktailpeanut/dalai 在本地计算机上运行LLaMA语言模型的最简单方法

  • Neutralzz/BiLLa 开源的推理能力增强的中英双语LLaMA模型。

  • DUOMO/TransGPT 国内首款开源交通大模型,主要致力于在真实交通行业中发挥实际价值。能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。

  • Duxiaoman-DI/XuanYuan 轩辕:首个千亿级中文金融对话模型。在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。

  • chancefocus/PIXIU 貔貅。第一个开源金融大型语言模型 (LLM)、指令调整数据和评估基准,用于全面评估金融 LLM。我们的目标是不断推动金融人工智能(AI)的开源发展。几个关键组件:FLARE:我们的金融语言理解和预测评估基准。FLARE作为金融LLM的评估套件,重点是理解和预测各种金融环境中的任务。FIT:我们的财务指令数据集。FIT是专门为财务任务量身定制的多任务和多模态指令数据集。它是为这些任务微调LLM的培训基地。FinMA:我们的金融大语言模型(LLM)。FinMA是我们项目的核心,为我们的财务任务提供学习和预测能力。主要特点:开放资源:PIXIU公开提供财务LLM,指令调整数据和评估基准中包含的数据集,以鼓励开放研究和透明度。多任务:PIXIU中的指令调优数据和基准测试涵盖了多种财务任务,包括4个财务NLP任务和1个财务预测任务。多模态:PIXIU的指令调优数据和基准由多模态财务数据组成,包括来自股票运动预测任务的时间序列数据。它涵盖了各种类型的金融文本,包括报告、新闻文章、推文和监管文件。多样性:与以前主要关注财务NLP任务的基准不同,PIXIU的评估基准包括与现实世界场景相一致的关键财务预测任务,使其更具挑战性。以及FLARE 2.0:金融语言理解和预测评估基准。

  • MetaGLM/FinGLM 致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。旨在深度解析上市公司年报的对话交互智能系统。面对金融文本中的专业术语与暗含信息,我们致力于用AI实现专家级别的金融分析。上市公司年报为投资者呈现了公司的经营状况、财务状况和未来规划。专业知识是解读的关键,而我们的目标是通过AI技术让这一过程变得更简单、更准确。

  • SUFE-AIFLM-Lab/FinEval 包含金融、经济、会计和证书等领域高质量多项选择题的集合。

  • SALT-NLP/FLANG 金融领域的基准测试和大型预训练语言模型

  • blcuicall/taoli 适用于国际中文教育领域的大模型 “桃李”(Taoli)1.0 ,在国际中文教育领域数据上进行了额外训练的模型。基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。 设置了多种形式的指令来充分利用知识,构造了共计 88k 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。

  • icalk-nlp/EduChat 开源中英教育对话大模型。(通用基座模型,GPU部署,数据清理)

  • yongzhuo/chatglm-maths chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu

  • MineDojo/Voyager 航海家:具有大型语言模型的开放式具身代理。是 Minecraft 中第一个由 LLM 驱动的体现的终身学习代理,它不断探索世界,获得各种技能,并在没有人为干预下做出新的发现。由三个组件组成:1)最大化探索的自动课程,2)不断增长的可执行代码技能库,用于存储和检索复杂行为,以及3)新的迭代提示机制,其中包含环境反馈,执行错误和自我验证以改进程序。Voyager通过黑盒查询与GPT-4交互,这绕过了模型参数微调。从经验上讲,Voyager表现出强大的上下文终身学习能力,并在玩Minecraft方面表现出非凡的熟练程度。它获得的独特物品增加了 3.3×,旅行距离延长了 2.3×,解锁关键科技树里程碑的速度比之前的 SOTA 快了 15.3×。Voyager能够利用在新的Minecraft中学到的技能库从头开始解决新任务,而其他技术则难以概括。

  • DAMO-NLP-SG/Video-LLaMA 为大型语言模型提供视频和音频理解功能。Video-LLaMA建立在BLIP-2和MiniGPT-4之上。它由两个核心组件组成:(1)视觉语言(VL)分支和(2)音频语言(AL)分支。VL 分支(可视编码器:ViT-G/14 + BLIP-2 Q 前置器),引入两层视频Q-Forform和帧嵌入层(应用于每帧的嵌入)来计算视频表示。使用视频到文本生成任务在 Webvid-2M 视频字幕数据集上训练 VL Branch。我们还将图像文本对(来自LLaVA的~595K图像标题)添加到预训练数据集中,以增强对静态视觉概念的理解。在预训练之后,我们使用来自MiniGPT-4,LLaVA和VideoChat的指令调整数据进一步微调我们的VL Branch。AL 分支(音频编码器:ImageBind-Huge): 引入两层音频Q-Forform和音频段嵌入层(应用于每个音频段的嵌入)来计算音频表示。由于使用的音频编码器(即 ImageBind)已经跨多个模态对齐,因此我们仅根据视频/图像指令数据训练 AL Branch,只是为了将 ImageBind 的输出连接到语言解码器。在跨模态训练期间,只有视频/音频、位置嵌入层和线性层可训练。

  • Timothyxxx/Chain-of-ThoughtsPapers 思维链的相关论文。大型语言模型中的思维链促使了推理能力的产生。

  • kyegomez/tree-of-thoughts 即插即用 **之树的实现:使用大型语言模型进行深思熟虑的问题解决,将模型推理提升至少 70%

  • promptslab/Awesome-Prompt-Engineering 包含用于提示工程的手工策划资源,重点是生成式预训练变压器 (GPT)、ChatGPT、PaLM 等

  • GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese 《面向开发者的 ChatGPT 提示词工程》非官方版中英双语字幕

  • timqian/openprompt.co OpenPrompt.co 上加星标最多的提示列表。该列表每 24 小时更新一次。

  • thinkingjimmy/Learning-Prompt 免费的快速提示工程在线课程。ChatGPT 和 Midjourney 教程现在包括在内!

  • trigaten/Learn_Prompting 关于快速提示工程的免费开源指南。

  • prompt-engineering/prompt-patterns Prompt 编写模式:如何将思维框架赋予机器,以设计模式的形式来思考 prompt

  • L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN 如何将ChatGPT调教成一只猫娘。

  • prompt-engineering/click-prompt 简化您的提示设计,使用 ClickPrompt,您只需单击一下即可轻松查看、共享和运行这些提示。ClickPrompt 用于一键轻松查看、分享和执行您的 Prompt。

  • mattnigh/ChatGPT3-Free-Prompt-List 学习创建 ChatGPT3 提示的免费指南

  • yzfly/LangGPT 让每个人都能成为及时的专家! 结构化提示词,结构化提示词。

  • OpenMindClub/awesome-chatgpt 关于ChatGPT的一切,精选的应用程序和工具列表。

  • EgoAlpha/prompt-in-context-learning 用于上下文学习和快速工程的出色资源:掌握 ChatGPT、GPT-3 和 FlanT5 等 LLM,并提供最新和前沿的更新。

  • hegelai/prompttools 用于快速测试和实验的开源工具,支持LLM(例如OpenAI,LLaMA)和矢量数据库(例如Chroma,Weaviate,LanceDB)。

  • uptrain-ai/uptrain 一个Python框架,通过允许用户检查正确性,结构完整性,偏见,幻觉等方面来确保您的LLM应用程序可靠地运行。

  • ypwhs/CreativeChatGLM 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!

  • KevinWang676/ChatGLM2-Voice-Cloning 和喜欢的角色沉浸式对话吧:ChatGLM2 + 声音克隆+视频对话

  • melih-unsal/DemoGPT 只需使用句子即可创建 LangChain 应用程序。具有基础模型功能的自动 Gen-AI 应用程序生成器。

  • soulteary/docker-llama2-chat 一起玩LLaMA2 (官方 / 中文版 / INT4 / 骆驼2.cpp) 一起玩!只需3个步骤!( 非 GPU / 5GB vRAM / 8~14GB vRAM)

  • X-PLUG/mPLUG-Owl 模块化赋能多模态大型语言模型,一种针对大型多模态语言模型的模块化设计的新训练范式。学习视觉知识,同时支持由不同形式(图像/视频/文本)组成的多回合对话。观察能力,如多图像关联和场景文本理解,基于视觉的文档理解。发布与视觉相关的指令评估集 OwlEval。

  • homanp/superagent 超级代理 - 构建、部署和管理 LLM 支持的代理。一个强大的工具,可简化 LLM(大型语言模型)代理到生产的配置和部署。它提供了一系列特性和功能,使开发人员能够更轻松地构建、管理和将 AI 代理部署到生产环境,包括通过矢量数据库、强大的工具、Webhook、cron 作业等构建内存和文档检索等功能。

  • airaria/Visual-Chinese-LLaMA-Alpaca 基于中文LLaMA&Alpaca模型开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力。

  • LinkSoul-AI/LLaSM 第一个支持中英文语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

  • DAMO-NLP-MT/PolyLM 多语言大型语言模型,旨在解决当前LLM研究中的以下空白和局限性,为推进这一领域提供全面和创新的解决方案。涵盖 18 种最常用的语言。PolyLM精通全球主要的非英语语言,如西班牙语,俄语,阿拉伯语,日语,韩语,泰语,印度尼西亚语和中文等。它是对现有开源模型的完美补充,包括:(1)LLaMA,其中英语在整个数据集中占主导地位。(2)BLOOM,未能解决大量人口使用的语言,如日语,韩语和泰语。更好的多语言教学跟踪能力。我们建议MULTIALPACA来补充ALPACA和CHINESEALPACA,使LLM更好地遵循多语言说明,特别是那些来自非英语母语人士的指示。强劲的性能。与具有相似模型大小的流行多语言LLM相比,PolyLM在各种任务(包括QA,理解和生成)上表现出卓越的性能。

  • lyogavin/Anima 第一个开源的基于QLoRA的33B中文大语言模型。基于QLoRA开源的33B guanaco训练了10000 steps。训练使用一个H100 GPU。

  • Alibaba-NLP/EcomGPT 一种面向电子商务的指令调优大语言模型。共有250万条指令数据。使用电子商务基本数据类型(如产品信息,用户评论)构建原子任务来扩展数据大小和任务多样性。原子任务被定义为隐含参与解决最终任务的中间任务,我们也称之为任务链任务。

  • davendw49/k2 一种开源语言模型,首先在收集和清理的地球科学文献(包括地球科学开放获取论文和维基百科页面)上进一步预训练LLaMA,其次使用知识密集型指令调整数据(GeoSignal)进行微调。至于初步评估,我们使用GeoBench(由NPEE和AP地质,地理和环境科学测试组成)作为基准。与具有相似参数的几个基线模型相比,K2 在客观和主观任务上的表现优于基线。

  • neukg/TechGPT “东北大学知识图谱研究组”发布的垂直领域大语言模型。强化了如下任务:以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务。以“阅读理解”为核心的各类智能问答任务。以“文本理解”为核心的关键词生成等各类生成任务。

  • microsoft/i-Code 构建集成和可组合的多模态人工智能。“i”代表综合多模态学习。

  • arc53/DocsGPT GPT 支持的文档聊天,与您的文档聊天

  • guangzhengli/ChatFiles 文档聊天机器人 — 多个文件。由 GPT / 嵌入提供支持。

  • whitead/paper-qa 从PDF或文本文件(可以是原始HTML)进行问答。它努力通过文本引用来提供非常好的答案,没有幻觉。使用OpenAI嵌入和称为FAISS的矢量数据库来嵌入和搜索文档。

  • huggingface/text-generation-inference 用于文本生成推理的 Rust、Py 和 gRPC 服务器。在HuggingFace的生产中使用,以支持Hugging Chat,推理API和推理端点。

  • mylxsw/aidea 一款支持 GPT 以及国产大语言模型通义千问、文心一言等,支持 Stable Diffusion 文生图、图生图、 SDXL1.0、超分辨率、图片上色的全能型 APP。

  • jmorganca/ollama 在本地启动并运行 Llama 2 和其他大型语言模型

  • serge-chat/sergellama.cpp运行Alpaca羊驼模型。没有API密钥,完全自托管

  • zetavg/LLaMA-LoRA-Tuner 用于微调和测试您自己的 LoRA 模型的 UI 工具基于 LLaMA, GPT-J 等.一键运行在谷歌Colab上。+ 一个类似 Gradio ChatGPT 的聊天用户界面,用于演示您的语言模型。

  • vercel-labs/ai-chatbot 使用 Next.js、Vercel AI SDK、OpenAI 和 Vercel KV 构建的开源 AI 聊天机器人应用程序模板。

  • RockChinQ/QChatGPT 高稳定性、支持插件、实时联网的 ChatGPT QQ 机器人 | 支持 Claude、Google Bard、gpt4free、One API 的 QQ 机器人平台

  • zhayujie/bot-on-anything 将 ChatGPT、必应、文心一言、谷歌Bard 等对话模型连接各类应用,如微信、公众号、QQ、Telegram、Gmail、Slack、Web、企业微信、飞书、钉钉等。

  • askrella/whatsapp-chatgpt WhatsApp机器人使用OpenAI的GPT和DALL-E 2来响应用户输入。

  • AutumnWhj/ChatGPT-wechat-bot 几步即可获得一个基于 ChatGPT 的微信机器人

  • wangrongding/wechat-bot 基于OpenAi ChatGPT + WeChaty 实现的微信机器人 ,可以用来帮助你自动回复微信消息,或者管理微信群/好友,检测僵尸粉等...

  • OpenGVLab/InternGPT 开源演示平台,您可以在其中轻松展示您的 AI 模型。现在它支持DragGAN,ChatGPT,ImageBind,多模态聊天,如GPT-4,SAM,交互式图像编辑等

  • TBXark/ChatGPT-Telegram-Workers 在Cloudflare Workers上轻松部署您自己的Telegram ChatGPT机器人。

  • leon-ai/leon 您的开源个人助理。Leon的NLU将首先使用自己的模型,而不依赖LLM。重要的是,Leon可以100%离线运行,我相信,通过量化等缩小技术,Leon迟早会以LLM为核心,并且仍然能够在边缘运行。

  • minimaxir/simpleaichat Python 包可轻松与聊天应用程序接口,具有强大的功能和最小的代码复杂性。可轻松与ChatGPT和GPT-4等聊天应用程序接口,具有强大的功能和最小的代码复杂性。

  • josStorer/RWKV-Runner RWKV管理和启动工具,完全自动化,只有8MB。并提供与OpenAI API兼容的接口。RWKV 是一种完全开源的大型语言模型,可用于商业用途。

  • hahahumble/speechgpt 一个Web应用程序,使您能够与ChatGPT交谈。

  • jackMort/ChatGPT.nvim Neovim插件:使用ChatGPT API轻松生成自然语言

  • 869413421/chatgpt-web 基于ChatGPT3.5 API实现的私有化web程序

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • ourongxing/chatgpt-vercel 优雅而有力的网页ChatGPT界面。由OpenAI和Vercel提供支持。

  • PlexPt/chatgpt-java ChatGPT Java SDK。支持 GPT3.5、 GPT4 API。开箱即用。

  • Chainlit/chainlit 在几分钟内构建Python LLM应用程序

  • gd3kr/BlenderGPT 使用英语命令通过OpenAI的GPT-4控制Blender。

  • varunshenoy/GraphGPT 使用 GPT-3 从非结构化文本推断知识图谱

  • zhaoyingjun/chatbot ChatGPT带火了聊天机器人,主流的趋势都调整到了GPT类模式,本项目也与时俱进,会在近期更新GPT类版本。基于本项目和自己的语料可以训练出自己想要的聊天机器人,用于智能客服、在线问答、闲聊等场景。

  • Significant-Gravitas/Auto-GPT-Plugins 用于自动 GPT 的插件。插件分为两类:第一方和第三方。第一方插件是广泛使用的插件精选列表。它们在安装插件平台时默认安装。第三方插件需要单独添加。它们可能对您的特定需求有用。

  • chatanywhere/GPT_API_free Free ChatGPT API Key,免费ChatGPT API,支持GPT4 API(低价),ChatGPT国内可用免费转发API,直连无需代理。可以搭配ChatBox等软件/插件使用,极大降低接口使用成本。国内即可无限制畅快聊天。

  • PromtEngineer/localGPT 无缝集成各种开源大模型,在本地设备上与您的文档聊天。没有数据离开您的设备,100%私密。

  • shreyashankar/gpt3-sandbox 使用户能够使用新发布的OpenAI GPT-3 API创建很酷的Web演示,只需几行Python。

  • mayooear/gpt4-pdf-chatbot-langchain GPT4 和 LangChain 聊天机器人,适用于大型 PDF 文档

  • whoiskatrin/chart-gpt 基于文本输入GPT构建图表的AI工具

  • nomic-ai/gpt4all 在 CPU 上本地运行的开源助手样式大型语言模型

  • langchain-ai/chat-langchain 本地托管的聊天机器人的实现,专门针对 LangChain 文档的问答。使用 LangChain、FastAPI 和 Next.js 构建。该应用程序利用 LangChain 的流媒体支持和异步 API 为多个用户实时更新页面。

  • PrefectHQ/marvin 构建激发欢乐的 使用生成式 AIAI 界面。一个轻量级的 AI 工程框架,用于构建可靠、可扩展且易于信任的自然语言界面。

  • microsoft/autogen 支持使用多个代理开发LLM应用程序,这些代理可以相互交谈以解决任务。AutoGen 代理是可定制的、可对话的,并且无缝地允许人工参与。它们可以在各种模式下运行,这些模式采用LLM,人力输入和工具的组合。

  • assafelovic/gpt-researcher 基于 GPT 的自主代理,可对任何给定主题进行在线综合研究。可以生成详细、事实和公正的研究报告,并提供自定义选项,以专注于相关资源、大纲和课程。受最近的计划和求解和RAG(检索增强生成)论文的启发,GPT 研究员解决了速度、确定性和可靠性问题,通过并行代理工作提供更稳定的性能和更高的速度,而不是同步操作。

  • GAIR-NLP/abel 数学大语言模型,为了向尼尔斯·亨里克·阿贝尔(Niels Henrik Abel)在代数和分析方面的开创性工作致敬而创建的,我们的模型也相对较好。

  • ray-project/llm-numbers 每个LLM开发人员都应该知道的数字

  • THUDM/MathGLM GPT 可以在没有计算器的情况下解决数学问题

  • thunlp/WebCPM 中文长篇问答的交互式网络搜索的官方代码。使用中文预训练模型进行交互式Web搜索的项目。开发了一个网络搜索界面,它既收集人类又收集网络搜索行为。然后,使用多达 10B 的参数微调 PLM,以模仿人类的网络搜索行为,并根据收集到的事实生成答案。开源了 Web 搜索界面、数据集、实现和模型参数。

  • huggingface/transformers-bloom-inference BLOOM 的快速推理解决方案

  • OpenLemur/Lemur Lemur 是一种可公开访问的语言模型,针对自然语言和编码功能进行了优化,可作为多功能语言代理的骨干。随着语言模型不断从对话聊天机器人发展到可以在现实世界中采取行动的功能代理,它们既需要强大的语言理解能力,也需要执行操作的能力。狐猴平衡了自然语言和编码技能,使代理能够遵循指令、推理任务并采取脚踏实地的行动。

  • llm-attacks/llm-attacks 对对齐语言模型的普遍和可转移攻击

  • OpenNLPLab/TransnormerLLM 第一个基于线性注意力的LLM,在准确性和效率方面都优于传统的softmax基于注意力的模型。它是在具有多达 1.4 万亿个代币的高质量语料库上进行训练的。从以前的线性注意力架构TransNormer演变而来,进行了高级修改,包括LRPE位置嵌入,闪电注意力加速,新的门控和规范化机制。TransNormerLLM在多个公认的中文,英文和多语言通用和特定领域的基准测试中实现了其规模的竞争性能。此版本包括具有 385M、1B 和 7B 参数的基本版本。所有版本都完全开放给学术研究。开发者只需通过电子邮件申请并获得官方商业许可,即可免费使用商业用途。

  • VPGTrans/VPGTrans 跨LLM传输视觉提示生成器,实现极低成本训练一个高性能多模态大模型。从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。现有的常用的VL-LLM基本采取的架构:VPG(比如1.2B)->Projector(4M)->LLM(比如11B),在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调。(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。(2)第二阶段:直接正常训练VPG和projector。

  • CogStack/OpenGPT 用于创建基于基础指令的数据集和培训会话领域专家大型语言模型 (LLM) 的框架。使用 OpenGPT 训练的医疗保健对话模型。

  • huchenxucs/ChatDB 具有内存的大型语言模型 (LLM) 在计算上是通用的。然而,主流LLM并没有充分利用记忆,设计受到生物大脑的严重影响。由于其近似性质和容易累积错误,传统的神经记忆机制无法支持LLM模拟复杂的推理。在本文中,我们从现代计算机体系结构中寻求灵感,以使用符号记忆增强LLM,以进行复杂的多跳推理。这样的符号内存框架被实例化为LLM和一组SQL数据库,其中LLM生成SQL指令来操作SQL数据库。我们在需要复杂推理的合成数据集上验证了所提出的记忆框架的有效性。

  • intel-analytics/BigDL 用于在英特尔 XPU(从笔记本电脑到 GPU 再到云)上运行 LLM(大型语言模型),使用 INT4 以极低的延迟(适用于任何 PyTorch 模型)。

  • WangHuiNEU/llm 大模型社区每周都要发布近百个模型,本项目会及时整理相关模型和文章并期望成为中文社区的大模型研究人员的模型和技术备忘录,每天会及时更新最新的模型,并详细解读技术细节

  • Magnetic2014/llm-alignment-survey 用于大型语言模型 (LLM) 对齐的精选阅读列表。

  • zjunlp/EasyEdit 一个易于使用的LLM知识编辑框架。其目的是在特定域内有效地改变 LLM 的行为,而不会对其他输入的性能产生负面影响。它的设计易于使用和扩展。EasyEdit 包含编辑器、方法(SERAC、MEND、ROME、MEMIT、Knowledge Neuron)和评估的统一框架,分别表示编辑场景、编辑技术和评估方法。

  • OpenBMB/XAgent XAgent 是一个开源实验性大型语言模型 (LLM) 驱动的自治代理,可以自动解决各种任务。它被设计为可应用于各种任务的通用代理。目标是创建一个可以解决任何给定任务的超级智能代理!具有以下功能:自主性:XAgent可以在没有人类参与的情况下自动解决各种任务。安全:XAgent旨在安全运行。所有操作都约束在 docker 容器内。可扩展性:XAgent 被设计为可扩展的。您可以轻松添加新工具来增强代理的能力,甚至是新代理!GUI:友好的 GUI 来与代理交互。还可以使用命令行与代理进行交互。与人类合作:可以与您合作处理任务。它不仅能够在旅途中按照您的指导解决复杂的任务,而且在遇到挑战时还可以寻求您的帮助。XAgent由三部分组成:调度程序负责动态实例化任务并将其调度给不同的代理。它允许我们添加新代理并提高代理的能力。计划员负责生成和纠正任务计划。它将任务划分为子任务并为其生成里程碑,允许代理逐步解决任务。参与者负责执行操作以实现目标并完成子任务。参与者利用各种工具解决子任务,也可以与人类协作解决任务。ToolServer 是为 XAgent 提供强大而安全的工具来解决任务的服务器。它是一个 docker 容器。提供以下工具:文件编辑器提供了一个文本编辑工具来写入、读取和修改文件。Python Notebook提供了一个交互式Python笔记本,可以运行Python代码来验证想法,绘制图形等。网络浏览器提供用于搜索和访问网页的网页浏览器。Shell 提供了一个 bash shell 工具,可以执行任何 shell 命令,甚至可以安装程序和主机服务。Rapid API 提供了一个从 Rapid API 检索 API 并调用它们的工具,它提供了广泛的 API 供 XAgent 使用。还可以轻松地将新工具添加到ToolServer,以增强XAgent的能力。

  • THUDM/AgentTuning 使用跨多个代理任务的交互轨迹来调整LLM的第一次尝试。评估结果表明,AgentTuning 使 LLM 的代理功能能够在看不见的代理任务上具有强大的泛化能力,同时在一般语言能力方面保持良好。我们已经开源了AgentInstruct数据集和AgentLM。AgentInstruct 是一个精心策划的数据集,包含 1,866 个高质量的交互,旨在增强 6 个不同现实世界任务中的 AI 代理。AgentLM模型是通过对Llama2聊天系列的AgentInstruct数据集和ShareGPT数据集进行混合训练生成的。

  • QwenLM/Qwen-VL 由阿里云提出的Qwen-VL(通义千问-VL)聊天和预训练大视觉语言模型的官方回购。

  • OpenBMB/BMTools 大模型的工具学习,ChatGPT插件的开源解决方案。可以(1)通过编写python函数轻松构建插件(2)使用外部ChatGPT插件。

  • THUDM/AgentBench 第一个旨在评估LLM作为代理在不同环境中的基准测试。它包含 8 个不同的环境,以更全面地评估 LLM 在各种场景中作为自主代理运行的能力。这些环境包括 5 个新创建的域,即 操作系统、数据库、知识图谱、数字纸牌游戏、横向思维难题

  • InternLM/InternLM-XComposer 基于InternLM的视觉语言大型模型(VLLM),用于高级文本图像理解和构图。

  • THUDM/CogVLM 强大的开源视觉语言模型(VLM)。CogVLM-17B具有100亿个视觉参数和70亿个语言参数。在10个经典的跨模态基准测试上实现了最先进的性能,包括NoCaps,Flicker30k字幕,RefCOCO,RefCOCO+,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA和TDIUC,并在VQAv2,OKVQA,TextVQA,COCO字幕等方面排名第二,超过或匹配PaLI-X 55B。CogVLM还可以与您讨论图像。CogVLM 是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在 10 项权威跨模态基准上取得了SOTA性能。目前仅支持英文,后续会提供中英双语版本支持。CogVLM模型包括四个基本组件:视觉转换器(ViT)编码器,MLP适配器,预训练大语言模型(GPT)和视觉专家模块。

  • Shaunwei/RealChar 实时创建、自定义和与您的 AI 角色/同伴交谈(全部在一个代码库中!使用LLM OpenAI GPT3.5 / 4,Anthropic Claude2,Chroma Vector DB,Whisper Speech2Text,ElevenLabs Text2Speech

  • LinkSoul-AI/Chinese-Llama-2-7b 开源社区第一个能下载、能运行的中文 LLaMA2 模型!全部开源,完全可商用的中文版 Llama2 模型及中英文 SFT 数据集,输入格式严格遵循 llama-2-chat 格式,兼容适配所有针对原版 llama-2-chat 模型的优化。

  • EleutherAI/math-lm 数学的开放语言模型

  • 0nutation/SpeechGPT 为大型语言模型提供内在的跨模态对话能力。具有固有跨模态对话能力的大型语言模型,能够按照人类指令感知和生成多模型内容。对于离散语音表示,我们首先构建了SpeechInstruct,这是一个大规模的跨模态语音指令数据集。此外,我们采用三阶段训练策略,包括模态适应预训练、跨模态指令微调和模态链指令微调。实验结果表明,SpeechGPT具有令人印象深刻的遵循多模态人类指令的能力,并突出了用一个模型处理多种模态的潜力。

  • aiwaves-cn/RecurrentGPT 用自然语言(即文本段落)替换了长短期记忆RNN(LSTM)中的矢量化元素(即细胞状态、隐藏状态、输入和输出),并通过提示工程模拟递归机制。

  • eric-ai-lab/MiniGPT-5 论文“MiniGPT-5:通过生成式Vokens交错视觉和语言生成”的正式实现

  • eureka-research/Eureka 通过编码大型语言模型进行人类级奖励设计,大型语言模型(LLM)作为顺序决策任务的高级语义规划者表现出色。然而,利用它们来学习复杂的低级操作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。 Eureka 利用最先进的 LLM(如 GPT-4)的卓越零镜头生成、代码编写和上下文改进功能,对奖励代码执行上下文进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。Eureka 生成的奖励函数优于专家人工设计的奖励,无需任何特定于任务的提示或预定义的奖励模板。在包含 10 种不同机器人形态的 29 种开源强化学习环境中,Eureka 在 83% 的任务中表现优于人类专家,平均标准化改进了 52%。尤里卡的通用性还提供了一种新的无梯度方法来从人类反馈(RLHF)进行强化学习,很容易结合人类监督来提高上下文中生成的奖励的质量和安全性。最后,在课程学习环境中使用尤里卡奖励,我们首次演示了一个模拟的五指影手,能够执行钢笔旋转技巧,熟练地以人类的速度操纵笔。

  • meta-math/MetaMath 元数学:为大型语言模型引导您自己的数学问题

  • luogen1996/LaVIN 提出了一种新颖且经济实惠的视觉语言教学调整解决方案,即模态混合自适应(MMA)。MA是一种端到端的优化机制,它通过轻量级适配器连接图像编码器和LLM。同时,还提出了MMA路由算法,可以帮助模型自动移动单模态和多模态指令的推理路径。基于MMA,开发了LaVIN的大型视觉语言指导模型,该模型在各种指令遵循任务中表现出比现有多模态LLM更高的训练效率和更好的推理能力。

  • OpenBMB/ToolBench 一个开放的平台,用于训练、服务和评估用于工具学习的大型语言模型。旨在构建开源,大规模,高质量的指令调整SFT数据,以促进构建具有通用工具使用能力的强大LLM。我们的目标是使开源LLM能够掌握数千种不同的现实世界API。我们通过收集高质量的指令调整数据集来实现这一目标。它是使用最新的ChatGPT(gpt-3.5-turbo-16k)自动构建的,该ChatGPT通过增强的函数调用功能进行了升级。我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的功能强大的模型ToolLLaMA。

  • billxbf/ReWOO 高效增强语言模型的观察解耦推理,这是一种工具增强的LM范式,利用语言模型的可预见推理能力来提高系统参数和提示效率。

  • MasterAI-EAM/Darwin 致力于为自然科学构建基础大型语言模型,主要涉及物理、化学和材料科学。

  • aiwaves-cn/agents 用于构建自治语言代理的开源库/框架。该库包括长期短期记忆、工具使用、Web 导航、多智能体通信以及包括人代理交互和符号控制在内的全新功能。使用代理,只需用自然语言填写配置文件,并在终端、Gradio 接口或后端服务中部署语言代理,即可自定义语言代理或多代理系统。

  • hitz-zentroa/GoLLIE 信息提取大语言模型遵循指南

  • neulab/prompt2model 从自然语言指令生成可部署模型,采用自然语言任务描述(如 ChatGPT 等 LLM 使用的提示)来训练有利于部署的小型专用模型的系统。

  • web-arena-x/webarena 一个独立的、自托管的 Web 环境,用于构建LLM自治代理

其他_文本生成、文本对话

  • Awesome-TOD-NLG-Survey 面向任务的对话系统 (TOD) 中自然语言生成的调查:最新进展和新前沿

  • openai/gpt-3 语言模型是少样本的学习器。最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试上取得了实质性进展。虽然在架构中通常与任务无关,但这种方法仍然需要特定于任务的数千或数万个示例的微调数据集。相比之下,人类通常只能从几个例子或简单的指令中执行新的语言任务——这是当前NLP系统仍然难以做到的。在这里,我们表明,扩展语言模型可以大大提高与任务无关的少镜头性能,有时甚至可以通过先前最先进的微调方法达到竞争力。具体来说,我们训练 GPT-3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。

  • openai/gpt-2 论文“语言模型是无监督的多任务学习者”中的代码和模型。

  • karpathy/minGPT OpenAI GPT(生成预训练转换器)训练的最小PyTorch 重新实现

  • karpathy/nanoGPT 用于训练/微调中型 GPT(GPT-2) 的最简单、最快的存储库。

  • minimaxir/gpt-2-simple Py包可以轻松地在新文本上重新训练 OpenAI 的 GPT-2 文本生成模型

  • XiangLi1999/PrefixTuning 前缀微调:优化文本生成的连续提示模板。提出一种更好的微调方法,通过加入前缀实现统一模型在不同任务上的微调,实现小样本学习,极大地减少了参数量。目前对于前缀的构造,大致可以分为本文的连续前缀和离散前缀(自动生成或手动设计),对于在摘要任务上加入离散前缀,有点类似于从对话中提取特征或结构,但这种方法的优势就在于它不需要大量的样本,而传统的融入结构的方法仍然需要很多样本。

  • RUCAIBox/TextBox 基于Python和PyTorch开发的,用于在一个统一的、全面的、高效的框架中复现和开发文本生成算法,主要面向研究者使用。我们的库包括16种文本生成算法,涵盖了两个主要任务:无条件(无输入)生成、序列到序列(Seq2Seq)生成,包括机器翻译和摘要生成。模型 无条件:LSTMVAE (Bowman et al., 2016)、CNNVAE (Yang et al., 2017)、HybridVAE (Semeniuta et al., 2017)、SeqGAN (Yu et al., 2017)、TextGAN (Zhang et al., 2017)、RankGAN (Lin et al., 2017)、MaliGAN (Che et al., 2017)、LeakGAN (Guo et al., 2018)、MaskGAN (Fedus et al., 2018)。序列到序列 RNN (Sutskever et al., 2014)、Transformer (Vaswani et al., 2017b)、GPT-2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)

  • BART Bidirectional and Auto-Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型

  • fastnlp/CPT 中文预训练非平衡转换器 (CPT) ,它是一种非平衡 Transformer 编码器-解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.

  • songhaoyu/BoB BERTOverBERT用于从有限的个性化数据训练基于角色的对话模型。分解为了两个子任务,从有限的角色化对话数据中进行学习。

  • YunwenTechnology/QueryGeneration 智能扩充机器人的“标准问”库之Query生成

  • beyondguo/genius 强大的有条件文本生成模型,以草稿为输入,在给定的草稿(文本范围、短语或单词的关键信息)中填充缺失的上下文,在大规模文本语料库上进行预训练,用一种极端和选择性的掩蔽策略从草稿目标进行新的重建,使它能够生成给定素描的多样化和高质量的文本。

  • imcaspar/gpt2-ml GPT2 多语言支持, 15亿参数中文预训练模型

  • EleutherAI/gpt-neo 模型并行GPT2和类似GPT3的模型的实现,能够使用mesh-tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。

  • rikdz/GraphWriter 基于图Transformer从知识图谱中生成文本

  • liucongg/GPT2-NewsTitle GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。

  • ZhuiyiTechnology/t5-pegasus 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。

  • google-research/text-to-text-transfer-transformer T5的理念就是“万事皆可 Seq2Seq”,它使用了标准的 Encoder-Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。

  • google-research/multilingual-t5 T5 的多国语言版

  • Morizeyao/GPT2-Chinese GPT2中文文生模型,包括散文、诗词、对联、通用中文、中文歌词、文言文

  • bojone/t5_in_bert4keras 在keras中使用T5模型 ,用mT5 small版本finetune出来的 CSL 标题生成模型,BLEU 指标能持平基于 WoBERT 的 UniLM 模型,并且解码速度快 130%;而用 mT5 base 版本 finetune 出来的 CSL 标题生成模型,指标能超过基于 WoBERT 的 UniLM 模型 1% 以上,并且解码速度也能快 60%。

  • PENS-Personalized-News-Headline-Generation 新闻头条生成数据集和通用框架

  • Aristotle609/Medium-Title-Generator 生成数据科学文章标题的模型

  • yangjianxin1/GPT2-chitchat 用于中文闲聊的GPT2文本对话模型

  • EssayKillerBrain/WriteGPT 基于开源GPT2.0的初代创作型人工智能 | 可扩展、进化

  • RUCAIBox/MVP 自然语言生成的多任务监督预训练。遵循标准的转换器编码器-解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。

  • RUCAIBox/Context-Tuning 上下文调优:学习上下文提示用于自然语言生成

  • samueldobbie/markup 基于Web的文档注释工具,由GPT-3  提供支持

  • deeppavlov/DeepPavlov 用于深度学习端到端对话系统和聊天机器人的开源库。

  • bentrevett/pytorch-seq2seq 使用 PyTorch 和 TorchText 实现一些序列到序列 (seq2seq) 模型的教程。

  • RasaHQ/rasa 开源机器学习框架,用于自动化基于文本和语音的对话:NLU、对话管理、连接到 Slack、Facebook 等 - 创建聊天机器人和语音助手

  • gunthercox/ChatterBot 一个机器学习的对话对话引擎,用于创建聊天机器人

  • howdyai/botkit 一个开源开发人员工具,用于为主要消息传递平台构建聊天机器人、应用程序和自定义集成。

  • 0hq/WebGPT 使用 WebGPU 在浏览器上运行 GPT 模型。在不到 ~1500 行的原版 Javascript 中实现 GPT 推理。

  • huggingface/alignment-handbook 使语言模型与人类和 AI 偏好保持一致的强大配方:OpenAI用ChatGPT打破了互联网,Meta紧随其后发布了Llama系列语言模型,使ML社区能够构建自己有能力的聊天机器人。这导致了一个丰富的数据集和模型生态系统,这些数据集和模型主要集中在通过监督微调(SFT)来教授语言模型遵循指令。该手册的初始版本将侧重于以下技术:Supervised fine-tuning监督微调,教语言模型遵循有关如何收集和策划自己的训练数据集的说明和提示。Reward modeling奖励建模:教授语言模型根据人类或AI偏好区分模型响应。Rejection sampling剔除采样:一种简单但功能强大的技术,可提高SFT模型的性能。直接偏好优化(DPO):PPO的强大而有前途的替代方案。

  • yxuansu/PandaGPT 第一个能够跨六种模式的指令遵循数据的基础模型,而无需明确的监督。它展示了多种多模态功能,例如复杂的理解/推理、基于知识的描述和多回合对话。PandaGPT 是一种通用的指令遵循模型,既能看又能听👀👂。我们的试点实验表明,PandaGPT 可以执行复杂的任务,例如生成详细的图像描述、编写受视频启发的故事以及回答有关音频的问题。更有趣的是,PandaGPT 可以同时接受多模态输入并自然地组成它们的语义。例如,PandaGPT 可以连接对象在照片中的外观以及它们在音频中的声音。

  • RunpeiDong/DreamLLM 一个学习框架,它首先实现了多功能的多模态大语言模型(MLLM),它赋予了多模态理解和创造之间经常被忽视的协同作用。DreamLLM基于两个基本原则运作。第一个侧重于通过在原始多模态空间中直接采样来对语言和图像后验进行生成建模。其次,DreamLLM促进了原始交错文档的生成,对文本和图像内容以及非结构化布局进行了建模。一个零样本多模态通才,能够理解和创造。

  • OSU-NLP-Group/Mind2Web 论文“Mind2Web:迈向Web的通才代理”的数据集,代码和模型。

文本匹配 文本相似度

  • princeton-nlp/SimCSE SimCSE:句子嵌入的简单对比学习 。提供无监督或有监督的对比学习。是目前文本相似度更好的方法。

  • UKPLab/sentence-transformers 句子转换器:使用BERT RoBERTa XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入

  • bojone/CoSENT 比Sentence-BERT更有效的句向量方案.优化cos值的新方案CoSENT(Cosine Sentence)。实验显示,CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。

  • shawroad/CoSENT 比Sentence-BERT更有效的句向量方案 Pytorch版

  • shuxinyin/SimCSE-Pytorch 中文SimCSE+ESimCSE的无监督 + 有监督实现

  • wangyuxinwhy/uniem 统一嵌入模型,目标是创建中文最好的通用文本嵌入模型。202306发布 M3E models ,在中文文本分类和文本检索上均优于 openai text-embedding-ada-002。

  • thunlp/OpenMatch 总体架构包括两大部分:一是相关文档检索,即根据用户检索词,从大规模文档集合中返回最相关的Top-K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。

  • NTMC-Community/MatchZoo-py 通用的文本匹配工具包,旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。MatchZoo 的 PyTorch 版本。

  • voidism/DiffCSE 用于学习句子嵌入的无监督对比学习框架。DiffCSE学习对原始句子和编辑句子之间的差异敏感的句子嵌入,其中编辑的句子是通过随机屏蔽原始句子,然后从屏蔽语言模型中采样来获得的。我们表明 DiffSCE 是等变对比学习的一个实例(Dangovski 等人,2021 年),它概括了对比学习并学习对某些类型的增强不敏感而对其他“有害”类型的增强敏感的表征。我们的实验表明,DiffCSE在无监督句子表示学习方法中取得了最先进的结果,语义文本相似性上比SimCSE高出2.3个绝对点。

  • shibing624/text2vec 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

  • terrifyzhao/text_matching 常用文本匹配模型tf版本,数据集为QA_corpus模型:DSSM ConvNet ESIM ABCNN BiMPM DIIN DRCN

  • Brokenwind/BertSimilarity 基于Google的BERT模型来进行语义相似度计算。

  • bohanli/BERT-flow 基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,文本表示、语义文本相似性任务的SOTA。

  • DataTerminatorX/Keyword-BERT 带关键词的BERT语义匹配

  • bojone/BERT-whitening 简单的向量白化改善句向量质量,可以媲美甚至超过BERT-flow的效果。

  • huggingface/text-embeddings-inference 文本嵌入模型的超快速推理解决方案(rust)

  • autoliuweijie/BERT-whitening-pytorch Pytorch version of BERT-whitening

  • nilboy/gaic_track3_pair_sim 短文本语义匹配,2021年全球人工智能技术创新大赛-赛道三-冠军方案

  • yym6472/ConSERT 基于对比学习的句子语义表示迁移框架。包含三部分,数据增强,BERT 编码层,对比损失层。

  • amazon-research/sccl 利用对比学习促进更好地基于距离的短文本聚类实现。

  • ZhuiyiTechnology/roformer-sim 融合检索和生成的RoFormer-Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。

  • allenai/macaw Macaw(Multi-angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。

  • Decem-Y/sohu_text_matching_Rank2 2021搜狐校园文本匹配算法大赛Top2。使用了预训练模型(如NEZHA、MacBert、ROBERTA、ERNIE等),设计了选择了两种技术路线(通过[SEP]拼接source与target作为输入、类似SBERT的句子向量编码比较),并尝试多种上分策略(在给定语料上继续mlm预训练、focal loss损失函数、不同的pooling策略、加入TextCNN、fgm对抗训练、数据增强等)。选取多组差异较大的模型的输出,通过投票的方式进行集成,得到最好成绩。

  • shuxinyin/SimCSE-Pytorch 中文数据集下SimCSE+ESimCSE的实现

  • wakafengfan/simcse-pytorch pytorch版simcse无监督语义相似模型

  • bojone/SimCSE SimCSE在中文任务上的简单实验

  • yangjianxin1/SimCSE SimCSE有监督与无监督实验复现 一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以使用有监督的语料)中学习到文本相似关系。

  • vdogmcgee/SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督

  • GeekDream-x/SemEval2022-Task8-TonyX 在 Semeval-2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。

  • JohnGiorgi/DeCLUTR 无监督文本表示的深度对比学习

  • huggingface/setfit 使用 Sentence Transformers 进行高效的少样本学习. 高效且无提示的框架,用于对句子转换器进行少量微调。 它用很少的标记数据实现了高精度,特点:没有提示或语言表达器:当前的少量微调技术需要手工提示或语言表达器将示例转换为适合底层语言模型的格式。 SetFit 通过直接从文本示例生成丰富的嵌入来完全免除提示。训练速度快、多语言。

  • epidemic-sentence-pair 新冠疫情相似句对判定大赛 线上第一名方案。BERT模型融合、数据对称扩充、数据传递扩充、对抗训练、伪标签。

  • KKenny0/sohu2021 2021搜狐校园文本匹配算法大赛方案,基于BERT的交互模型,通过BERT来得到source-target pair的向量表示。任务:短短、短长和长长匹配。

  • DMetaSoul/chinese-semantic-textual-similarity 为了对 like-BERT 预训练模型进行 fine-tune 调优和评测以得到更好的文本表征模,对业界开源的语义相似(STS)、自然语言推理(NLI)、问题匹配(QMC)以及相关性等数据集进行了搜集整理

机器阅读理解

  • imClumsyPanda/langchain-ChatGLM 利用 ChatGLM-6B + langchain 实现的基于本地知识的 ChatGLM 应用。建立了全部基于开源模型实现的本地知识问答应用。

  • l15y/wenda 闻达:一个LLM调用平台。目前支持chatGLM-6B、chatRWKV、chatYuan和chatGLM-6B模型下自建知识库查找。

  • GanymedeNil/document.ai 基于向量数据库与GPT3.5的通用本地知识库方案

  • basketballandlearn/MRC_Competition_Dureader 基于大规模MRC数据再训练的机器阅读理解预训练模型(包括roberta-wwm-large、macbert-large),可以使用transformers库

  • wptoux/albert-chinese-large-webqa 基于百度webqa与dureader数据集训练的Albert Large QA模型

  • bojone/dgcnn_for_reading_comprehension 基于膨胀门卷积的阅读理解式问答模型(Keras实现)

  • cooelf/AwesomeMRC 对MRC的研究摘要和参考资料

  • nlpdata/c3 中文机器阅读理解数据集 multiple-Choice Chinese machine reading Comprehension dataset.

  • qiufengyuyi/event_extraction 百度aistudio事件抽取比赛 使用机器阅读理解来尝试解决。

  • liuhuanyong/MiningZhiDaoQACorpus 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。

  • xv44586/ccf_2020_qa_match CCF2020问答匹配比赛 任务是:给定IM交流片段,片段包含一个客户问题以及随后的经纪人若干IM消息,从随后的经纪人消息中找出一个是对客户问题的回答。

  • lgw863/LogiQA-dataset 数据集包含8,678个QA实例

  • HIT-SCIR/Molweni 提出了构建于多人对话的英文机器阅读理解(MRC)数据集—Molweni,并覆盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了30,066个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,245个语篇关系实例,为多人对话语篇结构分析(Discourse parsing)贡献了大规模数据。

  • danqi/acl2020-openqa-tutorial 本教程对开放域问答 (QA) 的前沿研究进行了概述,QA 是使用大量不同主题的文档来回答问题的任务。首先简要介绍历史背景,讨论研究问题的基本设置和核心技术挑战,然后描述具有通用评估指标和基准的现代数据集。然后,是在开放域QA中提出的前沿模型,包括两阶段检索器-阅读器方法、密集检索器和端到端训练以及无检索器方法。最后,介绍使用文本和大型知识库的混合方法,并以重要的开放性问题结束本教程。

  • zhoujx4/DuReader-Checklist-BASELINE 百度2021年语言与智能技术竞赛机器阅读理解torch版baseline

  • google-research/tapas 端到端的神经表格文本理解模型。表格 QA 模型。

  • PaddlePaddle/RocketQA 信息检索和问答的密集检索,包括中英文最先进的模型。

知识图谱问答KBQA、多跳推理

  • RUCAIBox/KBQAPapers 知识图谱问答KBQA论文集

  • shijx12/TransferNet An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph 多跳问题解答关系图的有效透明框架,通过每一跳都预测当前关系得分,并更新实体得分,直到最大跳数。预测该问题的跳数,按跳数的概率加权每一跳得分作为实体的最终得分。

  • malllabiisc/EmbedKGQA 基于知识图谱嵌入的链路预测处理多跳问答。首先训练实体嵌入,随后利用实体嵌入学习问题嵌入,预测时对所有实体,构建(head entity, question)并评分,并选择评分最高的头实体作为答案。能很好地处理知识图谱中的不完整和稀疏的问题。

  • BDBC-KG-NLP/QA-Survey 北航大数据高精尖中心研究张日崇团队对问答系统的总结。包括基于知识图谱的问答(KBQA),基于文本的问答系统(TextQA),基于表格的问答系统(TabletQA)和基于视觉的问答系统(VisualQA),每类系统分别对学术界和工业界进行总结。

  • xianghuisun/Chinese_KGQA 实现基于知识图谱的中文问答系统

  • cdjhz/multigen Language Generation with Multi-hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。

  • INK-USC/MHGRN 基于知识库的多跳关系推理 本篇文章提出了multi-hop relational reasoning module(多跳关系推理模型)叫做MHGRN多跳推理网络。该模型在额外的多跳知识图谱中抽取的子网络中进行推理。本文提出的方法将已有的基于路径的常识推理以及GCN融合在了一起,并在CommonsenseQA和OpenbookQA上取得了良好的效果。

  • lanyunshi/Multi-hopComplexKBQA 查询图生成,用于回答知识库中的多跳复杂问题.提出了一种改进的分阶段查询图生成方法,该方法具有更灵活的生成查询图的方式。在查询图生成的每一步,包含三种预定义的操作:扩展、连接、聚合。

  • nju-websoft/SPARQA 基于知识库的问题解答,提出了一种新颖的骨架语法来表示一个复杂问题的高级结构。骨架语法本质上是依赖语法的一个选定子集,用于专门表示复杂问题的高级结构。这种专用的粗粒度表示形式由于其简单性而可能具有准确的解析算法,有助于提高下游细粒度语义解析的准确性。

  • mori97/JKNet-dgl 跳跃知识网络的dgl实现

  • THUDM/CogQA 基于认知图谱实现多跳阅读.从人类的认知过程中受到启发。双过程理论认为,我们的大脑思考过程由两套系统构成: System1 和 System 2。System 1: 我们的大脑首先通过System 1隐式的、无意识的和凭借直觉的过程来检索相关信息。System 2: 在System 1过程的基础上,再进行一个显式的、有意识的、可控的推理过程,即System 2。作者使用BERT模型构建System 1,使用GNN模型构建System 2。

  • michiyasunaga/qagnn GNN 在融合 QA 上下文与 KG 的一个尝试,在问答任务上相比现有的预训练语言模型、以及预训练 +KG 模型,都有不小的提升。同时,使用 attention-base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。

  • WenRichard/KBQA-BERT 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式

  • RichardHGL/WSDM2021_NSM KBQA 的神经状态机器 ComplexWebQuestions

  • UKPLab/coling2018-graph-neural-networks-question-answering 用门图形神经网络建模语义,用于知识库问题解答

  • THU-KEG/KoPL KoPL全称 Knowledge oriented Programing Language, 是一个为复杂推理问答而设计的编程语言。可以将自然语言问题表示为由基本函数组合而成的KoPL程序,程序运行的结果就是问题的答案。目前,KoPL的27个基本函数覆盖对多种知识元素(如概念、实体、关系、属性、修饰符等)的操作,并支持多种问题类型(如计数、事实验证、比较等)的查询。KoPL提供透明的复杂问题推理过程,易于理解和使用。KoPL面向知识库、文本等不同形式的知识资源,可扩展性强。

  • PaddlePaddle/PGL/erniesage 使用PGL实现ERNIESage。在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。ERNIESage 由PGL团队提出,是ERNIE SAmple aggreGatE的简称,该模型可以同时建模文本语义与图结构信息,有效提升 Text Graph 的应用效果。其中 ERNIE 是百度推出的基于知识增强的持续学习语义理解框架。ERNIESage 是 ERNIE 与 GraphSAGE 碰撞的结果,是 ERNIE SAmple aggreGatE 的简称,它的结构如下图所示,主要**是通过 ERNIE 作为聚合函数(Aggregators),建模自身和邻居节点的语义与结构关系。ERNIESage 对于文本的建模是构建在邻居聚合的阶段,中心节点文本会与所有邻居节点文本进行拼接;然后通过预训练的 ERNIE 模型进行消息汇聚,捕捉中心节点以及邻居节点之间的相互关系;最后使用 ERNIESage 搭配独特的邻居互相看不见的 Attention Mask 和独立的 Position Embedding 体系,就可以轻松构建TextGraph中句子之间以及词之间的关系。使用ID特征的GraphSAGE只能够建模图的结构信息,而单独的ERNIE只能处理文本信息。通过PGL搭建的图与文本的桥梁,ERNIESage能很简单的把GraphSAGE以及ERNIE的优点结合一起。TextGraph场景,效果能够比单独的ERNIE以及GraphSAGE都要好。

  • BshoterJ/awesome-kgqa 知识图谱问答部分资料合集

  • RUCKBReasoning/SubgraphRetrievalKBQA 多跳知识库问答子图检索增强模型的pytorch实现 WebQuestionSP CWQ

  • google-research/smore 多功能的框架,它可以在KG上扩展多跳查询嵌入。SMORE可以轻松地在Freebase KG上训练查询嵌入,在一台机器上拥有超过8600万个节点和33800万条边。

知识图谱

  • CLUEbenchmark/KgCLUE KgCLUE: 大规模中文开源知识图谱问答数据集。实体数量 3121457,关系数量 245838,高频关系(>100) 3833,三元组数量 20559652,知识库来源于百科类数据,由百科类搜索的事实性三元组构成。

  • autoliuweijie/K-BERT Enabling Language Representation with Knowledge Graph ,已被AAAI2020所录取,是较早的考虑将知识图谱中的边关系引入预训练模型的论文。主要通过修改Transformer中的attention机制,通过特殊的mask方法将知识图谱中的相关边考虑到编码过程中,进而增强预训练模型的效果。

  • npubird/KnowledgeGraphCourse 东南大学《知识图谱》研究生课程

  • AutoML-Research/AutoSF 用于知识图谱学习的双线性评分函数(SFs)搜索。知识图(KG)是一种以实体为节点、以关系为边的特殊图结构,对数据挖掘和机器学习都很重要,并启发了各种下游应用,如结构化搜索、问答、推荐。在KGs中,每条边都被表示为一个具有形式(头实体、关系、尾实体)的三元组,表示为(h, r, t),一个基本问题是如何量化三元组(h, r, t)s的合理性。KG嵌入(KGE)是近年来出现并发展起来的一种很有前途的方法。基本上,给定一组观察到的三元组,KGE试图学习实体和关系的低维向量表示,以便三元组的可信性能够被量化。得分函数(SF)根据嵌入值返回(h, r, t)的分数,用于度量可信性。SF一般是人为设计和选择的,对嵌入的质量有显著影响。

  • THU-KEG/KEPLER 主要通过添加类似于TransE的预训练机制来增强对应文本的表示,进而增强预训练模型在一些知识图谱有关任务的效果。

  • txsun1997/CoLAKE 使用知识图谱以增强预训练模型的效果 首先将上下文看作全连接图,并根据句子中的实体在KG上抽取子图,通过两个图**现的实体将全连接图和KG子图融合起来;最终本文将文本上下文和知识上下文一起用MLM进行预训练,将mask的范围推广到word、entity和relation;为训练该模型,本文采用cpu-gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息

  • JanKalo/KnowlyBERT 提出了一种混合的语言知识模型查询系统,该系统使用语言模型来应对现实世界中知识图谱的不完整性问题。作为KnowlyBERT的输入,用户可以向系统提出以实体为中心的SPARQL查询。首先,查询语言模型(a);然后,对不完整的知识图谱进行查询,并获得结果(b);另外SPARQL查询被翻译成多种自然语言语句,这些语言语句在“关系模板生成”步骤中由语言模型完成;语言模型返回多个单词列表以及每个单词(c)的置信度值;然后将这些列表合并为一个列表(d),并根据知识图谱类型信息(e)使用我们的语义过滤步骤进行过滤。此外,执行阈值处理,削减不相关的结果(f);将语言模型和知识图谱的结果合并(g)并返回给用户。

  • yeliu918/KG-BART 知识图谱增强的预训练模型的生成式常识推理.可利用图上的注意力来聚集丰富的概念语义,从而增强对看不见的概念集的模型泛化。

  • bernhard2202/intkb 一种交互式知识图谱补全框架

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • wangbo9719/StAR_KGC Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion 结构增强文本表示学习,实现高效知识图完成.知识图谱补全

  • Everglow123/MAKG 移动app知识图谱

  • openconcept 基于自动化知识抽取算法的大规模中文概念图谱。440万概念核心实体,以及5万概念和1200万实体-概念三元组。数据包括了常见的人物、地点等通用实体。

  • OpenKG-ORG/OpenEA 基于知识图谱嵌入的开源实体融合工具。本体匹配、实体对齐、真值验证、冲突消解。

  • seukgcode/MELBench. 多模态实体链接 (MEL) 旨在利用多模态信息将提及项映射到知识库中定义的相应实体。 我们发布了三个 MEL 数据集:Weibo-MEL、Wikidata-MEL 和 Richpedia-MEL,分别包含来自社交媒体、百科全书和多模态知识图谱的 25,602、18,880 和 17,806 个样本。

  • OpenKG-ORG/OpenRichpedia 东南大学多模态知识图谱-OpenRichpedia工程文件

  • csdqa 计算机科学领域示意图问答数据集

  • HKUST-KnowComp/FKGE 差异私有联合知识图嵌入

  • totogo/awesome-knowledge-graph 知识图相关学习材料、数据库、工具和其他资源的精选列表

  • BrambleXu/knowledge-graph-learning 精选的知识图谱教程、项目社区列表。

  • liuhuanyong/PersonGraphDataSet 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • ownthink/KnowledgeGraph 史上最大规模1.4亿知识图谱数据免费下载,知识图谱,通用知识图谱,融合了两千五百多万实体,拥有亿级别的实体属性关系。

  • liuhuanyong/AbstractKnowledgeGraph 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。

  • songjiang0909/awesome-knowledge-graph-construction 很棒的知识图构建

  • ZihengZZH/awesome-multimodal-knowledge-graph 多模态知识图谱的精彩阅读列表或其他资源(数据集、教程等)。

  • thunlp/KB2E 知识图谱嵌入,包括 TransE、TransH、TransR 和 PTransE

  • powerycy/DeepKg: Knowledge Graph 知识图谱的构建 实体识别\语义标准化\向量召回

  • zjunlp/deepke 基于深度学习的开源中文知识图谱抽取框架,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • 面向事件时序因果关系识别的17类开源标注数据集总结

  • iuhuanyong/TextGrapher 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。 采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。

  • liuhuanyong/ChainKnowledgeGraph 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。

  • zjukg/NeuralKG 支持多种知识图谱表示学习/知识图谱嵌入(Knowledge Graph Embedding)模型的Python工具包,其中实现了多种传统知识图谱嵌入、基于图神经网络的知识图谱嵌入以及基于规则的知识图谱嵌入方法。

  • zjunlp/DeepKE 开源知识图谱抽取与构建工具,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • migalkin/NodePiece 大型知识图谱的复合和参数高效表示 (ICLR'22)。NodePiece是一个“分词器”,用于减少知识图中的实体词汇量。不是将每个节点浅层嵌入到向量中,而是首先在其关系上下文中通过 K 个锚节点和 M 关系类型“标记”每个节点。然后,通过任何注入函数(例如MLP或Transformer)对生成的哈希序列进行编码。NodePiece可以使用相同的锚点和关系词汇表标记附加到所见图的看不见的节点,这允许NodePiece在归纳设置中使用经典KG完成中的所有众所周知的评分函数(如TransE或RotatE)开箱即用。NodePiece在OGB WikiKG 2排行榜上名列前茅,以大幅降低的参数预算(7M与500-1500M)为模型提供动力。当前配置只需要 20K 个锚节点,而不是学习 2.5M 实体嵌入。关系预测\节点分类\样本外链路预测

  • liuhuanyong/ChineseSemanticKB 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

  • lemonhu/stock-knowledge-graph 利用网络公开数据构建一个小型证券知识图谱

  • OpenBGBenchmark/OpenBG 大规模开放业务知识图谱.开放的商业知识图,它使用统一的Schema覆盖大规模的多模态数据集,包含了浙江大学ZJUKG实验室和阿里巴巴知识引擎团队提供的数百万个产品和消费者需求。

  • DeqingYang/CKBC 使用关系图注意力网络和预训练语言模型完成常识知识库。常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用。与传统的知识库(KG)不同,常识库(CKG)中的节点通常由自由格式的文本表示,并且比传统的 KG 规模更大,更稀疏。因此,这对传统的知识库补全(KBC)方法造成了挑战。

  • JavaStudenttwo/ccks_kg ccks2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结

NLP语料和数据集

  • thu-coai/CrossWOZ 中文跨域任务导向对话数据集.它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。

  • goto456/stopwords 中文常用停用词表

  • chatopera/Synonyms 用于自然语言处理和理解的中文同义词。

  • RUCAIBox/TG-ReDial 电影领域的对话推荐数据集TG-ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。

  • fighting41love/funNLP NLP民工的乐园: 中英文敏感词、语言检测、中外手机/电话归属/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件、连续英文切割、各种中文词向量、公司大全、古诗、IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取、国内电话号码正则匹配、清华中英文跨语言百科知识图谱

  • brightmart/nlp_chinese_corpus 大规模中文自然语言处理语料 维基百科json版(wiki2019zh) 新闻语料json版(news2016zh) 百科类问答json版(baike2018qa) 社区问答json版(webtext2019zh) :大规模高质量数据集 翻译语料(translation2019zh)

  • msra-nlc/ChineseKBQA NLPCC-ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering 开放域中文问答数据集

  • jkszw2014/bert-kbqa-NLPCC2017 A trial of kbqa based on bert for NLPCC2016/2017 Task 5 (基于BERT的中文知识库问答实践)

  • wavewangyue/NLPCC-MH 中文多跳问答数据集 基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了专注多跳问题的中文 KBQA 数据集

  • BERT-CCPoem 是完全基于一个囊括了几乎所有**古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。THUNLP-AIPoet/BERT-CCPoem **古典诗词预训练模型

  • liucongg/NLPDataSet 数据集包括:DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。

  • C-Eval 数据集是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。

  • Gaokao 是一个以**高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。 我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 5-shot 测试。

  • MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。

  • microsoft/AGIEval 以人为本的基准,专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通人类考生的官方、公共和高标准入学和资格考试,例如普通大学入学考试(例如,**高考(高考)和美国 SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。

  • thunlp/Few-NERD 一个大规模的人工标注的用于少样本命名实体识别任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有18万维基百科句子,460万个词,每个词都被注释为上下文(context)或一个实体类型的一部分。

  • CLUEbenchmark/CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。

  • esbatmop/MNBVC Massive Never-ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

  • oscar-corpus/OSCAR-2201 通过使用 unoliant 架构对通用爬网语料库进行语言分类和过滤而获得的一个巨大的多语言语料库。数据以原始形式和重复数据删除形式按语言分发。

  • festvox/datasets-CMU_DoG CMU 文档基础对话数据集 该数据集包含 4112 个对话,每个对话平均 21.43 轮。这使该数据集可以在生成响应的同时提供相关的聊天历史记录。

  • doc2dial/sharedtask-dialdoc2021 doc2dial是IBM发布的基于文档的对话数据集,包含两个任务:1)从文档中检索和问题相关的句子(information-seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。

  • chin-gyou/MovieChats MovieChats:在封闭域中像人类一样聊天,电影内容的聊天对话数据集

  • projects/personachat Persona-Chat 数据集人物聊天对话数据

  • krystalan/SGSum 一个面向体育赛事摘要的人工标注数据集

  • IceFlameWorm/NLP_Datasets 中文NLP数据集,ATEC语义相似度学习赛数据集、CCKS 2018 微众银行智能客服问句匹配大赛数据集、ATEC + CCKS 2018 组合数据集(互金客服场景)、哈工大BQ_corpus数据集(语义相似度)、哈工大LCQMC数据集(语义相似度)。

  • nlpcc2018 选择task7 Open Domain Question Answering,即可下载数据集。数据集包含知识图谱和问答数据

  • pkumod/CKBQA ccks2018 ccks2019 包含简单问题和复杂问题的中文 KBQA 数据集。对于每个中文问题,我们都提供了黄金答案和黄金 SPARQL 查询,因此该数据集也可以应用于语义解析任务。

  • Marsan-Ma-zz/chat_corpus 来自各种开源的聊天语料库集合 open_subtitles 英文电影字幕解析, movie_subtitles_cn 康奈尔电影对话语料库, 歌词_zh 来自 PTT 论坛的歌词,witter_en 来自 twitter 的语料库(700k 行),twitter_en big更大尺寸的 twitter 语料库(5M 行)

  • rkadlec/ubuntu-ranking-dataset-creator 从 Ubuntu 语料库对话框中为排名任务创建训练、有效和测试数据集的脚本。

  • codemayq/chinese_chatbot_corpus 对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料,共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

  • NiuTrans/Classical-Modern 非常全的文言文(古文)-现代文平行语料

  • CLUEbenchmark/SimCLUE 大规模语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型。可用于语义理解、语义相似度、召回与排序等检索场景等。整合了以上9个数据集:哈工大 LCQMC 数据集、AFQMC 蚂蚁金融语义相似度数据集、OPPO 小布对话文本语义匹配数据集、北大中文文本复述数据集 PKU-Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集

  • GuocaiL/nlp_corpus open_ner_data网上开放的ner数据集、boson数据集、clue细粒度实体识别数据集、微软实体识别数据集、人民网实体识别数据集(98年)、中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)、视频_音乐_图书数据集、微博数据集

  • zejunwang1/CSTS: 中文自然语言推理与语义相似度数据集

    • 哈工大 LCQMC 数据集
    • AFQMC 蚂蚁金融语义相似度数据集
    • OPPO 小布对话文本语义匹配数据集
    • 谷歌 PAWS-X 数据集
    • 北大中文文本复述数据集 PKU-Paraphrase-Bank
    • Chinese-STS-B 数据集
    • Chinese-MNLI 自然语言推理数据集
    • Chinese-SNLI 自然语言推理数据集
    • OCNLI 中文原版自然语言推理数据集
    • CINLID 中文成语语义推理数据集
  • sailxuOvO/CC-Riddle 汉字谜语问答数据集

  • CLUEbenchmark/DataCLUE 数据为中心的NLP基准和工具包。以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。取自 国家科技资源共享服务工程技术研究中心, 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条。

  • pluto-junzeng/CNSD 中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。

  • victorsungo/MMDialog 面向多模态开放域会话的大规模多轮对话数据集。

  • lupantech/ScienceQA 通过思维链进行多模态推理的科学问题回答。提出了科学问答(ScienceQA),这是一个新的基准,包括21,208个多模态多项选择题,有一套不同的科学主题和注释,他们的答案与相应的讲座和解释。讲座和解释分别提供了一般的外部知识和具体的原因,以获得正确的答案。拥有更丰富的领域多样性:自然科学语言科学社会科学。ScienceQA包含26个主题、127个类别和379个技能,涵盖了广泛的领域。我们进一步设计语言模型,学习生成演讲和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA证明了CoT在语言模型中的实用性,CoT在少样例GPT-3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。

  • benywon/ChiQA 用于多模态理解的大规模基于图像的真实世界问答数据集。ChiQA中的问题是向搜索引擎发出的开放域用户查询。ChiQA中的图像也是从搜索引擎中收集的真实世界图像,与问题相关但不一定能回答问题。我们的数据众包包括两个阶段的主动学习过程。在第一阶段,我们从网络上随机收集样本。在第二阶段中,我们首先基于来自第一阶段的数据训练模型,然后使用训练好的模型在剩余数据上选择硬示例并继续标记。这两个阶段的设置使得数据更具挑战性,并且从本质上消除了对数据中某些属性或语言模式的不合理偏爱。

  • qkaren/Counterfactual-StoryRW “虚构故事推理和生成”的数据集和代码

  • eecrazy/CausalBank 非常大规模、开放的领域、句子级、平行的因果语料库。按照句子中出现的因果顺序分为两部分:because_mode(结果,然后是原因)和therefore_mode(原因,然后是结果)。使用预处理的英语通用爬网语料库 (5.14 TB) 中的细粒度因果模板匹配获得的,完全自动,无需任何人工注释。里面或多或少有噪音。

  • InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集,阅读理解、任务型对话数据、文本分类、实体识别&词性标注&分词、句法&语义解析、推荐系统、百科数据、指代消歧、预训练:(词向量or模型)、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典。

  • pengxiao-song/awesome-chinese-legal-resources **法律数据集和相关资源的精彩集合。致力于收集全面的中文法律数据源

  • xglue 由11个任务组成,跨越19种语言。对于每个任务,训练数据仅以英语提供。这意味着要在XGLUE上取得成功,模型必须具有强大的零镜头跨语言迁移能力,以从特定任务的英语数据中学习并将其学到的内容转移到其他语言中。与其并发工作XTREME相比,XGLUE有两个特点:首先,它同时包含跨语言NLU和跨语言NLG任务;其次,除了包括5个现有的跨语言任务(即NER,POS,MLQA,PAWS-X和XNLI)之外,XGLUE还从Bing场景中选择了6个新任务,包括新闻分类,查询广告匹配,网页排名,QA匹配,问题生成和新闻标题生成。语言、任务和任务来源的这种多样性为量化跨语言自然语言理解和生成的预训练模型的质量提供了全面的基准。

  • yhavinga/ccmatrix 该语料库是使用 CCMatrix 中所述的基于边缘的双文本挖掘技术从网络爬虫中提取的语言对。

  • ywjawmw/TCM_KG 中医TCM-neo4j 知识图谱

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。

  • WuDaoCorpora Text文本预训练数据集 北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

  • beyond/chinese_clean_passages_80m 包含8千余万纯净中文段落,不包含任何字母、数字。文本长度大部分介于50~200个汉字之间。数据是基于CLUE中文预训练语料集进行处理、过滤得到的。

关系抽取、信息抽取

  • roomylee/awesome-relation-extraction 专门用于关系提取的精选资源列表,关系提取是自然语言处理 (NLP) 中最重要的任务之一。

  • weizhepei/CasRel 用于关系三重提取的新颖级联二进制标记关系抽取框架.

  • loujie0822/DeepIE 基于深度学习的信息抽取技术,实体抽取\实体关系联合抽取\属性抽取\实体链接/标准化\事件抽取\摘要抽取

  • OpenKG-ORG/OpenUE 一个从文本中通用提取的开放工具包

  • universal-ie/UIE 统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。

  • thunlp/DocRED 大规模文档级关系提取数据集的数据集和代码。ACL 2019

  • 131250208/TPlinker-joint-extraction 联合抽取模型 实体关系联合抽取标注关系抽取方案

  • bojone/GPLinker 基于GlobalPointer的实体/关系/事件抽取

  • xhw205/GPLinker_torch CMeIE/CBLUE/CHIP/实体关系抽取/SPO抽取

  • TanyaZhao/MRC4ERE_plus 基于机器阅读理解的联合实体关系提取框架

  • cuhksz-nlp/RE-TaMM 于词依存信息类型映射记忆神经网络的关系抽取

  • PaddleNLP/DuIE LIC2021 DuIE 关系抽取基线 .信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。关系抽取的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。 本基线系统基于预训练语言模型ERNIE设计了结构化的标注策略,可以实现多条、交叠的SPO抽取。

  • princeton-nlp/PURE PURE:从文本中提取实体和关系,包含 PURE(普林斯顿大学关系提取系统)的 (PyTorch) 代码和预训练模型,如论文所述:一种令人沮丧的实体和关系提取的简便方法。

  • xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型,DMCNN、FramNet、DLRNN、DBRNN、GCN、DAG-GRU、JMEE、PLMEE等方法

  • 231sm/Reasoning_In_EE 利用本体表示学习实现低资源的事件抽取

  • zjunlp/openue 开源的通用文本信息抽取工具 三元组抽取 事件抽取 槽填充和意图检测

  • thunlp/OpenNRE 开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,CNN、BERT、bag-level PCNN-ATT。

  • thunlp/NREPapers 神经网络关系抽取必读论文列表,覆盖了较为经典的神经网络关系抽取领域的已发表论文、综述等。

  • zjunlp/DocED 跨句事件抽取旨在研究如何同时识别篇章内多个事件。提出多层双向网络Multi-Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。

  • cuhksz-nlp/RE-AGCN 使用注意力图卷积网络的依赖驱动关系提取的实现。

  • XueFuzhao/GDPNet 构建一个潜在的多视图图来捕获令牌之间的各种可能关系。然后细化这个图来选择重要的词进行关系预测。最后,将细化图的表示和基于 BERT 的序列表示连接起来以进行关系提取。提出的 GDPNet(高斯动态时间扭曲池化网络)中,利用高斯图生成器 (GGG) 来生成多视图图的边。然后通过动态时间扭曲池 (DTWPool) 对图形进行细化。在 DialogRE 和TACRED上,表明在对话级 RE 上实现了最佳性能,并且在句子级 RE 上与最先进的性能相当。

  • dair-iitd/OpenIE-standalone 华盛顿大学 (UW) 和德里印度理工学院 (IIT 德里) 的主要开放信息提取 (Open IE) 系统。一个开放的系统提取文本中的关系。

  • zjunlp/KnowPrompt 把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。

  • yao8839836/kg-bert 知识库补全的工作,结合BERT可以将更丰富的上下文表示结合进模型中,在三元组分类、链接预测以及关系预测中达到了SOTA。

  • dolphin-zs/Doc2EDAG **金融事件提取的端到端文档级框架 。基于实体的有向无环图(EDAG), 以自回归方式生成一个 EDAG。这样,一个硬表填充任务被分解为几个更易于处理的路径扩展子任务。

  • liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。

  • percent4/knowledge_graph_demo 展示三元组抽取后形成的知识图谱,包括几本小说的实体关系

  • lemonhu/open-entity-relation-extraction 基于依存句法分析,实现面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建。

  • lancopku/Chinese-Literature-NER-RE-Dataset 中文文学文本语篇级命名实体识别与关系抽取数据集

  • tonytan48/Re-DocRED 广泛使用的文档级关系抽取基准。然而,DocRED数据集包含很大比例的假阴性示例(注释不完整)。我们修订了DocRED数据集中的4,053个文档并解决了其问题。

实体识别NER、意图识别、槽位填充

  • LeeSureman/Flat-Lattice-Transformer 中文NER 基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。

  • ljynlp/W2NER 通过将统一的 NER 建模为词-词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。

  • MiuLab/SlotGated-SLU 意图识别和槽位填充(slot filling)联合模型,提出槽位门控机制(slot-gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。

  • monologg/JointBERT 意图识别和槽位填充(slot filling)联合训练模型,使用了BERT来进行语义编码,然后做序列标注任务和多分类任务的联合训练。

  • z814081807/DeepNER 天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch

  • liuwei1206/LEBERT Lexicon Enhanced BERT模型来解决中文序列标注NER任务。相比于 FLAT,Lattice LSTM 等方法,它把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。

  • kangbrilliant/DCA-Net 用于插槽填充和意图检测的协同互感器。数据集ATIS上,意向Acc 97.7 插槽填充F1 95.9 。

  • yizhen20133868/Awesome-SLU-Survey 口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame)信息,进而将这些信息为对话状态追踪模块(DST)以及自然语言生成模块(NLG)所使用。SLU任务通常包含以下两个任务:意图识别(intent detection)和槽位填充(slot filling)。

  • wuba/qa_match 58同城推出的一款基于深度学习的轻量级问答匹配工具,它融合领域识别与意图识别,对问答意图进行精确理解。

  • qiufengyuyi/sequence_tagging 用bilstm-crf,bert等方法进行序列标记任务

  • panchunguang/ccks_baidu_entity_link CCKS&百度 2019中文短文本的实体链指 第一名解决方案

  • ShannonAI/mrc-for-flat-nested-ner 命名实体识别的统一 MRC 框架

  • AdvPicker 通过对抗性判别器有效利用未标记数据进行跨语言 NER

  • jiesutd/LatticeLSTM 使用 Lattice LSTM 的中文 NER。ACL2018论文的代码。

  • Lynten/stanford-corenlp 为文本处理任务提供了一个简单的 API,例如标记化、部分语音标记、命名实体识别、选区解析、依赖解析等。

  • thunlp/PL-Marker 用于实体和关系提取的打包悬浮标记。提出了一种新的跨度表示方法,称为 Packed Levitated Markers,通过在编码器中策略性地打包标记来考虑跨度(对)之间的依赖关系。

  • v-mipeng/LexiconAugmentedNER 拒绝为中文 NER 合并词典的复杂操作。在中文 NER 中加入词典可以非常简单,同时也很有效。

  • lonePatient/BERT-NER-Pytorch Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

  • gaohongkui/GlobalPointer_pytorch 全局指针统一处理嵌套与非嵌套NER的Pytorch实现

其他_NLP自然语言处理

  • nltk/nltk 支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。

  • keon/awesome-nlp 专用于自然语言处理 (NLP) 的资源精选列表

  • graykode/nlp-tutorial 面向深度学习研究人员的自然语言处理教程

  • stanfordnlp/stanza Stanford NLP Group 的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具。

  • huseinzol05/NLP-Models-Tensorflow 抽象总结 聊天机器人依赖解析器 实体标记 提取摘要 发电机 语言检测 神经机器翻译 光学字符识别 POS标签 问题答案 句子对 语音转文字 拼写校正 小队问题答案 抽干 文字扩充 文字分类 文字相似度 文字转语音 主题生成器 主题建模 无监督提取摘要 矢量化器 老少少的声码器 可视化 注意Attention

  • CLUEbenchmark/FewCLUE FewCLUE 小样本学习测评基准,中文版 小样本学习(Few-shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET\RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。

  • deepset-ai/haystack 开源的NLP框架,可以使用Transformer模型和LLM(GPT-3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。

  • sebastianruder/NLP-progress 它旨在涵盖传统和核心NLP任务,如依赖解析和词性标记,以及最近的任务,如阅读理解和自然语言推理。主要目的是为读者提供基准数据集的快速概述以及他们感兴趣的任务的最新技术,这是进一步研究的垫脚石。为此,如果有一个地方已经发布并定期维护任务的结果,例如公共排行榜。

  • PKU-TANGENT/nlp-tutorial NLP新手入门教程

  • yuanzhoulvpi2017/zero_nlp 中文nlp解决方案(大模型、数据、模型、训练、推理)

  • bojone/attention Attention机制的实现tensorflow/keras

  • 425776024/nlpcda 中文数据增强工具,随机实体替换\近义词\近义近音字替换\随机字删除\NER类 BIO 数据增强\随机置换邻近的字\百度中英翻译互转\中文等价字替换

  • wac81/textda Python3中文文本的数据增强

  • zhanlaoban/EDA_NLP_for_Chinese 适合中文语料的数据增强EDA的实现

  • akkarimi/aeda_nlp 一种更简单的文本分类数据增强技术.插入符号。

  • rz-zhang/SeqMix 数据增强⽅法,通过序列混合增强活动序列标记。

  • clovaai/ssmix 数据增强⽅法,SSMix⽅法在⽂本input上通过巧妙的⽅法进⾏mixup,⽽不像前⾯⼤部分使⽤在 hidden层上。该⽅法在保留⼤部分重要token的前提下基于⼀些信息替换⼀个新的 span进来。

  • ShomyLiu/Neu-Review-Rec Pytorch的基于评论文本的深度推荐系统模型库。DeepCoNN(WSDM'17)、D-Attn(RecSys'17)、ANR(CIKM'18)、NARRE(WWW'18)、MPCN(KDD'18)、TARMF(WWW'18)、CARL(TOIS'19)、CARP(SIGIR'19)、DAML(KDD'19)

  • squareRoot3/Target-Guided-Conversation 目标指导的开放域对话,开放域聊天中目标引导.

  • flairNLP/flair 最先进的NLP框架。由柏林洪堡大学开发。将先进的NLP模型应用于文本,如NER、词性标记 (PoS)、对生物医学的特殊支持、感知消歧和分类。Flair具有简单的界面,允许不同的单词和文档嵌入,包括Flair嵌入,BERT嵌入和ELMo嵌入。

  • NVIDIA/NeMo 对话式 AI 工具包,专为从事ASR\TTS\语言模型和NLP的研究人员而构建。NeMo的主要目标是帮助来自工业界和学术界的研究人员重用以前的工作(代码和预训练模型),并更轻松地创建新的对话AI模型。所有 NeMo 模型都使用 Lightning 进行训练,训练可自动扩展到 1000 多个 GPU。此外,NeMo 威震天 LLM 模型可以使用张量和管道模型并行性训练多达 1 万亿个参数。NeMo 模型可以针对推理进行优化,并使用 NVIDIA Riva 针对生产用例进行部署。

  • lancopku/pkuseg-python 多领域中文分词工具

  • JasonForJoy/MPC-BERT 一种预训练的多方会话理解语言模型.多方会话(MPC)的各种神经模型在收件人识别、说话人识别和反应预测等方面取得了显著的进展。

  • airaria/TextBrewer 基于PyTorch的NLP任务知识蒸馏工具包,适用于多种模型结构,支持自由组合各种蒸馏策略,并且在文本分类、阅读理解、序列标注等典型NLP任务上均能获得满意的效果。

  • czhang99/SynonymNet 基于多个上下文双向匹配的同义实体发现

PRADO 用于文档分类的投影注意网络 性能媲美BERT,但参数量仅为1/300 tensorflow/models/tree/master/research/sequence_projection

  • stanford-futuredata/ColBERT 基于上下文(contextualized)的后期交互的排序模型 Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 兼顾匹配的效率和doc中的上下文信息

  • salesforce/pytorch-qrnn 准循环神经网络Quasi-Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快

  • ChenghaoMou/pytorch-pQRNN pQRNN 结合一个简单的映射和一个quasi-RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。

  • RUCAIBox/TG_CRS_Code TG-ReDial相应的推荐、回复生成、主题预测功能实现。

  • Qznan/QizNLP 快速运行分类、序列标注、匹配、生成等NLP任务的Tensorflow框架 (中文 NLP 支持分布式)

  • salesforce/WikiSQL 用于为关系数据库开发NLP界面的大型众包数据集。 WikiSQL 是与Seq2SQL 一起发布的数据集。使用强化学习从自然语言生成结构化查询。

  • toizzy/tilt-transfer 运行TILT迁移学习实验的代码 让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。

  • XiaoMi/MiNLP/minlp-tokenizer 小米 AI NLP 团队的平台 MiNLP 开源了中文分词功能

  • explosion/spaCy 工业级强度的NLP工具包,被称为最快的工业级自然语言处理工具。支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

  • RUCAIBox/CRSLab 用于构建会话推荐系统(Conversational Recommender System CRS)的开源工具包。 对话推荐任务主要拆分成三个任务:推荐任务(生成推荐的商品),对话任务(生成对话的回复)和策略任务(规划对话推荐的策略)。模型 CRS 模型 ReDial、KBRD、KGSF、TG-ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT

  • RUCAIBox/CRSPapers 选取了近年来基于深度学习的对话推荐系统相关论文(共 62 篇),并根据工作的类型进行分类,以供参考。

  • nlp-uoregon/trankit 用于多语言自然语言处理的基于轻型变压器的Python工具包 支持以下任务:句子分割。标记化。多字令牌扩展。词性标记。形态特征标记。依赖性解析。命名实体识别。

  • yizhen20133868/NLP-Conferences-Code 记录NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集

  • cuhksz-nlp/DGSA 基于方向建模图卷积网络的联合方面提取和情感分析.输入:由句子生成的依存句法分析树得到的图;句子(词序列).输出表示为一个标签序列.可用于序列标注、ER 和情感分析。

  • FedML-AI/FedNLP FedNLP:自然语言处理中的联合学习研究平台

  • graph4ai/graph4nlp 一个易于使用的NLP图形神经网络库。应用:文本分类、神经机器翻译、摘要、KG补全:预测konwledge图中两个现有实体之间的缺失关系。数学问题解决:自动解决数学习题,用易懂的语言提供问题的背景信息。名称实体识别、问题生成。

  • PaddlePaddle/PaddleNLP 简单易用且易于开发的强大功能。开发的简单易用的自然覆盖处理模型并提供开发者的简单易用的自然覆盖处理模型,并提供NLP 多场景的语言库供灵活使用的需求。

  • huybery/r2sql Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)

  • facebookresearch/GENRE 首创生成式实体检索,通过seq2seq方法(BART)生成有意义的实体名称从而实现实体链接,而且还可以取得SOTA结果。

  • sebastian-hofstaetter/intra-document-cascade IDCM模型: 文档内部级联选择段落服务于文档排序。采用文档内部级联策略,在运行复杂并且高效果的排序模型(ETM,Effective Teacher Model)之前,使用高效率的模型(ESM,Efficient Student Model)进行候选文档中多余段落的删除。相比bert,具有基本相同的效果,而且查询延迟降低400%以上。

  • jingtaozhan/DRhard 通过难负例优化稠密向量文档检索模型训练,利用动态难负例抽样提高模型效果,以及将随机抽样结合静态难负例抽样提高模型稳定性。

  • yechens/NL2SQL Text2SQL 语义解析数据集、解决方案、paper资源整合项。Text to SQL( 以下简称Text2SQL),是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域中的子任务。

  • destwang/CTCResources 中文文本纠错(Chinese Text Correction, CTC)相关论文、数据集。

  • fushengwuyu/chinese_spelling_correction 中文文本纠错模型:bert语言模型+字音字形相似度 、MLM、seq2seq

  • grammarly/gector ”GECToR – Grammatical Error Correction: Tag, Not Rewrite”,使用给序列打标签来替代主流的Seq2Seq模型。本文采取了一种迭代的方法,也就是通过多次(其实最多也就两三次)序列打标签。

  • destwang/CTC2021 本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

  • Jingjing-NLP/VOLT 借鉴边际效用通过最优转移学习词表。

  • thunlp/OpenAttack 文本对抗攻击工具包,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。

  • thunlp/TAADpapers 文本对抗攻击和防御必读论文列表。

  • lupantech/InterGPS 基于符号推理的几何数学题求解器。建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。

  • Helsinki-NLP/Tatoeba-Challenge 这是一个机器翻译的挑战集,包含 29G 翻译单元在 3,708 位ext 覆盖 557 种语言。该包包括从涵盖 134 种语言的 Tatoeba.org 衍生的 631 套测试集的版本。此包提供以多种语言进行机器翻译的数据集,并提供从 Tatoeba 获取的测试数据。

  • princeton-nlp/LM-BFF 更好的Few-shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板; 2.将样本示例以上下文的形式添加到每个输入中,关键是如何对示例进行采样.

  • thunlp/PromptPapers 关于基于提示的预先训练语言模型的必读论文。

  • linzehui/mRASP 通过利用对齐信息预训练多语言神经机器翻译. 代表多语言随机对齐替换预训练,是一种预训练的多语言神经机器翻译模型。 它在包含 32 个语言对的大规模多语言语料库上进行了预训练。 获得的模型可以在下游语言对上进一步微调。 为了有效地使具有相似含义的单词和短语在多种语言的表示中更接近,我们引入了随机对齐替换 (RAS) 技术。

  • soft-prompt-tuning The Power of Scale for Parameter-Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量

  • facebookresearch/ParlAI 在各种公开可用的对话数据集上训练和评估 AI 模型的框架。

  • CAMTL/CA-MTL 条件自适应多任务学习:使用更少的参数和更少的数据改进 NLP 中的迁移学习

  • thunlp/WantWords 一个开源的在线反向词典。

  • pcyin/tranX 用于将自然语言查询映射到机器可执行代码的通用神经语义解析器

  • hooman650/SupCL-Seq 下游优化序列表示的监督对比学习

  • openai/grade-school-math 包含 8.5K 高质量语言多样化小学数学单词问题的数据集。对于每个测试问题,我们提供从 6B 微调、6B 验证、175B 微调和 175B 验证生成的解决方案。

  • makcedward/nlpaug NLP 的数据增强

  • hankcs/pyhanlp 中文分词、依存句法分析

  • shibing624/pycorrector 中文文本纠错工具。支持中文音似、形似、语法错误纠正。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

  • HillZhang1999/MuCGEC MuCGEC中文纠错数据集及文本纠错SOTA模型开源

  • PengheLiu/Cn_Speck_Checker 通过统计方法对中文单词进行自动纠错

  • taozhijiang/chinese_correct_wsd 简易中文纠错消歧 用户输入语句的同音自动纠错.

  • beyondacm/Autochecker4Chinese 中文文本错别字检测以及自动纠错

  • iqiyi/FASPell 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

  • hiyoung123/SoftMaskedBert 中文文本纠错模型。使用两个网络模型,一个用于错误检测;另一个基于BERT进行纠错。

  • ACL2020SpellGCN/SpellGCN 将语音学和视觉相似性结合到汉语拼写检查\文本纠错

  • MuCGEC/scorers/ChERRANT 借鉴了英文上主流的GEC(Grammatical Error Correction 语法纠错)评估工具ERRANT,搭建了中文GEC评估工具ChERRANT(Chinese ERRANT)。ChERRANT的主要功能是通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,从而评估语法纠错模型的性能。应用:搜索query纠错、语音纠错、舆情文本纠错

  • liushulinle/CRASpell 使用复制机制改进中文拼写纠正的上下文错字稳健方法

  • thunlp/OpenBackdoor 文本后门攻防开源工具包(NeurIPS 2022 D&B)

  • xueyouluo/ccks2021-track2-code “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析 。基于BERT的Biaffine结构,直接预测文本构成的所有span的类别。相比单纯基于span预测和基于MRC的预测,Biaffine的结构可以同时考虑所有span之间的关系,从而提高预测的准确率。

  • kpu/kenlm 高效统计语言模型kenlm:新词发现、分词、智能纠错

  • ryanzhumich/Contrastive-Learning-NLP-Papers NLP 对比学习是一种学习嵌入空间的技术,使得相似的数据样本对具有接近的表示,而不同的样本彼此相距很远。 它可以在有监督或无监督的设置中使用,使用不同的损失函数来生成特定于任务或通用的表示。 在各种 NLP 任务中提供了有希望的性能改进,而且还提供了所需的特性,例如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置中的数据高效学习、可解释性和可解释性 .

  • textstat/textstat 用于计算文本对象(段落、句子、文章)的可读性统计数据。

  • nonebot/nonebot2 跨平台 Python 异步聊天机器人框架

  • mit-han-lab/smoothquant 对大语言模型的准确和高效的训练后量化

  • causaltext/causal-text-papers 因果推理和自然语言处理的交叉研究。

  • zhijing-jin/Causality4NLP_Papers 关于自然语言处理因果关系的论文阅读列表

  • DaDaMrX/ReaLiSe 多模态模型中文拼写检查器。包括:文字语义、文字发音、文字图形。

  • dbohdan/structured-text-tools 用于操作结构化文本数据的命令行工具列表

  • huggingface/tokenizers 提供当今最常用的分词器的实现,重点关注性能和多功能性。

  • jessevig/bertviz 在NLP模型中可视化注意力(BERT,GPT2,BART等)

  • lutzroeder/netron 用于神经网络、深度学习和机器学习模型的可视化工具

  • sebastianruder/NLP-progress 用于跟踪自然语言处理 (NLP) 进展的存储库,包括数据集和最常见 NLP 任务的最新技术水平。

  • DengBoCong/nlp-paper 自然语言处理领域下的相关论文(附阅读笔记),复现模型以及数据处理等

  • ssut/py-googletrans (非官方)Googletrans:免费且无限制的 Google 翻译 API for Python。翻译完全免费。

  • jgm/pandoc 通用标记转换器。一个Haskell库,用于从一种标记格式转换为另一种标记格式,以及使用该库的命令行工具。

  • shibing624/bart4csc-base-chinese BART中文拼写纠错模型,训练使用了SIGHAN + Wang271K 中文纠错数据集,在SIGHAN2015的测试集上达到接近SOTA水平。

网络与前后端开发

JavaScript框架

  • twbs/bootstrap 最流行的 HTML、CSS 和 JavaScript 框架,用于在 Web 上开发响应式、移动优先的项目。

  • nodejs/node Node.js JavaScript 运行时

  • denoland/deno JavaScript 和 TypeScript 的现代运行时。

  • microsoft/TypeScript JavaScript 的一个超集,它编译为干净的 JavaScript 输出。

  • sindresorhus/awesome-nodejs 令人愉快的 Node.js 包和资源

  • getify/You-Dont-Know-JS 一系列深入探讨 JavaScript 语言核心机制的书籍。

  • vercel/next.js Next.js 被一些世界上最大的公司使用,能够通过最新的 React 扩展来创建全栈 Web 应用程序,并集成强大的基于 Rust 的 Js 工具以实现最快的构建。

  • vitejs/awesome-vite 与 Vite 相关的精彩事物的精选列表

  • vuejs/core 一个渐进的、可增量采用的 JavaScript 框架,用于在 Web 上构建 UI。

  • vuejs/vue 这是 Vue 2 的存储库。一个用于构建用户界面的渐进式框架。它从头开始设计为可增量采用,并且可以根据不同的用例在库和框架之间轻松扩展。它由一个仅关注视图层的平易近人的核心库和一个由支持库组成的生态系统组成,可帮助您解决大型单页应用程序中的复杂性。

  • cuixiaorui/mini-vue 实现最简 vue3 模型,帮助你更高效地学习 vue3 源代码

  • axios/axios 用于浏览器和 node.js 的基于 Promise 的 HTTP 客户端

  • remix-run/remix 建立更好的网站。使用 Web 基础创建现代、有弹性的用户体验。全栈 Web 框架,可让您专注于用户界面并通过 Web 基础知识进行工作,以提供快速、流畅且有弹性的用户体验,可部署到任何 Node.js 服务器甚至非 Node.js 环境像 Cloudflare Workers 一样的边缘。

  • oven-sh/bun 多合一快速且易于使用的工具。 不需要 1,000 个用于开发的 node_modules,你只需要 bun。令人难以置信的快速 JavaScript 运行时、捆绑器、测试运行器和包管理器 - 合二为一

  • denoland/fresh 下一代 Web 框架,专为速度、可靠性和简单性而构建。一些突出的特点:边缘实时渲染。在客户端上无缝渲染某些组件,以实现最大的交互性。零运行时开销:默认情况下不向客户端发送 JS。没有构建步骤。无需配置。TypeScript 支持。文件系统路由 à la Next.js。

  • nestjs/nest 用于在 TypeScript 和 JavaScript(ES6、ES7、ES8)之上构建高效、可扩展和企业级服务器端应用程序的渐进式 Node.js 框架

  • chartjs/Chart.js 使用 canvas 标签的简单 HTML5 图表

  • juliangarnier/anime 轻量级的JS动画库,具有简单但功能强大的 API。

  • mrdoob/three.js 易于使用、轻量级、跨浏览器的通用 3D 库。当前仅包含 WebGL 渲染器,但 WebGPU(实验性)、SVG 和 CSS3D 渲染器也可作为插件使用。

  • slidevjs/slidev 面向开发人员的演示幻灯片

  • TheAlgorithms/JavaScript 在 JavaScript 中为初学者实现的算法和数据结构,遵循最佳实践。

  • parallax/jsPDF 面向所有人的客户端 JavaScript PDF 生成。

  • cheeriojs/cheerio 用于解析和操作 HTML 和 XML 的快速、灵活且优雅的库。

  • videojs/video.js 视频.js - 开源HTML5视频播放器

  • showdownjs/showdown Js 编写的双向 Markdown 到 HTML 到 Markdown 转换器

  • shadcn/taxonomy 使用新路由器、服务器组件和 Next.js 13 中的所有新功能构建的开源应用程序。

  • xgrommx/awesome-redux JS 应用的状态容器,提供可预测的状态管理

  • wasp-lang/wasp 使用 React 和 Node.js 开发全栈 Web 应用程序的最快方法。

  • Asabeneh/30-Days-Of-JavaScript 30 天的 JavaScript 编程挑战是在 30 天内学习 JavaScript 编程语言的分步指南。

  • trekhleb/javascript-algorithms 用 JavaScript 实现的算法和数据结构,带有解释和进一步阅读的链接

  • purescript/purescript 一种小型的强类型编程语言,具有表达类型,编译为 JavaScript,由 Haskell 编写并受其启发。

  • vercel/pkg 将 Node.js 项目打包到可执行文件中,该可执行文件甚至可以在未安装 Node.js 的设备上运行。

  • v8/v8 V8 是 Google 的开源 JavaScript 引擎。V8 实现了 ECMA-262 中指定的 ECMAScript。V8 实现了 ECMA-262 中指定的 ECMAScript。V8是用C++编写的,用于谷歌的开源浏览器谷歌浏览器。V8 实现了 ECMA-262 中指定的 ECMAScript。

  • AssemblyScript/assemblyscript 类似 TypeScript 的 WebAssembly 语言。

  • chakra-core/ChakraCore 一个带有 C API 的 JavaScript 引擎,您可以使用它向任何 C 或 C 兼容项目添加对 JavaScript 的支持。它可以在Linux macOS和Windows上为x64处理器编译。x86 和 ARM 仅适用于 Win。未来的目标是在Linux上支持x86和ARM处理器,在macOS上支持ARM。

  • jerryscript-project/jerryscript 用于物联网的超轻量级 JS 引擎。适用于资源受限的设备,如微控制器。它可以在 RAM 小于 64 KB 且闪存小于 200 KB 的设备上运行。

  • svaarala/duktape 可嵌入的Js引擎,专注于可移植性和紧凑的占地面积.Duktape 很容易集成到 C/C++ 项目中:将 duktape.h 和 duk_config.h 添加到 duktape.c 您的构建中,并使用 Duktape API 从 C 代码调用 ECMAScript 函数,反之亦然。

  • boa-dev/boa 用Rust编写的可嵌入的实验性Js引擎。目前,它支持某些语言。

  • quickjs-zh/QuickJS 小型并且可嵌入的Js引擎,支持ES2020规范,包括模块,异步生成器和代理器。

  • GoogleChromeLabs/jsvu jsvu 可以轻松安装各种 JavaScript 引擎的最新版本,而无需从源代码编译它们。

  • cesanta/elk 用于嵌入式系统的低占用空间 JavaScript 引擎。它实现了 ES6 的一个小但可用的子集。它专为微控制器开发而设计。Elk 不是完全用 C/C++ 编写固件代码,而是允许将 JavaScript 自定义添加到用 C 开发的固件中 - 这是让客户扩展/自定义设备功能的好方法。

  • kaluma-project/kaluma RP2040(Raspberry Pi Pico) 的微型 JavaScript 运行时

  • Taritsyn/JavaScriptEngineSwitcher JavaScript 引擎切换器确定了访问流行 JavaScript 引擎基本功能的统一接口。此库允许您快速轻松地切换到使用另一个 JavaScript 引擎。

  • webpack/webpack JavaScript和相关资源的捆绑器。将许多模块打包到几个捆绑资产中。代码拆分允许按需加载应用程序的各个部分。通过“加载器”,模块可以是CommonJs,AMD,ES6模块,CSS,Images,JSON,Coffeescript,LESS,...和你的定制东西。

  • ryanmcdermott/clean-code-javascript 适用于 JavaScript 的干净代码概念

  • babel/babel 用于编写下一代 JavaScript 的编译器。一个帮助你用最新版本的 JavaScript 编写代码的工具。当您支持的环境本身不支持某些功能时,Babel 将帮助您将这些功能编译为受支持的版本。

  • goldbergyoni/nodebestpractices node.js最佳实践列表

  • sahat/hackathon-starter node.js Web 应用程序的样板

  • sorrycc/awesome-javascript 很棒的浏览器端 JavaScript 库、资源。

  • leonardomso/33-js-concepts: 每个开发人员都应该知道的 33 个 JavaScript 概念。

  • 30-seconds/30-seconds-of-code 满足您所有开发需求的简短 JavaScript 代码片段

  • saghul/txiki.js 使用 QuickJS、libuv 构建的微型 JavaScript 运行时

  • gpujs/gpu.js GPU 加速的 JavaScript

  • nvm-sh/nvm node版本管理器 - 符合 POSIX 标准的 bash 脚本,用于管理多个活动node.js版本

  • NativeScript/NativeScript 通过原生平台 API 为 JavaScript 提供支持。世界上最好的(TypeScript,Swift,Objective C,Kotlin,Java)。使用你喜欢的Angular,Capacitor,Ionic,React,Solid,Svelte,Vue:SwiftUI,Jetpack Compose,Flutter,你的名字兼容。

  • MostlyAdequate/mostly-adequate-guide javascript指南

  • reasonml/reason 利用JavaScript和OCaml生态系统的简单,快速和类型的安全代码。OCaml是Caml的继承者,CAML的缩写最初代表Categorical Abstract Machine Language,分类抽象机语言,不过后来,将这个抽象机淘汰掉了。OCaml有一个巨大并强悍的标准库,这使得她可以像Py或者Perl一样可以方便地开发各种应用程序,健壮的模块化与面向对象编程结构又使得她可以胜任大规模软件工程项目。

  • rescript-lang/rescript-compiler 一种健壮的类型语言,可以编译成高效且人类可读的 JavaScript。它带有一个闪电般的快速编译器工具链,可扩展到任何代码库大小。

  • mbasso/awesome-wasm 关于 WebAssembly 生态系统的精彩事物的精选列表。

前端开发框架及项目

  • facebook/react Web 和本机用户界面的库。用于构建用户界面的 JavaScript 库。声明式:React 使创建交互式 UI 变得轻松。为应用程序中的每个状态设计简单的视图,React 将在数据更改时有效地更新和渲染正确的组件。声明性视图使代码更可预测、更易于理解且更易于调试。基于组件:构建管理其自身状态的封装组件,然后组合它们以创建复杂的 UI。由于组件逻辑是用 JavaScript 而不是模板编写的,因此您可以轻松地通过应用传递丰富的数据,并将状态排除在 DOM 之外。一次学习,随处编写:我们不会对您的技术堆栈的其余部分做出假设,因此您可以在 React 中开发新功能,而无需重写现有代码。React 还可以使用 Node 在服务器上渲染,并使用 React Native 为移动应用程序提供支持。

  • facebook/create-react-app 通过运行一个命令来设置新式react Web 应用。

  • facebook/react-native 使用 React 构建本机应用程序的框架

  • enaqx/awesome-react 关于 React 生态系统的精彩内容的集合

  • mui/material-ui 即用型基础 React 组件,永久免费。它包括 Material UI,它实现了 Google 的 Material Design。

  • airbnb/javascript JavaScript 风格指南。

  • bolshchikov/js-must-watch 关于javascript的必看视频

  • google/material-design-icons 来自谷歌两个不同的官方图标集,使用相同的底层设计。材质图标是经典套装,材质符号于 2022 年 4 月推出,基于可变字体技术构建。

  • google/material-design-lite Material Design Lite 允许您为静态内容网站添加 Material Design 外观。它不依赖于任何JavaScript框架或库。针对跨设备使用进行了优化,在较旧的浏览器中优雅地降级,并提供从一开始就可以访问的体验。

  • ant-design/ant-design 企业级 UI 设计语言和 React UI 库

  • youzan/vant 一个轻量级的、可定制的 Vue UI 库,用于移动 Web 应用程序。特性: 性能极佳,组件平均体积小于 1KB(min+gzip)、80+ 个高质量组件,覆盖移动端主流场景、零外部依赖,不依赖三方 npm 包、使用 TypeScript 编写,提供完整的类型定义、单元测试覆盖率超过 90%,提供稳定性保障、提供丰富的中英文文档和组件示例、提供 Sketch 和 Axure 设计资源、支持 Vue 2-Vue 3 和微信小程序、支持 Nuxt 2-Nuxt 3,提供 Nuxt 的 Vant Module、支持主题定制,内置 700+ 个主题变量、支持按需引入和 Tree Shaking、支持无障碍访问(持续改进中)、支持深色模式、支持服务器端渲染、支持国际化,内置 30+ 种语言包

  • electron/electron使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序

  • angular/angular 用于构建移动和桌面 Web 应用程序的开发平台,使用 TypeScript/ JavaScript 和其他语言。

  • necolas/react-native-web 跨平台的 React UI 包。可访问的 HTML,支持不同的设备和输入模式,渲染语义标签。高质量的互动,支持手势和多种输入模式(触摸、鼠标、键盘)。可靠的款式,依赖作用域样式和自动供应商前缀,支持 RTL 布局。响应式容器,响应元素调整大小事件。增量采用,与现有的 React DOM 组件互操作。仅捆绑您使用的内容。

  • gatsbyjs/gatsby 无头网络的最快前端。用 React 构建现代网站。Gatsby 是基于 React,可帮助开发人员构建速度极快的网站和应用程序。它将动态渲染网站的控制和可扩展性与静态网站生成的速度相结合,创造了一个全新的可能性网络。

  • vuejs/awesome-vue 与 Vue 相关的精彩事物的精选列表

  • vuetifyjs/awesome-vuetify Vuetify 是一个不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。您将在下面找到一系列应用程序和工具,这些应用程序和工具有助于展示 Vuetify 所提供的最佳功能

  • nestjs/awesome-nestjs 与NestJS 相关的精彩事物的精选列表

  • layui/layui 一套遵循原生态开发模式的 Web UI 组件库,采用自身轻量级模块化规范,易上手,可以更简单快速地构建网页界面。

  • dcloudio/uni-app 使用 Vue.js开发小程序、H5、App的统一前端框架。使用 Vue 语法编写代码,uni-app 框架将其编译到 小程序(微信/支付宝/百度/字节跳动/QQ/快手/钉钉/小红书)、App(iOS/Android)、H5等平台,保证正确并达到优秀体验。

  • MrXujiang/h5-Dooring 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台.

  • qianguyihao/Web 千古前端图文教程,超详细的前端入门到进阶知识库。从零开始学前端,做一名精致优雅的前端工程师。

  • PatrickJS/awesome-angular 令人敬畏的 Angular 资源的精选列表

  • hexojs/hexo 一个快速,简单和强大的博客框架,由Node.js提供支持。

  • statelyai/xstate 现代 Web 的状态机和状态图。状态图是用于对有状态、反应性系统进行建模的形式。这对于以声明方式描述应用程序的行为(从各个组件到整个应用程序逻辑)非常有用。

  • akveo/blur-admin : AngularJS Bootstrap Admin 管理面板前端框架

  • ColorlibHQ/gentelella 免费Bootstrap4 管理仪表板模板

  • akveo/ngx-admin 基于Angular 10 +的可定制管理仪表板模板

  • tabler/tabler 建立在Bootstrap上的HTML Dashboard UI 工具包

  • coreui/coreui-free-bootstrap-admin-template 基于由专业人士创建和支持的企业级手工制作的 UI 组件库构建的开源 Bootstrap 管理仪表板模板。CoreUI 管理模板可帮助您比以前更快地构建可靠的 Web 应用。CoreUI提供4个版本:Angular,Bootstrap,React.js和Vue.js。

  • puppeteer/puppeteer Node.js 库,提供了一个高级 API 来控制 DevTools 协议上的 Chrome/Chromium。Puppeteer默认以无头模式运行,但可以配置为在完整(“有头”)Chrome / Chromium中运行。示例:生成页面的屏幕截图和 PDF。对 SPA(单页应用程序)进行爬网并生成预呈现的内容(即“SSR”(服务器端呈现))。自动化表单提交、UI 测试、键盘输入等。使用最新的 JavaScript 和浏览器功能创建自动化测试环境。捕获站点的时间线跟踪,以帮助诊断性能问题。测试Chrome扩展程序。

  • ant-design/ant-design-pro React企业应用程序的全新 UI 解决方案。

  • ColorlibHQ/AdminLTE 基于 Bootstrap 4 的免费管理仪表板模板

  • chuzhixin/vue-admin-better vue后台管理

  • vbenjs/vue-vben-admin 免费开放源码的中间端和后端模板,使用最新的 vue3,vite2,TypeScript 和其他主流技术开发,可作为学习参考。

  • lyt-Top/vue-next-admin 基于 vue3.x + CompositionAPI setup 语法糖 + typescript + vite + element plus + vue-router-next + pinia 技术,适配手机、平板、pc 的后台开源免费模板,实现快速开发。

  • PanJiaChen/vue-element-admin 后台前端解决方案,基于 vue 和 element-ui

  • cool-team-official/cool-admin-vue 很酷的后台权限管理框架,模块化、插件化、CRUD极速开发,基于midway.js 3.0、typeorm、mysql、jwt、element-ui、vuex、vue-router、vue等构建

  • flipped-aurora/gin-vue-admin 基于vite+vue3+gin搭建的开发基础平台(支持TS,JS混用),集成jwt鉴权,权限管理,动态路由,显隐可控组件,分页封装,多点登录拦截,资源权限,上传下载,代码生成器,表单生成器。

  • biubiubiu01/vue3-bigData 基于vue的大数据分析系统,包含各种echarts和vue

  • RainManGO/vue3-composition-admin 基于vue3 的管理端模板

  • newpanjing/simpleui 基于vue+element-ui的django admin现代化主题。全球20000+网站都在使用

  • pure-admin/vue-pure-admin Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)

  • YunaiV/ruoyi-vue-pro 基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 微信小程序,支持 RBAC 动态权限、数据权限、SaaS 多租户、Flowable 工作流、三方登录、支付、短信、商城等功能。

  • elunez/eladmin eladmin jpa 版本:基于 Spring Boot 2.6.4、 Jpa、 Spring Security、Redis、Vue的前后端分离的后台管理系统,采用分模块开发方式, 权限控制采用 RBAC,支持数据字典与数据权限管理,一键生成前后端代码,支持动态路由

  • pure-admin/vue-pure-admin Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)

  • elunez/eladmin-web eladmin jpa版本:前端源码,项目基于 Spring Boot 2.1.0 、 Spring Boot Jpa、 Spring Security、Redis、Vue的前后端分离后台管理系统

  • macrozheng/mall-swarm 一套微服务商城系统,采用了 Spring Cloud 2021 & Alibaba、Spring Boot 2.7、Oauth2、MyBatis、Docker、Elasticsearch、Kubernetes等核心技术,同时提供了基于Vue的管理后台方便快速搭建系统。mall-swarm在电商业务的基础集成了注册中心、配置中心、监控中心、网关等系统功能。文档齐全,附带全套Spring Cloud教程。

  • YunaiV/yudao-cloud 基于 Spring Cloud Alibaba + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能。

  • macrozheng/mall-learning mall学习教程,架构、业务、技术要点全方位解析。mall项目(50k+star)是一套电商系统,使用现阶段主流技术实现。涵盖了SpringBoot 2.3.0、MyBatis 3.4.6、Elasticsearch 7.6.2、RabbitMQ 3.7.15、Redis 5.0、MongoDB 4.2.5、Mysql5.7等技术,采用Docker容器化部署。

  • jaywcjlove/icongo 搜索 SVG 图标。轻松地在 React 项目中包含流行的图标,并提供一个简单的工具将 SVG 转换为 React 组件。icongo

  • Lissy93/dashy 为您构建的自托管个人仪表板。包括状态检查,小部件,主题,图标包,UI编辑器等等!

  • DataV-Team/DataV Vue数据可视化组件库(类似阿里DataV,大屏数据展示),提供SVG边框及装饰、图表、水位图、飞线图等组件,React版已发布

  • youzan/vant-weapp 轻量、可靠的小程序 UI 组件库

  • lsqy/taro-music 基于taro + taro-ui + redux + react-hooks + typescript 开发的网易云音乐小程序

  • element-plus/element-plus Element 团队制作的 Vue.js 3 UI 库

  • newbee-ltd/newbee-mall-vue3-app Vue3 + Vant 搭建大型单页面商城项目。

  • woniudiancang/bee 微信小程序-餐饮点餐外卖-开箱即用

  • iamxjb/winxin-app-watch-life.net 微慕小程序开源版-WordPress版微信小程序

  • nslogx/Gitter 可能是目前颜值最高的GitHub微信小程序客户端

  • mark420524/question 小程序,微信答题小程序,可以进行答题,模拟考试。增加了词典查询,汉字成语查询等功能

  • ecomfe/echarts-for-weixin Apache ECharts 的微信小程序版本

  • TalkingData/iview-weapp 一套高质量的微信小程序 UI 组件库

  • mageslr/weapp-library “在线借书平台”微信小程序

  • kesixin/QuestionWechatApp 微信小程序,考试小程序,答题小程序,刷题小程序。毕业设计小程序,有前后端完整源码和数据库,易于二次开发。还可用于考试活动,企业内部考核,内部培训等职业考试刷题。

  • Tencent/wepy 小程序组件化开发框架

  • iv-org/invidious YouTube 的前端替代

  • pipipi-pikachu/PPTist 基于 Vue3.x + TypeScript 的在线演示文稿(幻灯片)应用,还原了大部分 Office PowerPoint 常用功能,支持 文字、图片、形状、线条、图表、表格、视频、音频、公式 几种最常用的元素类型,每一种元素都拥有高度可编辑能力,同时支持丰富的快捷键和右键菜单,支持导出本地 PPTX 文件,支持移动端基础编辑和预览,支持 PWA。您可以在此基础上搭建自己的在线幻灯片应用。

  • vercel/swr 用于数据获取的 React Hooks 库。“SWR”来源于 stale-while-revalidate ,由HTTP RFC 5861推广的缓存失效策略。SWR先从缓存中返回数据(过时),然后发送请求(重新验证),最后再次附带最新数据。

  • animate-css/animate.css 跨浏览器的 CSS 动画库。就像容易的事一样容易使用。

  • vercel/vercel Vercel的前端云为开发人员提供了框架、工作流程和基础设施,以构建更快、更个性化的网络。面向前端开发人员的平台,提供创新者在灵感瞬间创建所需的速度和可靠性。

  • Cveinnt/LiveTerm 在几分钟内构建终端风格的网站!

  • woocommerce/woocommerce 基于WordPress构建的可定制的开源电子商务平台。构建您能想象到的任何商务解决方案。

  • wpscanteam/wpscan WPScan WordPress安全扫描程序。为安全专业人员和博客维护人员编写,以测试其WordPress网站的安全性。

  • roots/bedrock WordPress样板,更轻松的配置和改进的文件夹结构

  • timber/timber 使用漂亮的OOP代码和Twig模板引擎创建WordPress主题

  • wp-cli/wp-cli WordPress的命令行界面。您可以更新插件,配置多站点安装等等,而无需使用Web浏览器。

  • postlight/headless-wp-starter WordPress + React 入门套件:一步启动 WordPress 驱动的 React 应用程序

  • WordPress/gutenberg WordPress及其他版本的块编辑器项目。插件可从官方存储库获得。

  • Automattic/wp-calypso 新的 WordPress.com 前端 - 使用单页 Web 应用程序对 WordPress 仪表板进行了漂亮的重新设计,由 WordPress.com REST API 提供支持。Calypso 是为在一个地方阅读、写作和管理所有 WordPress 网站而构建的。

  • roots/sage WordPress入门主题,带有Laravel Blade组件和模板,Tailwind CSS和现代开发工作流程

  • aniftyco/awesome-tailwindcss 实用工具优先的 CSS 框架,用于快速构建自定义用户界面。

  • SmallRuralDog/vue3-music VUE3+TS开发的音乐播放器,模仿mac QQ音乐。

  • tw93/Pake 很简单的用 Rust 打包网页生成很小的桌面 App

  • tauri-apps/tauri 使用 Web 前端构建更小、更快和更安全的桌面应用程序。

  • Tencent/weui 微信官方设计团队的UI库,收录了移动Web应用中最实用的widgets modules。

  • bvaughn/react-virtualized 用于高效呈现大型列表和表格数据的 React 组件

  • fyne-io/fyne 受材质设计启发的 Go 中的跨平台 GUI 工具包。它旨在使用单个代码库构建在桌面和移动设备上运行的应用程序。

  • SergioBenitez/Rocket Rust 的异步 Web 框架,专注于可用性、安全性、可扩展性和速度。

  • parcel-bundler/parcel 用于 Web 的零配置构建工具。它将出色的开箱即用开发体验与可扩展的体系结构相结合,可以将您的项目从刚开始转变为大规模生产应用程序。

  • zhaoolee/ChromeAppHeroes 谷粒-Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类

  • daybrush/moveable 可拖动、可调整大小、可缩放、可旋转、可扭曲、可捏、可分组、可捕捉

  • Blazity/next-enterprise 企业级 Next.js 样板,适用于高性能、可维护的应用。包含 Tailwind CSS、TypeScript、ESLint、Prettier、测试工具等功能,可加速您的开发。

  • jgraph/drawio JavaScript的绘图和白板编辑器

  • ToolJet/ToolJet 用于构建业务应用程序的可扩展低代码框架。连接到数据库、云存储、GraphQL、API 端点、Airtable 等,并使用拖放式应用程序构建器构建应用程序。使用 JavaScript/TypeScript 构建。

  • givanz/VvvebJs 拖放构建网站的javascript 库 。

  • strapi/strapi 领先的开源无头 CMS。100% JScript,完全可定制且开发人员优先。

  • payloadcms/payload 使用 React + TypeScript 构建一个免费开源 Headless CMS。

  • getgrav/grav 由 PHP、Markdown、Twig 和 Symfony 提供支持的现代、极快、极其简单且功能强大的平面文件 CMS

  • octobercms/october 基于 Laravel PHP 框架的自托管 CMS (Content Management System) 平台。

  • midoks/mdserver-web 一款简单Linux面板服务

  • janishar/nodejs-backend-architecture-typescript Node.js的学习为生产就绪的博客平台(如Medium和FreeCodeCamp)构建后端服务器。主要功能:基于角色,Express.js,Mongoose,Redis,Mongodb,Joi,Docker,JWT,单元集成测试。

  • iview/iview 基于 Vue.js 2.0 构建的高质量 UI 工具包

  • sveltejs/svelte 一种构建Web应用程序的新方法。它是一个编译器,它采用声明性组件并将它们转换为高效的JavaScript,通过外科手术更新DOM。

  • kriasoft/react-starter-kit Web 上最受欢迎的 Jamstack 前端模板(样板),用于使用 React 构建 Web 应用程序

  • cobiwave/simplefolio 面向开发人员的最小的个人介绍模板

  • storybookjs/storybook 前端用于单独构建UI组件和页面。专为 UI 开发、测试和文档编制而设计。组件驱动开发环境。它通过隔离组件使开发更快更容易,它可以一次只处理一个组件。在 web 应用程序中构建小的原子组件和复杂的页面,使用 Storybook 可以让你专注于组件开发,无需去关注 API 文档的编写。

  • Semantic-Org/Semantic-UI 基于自然语言有用原则的 UI 组件框架。允许开发人员通过简洁的 HTML、直观的 JavaScript 和简化的调试快速构建漂亮的网站,帮助使前端开发成为一种愉快的体验。语义采用响应式设计,允许您的网站在多个设备上扩展。

  • markedjs/marked markdown解析器和编译器。为速度而生。

  • recharts/recharts 使用 React 和 D3 重新定义的图表库

  • palantir/blueprint 基于 React 的 Web UI 工具包

  • react-native-elements/react-native-elements 跨平台 React Native UI 工具包

  • SortableJS/Sortable 适用于现代浏览器和触摸设备的可重新排序的拖放列表。不需要jQuery或框架。

  • doczjs/docz Docz 使您的代码编写和发布漂亮的交互式文档变得容易。创建展示代码的 MDX 文件,Docz 将它们转换为实时重新加载、生产就绪的网站。

  • docsifyjs/docsify 一个神奇的文档站点生成器。Docsify将一个或多个Markdown文件转换为网站,无需构建过程。

  • vuetifyjs/vuetify 不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。无需设计技能 — 创建令人惊叹的应用程序所需的一切触手可及。

  • verekia/js-stack-from-scratch 构建现代 JavaScript 堆栈的分步教程。

  • TanStack/table 用于为 TS/JS 构建功能强大的表和数据网格的无头 UI - React-Table、Vue-Table、Solid-Table、Svelte-Table

  • shadcn-ui/ui 使用Radix UI和Tailwind CSS构建的精美设计的组件。

  • t4t5/sweetalert JavaScript的“alert警报”的漂亮替代品

  • react-hook-form/react-hook-form 用于表单状态管理和验证的 React Hooks

  • typescript-cheatsheets/react 为有经验的 React 开发人员准备的备忘单,开始使用 TypeScript

  • brillout/awesome-react-components React 组件和库的精选列表。

  • nextauthjs/next-auth Auth.js 是一组基于 Web 标准 API 构建的开源包,用于在现代应用程序中使用任何 JS 运行时中任何平台上的任何框架进行身份验证。

  • ionic-team/ionic-framework 一个强大的跨平台 UI 工具包,用于使用 HTML、CSS 和 JavaScript 构建原生质量的 iOS、Android 和渐进式 Web 应用程序。

  • chakra-ui/chakra-ui 为您的 React 应用程序提供简单、模块化和可访问的 UI 组件

  • alexpate/awesome-design-systems 一系列令人敬畏的设计系统。设计系统是有关原则和最佳实践的文档集合,有助于指导团队构建数字产品。它们通常体现在 UI 库和模式库中。

  • saadeghi/daisyui 流行、最免费、最开源的顺风CSS组件库

  • Leaflet/Leaflet 用于移动友好型交互式地图的 JavaScript 库

  • date-fns/date-fns 现代 JavaScript 日期实用程序库

  • amsul/pickadate.js 移动友好,响应迅速且轻量级的jQuery日期和时间输入选择器。

  • iamkun/dayjs 不可变日期时间库替代 Moment.js具有相同的现代 API

  • rebassjs/rebass 使用风格化系统构建的 React 基元 UI 组件。

  • enzymejs/enzyme React 的 JavaScript 测试实用程序,可以更轻松地测试 React 组件的输出。您还可以操作、遍历和以某种方式模拟给定输出的运行时。

  • ill-inc/biomes-game Biomes是一个开源沙盒MMORPG,使用Next.js,Typescript,React和WebAssembly等Web技术为Web构建。

  • reagent-project/reagent 提供了一种编写高效 React 组件的方法,(几乎)只使用普通的 ClojureScript 函数。

  • meteor/meteor 一个用于构建现代 Web 应用程序的超简单环境。

  • dexteryy/spellbook-of-modern-webdev 现代 JavaScript Web 开发的大图景、同义词库和分类法

  • elm/compiler Elm的编译器,一种用于可靠Web应用程序的函数式语言。

  • mixmark-io/turndown 用JavaScript编写的HTML到Markdown转换器

  • pdf2htmlEX/pdf2htmlEX 将PDF转换为HTML,而不会丢失文本或格式。

  • gildas-lormeau/SingleFile Web扩展和CLI工具,用于将完整网页的忠实副本保存在单个HTML文件中

  • DioxusLabs/dioxus 适用于桌面、网络、移动等的全栈 GUI 库。

  • Tencent/weui-wxss 微信官方设计团队的UI库,包括最有用的小部件/模块。

  • xiaolin3303/wx-charts 微信小程序图表charts组件

  • uber/baseweb 一个由现代,响应迅速,动态组件组成的设计系统。Base Web 是 Base 的 React 实现。

  • fastlane/fastlane 自动构建和发布 iOS 和 Android 应用的最简单方法

  • astaxie/build-web-application-with-golang 一本 golang 电子书介绍如何使用 golang 构建网络

  • arwes/arwes Web 框架,用于基于未来科幻小说设计、动画和音效构建用户界面。背后的概念受到Cyberprep和Synthwave以及《星际公民》、《光环》和《创:遗产》等作品的影响。它试图激发先进的科学和技术。

  • reflex-dev/reflex 纯 Py的高性能、可自定义的 Web 应用程序。几秒钟内完成部署。

  • wanglin2/mind-map 一个 js 思维导图库,不依赖任何框架,你可以使用它来快速完成 Web 思维导图产品的开发。

  • AvaloniaUI/Avalonia 使用 C# 和 XAML 开发桌面、嵌入式、移动和 WebAssembly 应用。最受欢迎的 .NET 基金会社区项目。

  • microsoft/playwright Web测试和自动化的框架。它允许使用单个API测试Chromium,Firefox和WebKit。旨在实现常青,功能强大,可靠和快速的跨浏览器Web自动化。

  • GoogleChrome/lighthouse 针对 Web 的自动化审核、性能指标和最佳实践。分析 Web 应用和网页,收集现代性能指标和有关开发人员最佳实践的见解。

  • o2oa/o2oa 开源OA系统 - 码云GVP|Java开源oa|企业OA办公平台|企业OA|协同办公OA|流程平台OA|O2OA|OA,支持国产麒麟操作系统和国产数据库(达梦、人大金仓),政务OA,军工信息化OA

  • jgraph/drawio 可配置的图表/白板可视化应用程序。

  • librespeed/speedtest HTML5等的自托管速度测试。易设置,移动友好。

  • transloadit/uppy 下一个用于 Web 浏览器🐶的开源文件上传器。时尚的模块化 JS文件上传器,可与任何应用程序无缝集成。它速度很快,具有易于理解的 API,让您担心比构建文件上传器更重要的问题。

  • digitallyinduced/ihp 构建类型安全的 Web 应用的最快方法。 IHP 是一个新的包含电池的 Web 框架,针对长期生产力和程序员的幸福感进行了优化

  • evanw/esbuild 带来网络构建工具性能的新时代,并在此过程中创建一个易于使用的现代捆绑器。我们的工具比其他工具的速度快 10-100 倍

  • jhen0409/react-native-debugger 基于 React Native 官方调试器的独立应用程序,包括 React Inspector / Redux DevTools

  • davidsonfellipe/awesome-wpo Web 性能优化的精选列表。

  • dotnet/aspnetcore 一个跨平台的 .NET 框架,用于在 Windows、Mac 或 Linux 上构建基于云的现代 Web 应用程序。

  • ant-design/ant-design-mobile 用于构建移动 Web 应用程序的基本 UI 块。

  • react-dates/react-dates 一个易于国际化、适合移动设备的 Web 日期选择器库

  • microsoft/fluentui Fluent UI Web 表示用于构建 Web 应用程序的实用程序、React 组件和 Web 组件的集合。

  • adamschwartz/magic-of-css 一门CSS课程,让你变成魔术师。

  • AdrienTorris/awesome-blazor Blazor 的资源,这是一个使用 C#/Razor 和 HTML 的 .NET Web 框架,可通过 WebAssembly 在浏览器中运行。

  • vasanthv/talk 网络群组视频通话。没有注册。没有下载。使用 WebRTC 构建的,因此您的所有视频、音频和文本聊天都是点对点的。使用 WebRTC mesh实现的。因此,通话质量与通话人数成反比。甜蜜的数字是平均高速连接中大约 6 到 8 人。

  • steven-tey/dub 一种开源链接管理工具,供现代营销团队创建、共享和跟踪短链接。

  • adonisjs/core 全栈 Web 框架,专注于人体工程学和速度。它解决了许多 Web 开发的麻烦,为您提供了一个干净稳定的 API 来构建 Web 应用程序和微服务。

  • woai3c/visual-drag-demo 一个低代码平台的前端部分,靠拖拉拽生成页面。

  • magento/magento2 Magento开源软件提供基本的电子商务功能,可以从头开始构建独特的在线商店。

后端开发框架及项目

  • django/django 高级Python Web框架,它鼓励快速开发和干净、实用的设计。

  • swoole/swoole-src 一个事件驱动、异步、基于协程的高性能并发库,适用于 PHP。

  • celery/celery 分布式任务队列。通过消息进行通信,通常使用代理在客户端和工作线程之间进行调解。为了启动任务,客户端将消息放入队列,然后代理将消息传递给工作线程。

  • tiangolo/fastapi 现代、快速(高性能)的 Web 框架,用于基于标准 Python 类型提示使用 Python 3.7+ 构建 API。

  • humiaozuzu/awesome-flask 精选的 Flask 资源和插件列表

  • expressjs/express 快速,无配置,极简主义的node Web框架。

  • doocs/source-code-hunter 从源码层面,剖析挖掘互联网行业主流技术的底层实现原理,为广大开发者 “提升技术深度” 提供便利。目前开放 Spring 全家桶,Mybatis、Netty、Dubbo 框架,及 Redis、Tomcat 中间件等

  • withastro/astro 现代web网站构建工具 — 强大的开发人员经验,轻量级输出。

  • Tencent/mars 微信开发的跨平台网络组件。跨平台,如果您正在开发多平台或多业务应用程序,则易于部署。适用于小容量数据传输。移动平台友好,低功耗和流量消耗。适合移动应用的网络解决方案。

  • fecshop/yii2_fecshop 多语言多货币多入口的开源电商 B2C 商城,支持移动端vue, app, html5,微信小程序微店,微信小程序商城等

  • pocketbase/pocketbase 集数据库、用户管理、UI和API等工具的后端开发框架。

  • oatpp/oatpp 轻巧而强大的 C++ Web 框架,用于高度可扩展和资源高效的 Web 应用程序。它是零依赖且易于携带的。

  • codegangsta/gin Go Web 服务器的实时重新加载实用程序

  • zhoutaoo/SpringCloud 基于SpringCloud2.1的微服务开发脚手架,整合了spring-security-oauth2、nacos、feign、sentinel、springcloud-gateway等。服务治理方面引入elasticsearch、skywalking、springboot-admin、zipkin等,让项目快速进入业务开发,而不需过多时间花费在架构搭建上。

  • humiaozuzu/awesome-flask 精选的 Flask ( python web 框架) 资源和插件列表

  • chiraggude/awesome-laravel 来自Laravel生态系统的书签,软件包,教程,视频和其他酷炫资源的精选列表

  • ninenines/cowboy 用 Erlang/OTP 的小型、快速、现代的 HTTP 服务器。

  • openfaas/faas 使开发人员可以轻松地将事件驱动的函数和微服务部署到 Kubernetes,而无需重复的样板编码。将代码或现有二进制文件打包在与 OCI 兼容的映像中,以获得具有自动缩放和指标的高度可扩展的终结点。

  • ossrs/srs SRS是一个简单,高效,实时的视频服务器,支持RTMP,WebRTC,HLS,HTTP-FLV,SRT,MPEG-DASH和GB28181。

  • JeffLi1993/springboot-learning-example spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践。

  • logto-io/logto 帮助您在几分钟内建立登录、身份验证和用户身份。我们为 Web 和本机应用程序提供基于 OIDC 的身份服务和用户名、电话号码、电子邮件和社交登录的最终用户体验。

  • halo-dev/halo 强大易用的开源建站工具。

  • vercel/micro 异步 HTTP 微服务.具有异步方法的简约微服务框架。

  • fuzhengwei/itstack-demo-design 《重学Java设计模式》是一本互联网真实案例实践书籍。以落地解决方案为核心,从实际业务中抽离出,交易、营销、秒杀、中间件、源码等22个真实场景,来学习设计模式的运用。

  • doocs/advanced-java 互联网 Java 工程师进阶知识完全扫盲:涵盖高并发、分布式、高可用、微服务、海量数据处理等领域知识

  • SocketCluster/socketcluster 高度可扩展的实时发布/订阅和 RPC 框架

  • moleculerjs/moleculer 快速,现代和强大的Node.js微服务框架。它可以帮助您构建高效,可靠和可扩展的服务。Moleculer 提供了许多用于构建和管理微服务的功能。

  • sfyc23/EverydayWechat 微信助手:1.每日定时给好友(女友)发送定制消息。2.机器人自动回复好友。3.群助手功能(例如:查询垃圾分类、天气、日历、电影实时票房、快递物流、PM2.5等)

  • tinode/chat 即时通讯平台。Go 中的后端。客户端:Swift iOS,Java Android,JS webapp,可编写脚本的命令行;聊天机器人

  • 42wim/matterbridge 一个简单的聊天桥 ,Mattermost,IRC,gitter,xmpp,Slack,Discord,Telegram,rocketchat,twitch,ssh-chat,zulip,WhatsApp,Keybase,matrix,Microsoft Teams,Nextcloud,Mumble,vk等与REST API之间的桥梁

  • Tencent/APIJSON 零代码、全功能、强安全 ORM 库 🚀 后端接口和文档零代码,前端(客户端) 定制返回 JSON 的数据和结构。

  • discordjs/discord.js 一个强大的JavaScript库,用于与Discord API交互

  • pedroslopez/whatsapp-web.js 一个用于 NodeJS 的 WhatsApp 客户端库,通过 WhatsApp Web 浏览器应用程序进行连接

  • yagop/node-telegram-bot-api Node.js与官方telegram电报机器人API交互的模块。

  • telegraf/telegraf 现代telegram电报机器人API框架 Node.js

  • typeorm/typeorm 用于TypeScript和JavaScript的ORM。支持MySQL,PostgreSQL,MariaDB,SQLite,MS SQL Server,Oracle,SAP Hana,WebSQL数据库。适用于NodeJS,Browser,Ionic,Cordova和Electron平台。

  • Unitech/pm2 Node.js具有内置负载均衡器的生产进程管理器。

  • facebook/hhvm 用于执行用Hack编写的程序的虚拟机。一个开源虚拟机,设计用于执行用Hack编写的程序。HHVM 使用实时 (JIT) 编译方法来实现卓越的性能,同时保持惊人的开发灵活性。HHVM应该与内置的Web服务器一起使用,易于部署的Proxygen,或者在nginx或Apache之上基于FastCGI的网络服务器。

  • beego/beego Go 编程语言的开源、高性能 Web 框架。

  • gaia-pipeline/gaia 使用任何编程语言构建强大的管道。一个开源自动化平台,它可以轻松有趣地使用任何编程语言构建强大的管道。基于HashiCorp的go-plugin和gRPC,gaia是高效,快速,轻量级和开发人员友好的。

  • davideuler/architecture.of.internet-product 互联网公司技术架构,微信/淘宝/微博/腾讯/阿里/美团点评/百度/Google/Facebook/Amazon/eBay的架构

  • apidoc/apidoc RESTful Web API 文档生成器。

  • miguelgrinberg/flasky O'Reilly书“Flask Web Development”的配套代码,第二版。

  • slimphp/Slim PHP 微框架,可帮助您快速编写简单而强大的 Web 应用程序和 API。

  • walkor/workerman 异步事件驱动的 PHP 套接字框架。支持HTTP,Websocket,SSL和其他自定义协议。

  • filp/whoops HP 的错误处理程序框架。开箱即用,它提供了一个漂亮的错误界面,可以帮助您调试Web项目,但本质上它是一个简单而强大的堆叠错误处理系统。

  • symfony/symfony 用于Web和控制台应用程序的PHP框架以及一组可重用的PHP组件。Symfony被成千上万的Web应用程序和大多数流行的PHP项目使用。

  • composer/composer PHP 依赖管理器。Composer 帮助您声明、管理和安装 PHP 项目的依赖项。

  • guzzle/guzzle 可以轻松发送HTTP请求的PHP库,并且与Web服务集成变得简单。

  • DesignPatternsPHP/DesignPatternsPHP PHP 8.x 中几种设计模式的示例代码,这些模式大致可以分为三个不同的类别,Creational、Structural、Behavioral。

  • PHPMailer/PHPMailer PHP 的经典电子邮件发送库

  • sebastianbergmann/phpunit PHP 单元测试框架。它是单元测试框架的 xUnit 体系结构的一个实例。

  • bcit-ci/CodeIgniter 一个PHP应用程序开发框架 - 一个工具包 - 适用于使用 PHP 构建网站的人。它的目标是通过为常用任务提供一组丰富的库,以及访问这些库的简单接口和逻辑结构,使你能够比从头开始编写代码更快地开发项目。

  • nikic/PHP-Parser 用PHP编写的PHP解析器。其目的是简化静态代码分析和操作。

  • erusev/parsedown PHP 中更好的 Markdown 解析器。

  • roadrunner-server/roadrunner 高性能PHP应用程序服务器,用Go编写的进程管理器,由插件提供支持

  • laradock/laradock 适用于 Docker 的完整 PHP 开发环境。

  • egulias/EmailValidator PHP 电子邮件地址验证器

  • phalcon/cphalcon 高性能、全栈 PHP 框架作为 C 扩展提供。

  • typecho/typecho 一个PHP博客平台。简单而强大。

  • squizlabs/PHP_CodeSniffer 对PHP文件进行标记,并检测违反一组定义的编码标准的行为。

  • serbanghita/Mobile-Detect 一个轻量级的 PHP 类,用于检测移动设备(包括平板电脑)。它使用用户代理字符串与特定 HTTP 标头相结合来检测移动环境。

  • deployphp/deployer PHP部署工具,开箱即用,支持流行的框架

  • yiisoft/yii2 快速、安全和专业的 PHP 框架。开箱即用,预配置了合理的默认值。该框架很容易调整以满足您的需求,因为 Yii 被设计得很灵活。

  • Intervention/image PHP图像处理

  • Seldaek/monolog PHP将日志发送到文件、套接字、数据库和各种Web服务

  • matomo-org/matomo Google Analytics(分析)的领先开放替代方案,可让您完全控制数据。Matomo可让您轻松地从网站和应用程序中收集数据,并可视化这些数据并提取见解。隐私是内置的。

  • plausible/analytics 简单开源轻量级(<1K)和隐私友好的网络分析替代谷歌分析。

  • hasura/graphql-engine 开源产品,通过立即为您提供具有内置数据授权的 GraphQL 或 REST API,将 API 开发速度提高了 10 倍。

  • supabase/realtime 通过 WebSocket 进行广播、状态和发布更改

  • actix/actix-web 一个强大、实用且速度极快的 Rust Web 框架。

  • meolu/walle-web Devops开源项目代码部署平台

  • jenkinsci/jenkins 领先的开源自动化服务器。使用 Java 构建,提供了 1,800 多个插件来支持几乎任何事情的自动化,因此人类可以将时间花在机器无法完成的事情上。

  • spring-projects/spring-boot Spring Boot 可帮助您以绝对最少的麻烦创建由 Spring 提供支持的生产级应用程序和服务。它对 Spring 平台持自以为是的看法,以便新用户和现有用户都可以快速获得他们需要的位。您可以使用 Spring Boot 创建独立的 Java 应用程序,这些应用程序可以使用更传统的 WAR 部署启动 java -jar`。我们还提供了一个运行 Spring 脚本的命令行工具。

  • swagger-api/swagger-ui HTML、JavaScript 和 CSS 资产的集合,可从符合 Swagger 的 API 动态生成精美的文档。允许任何人(无论是您的开发团队还是最终消费者)可视化 API 的资源并与之交互,而无需任何实现逻辑。它是根据 OpenAPI(以前称为 Swagger)规范自动生成的,带有可视化文档,便于后端实现和客户端使用。

网络与前后端开发_其他

  • shengqiangzhang/examples-of-web-crawlers python爬虫例子

  • Jack-Cherish/python-spider Python3网络爬虫实战:淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等

  • gocolly/colly 优雅的 Golang 爬虫框架

  • elebumm/RedditVideoMakerBot 爬取Reddit帖子并合成视频工具

  • facert/awesome-spider 收集各种爬虫

  • AJay13/ECommerceCrawlers 实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目

  • shengqiangzhang/examples-of-web-crawlers 有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站。

  • wistbean/learn_python3_spider python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及IP代理,验证码识别,Mysql,MongoDB数据库的python使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等

  • dataabc/weiboSpider 新浪微博爬虫,用python爬取新浪微博数据

  • crawlab-team/crawlab 分布式爬虫管理平台,支持任何语言和框架

  • nwjs/nw.js 直接从 DOM/WebWorker 调用所有 Node.js 模块,并启用一种使用所有 Web 技术编写应用程序的新方法。

  • gofiber/fiber 用 Go 编写的受 Express 启发的 Web 框架

  • revel/revel 用于 Go 语言的高生产力、全栈 Web 框架。

  • digitalocean/nginxconfig.io 配置NGINX服务器所需的唯一工具。

  • hoppscotch/hoppscotch 开源 API 开发生态系统。轻量级:采用简约的 UI 设计精心打造。快速:实时发送请求和获取/复制响应。

  • yhirose/cpp-httplib 仅C++标头的 HTTP/HTTPS 服务器和客户端库

  • phanan/htaccess 有用的 .htaccess 代码段的集合。

  • mfornos/awesome-microservices 微服务架构相关原则和技术的精选列表。

  • simplex-chat/simplex-chat 第一个没有任何类型的用户标识符的消息传递平台 - 设计100%私有!iOS和安卓应用程序发布

  • go-telegram-bot-api/telegram-bot-api Telegram Bot API 的 Golang 绑定

  • LonamiWebs/Telethon 纯 Py3 MTProto API Telegram 客户端库,也适用于机器人

  • papercups-io/papercups 开源实时客户聊天。用Elixir编写的开源实时客户支持工具Web应用程序。

  • RocketChat/Rocket.Chat 将数据保护放在首位的通信平台。开源的完全可定制的通信平台,用JavaScript开发,适用于具有高标准数据保护的组织。

  • Wechat-Group/WxJava 微信开发 Java SDK ,支持包括微信支付,开放平台,小程序,企业微信,公众号等的后端开发

  • littlecodersh/ItChat 微信个人号接口、微信机器人及命令行微信,三十行即可自定义个人号机器人。

  • MustangYM/WeChatExtension-ForMac Mac微信功能拓展/微信插件/微信小助手

  • wechaty/wechaty 面向微信聊天机器人制造商的RPA(机器人流程自动化)SDK,可以帮助您在JavaScript,Python,Go和Java的6行中创建机器人,并提供跨平台支持,包括Linux,Windows,MacOS和Docker。

  • w7corp/easywechat 一个 PHP 微信 SDK,开源 SaaS 平台提供商微擎开源产品。

  • JackJiang2011/MobileIMSDK 原创多端IM通信层框架,轻量级、高度提炼,历经8年、久经考验。可能是市面上唯一同时支持UDP + TCP + WebSocket三种协议的同类开源框架,支持 iOS、Android、Java、H5、小程序、Uniapp,服务端基于Netty。

  • cluic/wxauto Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息

  • OpenIMSDK/Open-IM-Server 由前微信技术专家打造的基于 Go 实现的即时通讯(IM)项目,从服务端到客户端SDK开源即时通讯(IM)整体解决方案,可以轻松替代第三方IM云服务,打造具备聊天、社交功能的app。

  • hoochanlon/NeiJuan ChatGPT、Google产品等各类镜像与SS/V2/Clash/QuanX网络链,行业研究报告的知识储备库

  • supabase/supabase 开源Firebase替代品。Firebase 是一家实时后端数据库创业公司,它能帮助开发者很快的写出 Web 端和移动端的应用。于 2014 年 Google 收购了 Firebase,之后把 Firebase 结合到 Google 云服务中。

  • rustdesk/rustdesk 远程桌面软件,开箱即用,无需任何配置。您完全掌控数据,不用担心安全问题。

  • vasanthk/how-web-works 网络如何运作 当我们在浏览器中输入 google.com 时,幕后会发生什么?

  • signalwire/freeswitch 一种软件定义的电信堆栈,可实现从专有电信交换机到可在任何商用硬件上运行的多功能软件实施的数字化转型。可以释放任何设备的电信潜力。

  • ionsoul2014/ip2region 离线IP地址定位库和IP定位数据管理框架,10微秒级别查询效率,提供众多主流编程语言的 xdb 数据生成和查询客户端实现。

  • sogou/workflow C++ 并行计算和异步网络引擎

  • soimort/you-get youtube下载

  • XIU2/TrackersListCollection 全网热门 BT Tracker 列表

  • itgoyo/Aria2 突破百度云限速合集

  • PanDownloadServer/Server 百度云PanDownload的个人维护版本

  • liupan1890/aliyunpan 阿里云盘小白羊版 阿里云盘PC版 aliyundriver

  • yuesong-feng/30dayMakeCppServer 30天自制C++服务器,教程和源代码

  • mastodon/mastodon 基于 ActivityPub 的免费开源社交网络服务器,用户可以在其中关注并发现新朋友。 在 Mastodon 上,用户可以发布他们想要的任何东西:链接、图片、文本、视频。 所有服务器都可以作为联合网络进行互操作(一台服务器上的用户可以与另一台的用户无缝通信,包括实现 ActivityPub 的非 Mastodon 软件)

  • nostr-protocol/nostr 真正抗审查的 Twitter 替代品。最简单的开放协议,一劳永逸地创建抗审查的全球“社交”网络。 不依赖于任何受信任的**服务器,因此具有弹性; 基于加密密钥和签名,防篡改; 它不依赖于 P2P 技术,因此可以正常工作。

  • aljazceru/awesome-nostr 用于抗审查全球网络的开放协议nostr的项目和资源的精选列表,包括:协议、中继、客户端、程序库、网桥和网关、工具、NIP-05身份服务、浏览器扩展、社区、教程

  • irislib/iris-messenger 更好的社交网络Nostr的客户端。

  • damus-io/damus 类似twitter的nostr客户端,适用于iPhone、iPad和MacOS。

  • jeffthibault/python-nostr 用于创建Nostr客户端的Python库

  • vooidzero/B23Downloader Qt C++开发的B站视频、直播、漫画下载器。

  • pavlobu/deskreen 将带有网络浏览器的设备变成您计算机的辅助屏幕

  • BiglySoftware/BiglyBT 基于Azureus的功能丰富的 Bittorrent 客户端

  • zonemeen/musicn 下载高品质音乐的命令行工具

  • foamzou/melody 帮助你更好地管理音乐。帮助你将喜欢的歌曲或者音频上传到音乐平台的云盘。支持在各大音乐和视频网站检索歌曲。支持一键下载到本地,一键上传到云盘。一键“解锁”无法播放的歌曲。

  • v2rayA/v2rayA Web GUI,支持 V2Ray、Xray、SS、SSR、Trojan 和 Pingtunnel

  • curl/curl 用URL语法传输数据的命令行工具和库,支持DICT, FILE, FTP, FTPS, GOPHER, GOPHERS, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, MQTT, POP3, POP3S, RTMP, RTMPS, RTSP, SCP、SFTP、SMB、SMBS、SMTP、SMTPS、TELNET、TFTP、WS 和 WSS。提供了无数强大的功能

  • Privoce/vocechat-web VoceChat 的 Web 客户端

  • Privoce/vocechat-server-rust 超轻量级的rust编写的社交服务器。轻松集成到您的网站/应用程序。

  • snail007/goproxy golang实现的高性能http,https,websocket,tcp,socks5代理服务器,支持内网穿透,链式代理,通讯加密,智能HTTP,SOCKS5代理,黑白名单,限速,限流量,限连接数,跨平台,KCP支持,认证API。

  • mailpile/Mailpile 一个免费开放的现代,快速的电子邮件客户端,具有用户友好的加密和隐私功能

  • makeplane/plane 开源自托管项目规划工具,可帮助您以最简单的方式跟踪问题、历史和产品路线图。

  • dastergon/awesome-sre 站点可靠性和生产工程资源的精选列表。站点可靠性工程(SRE)是 IT 运维的软件工程方案。

  • openedx/edx-platform 一个面向服务的平台,用于创作和提供任何规模的在线学习。该平台是用Python和JavaScript编写的,并广泛使用Django框架。在最高级别,该平台由一个整体、一些可独立部署的应用程序(IDA)和基于ReactJS的微前端(MFE)组成。

  • lionsoul2014/ip2region 一个离线IP地址管理器框架和定位器,支持数十亿个数据段,十微秒搜索性能。适用于多种编程语言的 XDB 引擎实现

  • localForage/localForage 改进了离线存储。使用简单但功能强大的API包装IndexedDB,WebSQL或localStorage。

  • 521xueweihan/git-tips Git的奇技淫巧。Git是分布式版本管理工具,版本管理工具能记录每次的修改,只要提交到版本仓库,就可找到之前任何时刻状态(文本状态)。

  • dotnetcore/FastGithub github加速神器,解决github打不开、用户头像无法加载、releases无法上传下载、git-clone、git-pull、git-push失败等问题

  • soimort/you-get 很小的命令行实用程序,用于从 Web 下载媒体内容(视频、音频、图像),以防没有其他方便的方法可以做到这一点。

  • freefq/free 翻墙、免费翻墙、免费科学上网、免费节点、免费梯子、免费ss/v2ray/trojan节点、蓝灯、谷歌商店、翻墙梯子

  • bannedbook/fanqiang 翻墙-科学上网、翻墙工具、翻墙教程项目库

  • Dreamacro/clash Go 中基于规则的隧道。入站:HTTP,HTTPS,SOCKS5服务器,TUN设备。出站: Shadowsocks(R), VMess, Trojan, Snell, SOCKS5, HTTP(S), Wireguard。基于规则的路由:动态脚本、域、IP 地址、进程名称等。假 IP DNS:最大限度地减少对 DNS 污染的影响并提高网络性能。透明代理:通过自动路由表/规则管理重定向 TCP 和 TProxy TCP/UDP。代理组:自动回退、负载平衡或延迟测试。远程提供程序:动态加载远程代理列表。RESTful API:通过全面的 API 就地更新配置。

  • tsenart/vegeta HTTP 负载测试工具和库。超过9000!

  • Mrs4s/go-cqhttp cqhttp的golang实现,轻量、原生跨平台.容 OneBot-v11 绝大多数内容,并在其基础上做了一些扩展,详情请看 go-cqhttp 的文档。

  • zxlie/FeHelper Web前端助手,包括各种前端开发工具

  • node-red/node-red 事件驱动应用程序的低代码编程

  • baidu/amis 前端低代码框架,通过 JSON 配置就能生成各种页面。

  • taowen/awesome-lowcode 国内低代码平台从业者交流

  • brick-design/brick-design 低代码框架,支持流式布局与自由布局拖拽编排,可视化拖拽、随意嵌套组合、实时渲染、实时辅助线展示、自由布局支持辅助对齐、支持自动吸附、实时组件间距展示、实时拖拽排序、状态域管理,可视化属性配置、可视化样式配置、多设备适配展示,支持逻辑渲染、模板字符变量、表达式、自定义方法、自定义状态

  • appsmithorg/appsmith 用于构建、部署和维护内部应用程序的开源平台。您可以构建任何东西,从简单的 CRUD 应用程序、管理面板、仪表板到自定义业务应用程序和复杂的多步骤工作流。

  • alibaba/lowcode-engine 一套面向扩展设计的企业级低代码技术体系

  • jeecgboot/jeecg-boo 「企业级低代码平台」前后端分离架构SpringBoot,SpringCloud,Ant Design&Vue,Mybatis,Shiro,JWT。强大的代码生成器让前后端代码一键生成,无需写任何代码。

  • apitable/apitable 面向 API 的低代码平台,用于构建协作应用程序,比所有其他 Airtable 开源替代品都要好。

  • refinedev/refine 不受限制地构建基于 React 的 CRUD 应用程序。

  • GrapesJS/grapesjs 无需编码即可构建模板的下一代Web 构建器框架。

  • baidu/amis 前端低代码框架,通过 JSON 配置就能生成各种页面。

  • directus/directus 即时 REST+GraphQL API 和直观的无代码数据协作应用程序,适用于任何 SQL 数据库。

  • YaoApp/yao 高性能低代码应用引擎,可在数分钟内创建Web服务和应用,适用于AI、IoT、工业互联网、车联网、DevOps、能源、金融和许多其他用例。

  • illacloud/illa-builder 健壮的开源低代码平台,开发人员可以使用它来构建内部工具。通过使用ILLA的组件和动作库,开发人员可以保存大量构建工具的时间。

  • lowdefy/lowdefy 开源、自托管、低代码的框架,用于使用YAML或JSON构建内部工具、Web应用、管理面板、BI仪表板、工作流和CRUD应用。

  • openblocks-dev/openblocks 开源低代码替代方案

  • Budibase/budibase 用于在几分钟内创建内部工具、工作流和管理面板的低代码平台。支持 PostgreSQL、MySQL、MSSQL、MongoDB、Rest API、Docker、K8s 等

  • n8n-io/n8n 免费和源代码可用的公平代码许可的工作流自动化工具。跨不同服务轻松自动执行任务。

  • BuilderIO/mitosis 一次编写组件,到处运行。编译为 React、Vue、Qwik、Solid、Angular、Svelte 等

  • laravel/laravel PHP Web应用程序框架,具有富有表现力,优雅的语法。我们已经为您的下一个大创意奠定了基础——让您自由地进行创作,而不会为小事出汗。

  • laravel/framework 包含PHP Laravel框架的核心代码。

  • ziadoz/awesome-php 一个精选的列表,包含令人赞叹的 PHP 库、资源和东西。

  • top-think/think ThinkPHP Framework ——十年匠心的高性能PHP框架

  • mockery/mockery 简单而灵活的PHP模拟对象框架,用于PHPUnit,PHPSpec或任何其他的单元测试。其核心目标是提供一个具有简洁API的测试双重框架,该API能够使用人类可读的领域特定语言(DSL)清楚地定义所有可能的对象操作和交互。

  • tymondesigns/jwt-auth 适用于PHP Laravel&Lumen的JSON 网络令牌认证

  • jasontaylordev/CleanArchitecture 利用干净体系结构和 ASP.NET 核心的强大功能,为企业应用程序开发提供一种简单有效的方法。使用此模板,您可以毫不费力地创建具有 ASP.NET Core和Angular或React的单页应用程序(SPA),同时遵守清洁架构的原则。入门很简单 - 只需安装 .NET 模板。

  • httpie/cli 适用于 API 时代的现代、用户友好的命令行 HTTP 客户端。JSON支持,颜色,会话,下载,插件等。

  • nswbmw/N-blog 一起学 Node.js,使用 Express + MongoDB 搭建多人博客

  • ripienaar/free-for-dev SaaS、PaaS 和 IaaS 产品列表,这些产品对 DevOps 和 infradev 部分免费。现在有许多服务提供免费套餐,但找到它们都需要时间来做出明智的决定。

  • olistic/warriorjs 令人兴奋的编程和人工智能游戏,在 WarriorJS 中,你是一名爬上高塔到达顶层 JavaScript 剑的战士。传说持剑者在 JavaScript 语言中变得开悟,但请注意:旅程并不容易。在每一层楼,你需要编写JavaScript来指导战士与敌人作战,营救俘虏,并活着到达楼梯......

  • coreybutler/nvm-windows 适用于 Windows 的node.js版本管理实用程序。具有讽刺意味的是,用GO写的。

  • apache/brpc 使用C++语言的工业级RPC框架,通常用于高性能系统,如搜索,存储,机器学习,广告,推荐等。

  • typicode/json-server 在不到 30 秒的时间内获得零编码的完整伪造 REST API

  • ruanyf/jstraining 全栈工程师培训材料,帮助学习者掌握 JavaScript 全栈开发的基本知识,承担简单 Web 应用的前后端开发。

  • apache/thrift 一个轻量级、独立于语言的软件堆栈,用于点对点 RPC 实现。Thrift 为数据传输、数据序列化和应用程序级处理提供了干净的抽象和实现。代码生成系统将简单的定义语言作为输入,并跨编程语言生成代码,这些编程语言使用抽象堆栈来构建可互操作的 RPC 客户端和服务器。Thrift 使用不同编程语言编写的程序可以轻松共享数据和调用远程过程。由于支持 28 种编程语言,Thrift 很可能支持您当前使用的语言。Thrift 专门设计用于支持跨客户端和服务器代码的非原子版本更改。这允许您升级服务器,同时仍然能够为旧客户端提供服务;或者让较新的客户端向较旧的服务器发出请求。社区提供的关于对 API 进行版本控制时的节俭和兼容性的优秀文章可以在节俭缺失指南中找到。

  • drogonframework/drogon 基于C++14/17/20的HTTP Web应用程序框架,运行在Linux/macOS/Unix/Windows上。

  • makeplane/plane 开源JIRA,线性和高度替代。Plane 可帮助您以最简单的方式跟踪问题、史诗和产品路线图。

  • hashicorp/vagrant 用于构建和分发开发环境的工具。由Vagrant管理的开发环境可以在本地虚拟化平台(如VirtualBox或VMware)上运行,通过AWS或OpenStack在云中运行,或者在容器(如Docker或原始LXC)上运行。

  • mlandauer/cuttlefish 具有可爱Web界面的事务性电子邮件服务器

  • nylas/nylas-mail 基于现代 Web 构建的可扩展桌面邮件应用程序。

  • gorilla/websocket 一个快速、经过充分测试和广泛使用的 Go. WebSocket 实现。

  • allinurl/goaccess 一个实时 Web 日志分析器和交互式查看器,可在 *nix 系统的终端中或通过浏览器运行。

  • wasmerio/wasmer 领先的 WebAssembly 运行时,支持 WASIX、WASI 和 Emscripten,它使令人难以置信的轻量级容器能够在任何地方运行:从桌面到云,边缘甚至浏览器。

  • PHP-CS-Fixer/PHP-CS-Fixer 自动修复PHP编码标准问题的工具;无论您是想遵循PSR-1,PSR-2等中定义的PHP编码标准,还是其他社区驱动的标准,如Symfony。您还可以通过配置来定义(团队)的风格。

  • phpstan/phpstan PHP 静态分析工具 - 无需运行即可发现代码中的错误!

  • ramsey/uuid 用于生成通用唯一标识符 (UUID) 的 PHP 库。

  • PHPOffice/PhpSpreadsheet 用于读取和写入电子表格文件的纯 PHP 库

  • vlucas/phpdotenv 自动将环境变量从“.env”加载到“getenv()”,$_ENV和“$_SERVER”。

  • thephpleague/flysystem 本地和远程文件系统的抽象。一个PHP的文件存储库。它提供了一个接口来与多种类型的文件系统进行交互。当您使用 Flysystem 时,您不仅可以免受供应商锁定的影响,还可以获得适合您的一致体验。

  • KurtBestor/Hitomi-Downloader 桌面实用程序,用于从各种网站下载图像/视频/音乐/文本等。

  • NaiboWang/EasySpider 易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。

  • scrapy/scrapy 用于Python的快速高级Web爬行和抓取框架。用于抓取网站并从其页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。

  • caddyserver/caddy 具有自动 HTTPS 功能的快速且可扩展的多平台 HTTP/1-2-3 Web 服务器

  • binux/pyspider Python中强大的蜘蛛(网络爬虫)系统。

  • kataras/iris 最快的 HTTP/2 Go Web 框架。新颖、现代且易于学习。使用您控制的代码进行快速开发。

  • jhuangtw/xg2xg 一个方便的类似技术和服务的查找表,帮助前谷歌员工在现实世界中生存,系统设计入门、Hadoop 生态系统表、将 AWS 服务映射到 GCP 产品、数据库数据库、Google 开源词汇表

  • netdata/netdata 以高分辨率和实时监控您的服务器、容器和应用程序!

  • nektos/act 在本地运行 GitHub Actions,快速反馈 - 无需在每次要测试对 .github/workflows/ 文件所做的更改(或对嵌入式 GitHub 操作的任何更改)时都提交/推送,而是可以在 act 本地运行操作。环境变量和文件系统都配置为与 GitHub 提供的内容相匹配。

  • go-gitea/gitea 轻松自托管的一体化软件开发服务,包括 Git 托管、代码审查、团队协作、包注册表和 CI/CD

  • Kong/kong 一种云原生、与平台无关、可扩展的 API 网关,以其高性能和通过插件的可扩展性而著称。通过提供代理、路由、负载均衡、运行状况检查、身份验证等功能,Kong 充当了轻松编排微服务或传统 API 流量的中心层。Kong在Kubernetes上本地运行,这要归功于其官方的Kubernetes Ingress Controller。

  • getsentry/sentry 开发人员优先的错误跟踪和性能监控

  • dokku/dokku 基于 Docker 的 PaaS,可帮助您构建和管理应用程序的生命周期

  • MichaelCade/90DaysOfDevOps 正在使用这个存储库来记录我学习 DevOps 的旅程。我于 2022 年 1 月 1 日开始了这个过程,并计划持续到 3 月 31 日。我每天(包括周末)将花一个小时来获得对DevOps各个方面的基本理解。这将是一个为期 90 天的强化学习期。

  • antirez/smallchat 聊天服务器的最小C编程示例

  • zu1k/nali 一个查询IP地理信息和CDN服务提供商的离线终端工具.

  • awesome-foss/awesome-sysadmin 非常棒的开源系统管理员资源的精选列表。

  • SoftEtherVPN/SoftEtherVPN 跨平台多协议 VPN 软件。

  • vishnubob/wait-for-it 纯 bash 脚本,用于测试和等待 TCP 主机和端口的可用性

  • Mailu/Mailu 孤立的电子邮件分发 - 作为 Docker 映像的邮件服务器

  • mailcow/mailcow-dockerized 一个基于 Docker 的开源群件/电子邮件套件。Mailcow 依赖于许多众所周知且长期使用的组件,这些组件结合在一起形成了一个全方位的无忧电子邮件服务器。

  • NginxProxyManager/nginx-proxy-manager 用于管理Nginx代理主机的Docker容器,具有简单,强大的界面

  • jhy/jsoup Java HTML 解析器,专为 HTML 编辑、清理、抓取和 XSS 安全而构建。

区块链

推荐系统

推荐系统算法库与列表

  • shenweichen/DeepCTR 易于使用、模块化和可扩展的基于深度学习的 CTR 模型包,用于搜索和推荐。

  • hongleizhang/RSPapers 推荐系统必读论文精选列表。

  • YuyangZhangFTD/awesome-RecSys-papers 推荐系统中的经典论文

  • ChenglongChen/tensorflow-DeepFM

  • twitter/the-algorithm Twitter 的推荐算法是一组服务和作业,负责在所有 Twitter 产品表面(例如,为你时间线、搜索、探索)提供推文和其他内容的提要。有关算法工作原理的介绍,请参阅我们的工程博客。

  • alibaba/DeepRec 基于 TensorFlow 的推荐引擎。具有超大规模分布式训练能力,支持万亿样本的模型训练和千亿的Embedding Processing。针对稀疏模型场景,在CPU和GPU平台上进行了深度的性能优化。

  • cheungdaven/DeepRec 基于 TensorFlow 的深度学习推荐的开源工具包。

  • lyst/lightfm LightFM 的 Python 实现,一种混合推荐算法。

  • tensorflow/recommenders 使用 TensorFlow 构建推荐系统模型的库。

  • RUCAIBox/RecBole 统一,全面,高效的推荐库,包括:

    • AFM,AutoInt,DCN,DeepFM,DSSM,FFM,FM,FNN,FwFM,LR,NFM,PNN,WideDeep,xDeepFM,BPR,ConvNCF,DGCF,DMF,FISM,GCMC,ItemKNN,LightGCN,NAIS,NeuMF,NGCF,Pop,SpectralCF,CFKG,
    • CKE(Collaborative Knowledge base Embedding 发自16年KDD,将KG与CF融合做联合训练)
    • KGAT Knowledge Graph Attention Network for Recommendation 用KG做增强,捕捉这种高阶交互式特征,做推荐预测。
    • KGCN,KGNNLS,
    • KTUP Unifying Knowledge Graph Learning and Recommendation:Towards a Better Understanding of User Preferences 一方面利用KG可以帮助更好的理解用户偏好。另一方面,用户-物品的交互可以补全KG,增强KG中缺少的事实。最终使两个部分都得到加强。
    • MKR(Multi-task Learning for KG enhanced Recommendation 融合KG和RC) 左边是推荐任务。用户和物品的特征表示作为输入,预测点击率y 右边是知识图谱任务。三元组的头结点h和关系r表示作为输入,预测的尾节点t 两者的交互由一个cross-feature-sharing units完成。由于物品向量和实体向量实际上是对同一个对象的两种描述,他们之间的信息交叉共享可以让两者都获得来自对方的额外信息,从而弥补了自身的信息稀疏性的不足。
    • ippleNet,BERT4Rec,Caser,DIN,FDSA,FPMC,GCSAN,GRU4Rec,GRU4RecF,GRU4RecKG,KSR,NARM,NextItNet,S3Rec,SASRec,SASRecF,SRGNN,STAMP,TransRec
  • Coder-Yu/QRec QRec:快速实现推荐系统的 Python 框架(基于 TensorFlow)

  • Transformers4Rec Transformers4Rec 是一个灵活且高效的库,用于顺序和基于会话的推荐,可用于 PyTorch 和 Tensorflow。

  • datawhalechina/torch-rechub 用于推荐模型的轻量级Pytorch 框架,易于使用且易于扩展。scikit-learn风格易用的API。模型训练与模型定义解耦,易拓展,可针对不同类型的模型设置不同的训练机制。接受pandas的DataFrame、Dict数据输入,上手成本低。高度模块化,容易调用组装成新模型 LR、MLP、FM、FFM、CIN、target-attention、self-attention、transformer。支持常见排序模型 WideDeep、DeepFM、DIN、DCN、xDeepFM等。支持常见召回模型 DSSM、YoutubeDNN、YoutubeDSSM、FacebookEBR、MIND等。多任务学习支持SharedBottom、ESMM、MMOE、PLE、AITM等模型。 GradNorm、UWL、MetaBanlance等动态loss加权机制。

  • shenweichen/DeepMatch 用于推荐和广告的深度匹配模型库。训练模型和导出用户和项目的表示向量非常容易,可用于ANN搜索。

  • PaddlePaddle/PaddleRec 大规模推荐算法库,包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM,DSIN,SIGN,IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM,TiSAS,AutoFIS等,包含经典推荐系统数据集criteo 、movielens等

  • wangshusen/RecommenderSystem 结合小红书的业务场景和内部实践,讲解主流的工业界推荐系统技术。

  • ZiyaoGeng/Recommender-System-with-TF2.0 CTR预言论文进行复现,包括传统模型(MF,FM,FFM等),神经网络(WDL,DCN等)以及序列模型(DIN)。

  • THUwangcy/ReChorus 用于Top-K推荐的通用PyTorch框架,具有隐式反馈,尤其是用于研究目的。BPR NCF Tensor GRU4Rec NARM SASRec TiSASRec CFKG SLRC Chorus

  • NVIDIA/NVTabular 为特征工程、前处理提供了更快的迭代速度,同时利用异步批量加载的方法有效提高了GPU的利用率,提供更快的加载速率。Merlin推荐系统框架的模块。

  • NVIDIA/HugeCTR a high efficiency GPU framework designed for Click-Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。

  • microsoft/recommenders 推荐系统上的最佳实践。包括多个模型:ALS A2SVD BPR Caser DKN xDeepFM FAST LightFM/Hybrid Matrix Factorization LightGBM/Gradient Boosting Tree* LightGCN GeoIMC GRU4Rec Multinomial VAE LSTUR NAML NCF NPA NRMS NextItNet RBM RLRMC SAR SLi-Rec SUM Standard VAE SVD TF-IDF Vowpal Wabbit (VW)* Wide and Deep FM&FFM

  • AmazingDD/daisyRec 在 pytorch 中开发的推荐系统。算法:KNN、LFM、SLIM、NeuMF、FM、DeepFM、VAE 等,旨在公平比较推荐系统基准

  • wubinzzu/NeuRec 全面且灵活的 Python 库,用于推荐系统,其中包括大量最先进的神经推荐模型。该库旨在解决一般、社交和顺序(下一项)推荐任务,使用Tensorflow库提供 33 个开箱即用的模型。

  • guoguibing/librec 一个用于推荐系统的 Java 库(需要 Java 版本 1.7 或更高版本)。它实现了一套最先进的推荐算法,旨在解决两个经典的推荐任务:评分预测项目排名

  • facebookresearch/torchrec 推荐系统的 Pytorch库,旨在提供大型推荐系统 (RecSys) 所需的通用稀疏性和并行性原语。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。

  • huawei-noah/FuxiCTR FuxiCTR 为 CTR 预测提供了一个开源库,在可配置性、可调整性和可重复性方面具有惊人的功能。模型包括:LR FM CCPM FFM YoutubeDNN Wide&Deep IPNN DeepCross HOFM DeepFM NFM AFM DCN FwFM xDeepFM DIN FiGNN AutoInt/AutoInt+ FiBiNET FGCNN HFM/HFM+ ONN AFN/AFN+ LorentzFM FLEN FmFM

  • openbenchmark/BARS 迈向推荐系统的开放基准测试。 BARS 基准目前涵盖以下两项任务:点击率预测\候选项目匹配

  • PersiaML/PERSIA 基于 PyTorch 训练深度学习推荐模型的高性能分布式框架。它能够训练具有多达 100 万亿个参数的推荐模型。对公共数据集的实证研究表明,PERSIA 在推荐方面优于其他系统。它的效率和稳健性也得到了快手1亿级DAU的多个应用程序的验证。

  • alibaba/EasyRec 大规模推荐算法的框架。实现了用于常见推荐任务的最先进的深度学习模型:候选生成(匹配)、评分(排名)和多任务学习。它通过简单的配置和超参数调整(HPO)提高了生成高性能模型的效率。

  • pytorch/torchrec 推荐系统的 Pytorch 域库

  • PKU-DAIR/GNN-in-RS 推荐系统中的 GNN(ACM 计算调查 2022)

  • NicolasHug/Surprise 用于构建和分析推荐系统的 Python scikit

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Py框架

  • grahamjenson/list_of_recommender_systems 推荐系统和资源列表

  • mengfeizhang820/Paperlist-for-Recommender-Systems 推荐系统论文列表

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Python 框架

其他_推荐系统

  • imsheridan/DeepRec 推荐、广告工业界经典以及最前沿的论文、资料集合

  • laekov/fastmoe 一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

  • oywtece/dstn

  • shenweichen/DSIN

  • facebookresearch/dlrm 深度学习推荐模型(DLRM)的实现

  • vze92/DMR Deep Match to Rank Model for Personalized Click-Through Rate Prediction DMR:Matching和Ranking相结合的点击率预估模型

  • kang205/SASRec 源于Transformer的基于自注意力的序列推荐模型

  • shichence/AutoInt 使用Multi-Head self-Attention进行自动的特征提取

  • xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤

  • UIC-Paper/MIMN 点击率预测的长序列用户行为建模的实践

  • motefly/DeepGBM 结合了GBDT 和神经网络的优点,在有效保留在线更新能力的同时,还能充分利用类别特征和数值特征。由两大块组成,CatNN 主要侧重于利用 Embedding 技术将高维稀疏特征转为低维稠密特征,而 GBDT2NN 则利用树模型筛选出的特征作为神经网络的输入,并通过逼近树结构来进行知识蒸馏。

  • LeeeeoLiu/ESRM-KG 关键词生成的基于电商会话的推荐模型

  • zhuchenxv/AutoFIS 自动特征交互选择的点击率预测模型

  • pangolulu/exact-k-recommendation 解决推荐中带约束的Top-K优化问题

  • Scagin/NeuralLogicReasoning 神经协同推理,提出了一种新的神经逻辑推荐(NLR)框架,能够将逻辑结构和神经网络相结合,将推荐任务转化为一个逻辑推理任务。

  • allenjack/HGN 用矩阵分解的形式捕捉用户的长期兴趣,同时将短期兴趣进行拆分,分为group-level以及instance-level的,通过Hierarchical Gating来处理group-level的信息,item-item的乘积来捕捉商品之间的关系。

  • RUCAIBox/CIKM2020-S3Rec 自我推荐学习,用于具有互信息最大化的顺序推荐

  • chenchongthu/SAMN 社交注意力记忆网络在推荐系统中的应用

  • Lancelot39/KGSF 基于知识图谱语义融合改进会话推荐系统 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

  • DeepGraphLearning/RecommenderSystems 顺序推荐 基于维度的推荐 社交推荐

  • FeiSun/BERT4Rec 基于BERT的顺序推荐

  • ChuanyuXue/CIKM-2019-AnalytiCup 2019-CIKM挑战赛,超大规模推荐之用户兴趣高效检索赛道 冠军解决方案 ,召回阶段基于 Item CF 相似性做召回( item-item 相似性),排序阶段,最终使用了 Catboost 和 Lightgbm 建模。

  • zyli93/InterHAt 通过分层注意力预测可解释的点击率。

  • SSE-PT/SSE-PT 基于Transformer的模型,但是和SASRec类似, 效果不错,但是缺少个性化,而且没有加入基于个性化的用户embedding。为了克服这种问题,本文提出来一种个性化的Transformer(SSE-PT),该方法相较于之前的方案提升了5%。

  • triton-inference-server/server 面向高吞吐低延时的生产环境的框架,通过Triton做线上推理,将TensorRT作为执行后端,能够有效降低Latency,并最大化地利用GPU资源。相比于一个纯CPU的方案,两者的结合使用能够使Latency达到原先的1/18,数据吞吐量达到原先的17.6倍。

  • lqfarmer/GraphTR 采用了GraphSAGE+FM+Transformer多种手段,粒度上从粗到细,交叉、聚合来自不同领域的异构消息,相比于mean/max pooling、浅层FC等传统聚合方式,极大提升了模型的表达能力

  • guyulongcs/CIKM2020_DMT 将兴趣建模、多任务学习、偏置学习等几部分进行融合,提出了DMT模型(Deep Multifaceted Transformers)

  • hwwang55/DKN 将知识图表示融入到新闻推荐中。DKN是一种基于内容的用于点击率预估的深度推荐框架。DKN的主要部分是一个多通道、单词实体对齐的知识感知卷积神经网络,KCNN,其中融入了新闻在语意层面和知识层面的表示。KCNN将单词和实体作为多通道,在卷积过程中明确保留他们之间的对齐关系。

  • yusanshi/NewsRecommendation NRMS NAML LSTUR DKN Hi-Fi Ark TANR

  • johnny12150/GCE-GNN 提出了一种全局上下文增强(global-context enhanced)的GNN网络,称为GCE-GNN。能够从两种层次来学习物品的表征,包括global-level:从所有session构成的图上进行全局的表征;以及session-level:从单个session局部item转移图上进行局部的表征;最后融合二者,并通过注意力机制形成最终的序列表征,用于序列推荐任务。

  • BinbinJin/SD-GAR 第一篇将生成式对抗网络(GAN)框架应用于信息检索(包括推荐系统)的研究工作。在该工作中,IRGAN 训练了一个生成器和一个判别器,其中生成器用来自适应地生成合适的负样本以帮助判别器训练;而判别器则是用来判断样本是来自用户真实的反馈还是生成器生成的样本。通过两者交替式对抗性地训练达到互相提升效果的目的。

  • twchen/lessr 将会话记录构建成图来建模商品之间的跳转关系的图神经网络

  • NLPWM-WHU/AGNN 区分了推荐系统中的一般冷启动和严格冷启动,并提出了属性图神经网络方法有效应对严格冷启动的场景。

  • CRIPAC-DIG/SR-GNN 会话序列推荐的图应用 直接将会话序列建模为图结构数据,并使用图神经网络捕获复杂的项目物品item间转换,每一个会话利用注意力机制将整体偏好与当前偏好结合进行表示。同时这种方式也就不依赖用户的表示了,完全只基于会话内部的潜在向量获得Embedding,然后预测下一个点击。

  • uctoronto/SHAN Sequential Recommender System based on Hierarchical Attention Network 分层注意力网络SHAN用于序列推荐 。提出新颖的两层分层注意力网络,将上述特性考虑进来,用于推荐可能感兴趣的下一个商品。第一层注意力网络基于用户的历史购买商品的表示来学习用户的长期偏好,第二层通过将用户的长期和短期偏好结合起来,输出最终的用户表示。

  • chenghuige/mind MIND新闻推荐冠军分享细节揭秘

  • WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions 轻量级特征交互算法deeplight 大幅加速ctr预估在线服务。 一,通过在浅层结构中精确搜索信息量更大的特征交互来加速模型推理,二,在深层结构中,从层内和层间对冗余的层和冗余的参数进行剪枝,三,促使embedding层的稀疏性,进而保持最有判别性的信息。为了解决预测延迟问题,我们通过结构修剪来加速预测,最终以46倍的速度提高而不会牺牲Criteo数据集上的最新性能。

  • JiachengLi1995/TiSASRec Time Interval Aware Self-Attention for Sequential Recommendation 时间间隔自注意力模型用于序列推荐。 基于序列模型框架对行为的时间戳进行建模,在下一个商品预测中探索不同时间间隔的影响。

  • wuch15/IJCAI2019-NAML 多视图学习新闻推荐系统Neural News Recommendation with Attentive Multi-View Learning 可以通过利用不同种类的新闻信息来学习用户和新闻的特征表示。

  • guoday/Tencent2020_Rank1st 广告受众基础属性预估 2020 Tencent College Algorithm Contest, and the online result ranks 1st.

  • yuduo93/THIGE 基于时序异质交互图表示学习的商品推荐 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。

  • guyulongcs/CIKM2020_DMT 大型电子商务推荐系统中多目标排名的深层多面Transformers模型

  • weiyinwei/MMGCN 多模态图神经网络解决短视频推荐难题

  • wujcan/SGL 基于图自监督学习的推荐系统。应用于「用户-物品二分图推荐系统」的「图自监督学习」框架。

  • wangjiachun0426/StackRec 通过迭代堆叠实现推荐系统的高效训练。采用对一个浅层序列推荐模型进行多次层堆叠(Layer Stacking),从而得到一个深层序列推荐模型。具体来说,训练过程包含以下步骤:1)预训练一个浅层序列推荐模型;2)对该模型进行层堆叠,得到一个两倍深度的模型;3)微调这个深层模型;4)将深层模型作为一个新的浅层模型,重复1)至3)直到满足业务需求。

  • xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤(NGCF)是一种基于图神经网络的新推荐框架,通过执行嵌入传播,在用户项二部图中以高阶连通性的形式对协同信号进行显式编码。

  • johnnyjana730/MVIN 提出multi-view item network (MVIN) ,从user和item来学习多个视角下的商品表示,进而进行商品推荐。在实体视图中,项目表示由KG中连接到它的实体来定义的。

  • weberrr/CKAN Collaborative Knowledge-aware Attentive Network for Recommender Systems 协作知识感知的注意力网络推荐系统

  • danyang-liu/KRED KRED:基于知识感知的文档表示应用于新闻推荐。首先是用KGAT来表示每个实体,然后使用用实体的位置 实体出现频率 实体的类别等信息。再用Transformer来优化表征。最后做多任务:包括个性化推荐,项目到项目推荐、新闻流行预测、新类别预测和本地新闻检测等等。

  • CRIPAC-DIG/DGCF 动态图协同过滤算法,利用动态图来同时捕捉用户和商品之间的协同和序列关系的框架。提出三种更新机制: 零阶继承,一阶传播,二阶聚合,来表示新的交互发生时,该交互对用户或者商品的影响。基于这三种机制,交互发生时同时更新用户和商品的embedding,并且利用最新的embedding来给出推荐。

  • QYQ-bot/CLEA 运用对比学习解决购物篮推荐场景。(下一个购物篮推荐,也就是根据用户的历史购物篮序列,来推荐用户在下一次可能购买的商品集合。)

  • huangtinglin/MixGCF 基于多层嵌入合成负例用于推荐,相对NGCF 提高 26%, LightGCN 提高 22%

  • DyGRec/ASReP 反向预训练Transformer 增广序列推荐系统.解决序列推荐系统中的冷启动(cold-start)问题。为了解决该问题,我们提出需要对冷启动对应的短序列(short sequence)进行增广(Augmentation),从而能够补全信息而避免冷启动的问题。

  • NLPWM-WHU/EDUA 多样性推荐的 EDUA 模型。其采用双边分支网络作为双目标优化的主要架构,该架构既保持传统学习分支的准确性,又提高自适应学习分支的多样性。

  • gluver/KG4Rec_Paperlist 这是关于基于知识图谱的推荐的顶级论文列表。

  • xidongbo/AITM 自适应信息传输多任务 (AITM) 框架的 TensorFlow 实现。 提交给 KDD21 的论文代码:使用多任务学习为客户获取建模受众多步转换之间的顺序依赖性。应用场景:联名卡获客,从曝光(Impression)、点击(Click)、申请(Application)、核卡(Approval)、激活(Activation)。另外,使用公开的Ali-CCP阿里巴巴点击和转化预测数据集pytorch实现

  • newlei/LR-GCCF 重温基于图的协同过滤:一种线性残差图卷积网络方法,AAAI2020 本文提出了一种使用非线性特征传播和残差结构的GCN网络LR-GCCF用于基于CF的推荐系统,在模型表型上和时间效率上有了一定的提高。

  • wangzhegeek/EGES 阿里巴巴论文的实施:阿里巴巴电子商务推荐的十亿级商品嵌入

  • YushanZhu/K3M 电子商务中的知识感知多模态预训练

  • tsinghua-fib-lab/GNN-Recommender-Systems 基于图神经网络的推荐算法索引。

  • oywtece/deepmcp 点击率 (CTR) 预测模型。大多数现有方法主要对特征-CTR 关系进行建模,并且存在数据稀疏问题。相比之下,DeepMCP 对其他类型的关系进行建模,以学习更多信息和统计上可靠的特征表示,从而提高 CTR 预测的性能。DeepMCP 包含三部分:匹配子网、关联子网和预测子网。这些子网分别为用户-广告、广告-广告和功能-点击率关系建模。当这些子网在目标标签的监督下联合优化时,学习到的特征表示既具有良好的预测能力,又具有良好的表示能力。

  • rener1199/deep_memory 用户记忆网络的点击率预测

  • xiaxin1998/DHCN 用于基于会话的推荐的自超图卷积网络

  • maenzhier/GRecX 基于 GNN 的推荐的高效统一基准。

  • RUCAIBox/Awesome-Privacy-Preserving-RS-Paper 本知识库收集了 2018 年后隐私保护推荐系统的最新研究进展。

  • github.com/THUDM/ComiRec KDD 2020 论文《Controllable Multi-Interest Framework for Recommendation》的源代码和数据集 可控的多兴趣推荐框架

  • microsoft/tutel Tutel MoE:优化的专家组合实施

  • Jhy1993/Awesome-GNN-Recommendation GNN-推荐相关资源

  • sisinflab/elliot 用于可重现推荐系统评估的全面而严谨的框架

  • sumitsidana/recsys_challenge_2020 此存储库包含 2020 年 RecSys 挑战赛方法的第四名解决方案的代码。该挑战侧重于在动态环境中进行推文参与度预测的现实任务。目标是根据异构输入数据预测目标用户对一组推文的不同类型参与(点赞、回复、转推和转推)的概率。

  • ystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution WSDM CUP 2018 音乐推荐挑战赛第一名解决方案的对应代码。预测 3 月订阅到期的用户中,哪些会流失。为解决该题,阿里巴巴使用了两层 Stacking Model,第一层采用逻辑回归、随机森林、XGBoost 算法,第二层又采用 XGBoost 算法把第一层的结果融合。流失用户预测,对有会员体系的业务场景都可以使用,其中会员付费为主要收入的业务就更为关键,比如像 Apple Music、虾米音乐。多层 Stacking Model 由 AliOS 神灯研发,极大提升了分类预测的准确率,已广泛应用于 AliOS 多项业务中。

  • DiligentPanda/Tencent_Ads_Algo_2018 该仓库维护2018年腾讯广告算法大赛的代码。我们的代码在决赛中排名第三。基于 FFM 的注意力神经网络的平均值。在最终提交中,我们使用了 13 个这样的网络。但是这些网络只是在它们的随机种子上有所不同。 5 个这样的网络将给出几乎相同的结果。Lookalike 相似人群拓展

  • ttvand/Santander-Product-Recommendation Kaggle 竞赛第二名解决方案 - Santander 产品推荐

  • Travisgogogo/BAAI-ZHIHU-2019 Top3 高效地将用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数。

  • LogicJake/tuling-video-click-top3 图灵联邦视频点击预测大赛线上第三

  • PPshrimpGo/BDCI2018-ChinauUicom-1st-solution CCF BDCI 2018的面向电信领域的个性化套餐匹配第一名解决方案

  • hydantess/TianChi_zhilianzhaopin: 智联招聘人岗智能匹配 根据智联招聘抽样的经过脱敏的求职者标签数据、职位信息、及部分求职者行为信息、用人单位反馈信息,训练排序模型,对求职者的职位候选集进行排序,尽可能使得双端都满意的职位(求职者满意以及用人单位满意)优先推荐。

  • RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge 天池-安泰杯跨境电商智能算法大赛 冠军。 通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。

  • fuxiAIlab/RL4RS 基于强化学习的推荐系统的真实世界基准

  • NVIDIA-Merlin/competitions 推荐系统竞赛的解决方案 RecSys2019_Challenge, RecSys2020_Challenge,RecSys2021_Challenge,SIGIR_eCommerce_Challenge_2021,WSDM_WebTour2021_Challenge

  • rosetta-ai/rosetta_recsys2019 RosettaAI 团队在 2019 年 ACM Recsys 挑战赛中获得第四名的解决方案

  • kupuSs/CIKM-CUP-2019-track2-rank10 CIKM 2019 E-Commerce AI Challenge - 超大规模推荐之用户兴趣高效检索

  • miziha-zp/KDD2020_mutilmodalities top8 KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall

  • steven95421/KDD_WinnieTheBest KDD Cup 2020 现代电商平台挑战:Multi-modalities Recall 第一名。数据来自移动电商平台的真实场景多模态数据。数据集由搜索查询和产品图像特征组成,是一个基于查询的多模式检索任务。实现了根据候选产品的图像特征对它们的集合进行排名。这些查询中的大多数是搜索具有特定特征的产品的名词短语。候选商品图片由卖家提供的照片,通过黑盒功能转化为2048维特征。与查询最相关的候选产品被视为查询的基本事实。

  • aister2020/KDDCUP_2020_Debiasing_1st_Place 去偏Debiasing中获得第一名。侧重于暴露的复杂性,即如何推荐过去很少暴露的项目,以对抗推荐系统中经常遇到的马太效应。特别是,在对点击数据进行训练时减少偏差对于此任务的成功至关重要。就像现代推荐系统中记录的点击数据和实际在线环境之间存在差距一样,训练数据和测试数据之间也会存在差距,主要是在趋势和项目的流行度方面。

  • RUCAIBox/FMLP-Rec 堆叠多个过滤器增强块以生成用于推荐的顺序用户偏好的表示。我们的方法与 SASRec 的主要区别在于用一种新颖的过滤器结构(傅里叶变换MLP)替换了 Transformer 中的多头自注意力结构。

  • RUCAIBox/NCL 通过邻域丰富的对比学习改进图协同过滤。

  • alibaba/HybridBackend 用于在异构集群上训练广泛和深度推荐系统的高性能框架

  • CAN-Paper/Co-Action-Network CAN的实现:重新审视点击率预测的特征协同作用

  • tsinghua-fib-lab/CLSR 解开推荐的长期和短期利益

  • easezyc/Multitask-Recommendation-Library 提供了多任务推荐模型和通用数据集的 PyTorch 实现。

  • awarebayes/RecNN 围绕 pytorch构建的强化学习推荐工具包

  • Tencent/embedx 基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等

  • bytedance/LargeBatchCTR 基于 DeepCTR 和 CowClip 的 CTR 模型的大批量训练。

  • xiangwang1223/disentangled_graph_collaborative_filtering 解缠结图协同过滤 一个可解释的推荐框架,它配备了 (1) 胶囊网络的动态路由机制,以细化意图感知图中用户-项目交互的强度,(2) 图的嵌入传播机制神经网络,从高阶连通性中提取相关信息,以及(3)独立建模的距离相关性,以确保意图之间的独立性。因此,我们明确地解开了用户在表示学习中的隐藏意图。

  • gusye1234/LightGCN-PyTorch 旨在简化 GCN 的设计,使其更简洁,更适合推荐。提出了名为 LightGCN 的新模型,仅包含 GCN 中最重要的组件—邻域聚合—用于协同过滤

  • muhanzhang/IGMC 基于图神经网络的归纳矩阵补全模型,不使用任何边信息。 传统的矩阵分解方法将(评级)矩阵分解为行(用户)和列(项目)的低维潜在嵌入的乘积,这是转导的,因为学习的嵌入不能推广到看不见的新矩阵。为了使矩阵完成归纳,必须事先使用内容(辅助信息),如年龄或电影的类型。然而,高质量内容并不总是可用,而且很难提取。IGMC 通过训练一个GNN来实现,该网络完全基于从评分矩阵形成的二分图中提取的(用户、项目)对周围的局部子图,并将子图映射到其相应的评分。它不依赖于特定评分矩阵或任务的任何全局信息,也不学习特定于观察到的用户/项目的嵌入。因此,它是一个完全归纳模型,它可泛化到训练时看不见的用户/项目(假设交互存在),甚至可以迁移到新任务,从 MovieLens训练出来的模型可以直接用于预测豆瓣电影评分,并且效果出奇的好。

  • jennyzhang0215/STAR-GCN 用于推荐系统的堆叠和重构图卷积网络

  • wenqifan03/GraphRec-WWW19 用于社交推荐的图神经网络

  • PeiJieSun/diffnet 基于图神经网络的社交推荐模型。SIGIR2019。

  • hwwang55/KGCN 用于推荐系统的知识图卷积网络,它使用图卷积网络(GCN)技术来处理知识图谱以达到推荐的目的。

  • huangtinglin/Knowledge_Graph_based_Intent_Network 与推荐知识图交互背后的学习意图,WWW2021

  • amzn/pecos 巨大和相关空间的预测 。用于对具有大输出空间的问题进行快速学习和推理,例如极端多标签排序 (XMR) 和大规模检索�

About

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 1000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!

http://www.wuwenjie.xyz/wordpress

License:Other