youngfire's starred repositories
ngram_train
python 实现ngram 语言模型的训练,根据模型可计算句子的困惑度、得分等
llm_corpus_quality
大模型预训练中文语料清洗及质量评估 Large model pre-training corpus cleaning
china_area_mysql
**5级行政区域mysql库
KeywordProcesser
使用python实现了一个简单的trie树结构,可增加/查找/删除关键词,用于中文文本的关键词匹配、停用词删除等。
awesome-english-ebooks
经济学人(含音频)、纽约客、卫报、连线、大西洋月刊等英语杂志免费下载,支持epub、mobi、pdf格式, 每周更新
chinese-xinhua
:orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。
alpaca-chinese-dataset
Alpaca Chinese Dataset -- 中文指令微调数据集【持续更新】
EasySpider
A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
Legal-Eagle-InternLM
Legal-Eagle-InternLM 是一个基于商汤科技和上海人工智能实验室推出的书生浦语大模型InternLM的法律问答机器人。旨在为用户提供符合3H(即Helpful、Honest、Harmless)原则的专业、智能、全面的法律服务的法律领域大模型。
nb_http_client
pip install nb_http_client ,nb_http_client 是 python 史上性能最强的http客户端,比任意请求包快很多倍
ChatGPT_DAN
ChatGPT DAN, Jailbreaks prompt
error_text_gen
用于生成文本纠错模型(如Gector)需要的大量数据。
paper_checking_system
基于C#和C++开发的文本查重/论文查重系统,一亿字次级论文库秒级查重。关联:查重算法、数据去重、文档查重、文本去重、标书查重、辅助防串标、作业查重、duplicate check
ChineseTextClassification
自然语言处理之中文文本分类(以垃圾短信识别为例)
Chinese-text-correction-papers
text correction papers
MediaCrawler
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫