Changxiu HU's repositories
VolenceDataSet
语言暴力数据集
albert_zh
A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型
ark-nlp
A private nlp coding package, which quickly implements the SOTA solutions.
baichuan-7B
A large-scale 7B pretraining language model developed by Baichuan
CCL2022-CGEC
CCL2022中文语法纠错评测
cged_datasets
历届中文句法错误诊断技术评测数据集
chinese_province_city_area_mapper
一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块
textgen
TextGen: Implementation of Text Generation models, include LLaMA, BLOOM, GPT2, BART, T5, SongNet and so on. 文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。
ChatGLM2-6B
ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型
ChatGPT-Prompt-Engineering-for-Developers-in-Chinese
《面向开发者的 ChatGPT 提示词工程》非官方版中英双语字幕 Unofficial subtitles of "ChatGPT Prompt Engineering for Developers"
docx_batch_handle
docx文件内容批量替换;doc2docx
FindTheChatGPTer
ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利
Finetune-ChatGLM2-6B
ChatGLM2-6B 全参数微调,支持多轮对话的高效微调。
newwor-discovery
高效的新词发现,对句子进行剪枝,并用互信息和逆文档频率作为得分
PromptPapers
Must-read papers on prompt-based tuning for pre-trained language models.
proxy_pool
Python爬虫代理IP池(proxy pool)
Qwen-7B
The official repo of Qwen-7B (通义千问-7B) chat & pretrained large language model proposed by Alibaba Cloud.
TelescamDataCrime
诈骗脚本语料库数据集
TensorFlowOnSpark
TensorFlowOnSpark brings TensorFlow programs to Apache Spark clusters.
transformers
🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
TTS
🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
visual-chatgpt
VisualChatGPT
weibo-search
获取微博搜索结果信息,搜索即可以是微博关键词搜索,也可以是微博话题搜索
weiboSpider
新浪微博爬虫,用python爬取新浪微博数据
WeiboSuperSpider
最强微博爬虫,用户、话题、评论一网打尽。图片下载、情感分析,地理位置、关系网络等功能应有尽有。Docs:https://buyixiao.github.io/blog/weibo-super-spider.html
wordexpansion
使用SO_PMI互信息算法、词向量法快速构建不同领域(手机、汽车等)的专业情感词典