0xqq's repositories
clusters-submiter
从本地IDEA提交Flink/Spark任务到Yarn/k8s集群
flink-cdc-connectors
Change Data Capture (CDC) Connectors for Apache Flink
from_coder_to_expert
2020年最新总结,从程序员到CTO,从专业走向卓越,分享大牛企业内部pdf与PPT
spark-dgraph-connector
A connector for Apache Spark to Dgraph databases.
spark_ml_pipeline_save_pmml_outler
spark ml 模型保存,加载,pmml导出,异常值检测示例
Bert-In-Relation-Extraction
使用Bert完成实体之间关系抽取
boubei-tss
卜贝它山石数据综合管理平台:人、流程、数据三位一体,PAAS兼BI,一站式助力实现数字化管理
DeepCTR
Easy-to-use,Modular and Extendible package of deep-learning based CTR models for search and recommendation.
doccano
Open source text annotation tool for machine learning practitioner.
ecws
电力领域中文分词模型 R3.0
entity_extractor_by_ner
基于Tensorflow2.3开发的Ner模型,包含Bilstm-CRF和Bert-Bilstm-CRF,用于命名实体识别,配置后可直接运行。
hudi
Upserts And Incremental Processing on Big Data
know_how_know_why
For every learner
Leaf
Distributed ID Generate Service
Luckysheet
Luckysheet is an online spreadsheet like excel that is powerful, simple to configure, and completely open source.
Macadam
Macadam是一个以Tensorflow(Keras)和bert4keras为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包。支持RANDOM、WORD2VEC、FASTTEXT、BERT、ALBERT、ROBERTA、NEZHA、XLNET、ELECTRA、GPT-2等EMBEDDING嵌入; 支持FineTune、FastText、TextCNN、CharCNN、BiRNN、RCNN、DCNN、CRNN、DeepMoji、SelfAttention、HAN、Capsule等文本分类算法; 支持CRF、Bi-LSTM-CRF、CNN-LSTM、DGCNN、Bi-LSTM-LAN、Lattice-LSTM-Batch、MRC等序列标注算法。
neo4j-spark-connector
These are the beginnings / experiments of a Connector from Neo4j to Apache Spark using the new binary protocol for Neo4j, Bolt.
NLP-project
自然语言处理中的基础任务,包含但不限于文本表示,文本分类,命名实体识别,关系抽取,文本生成,文本摘要等,基于tensorflow2或Pytorch,所有代码均经过测试,项目中也包含相关数据。
nlp_baai
NLP models and codes for BAAI-JD joint project.
ORFD
基于机器学习与BERT的在线招聘欺诈检测平台:heart:
Spark-Programming-In-Python
Apache Spark 3 - Spark Programming in Python for Beginners
TensorFlow-2.x-Tutorials
TensorFlow 2.x version's Tutorials and Examples, including CNN, RNN, GAN, Auto-Encoders, FasterRCNN, GPT, BERT examples, etc. TF 2.0版入门实例代码,实战教程。
Text-Mining
近年来,随着微信、微博、市长信箱、阳光热线等网络问政平台逐步成为政府了解民意、汇聚民智、凝聚民气的重要渠道,各类社情民意相关的文本数据量不断攀升,给以往主要依靠人工来进行留言划分和热点整理的相关部门的工作带来了极大挑战。同时,随着大数据技术的发展,建立基于自然语言处理技术的智慧政务系统已经是社会治理创新发展的新趋势,对提升政府的管理水平和施政效率具有极大的推动作用。 本文针对“智慧政务”中的居民投诉建议文本评论数据,基于向量空间模型算法提取了文本关键词并我们采用了多种机器学习分类模型进行测试,从最终得到线性支持向量回归算法相对较优的结果,F1-Score评价指标达0.86。 在挖掘热点问题的前期处理上,使用了余弦相似度计算整理出文本相似的同类主题并加以筛选,通过在SPSS中建立基于因子分析法的热度评价指标模型,给出得分前五的主题样本作为Top5热点问题,分析比较了相关类问题的热度体现在各个指标上的具体表现。 为建立留言的答复意见的评价体系,我们定义了相关性、完整性、可解释性和及时性四个指标。答复意见和留言详情相关性的计算是基于LDA主题模型的中文编辑距离得到的,另外答复意见的可解释性使用了哈工大中文篇章关系的关联词表以及自定义的可解释性词典来判别。通过将这四项指标的得分相加得到某条答复意见的综合评分,分数越高,该答复的质量就越高,从而为决策者提供一个较为清晰完善的参考意见。
text_matching_for_electric
电力领域文本匹配
TitanDataOperationSystem
《Titan数据运营系统》,本项目是一个全栈闭环系统,我们有用作数据可视化的web系统,然后用flume-kafaka-flume进行日志的读取,在hive设计数仓,编写spark代码进行数仓表之间的转化以及ads层表到mysql的迁移,使用azkaban进行定时任务的调度,使用技术:Java/Scala语言,Hadoop、Spark、Hive、Kafka、Flume、Azkaban、SpringBoot,Bootstrap, Echart等;
Transfer-Learning-Library
Transfer-Learning-Library