ewayuan/Recommender-System-with-TF2.0

Recommender System with TF2.0---v0.0.3

开源项目Recommender System with TF2.0主要是对经典的推荐算法论文进行复现，包括Matching（召回）（MF、BPR、SASRec等）、Ranking（排序）（DeepFM、DCN等）。

建立原因：

理论和实践似乎有很大的间隔，学术界与工业界的差距更是如此；
更好的理解论文的核心内容，增强自己的工程能力；
很多论文给出的开源代码都是TF1.x，因此想要用更简单的TF2.x进行复现；

项目特点：

使用Tensorflow2.x进行复现；
每个模型都是相互独立的，不存在依赖关系；
模型基本按照论文进行构建，实验尽量使用论文给出的的公共数据集；
模型都附有README.md，对于模型的训练使用有详细的介绍；
代码源文件参数、函数命名规范，并且带有标准的注释；

重要更新

【2021.11.17】该项目建立了新的分支reclearn，主要是对master内容进行了整理，构建了一个用于推荐算法学习的包，可以通过pip install reclearn进行安装，具体可以查看reclearn；
【2021.05.19】Wide&Deep模型，之前Wide部分采用连续型数据，更改为采用稀疏离散型数据作为输入；
【2021.05.18】更新内容较多，分为以下：
- 创建data_process文件，将CTR模型中的utils.py移动到该文件夹下，并改名为criteo.py，以后所有模型训练时统一调用该文件夹下处理后的数据；
- Criteo数据处理方式改变，对于密集型数据（I1-I13）采用离散化分桶，与离散型数据合并；
- 逐步修正每个模型采用离散型输入；
- DeepFM模型之前构建模型有误，Wide部分与Deep部分应该共享Embedding；
- FM、DeepFM模型构建一阶特征时取消占内存的tf.ont_hot，改用tf.nn.embedding_lookup，通过映射方式实现；
- 逐步为CTR模型增加使用全量Criteo数据集的结果；
【2020.12.20】在Top-K模型中，评估方式为正负样本1:100的模型（MF-BPR、SASRec等），之前评估代码效率太低，因此进行了调整（目前评估时间大幅度缩短），同时也更新了utils.py文件；
【2020.11.18】在Top-K模型中，不再考虑dense_inputs、sparse_inputs，并且user_inputs和seq_inputs不考虑多个类别，只将id特征作为输入（降低了模型的可扩展性，但是提高了模型的可读性）；
【2020.11.18】BPR、SASRec模型进行了更新，加入了实验结果；

复现论文列表

1. 召回模型（Top-K推荐）

Paper\|Model	Published	Author
Matrix Factorization Techniques for Recommender Systems\|MF	IEEE Computer Society,2009	Koren\|Yahoo Research
BPR: Bayesian Personalized Ranking from Implicit Feedback\|MF-BPR	UAI, 2009	Steﬀen Rendle
Neural network-based Collaborative Filtering\|NCF	WWW, 2017	Xiangnan He
Self-Attentive Sequential Recommendation｜SASRec	ICDM, 2018	UCSD
STAMP: Short-Term Attention/Memory Priority Model for Session-based Recommendation\| STAMP	KDD, 2018	Qiao Liu
Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding｜Caser	WSDM, 2018	Jiaxi Tang
Next Item Recommendation with Self-Attentive Metric Learning\|AttRec	AAAAI, 2019	Shuai Zhang

2. 排序模型（CTR预估）

Paper｜Model	Published	Author
Factorization Machines\|FM	ICDM, 2010	Steffen Rendle
Field-aware Factorization Machines for CTR Prediction｜FFM	RecSys, 2016	Criteo Research
Wide & Deep Learning for Recommender Systems｜WDL	DLRS, 2016	Google Inc.
Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features\|Deep Crossing	KDD, 2016	Microsoft Research
Product-based Neural Networks for User Response Prediction\|PNN	ICDM, 2016	Shanghai Jiao Tong University
Deep & Cross Network for Ad Click Predictions｜DCN	ADKDD, 2017	Stanford University｜Google Inc.
Neural Factorization Machines for Sparse Predictive Analytics\|NFM	SIGIR, 2017	Xiangnan He
Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks\|AFM	IJCAI, 2017	Zhejiang University\|National University of Singapore
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction\|DeepFM	IJCAI, 2017	Harbin Institute of Technology\|Noah’s Ark Research Lab, Huawei
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems\|xDeepFM	KDD, 2018	University of Science and Technology of China
Deep Interest Network for Click-Through Rate Prediction\|DIN	KDD, 2018	Alibaba Group

数据集

一些公开数据集链接失效，总是有同学找我要，但是由于数据集过大，无法上传。因此我提供以下链接方便下载：

Criteo：vufh；
Amazon_Electronic：96f2；
Diginetica：p2hn；
ml-1m：5uyu；

致谢

项目中难免会存在一些代码Bug，感谢以下朋友指出问题：

wangzhe258369：指出在DIN模型中tf.keras.layers.BatchNormalization默认行为是training=False，此时不会去更新BN中的moving_mean和moving_variance变量。但是重新修改了DIN模型代码内容时，再仔细查找了资料，发现：

如果使用模型调用fit()的话，是可以不给的（官方推荐是不给），因为在fit()的时候，模型会自己根据相应的阶段（是train阶段还是inference阶段）决定training值，这是由learning——phase机制实现的。
boluochuile：发现SASRec模型训练出错，原因是验证集必须使用tuple的方式，已更正；
dominic-z：指出DIN中Attention的mask问题，更改为从seq_inputs中得到mask，因为采用的是0填充（这里与重写之前的代码不同，之前是在每个mini-batch中选择最大的长度作为序列长度，不会存在序列过长被切割的问题，而现在为了方便，采用最普遍padding的方法）
dominic-z：指出DIN训练中seq_inputsshape与model不匹配的问题，已更正，应该是(batch_size, maxlen, behavior_num)，model相关内容进行更改，另外对于行为数量，之前的名称seq_len有歧义，改为behavior_num；添加了重写之前的代码，在DIN/old目录下

zhangfangkai、R7788380：指出在使用movielens的utils.py文件中，trans_score并不能指定正负样本，应将

data_df.loc[data_df.label < trans_score, 'label'] = 0
data_df.loc[data_df.label >= trans_score, 'label'] = 1

更改为：

data_df = data_df[data_df.label >= trans_score]

联系方式

1、对于项目有任何建议或问题，可以在Issue留言，或者发邮件至zggzy1996@163.com。

2、作者有一个自己的公众号：潜心学习的潜心，如果喜欢里面的内容，不妨点个关注。

ewayuan / Recommender-System-with-TF2.0