Yhcrown / CS306-Data-minning-project

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

CS306 Data-mining project

小组成员:12011543林洁芳,11911202袁恒宸,11812715吴凯跃,11912017赵栗琦,11911203邹逸凡,12012208王宇航,12010641牛景萱,11911524江帅军


[TOC]

Part1-项目需求分析

​ 本次项目我们小组选取的主题是电子商务分析。在本次项目中,我们依据淘宝用户数据集进行用户画像的分析,本次项目的主要方向是通过用户的行为对用户分析与聚类,发掘潜在的用户,通过该分析,商家可以更好的推出服务以吸引客户,更好的拟定自身的发展方向,这对于电商行业意义非凡。

Part2-项目各模块说明

2.1)数据清洗

​ 本次项目的数据集来自于阿里云天池(https://tianchi.aliyun.com/dataset/dataDetail?dataId=649)

该数据集较为简单,仅含有五各字段,下图是对数据集字段的解释

字段名称 说明
UserID 用户ID,唯一标识用户,整数类型
ItemID 商品ID,唯一标识商品,整数类型
CatogoryID 商品种类ID,表示商品所属种类,整数类型
BehaviorType 用户行为,分别有‘py‘:浏览;'buy':购买;'cart':加入购物车;'fav':收藏
TimeStamps 用户行为发生的时间戳

数据清洗主要操作:

  • 去除含有NA的行
  • 去除用户ID,商品ID,时间戳三者都相同的行
  • 由于数据集十分庞大,所以我们等距选取部分数据进行分析
  • 对数据属性进行扩展,新增三列属性date,weekday,hour,将原有的时间戳转化为具体的年月日,星期数,以及将一天划为几个时段,使用户操作发生的时间更为直观

2.2)商品分析

​ 商品分析模块,我们截取一个星期的数据,主要进行了如下分析

  • 对所有商品,我们计算了它被购买的总量,被收藏的总量,被加购的总量,被浏览的总量,同时在此基础上计算出了每个商品的转化率。

2.3)用户行为分析

​ 用户行为分析模块,我们截取一个星期的数据,主要进行了如下分析

  • 对用户不同行为根据时间(以天为单位)进行分组并观察不同时间的用户行为差异。我们可以发现周六与周日的用户行为数量高于其余五天。同时用户的浏览行为远远高于收藏,加购,购买三者。
  • 对用户行为根据时间(以天中的时间段为单位)进行分组,我们发现一天中,随着时间的推移,用户行为数总体呈上升趋势,在晚上达到顶峰
  • 将用户分组,计算出每个用户浏览次数最多的商品种类,添加购物车次数最多的商品种类,收藏次数最多的商品种类,购买次数最多的商品种类。通过每个用户的这四种属性,我们可以掌握不同种类商品对用户群体的吸引力,方便卖家对商品种类进行调整优化

2.4)用户操作时间差分析

​ 用户操作时间差即为用户对于同种商品不同的操作所间隔的时间,本模块主要进行了如下分析

  • 计算了所有商品从加入购物车至被购买的平均时间。依据此数据,商家可推出相应策略,促进买家买下心仪的商品的购买欲
  • 计算了所有商品从第一次浏览到被买下的平均时间。依据此数据,商家可更好的调整销售服务

2.5)用户活跃时间段分析

​ 由于我们将时间戳转化成了日期,星期几,一天中的时间段这三个属性,所以我们依据这三个属性分析用户的活跃时间段,分析如下

  • 计算出每个用户最经常购买的时间段,最经常购买的日期是星期几

  • 计算出每个用户最经常浏览商品的时间段,最经常浏览的日期是星期几

2.6)建立用户的RFM模型与聚类分析

RFM含义:R (Recency)表示客户购买的时间有多远,F (Frequency)表示客户在时间内购买的次数,M (Monetary)表示客户在时间内购买的金额。我们对用户采用K-means聚类分析。通过RFM指标,我们将用户分为以下三类

R F M 用户价值分类
重要客户
发展客户
一般客户

通过聚类分析,我们可以更好的针对客户的类型推出对应的服务,达到精准营销的效果

2.7)商品推荐

商品推荐模块,我们实现对特定一个用户x(代码中是对用户id为100的用户),进行商品推荐的功能(代码中是推荐相同率最高的商品)

第一部分为根据用户与用户之间的相似度实现的推荐算法。

  • 根据用户的行为,获得商品的契合度;根据这些商品的其他购买和查看的用户,得到与x相似的用户以及用户相似度
  • 根据与x相似的用户的行为数据,得到这些商品与x的契合度,可以按契合度从高到低对用户x进行推荐

第二部分为根据特定用户的行为数据实现的推荐算法。

  • 根据特定用户的行为数据(即id=100),得到一个权重的比值数据

Part3-项目特色与改进方向

  • 项目特色

本次项目,我们聚焦于用户画像的描绘,详细探究了用户的种种行为特点。包括但不限于用户行为发生的时间戳,星期几,时段,购买时间间隔等时间方面的特征;用户行为的类别,次数等操作方面的特征;还有用户的聚类,偏好,潜在发展价值等客户本身的特征。综上种种,我们得出了较为详细的用户画像。

本次项目所聚焦的的用户画像有如下的重大意义:

1、提供了更强的洞察力。可以帮助营销人员了解其业务和客户行为的当前影响,企业可以制定高度有针对性的客户参与策略,提供增强的产品推荐。甚至通过积极鼓励潜在客户完成交易来减少购物车抛弃的发生率。

2、实时定制社交策略。良好的客户体验是建立在实时参与的坚实基础上的,社交媒体可以使电子商务企业能够在客户查询和关注发生时及时处理它们。

电商大数据统计分析对电子商务的意义非常重大,企业可以通过数据来衡量已经交易情况,了解客户的购物习惯,做出对应的销售策略,这样有助于企业今后更好的发展。

  • 改进方向

探究用户交易数据的一个重大原因就是实现商品推荐模型,以便商家更好的迎合客户心理,这也是电商平台的核心竞争力之一。因为只有牢牢地抓住客户心里,你的电商平台才会成为客户购物的首选平台,这对电商企业的重要性不言而喻。但是由于种种原因,本项目在商品推荐这一模型上实现的较为粗糙,仅实现了简单的商品推荐模型,这也是本项目以后可以重点改进的方向

Part4-项目收获

本次项目我们小组收获颇丰,总的来说有以下两点:

  1. 锻炼了小组成员的实战能力,上课的知识毕竟都是理论,只有实操之后才能更加稳固。这次我们通过对现实生活中确确实实产生的数据进行清理,建模,预测,得到了许多锻炼。
  2. 锻炼了小组间的协调合作与沟通能力。因为项目小组人数较多,如何统筹分配任务,确保大家的工作有序交接,不是一个简单的问题。同时,每个人想法,代码风格的差异,也是多人项目开发过程中无法避免的问题。中间尽管遇到了许多困难,但都在小组间成员的有效沟通与良好的合作下得到了解决。

最后,感谢所有为这门课付出过的老师,助教,以及对此项目有贡献的所有人,我们确实已经出了数据分析的新手村了!

About

License:MIT License


Languages

Language:Jupyter Notebook 97.8%Language:Python 2.2%