Rooooyy / data_mining

Final Project of Graduate Course "Data Mining" in SCSE, BUAA, 2021

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

data_mining

火车乘车数据异常样本挖掘

Final Project of Graduate Course "Data Mining" in SCSE, BUAA, 2021.

数据预处理

处理后的数据包括22维,存储在feature_vector_v1.npy文件中,整体维度为(11076,22)

其中每一维的具体含义如下:

  • 0:总乘车次数
  • 1-12:总乘车次数(按月统计)1-12月
  • 13:乘车次数
  • 14:最高频率线路乘车次数
  • 15:最高频率线路乘车次数所占比例
  • 16:第二高频率线路乘车次数
  • 17:第二高频率线路乘车次数
  • 18:夜间乘车次数(定义23:00-5:00属于夜间),上车时间
  • 19:夜间乘车次数(定义23:00-5:00属于夜间),下车时间
  • 20:短途次数(时间小于3hour)
  • 21:站票和硬座比例 HARD_SEAT

About

Final Project of Graduate Course "Data Mining" in SCSE, BUAA, 2021

License:Apache License 2.0


Languages

Language:Jupyter Notebook 99.7%Language:Python 0.3%