优化网约车司机收益效率研究：基于强化学习和动态价格预测的方法

简介

这个代码仓库包含了论文《 Optimizing Drivers’ Revenue Efficiency for Ride-On-Demand Services: A Reinforcement Learning Approach with Dynamic Price Prediction》的研究实现。该研究旨在通过结合强化学习技术和动态价格预测，提高网约车司机的收益效率。

安装和依赖

确保你的环境中已安装以下依赖：

Python 3.x
NumPy
Pandas
TensorFlow（用于强化学习）
Matplotlib（可选，用于可视化）

可以使用以下命令安装依赖：

bashCopy code
pip install numpy pandas tensorflow matplotlib

使用说明

动态价格预测

收集多源城市数据，包括来自智能出行服务商的订单数据、GPS轨迹数据，公共交通数据（公交，地铁），POI数据（14大类）。
从时空两个维度从多源城市数据中提取初步特征。
初步特征的处理，包括高阶特征的提取，特征的归一化，以及属性特征的one-shot编码等；
基于以上时空特征，从多种预测模型中选择最优的动态价格乘数预测模型。

强化学习

利用历史数据建立精细化的MDP模型；
基于不同的强化学习算法，学习最优策略，并通过仿真结果选择最优模型。

参数配置

动态定价预测

随机森林的相关参数，包括森林中子树的个数，子树的最大深度，叶子节点中的最小样本数等；
dynamic_price_pro: 统计高、中、低三种区域的动态价格乘数的频数分布，模拟动态三种区域的动态定价。

Sarsa(lambda)

Sarsa(lambda)算法的参数，如遗忘率，贪心概率，学习率，折扣因子等。
grid_environment_params: 网格环境的参数，包括网格数量、网格大小，司机的起始运行网格区域等。
time_params: 设置司机的起始运行时间（是否工作日，时段），运行时长等。

注意事项

该研究工作将强化学习与动态价格预测相结合，确保对两个组件进行适当的参数调整以获得最佳结果。
定期监控和分析训练过程，以评估强化学习模型的收敛情况。

联系方式

如果有任何问题、问题或建议，请联系：

电子邮件：dby753733960@stu2021.jnu.edu.cn

感谢您使用并为我们关于优化网约车司机收益效率的研究工作做出贡献！

ahang1598 / dp_sl