不确定性环境下在线实时定价的深度强化学习策略

　　摘要: 电子商务的迅速发展为在线实时定价奠定了环境基础,本文基于深度强化学习理论提出了一个在不确定性环境下针对有限销售时间段内在线销售给定库存量商品的动态定价学习框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先将动态定价问题建模成马尔科夫决策过程(Markov DecisionProcess,MDP),然后基于深度强化学习理论设计了动态定价算法。实验结果表明在不确定性动态定价环境中,DRLDP相比于传统的表格式强化学习动态定价算法,能够在需求与环境特征存在相关性时取得更好的收益表现。

　　关键词: 动态定价; 深度强化学习; 收益管理

在线深度强化学习

　　引言

　　随着商业的发展,传统的固定定价模式已经难以适应需求动态变化的应用环境,给企业带来了诸如库存、销售以及客户满意度等问题,很难满足顾客差异化、多元化的消费需求。而动态定价伴随商业数字化的加快越来越得到企业的青睐,这也是企业避免粗暴定价模式,走向精细化运营方向的一种方式。特别是国内外基于互联网进行商品销售的企业对动态定价策略的运用更为明显,大型在线零售商亚马逊针对平台上数百万的商品引入动态定价策略进行价格调整来增加收益和打击竞争者;美团、淘宝、京东等电子商务平台也积极引入动态定价对其平台上的各种商品在不同供应时间点进行差异化的定价,诸如京东、淘宝平台上的限时秒杀、闪购以及优惠券活动,美团上的外卖折扣券、配送费用分时段计价的方式。现今,电子商务让信息流全面转向了线上平台,使得数据资源集中在了电商平台中心。

　　一些大型的电商网站采集了丰富的数据资源,而这些数据中包含了消费者行为模式的重要信息,这使得利用数据对客户需求估计来进行定价策略调整,增加产品周期内的累积收益成为了可能。然而,先前的研究主要存在以下两方面问题:一方面,部分资料对动态定价问题策略的研究主要基于一些固有的假设,缺乏对数据本身潜在信息的挖掘;另一方面,很多基于数据来研究动态定价问题的策略难以应对大数据的应用场景,主要问题是难以表达高维数据特征所包含的需求信息和定价之间的复杂关系。近年来,深度强化学习理论在游戏[1-2]、推荐系统[3-5]等领域都取得了广泛的应用,这促使了采用深度强化学习理论来研究动态定价问题。本文采用深度强化学习理论研究依靠电子商务平台进行销售商品的动态定价问题。针对商品受到环境的复杂变化导致高水平不确定性需求的产生,依靠定价策略来学习需求的动态变化而进行价格调整。

　　本文的贡献如下:1) 提出了解决有限销售时间段内在线销售给定库存量商品动态定价问题的动态定价学习框架 DRL-DP 用于优化商品销售的长期累积收益;2) 综合考虑了影响需求变化的环境特征,提出了解决动态定价中高维状态特征问题的 Q-network 神经网络;3) 设计了在线的定价代理交互环境用于训练和评估DRL-DP 的表现。本文的结构如下:第 1 节,对研究问题的相关文献进行了回顾;第 2 节,对动态定价问题的要素进行了数学描述;第3 节,对动态定价问题的理论建模及算法设计进行了相关的叙述;第 4 节是数值实验;第 5 节,对本文的研究工作进行了总结和展望。

　　1 文献回顾动态

　　定价问题历来受到关注。一些学者从贝叶斯理论的角度来解决动态定价问题,Mason 和 Välimäki[6] 在研究单个商品动态定价问题中,对顾客的到达率采用了贝叶斯学习的方式;Harrison 等[7]将需求不确定性限定在两种需求函数中,采用贝叶斯方式学习最优定价策略。

　　需求模型假设在一组有限的函数簇内,将价格优化转换为多臂赌博机(MultiarmedBandit,MAB)问题,Chhabra 和 Das[8] 研究了针对在线数字商品拍卖的 MAB 问题学习;Xu 等[9] 将具有时变回报的隐私数据动态定价问题转化为 MAB 问题;Moradipari 等[10]采用 MAB 框架来解决价格受未知因素影响和响应随机性的电力实时定价问题并通过 Thompson Sampling 算法求解。不确定性环境下基于鲁棒优化理论提出了保守性的动态定价策略,Li 等[11]对需求率模型具有不确定性的情况采用鲁棒优化进行研究;Cohen 等[12]提出了直接从数据中学习鲁棒性的动态定价策略。部分学者也从博弈论角度考虑多个参与主体的动态定价问题,陈晓红等[13] 研究了多零售商动态博弈定价;Srinivasan 等[14]利用博弈论对新加坡电力市场进行了动态定价建模;曾贺奇等[15] 从博弈论角度考虑了两竞争商定价问题。近年来,强化学习在研究动态定价问题上也有一些进展。

　　Han[16]在解决一般性动态定价问题将 Bayesian 方法和Q-Learning 结合,采用贝叶斯的方式将 MDP 的转移函数和奖励函数作为分布,并利用采样方式进行动作的选择;Collins等[17]比较了 SARSA、Q-learning 和 Monte-Carlo learning 这三种方法对于航空公司动态定价博弈的效果,并且还分析了将强化学习应用于此类问题所获得的额外效益;Dogan 等[18] 采用强化学习理论分析了在不同环境下各零售商在多零售商竞争环境中的定价决策;Rana 等[19] 考虑了多个相互依赖产品的收益问题,当需求是随机的且需求函数的形式未知时,使用强化学习来模拟相互依赖产品的最优定价;Cai 等[20] 通过强化学习研究了电子商务市场中广告实时竞价问题;Lu等[21]采用马尔科夫决策过程建模了分级电力市场中能源管理的动态定价问题并采用 Q-Learning 算法求解。综上所述,前期的相关文献对顾客到达率采用已知分布,需求和价格之间的关系假设为已知的带有未知参数的函数或者函数簇。然而,现实应用场景中的顾客到达率以及需求受到环境多种因素综合影响而变化。

　　此外,在需求估计中采用了统计学习的方式,与价格优化分割成两阶段的决策模型。而采用强化学习理论研究动态定价问题作为一种免模型的方式,对需求估计和价格优化相结合,是单阶段决策模型。但是前期关于强化学习研究动态定价问题的文献多集中在表格式强化学习,模型的学习和表达能力有限,无法处理高维数据特征下的定价问题。而本文研究基于具有良好表征能力的深度强化学习理论来解决需求受到环境多种因素影响的实时动态定价问题。

　　2 问题描述

　　电商平台进行销售的部分商品需在固定的销售时间段内销售给定的库存量,特别是易腐性和时尚类商品,而平台由于数据获取、存储、利用的便利性以及环境交互的可实施性,特别适合于动态定价策略的运用。这类商品由于在销售单个周期时间内不允许进行再次补货,销售末期剩余的商品不存在残值。当面临复杂的市场变化环境时,往往需求快速地变化而难以确定,此时可以利用数据学习需求的动态变化,通过相关的数据特征变化来反映需求的动态变化情况,采用动态定价策略来控制库存水平的状态变化。因此,当面对复杂的不确定性需求环境时,商家一般会采用动态定价策略来提高累积收益。

　　3 动态定价模型

　　3. 1 动态定价的 MDP

　　本文将此类动态定价问题建模为离散有限的 MDP。MDP 由〈S,A,P,R,γ〉五元组构成,S 表示状态空间,A 表示动作空间,P:S × A × S → [0,1] 表示状态转移概率函数,R:S× A → ℝ 表示回报函数,γ ∈ [0,1] 表示折扣因子。上述动态定价问题 MDP 的具体分析如下:状态空间 S: 状态信息通过特征描述, 即 S = ( S _observation,S_ stock, S _ seq)。

　　其中,特征分为观测状态 S _observation,库存状态 S_stock 以及序列反馈信息 S_seq 三组。观测状态表示对定价市场环境的感知,可以是当前时间步同类竞争商品的价格、不同时段顾客的流量等影响顾客到达率以及需求敏感性的特征;库存状态由当前定价时间步到销售期结束的剩余时间量和剩余库存量构成;序列反馈信息表示从定价开始到当前时间步的库存状态变化、销量状态变化以及定价状态变化的序列反馈,用于学习不同时间步状态信息下采取不同定价动作的需求敏感性变化特性。

　　强化学习是一种在线自适应学习框架,被广泛用于处理序列决策问题。基于强化学习理论解决动态定价问题具有的优势在于强化学习从与环境的交互经验中学习最佳的定价策略,能够随环境变化而自适应地调整定价,并将需求估计与价格优化两阶段结合在一起。

　　Q-network 架构的设计关系到正确地近似表达不同状态下采取不同动作的累积折扣回报价值,在图 2 中展示了本文设计的 Q-network 架构。本文对 Q-network 架构的设计综合考虑到了状态信息、观测信息以及序列反馈信息来评估当前状态下选取不同动作的累积折扣回报价值。因此,针对底层特征提取分别设计了观测状态、库存状态和序列反馈信息模块。

　　4 数值实验

　　接下来,本文将 DRL-DP 与基于表格式强化学习动态定价算法 Q-learning[26]、 Q(λ)[27]的定价策略学习能力在模拟的不确定性动态定价环境中进行了对比分析。 Q-learning、Q(λ) 与 DRL-DP 在 MDP 定义的不同之处在于状态空间为商品剩余的库存量,回报函数采用立即收益 Pmaxat·nt。实验内容如下:1)对比三种强化学习动态定价算法的收益表现以及定价策略的收敛情况分析;2)分析探索率对三种强化学习动态定价算法收益的影响;3)分析 DRL-DP 回报函数设计的合理性。

　　4. 1 实验环境设置

　　实验环境中假设代理不知道顾客的到达率以及需求模型,只通过与环境交互基于历史观测数据学习而作出定价决策,相关的实验数据通过如下假设生成。顾客到达率模型:假设顾客的到达率是具有时间相关性的泊松分布,这个假设是随机性的。顾客的初始平均到达率为 μ(1),由在区间[x0 ,x1 ] 的均匀分布生成,平均到达率随时间 t 递减 μ(t) = μ(1) - ξt,t = 2,…,T。这符合对一部分易腐性和时尚类商品的需求热度随销售时间的推移而逐渐降低的现实应用背景。

　　4. 2 结果分析

　　文中 4. 1 节动态定价问题的最优定价策略由已知顾客到达率和需求全部信息的动态规划计算得到。总结了三种算法在与环境交互学习一定迭代幕数之后的平均收益占最优定价策略取得收益的百分比。 Q-learning 和 Q(λ) 的定价策略收敛速度较慢,平均收益取 10000 幕迭代所得,DRL-DP 的定价策略收敛速度快,平均收益取 1000 幕迭代所得。从总的平均收益水平分析可知,DRL-DP 从观测空间的状态特征学习到了顾客的到达率信息,收敛速率快,前 1000幕与环境的交互已经比表格式强化学习动态定价算法 10000幕的交互提升了百分之十几的平均收益水平。

　　下面比较三种动态定价算法策略的收敛情况。随着与环境交互的增多,DRL-DP 在与环境的交互中逐渐学习改进定价策略,随着迭代幕数的增多,收益不断提高,最后策略收敛,收益趋于稳定。此外,可以比较出DRL-DP 的定价策略学习能力明显优于 Q-learning 和 Q(λ),收敛速度快,前 100 幕所取得的平均收益已经高于了 Qlearning和 Q(λ), 在[500,1000]幕的平均收益已经趋于平稳,并且显著高于前两者算法的定价策略收敛到平稳状态后的平均收益。由于在不确定性的定价环境中,需求与顾客的到达率存在相关性,Q-learning 和 Q(λ) 定价模型的学习表达能力有限,造成对状态-动作值的估计需要采样更多的数据而导致算法的收敛速度较慢。此外,受到顾客到达率随机性的影响,Q-learning 和 Q(λ) 缺乏对观测空间特征信息的掌握,导致 Q-learning 和 Q(λ) 估计的状态-动作值不够准确并且产生波动,而 DRL-DP 利用神经网络去近似值函数能够在不确定性的定价环境中对其估计更加准确。

　　实验结果验证了 DRL-DP 在不确定性动态定价环境中具有比表格式强化学习动态定价算法更优的定价策略学习能力。下面分析探索率对平均收益的影响,表明探索率采用逐步衰减是一种更为合理的方式。本文分析了三种算法在逐步衰减探索率(从 1 逐步衰减到 0. 01,即 1→0. 01)和不同固定探索率下的平均收益。 Q-learning 和 Q(λ) 取10000 幕迭代的平均收益,DRL-DP 取 1000 幕迭代的平均收益。

　　一个适中的探索率能够产生更高的平均收益,而探索过多不利于定价策略的收敛而且持续性过高的探索率还会影响顾客体验;探索过少容易使定价策略收敛到较差的次优解,在这两种情况下都会导致降低平均收益水平,一个更好的策略是采用逐步衰减的探索率来平衡探索与利用之间的关系。此外,实验结果也表明在不同的探索率下,DRL-DP 相比另外两种算法在大多数情况下都能取得更好的平均收益。

　　5 结语

　　本文基于深度强化学习理论提出了解决不确定性环境下有限库存动态定价问题的学习框架 DRL-DP,并模拟了需求跨时段相互依赖的不确定性动态定价环境。通过仿真实验表明在不确定性动态定价环境中,需求与定价环境的特征存在相关性时,DRL-DP 相比于传统的表格式强化学习动态定价算法能够学习到更优的动态定价策略。DRL-DP 与环境交互学习动态定价策略,自动从定价环境中的各种影响因素学习需求与价格的关系来最大化长期累积收益,通过交互经验改善动态定价策略。 DRL-DP 不需要模型配置,同时适用于高维状态特征的学习,这对于大数据环境下现实应用问题的动态定价策略探索具有积极的意义。现实应用场景的环境更加复杂多变,希望未来对此方面感兴趣的学者能够基于真实的应用场景数据来解决动态性数据的获取问题,以实现更进一步的研究。

　　参考文献

　　[1] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level controlthrough deep reinforcement learning[J]. Nature, 2015, 518(7540):529-533.

　　[2] Silver D, Lever G, Heess N, et al. Deterministic policy gradientalgorithms[ C]. International Conference on Machine Learning,2014: 387-395.

　　[3] Zhao X, Zhang L, Ding Z, et al. Deep reinforcement learning forlist-wise recommendations, arXiv preprint arXiv:1801. 00209.

　　[4] Zhao X, Zhang L, Ding Z, et al. Recommendations with negativefeedback via pairwise deep reinforcement learning[C]. KnowledgeDiscovery and Data Mining, 2018: 1040-1048.

　　[5] Zou L, Xia L, Ding Z, et al. Reinforcement learning to optimizelong-term user engagement in recommender systems [ C ] / /Proceedings of the 25th ACM SIGKDD International Conference onKnowledge Discovery & Data Mining. 2019: 2810-2818.

　　[6] Mason R, Välimäki J. Learning about the arrival of sales [ J].Journal of Economic Theory, 2011, 146(4): 1699-1711.

　　作者：王祖德, 陈彩华∗, 李敏

查阅更多的教育论文文章