超密集网络中基于MEC的动态任务卸载方案

　　摘要：超密集网络(Ultra-Dense Network, UDN)中集成移动边缘计算(Mobile Edge Computing, MEC)，是 5G 中为用户提供计算资源的可靠方式，在多种因素影响下进行 MEC 任务卸载决策一直都是一个研究热点。目前已存在大量任务卸载相关的工作，但是这些方案中很少将重心放在用户在不同条件下的能耗需求差异上，无法有效提升用户体验质量(Quality of Experience, QoE)。在动态 MEC 系统中提出了一个考虑用户能耗需求的多用户任务卸载问题，通过最大化满意度的方式提升用户 QoE，并将现有的深度强化学习算法进行了改进，使其更加适合求解所提优化问题。仿真结果表明，所提算法较现有算法，在算法收敛性以及稳定性上具有一定提升。

　　关键词：移动边缘计算;超密集网络;卸载方案;深度强化学习

深度强化学习

　　引言

　　随着无线通信技术的快速发展和智能设备的广泛普及，近年来移动应用迎来爆炸式增长[1]，然而移动设备(如智能手机，可穿戴设备)的计算能力和电池电量通常都是有限的[2]。上述应用和资源受限设备之间的关系对提高移动用户体验质量提出了巨大的挑战[3]。移动边缘计算将计算服务器从云中心下沉到网络边缘，用户可以利用计算卸载技术将任务卸载到边缘服务器进行计算来满足密集计算的需求[4]。5G架构下的超密集网络是一种多基站协作服务的异构网络方案，可以有效改善网络的整体性能[5]。

　　因此，与 MEC 集成的 UDN 被视为 5G 应用中的一种可靠的技术[6]。用户卸载决策一般由软件定义网络(Software Define Network, SDN)架构下的中央控制器进行统一控制[7]。然而，由于密集部署的微基站和 MEC 服务器会导致多个用户处在多个微基站的覆盖范围内，而不同的服务器具有不同的计算能力，如何为用户进行卸载决策以及资源分配是一项挑战[8]。针对 MEC 网络中多用户任务卸载决策问题，国内外研究人员已经进行了大量的研究。

　　文献[9]在超密集网络中提出了一个基于非正交多址(Non-orthogonal Multiple Access, NOMA)的时延最小化问题，采用启发式算法和凸优化进行分层求解;文献[10]利用二等分搜索方法解决了最小化执行时延的非凸问题;李等人在[11]中提出了一种基于双连接和 NOMA 的计算卸载架构和一个最小化用户总能耗的优化问题。为了解决该问题，作者在逐次凸逼近算法和网格自适应搜索方法的基础上提出了一种基本凸规划算法，仿真证明所提算法具有更好的收敛性。但是他们都是在静态条件下进行的计算卸载研究，实际的 MEC 场景中，环境肯定是动态变化的。

　　文献[12]考虑了资源的动态变化，提出了一种基于图的服务器区域聚类算法以及基于博弈论的任务调度机制，经过不断迭代得到多用户卸载决策;文献[13]在时变 MEC 系统中考虑任务队列，采用李雅普诺夫优化方法和逐次凸逼近法来获得优化问题的次优解。这些传统的优化方式在用户较少时，可以有效的解决计算卸载问题，但是当用户增多，并且优化问题维度变大时，这些算法的复杂度将会呈指数增加，所以不少的研究人员开始将目光投向了深度强化学习 (Deep ReinforcementLearning, DRL)算法。文献[14]以时延和能耗为目标，在动态 MEC 系统中提出了一个最小化用户成本的优化问题，并采用改进的深度强化学习算法获得了最优解。

　　文献[15]在异构网络中提出了一个在满足时延的情况下最小化能耗的优化问题，并使用一种基于 A2C 框架的 DRL 算法获得了最佳的卸载决策和资源分配方案，验证了算法的优势。黄等人在[16]中提出了一个多小区联合计算卸载和资源分配的优化问题，目标是在满足时延的约束下最小化能耗，并提出了一种联邦强化学习算法，该算法只需代理之间共享模型，无需本地训练数据，大大降低了算法的复杂度。这些方案都是在满足用户时延的情况下简单的使能耗最小化，但是他们没有考虑到不同用户在自身不同条件下产生的能耗需求差异，对于提高用户能耗方面的体验质量效果很差。当用户设备电量比较充足时，此时用户对于能耗的需求不是很高，相反设备电量较低的用户对能耗的需求会很高。

　　而在计算资源有限的情况下，假设所有用户都是合作关系，可以让设备电量较高用户获得稍少的计算资源，让步出的这部分计算资源可以用来降低设备电量较低用户的任务执行能耗。通过合理的计算资源让步可以有效的提高网络中设备的待机时间以及用户任务执行能耗方面总的体验质量。另外，随着设备待机和执行任务等能量消耗，设备电量也会逐渐变化，此时用户对于能耗的需求也会随之变化，需要一种计算卸载方案在充分考虑该需求的情况下提升用户体验质量。基于上述问题的描述，本文在充分考虑不同用户能耗需求的情况下，提出了一个与用户任务执行能耗相关的满意度优化问题，并利用基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的改进算法求解。

　　本文具体贡献如下：(1) 为了衡量用户任务执行能耗，本文在传统的任务模型加入了更加符合用户需求的任务执行理想能耗和任务执行最大能耗，用来表征用户对于该任务执行能耗的要求，并设计了一个理想能耗设定公式，该公式使得理想能耗的设置与用户设备当前剩余电量相关，能够充分体现出合作关系下电量不同用户的不同能耗需求。(2) 由于用户的能耗体验质量无法直观展现，本文基于上述两个能耗需求提出了一个满意度模型，利用该满意度模型表征用户在能耗方面的体验质量。(3) 通过对满意度模型函数进行曲线分析，本文提出了一个更加适合所提问题的深度强化学习算法，该算法的优先经验重放机制根据曲线特性给予不同经验组不同的采样概率。通过仿真分析，所提算法在收敛性和稳定性上较现有算法具有一定的优越性。

　　1 系统模型

　　1.1 网络场景

　　理想能耗的设置与用户的需求、用户设备当前剩余电量以及当前任务的最大执行能耗阈值有关。当用户设备自身剩余电量较多时，用户对于执行能耗的需求很低，而剩余电量较低时对执行能耗的需求相对较高，并且电量越低对执行能耗的需求越苛刻。用户对于能耗需求越高，其理想能耗值需要设置的越低，用户对能耗的需求需要一个明显变化的过程。因此理想能耗的设定与最大能耗阈值成正比，但不是线性比例关系，而且与剩余电量百分比正相关，需要一个函数来反映上述思想，经过对比分析函数图像，指数函数能够体现不同电量下用户对理想能耗的需求程度。

　　当用户设备电量较高时，对能耗需求较低，此时理想能耗值设置较高;随着电量逐渐降低，理想能耗值也逐渐降低，但降低幅度不大;当电量低到一定程度，此时用户开始注重能量消耗，其理想能耗值随着电量降低迅速下降，由此可以看出该公式能够比较贴切地显示用户对于能耗的需求。关于参数，当参数逐渐增大时，用户在电量较低时的需求会更高，对理想能耗的值设置更低，所以不同值可以满足不同用户的需求。公式(2)主要起到合作机制的限制，用户不能过分贪婪的将理想能耗设置过低，这样可能所有的用户都会受到影响，又考虑到合理性，将理想能耗的最小值设置成该任务最大能耗的一半。

　　2 问题描述

　　受到[5]的启发，本文定义了一个表征用户体验质量的满意度模型，该模型由 Abdeljaouad 等在[18]中提出，基于向下递减的效用函数 sigmoid 设计，合理的效用函数应该遵循边际效用递减规律，存在一个最小值，在该值之前效用质量为优秀，且应存在一个最大值，该值之后效用质量为最差，即需要一个最大值和最小值作为边界。作者采用了最大IPTV 时延和理想时延作为边界并将两者中值作为中间点，并将该模型作为用户对于 IPTV 时延的体验质量标准。该效用函数同样适用于本文，因此将其中的理想时延和最大时延替换为理想能耗和最大能耗，并将该模型作为用户能耗需求的体验质量标准即满意度。

　　2.1 满意度函数分析

　　在对满意度曲线进行分析之前，首先引入斜率变点的概念。系统的输出序列在某未知时刻起了突然变化，该时刻即称为变点，斜率变点是指曲线斜率加(减)速变化最大的点[19]。假设最大能耗与理想能耗的比例为 8:5，满足公式(2)，为取值区间内不同的灵敏度参数对于用户满意度的影响。从单个曲线走势来看，一条曲线一共有两个斜率变点，本文定义图中左边变点为第一变点，右边变点为第二变点。当能耗从理想能耗缓慢增加时，用户的满意度在缓慢下降，但是从曲线的斜率可以看出，在到达第一个变点之前，下降的幅度是比较缓慢的，这也是该满意度函数更加贴近用户感受的体现。

　　当能耗不断增加到达变点之后，此时离理想能耗已经较远，满意度相比之前开始急剧下降，直到遇到第二个变点，此时的满意度已经下降到了一个较低的水平，再次变化的幅度相较之前已经不大。从单个曲线关注到多个曲线，从图中可以看出，随着灵敏度参数的增加，用户满意度曲线的第一个变点会升高，这表示用户在能耗较低时的满意度较高，一旦能耗开始增加，满意度的下降程度会随之提升，这种设置可以满足不同情况下的不同需求。例如用户当前对于能耗的需求比较苛刻，可以通过调高参数来获得更多的资源。

　　但是考虑到其他用户的计算需求，不能无限制增加参数值，所以给该参数限制了一个设置范围。该曲线除了能更加符合用户的需求外，还有另一个优点。在处理优化问题例如最大化所有用户满意度时，由于所有的用户都是合作的，为了更大化所有用户的满意度，可以尽量让用户的满意度达到第一个变点附近而非最理想的状态，这样可以给那些拥有资源较少的用户更多的让步，以此达到用更少的资源获得更好的满意度的效果。当用户设备电量较高时，其理想能耗值按公式(2)设置会比较高，应用到满意度模型中，相当于放松了对能耗的需求，在进行资源分配时，获得较少计算资源时就能达到较高的满意度。而电量较少的用户其理想能耗值会很低，同理可以分配得到较多的计算资源，以此来减少任务执行能耗，提升满意度。经过该合作模式，能够有效提高网络设备的待机时间和用户的满意度总和。

　　3 所提算法

　　3.1 强化学习框架

　　RL 框架主要由智能体，环境和三要素组成，三要素包括：状态空间、动作空间以及奖励。在传统的 DDPG 中，广泛采用均匀采样，从经验重放数组中随机抽取一小批经验样本用于网络参数训练[22]。这种做法忽略了经验组的重要性，不同的经验组应该有不同的重要性，可以快速感知成功或者失败的经验以此来加快收敛。因此，部分研究人员引入了基于优先经验重放 (Priorityexperience replay, PER)的方法来解决上述问题，其中更有价值的经验以更高的概率重放[23]。

　　每个经验组与优先级相关联，而重放概率是根据重放数组中所有经验组的优先级值计算的。在 PER 中，那些较为成功的或者失败的经验组更有可能被加入训练批次，有助于缩短学习时间和提高训练的稳定性。在研究 PER 技术时，如何定义优先级是一个关键问题，通常绝对 TD 误差会作为评估经验优先级的重要指标[24]。TD 误差绝对值较高的经验组给予较高的优先级，此时说明神经网络对于动作的真实价值估计并不准确，给予较高的权重有助于神经网络减少错误预测的概率。受到以上优先级分析的启发，本文提出一个更加适合本文问题的优先级机制。在资源有限的情况下，MEC 网络不能满足所有用户的任务计算都能达到最理想的能耗，此时会出现不同用户分配到的资源不同的情况。

　　由曲线分析可知，在能耗从大到小的变化过程中，当能耗度过第二个变点之后，满意度的上升几乎与能耗呈线性关系，此时的上升速度是比较快的。但是当度过第一个变点之后，满意度的上升就开始减缓。可以看出，付出相同的代价第一变点前后满意度的变化幅度是不同的。假设所有用户是合作的，由于本文的优化目标是最大化所有用户的满意度，所以如果那些满意度在第一变点之上的用户将满意度控制在变点附近，就可以为资源较少的用户即满意度在第一变点之下的用户，释放出更多的资源来为他们提供更多的满意度提升空间，这样满意度总值会比之前有所提升。基于上述分析本文提出基于最大化用户满意度的优先级机制，将那些较多用户满意度停留在第一变点附近的经验组赋予较高的优先级，有助于智能体的快速学习。

　　4 仿真分析

　　在本节介绍了评估了所提强化学习算法的性能。首先介绍仿真实验的相关参数的设置，然后分析不同参数对强化学算法的影响，并验证了所提算法的收敛性和有效性。最后与现有算法基于不同方面进行对比，证明了所提算法的优越性。

　　在经过少量迭代之后，算法重新收敛，证明了所提算法的稳定性。另外将所提算法与当前现存算法 DDPG 和 DQN 进行对比。两种算法都带有基于 TD 目标的优先重放，而算法的参数设置与所提算法相同，不再赘述。从中可以看出，所提算法不管是在算法收敛性上还是收益性能上都有明显的优势。DDPG 算法虽然带有基于 TD 目标的优先经验重放策略，但是由于所提算法的优先经验重放是基于当前问题提出的，所以在该问题求解上要优于DDPG。由于本文所提优化问题带有连续决策变量，所以采用 DQN 算法时需要进行变量离散化，变量离散化会造成精度损失，所以在性能上 DQN 要略差于 DDPG。当用户数量较少时，两种算法的迭代次数相差不大。

　　随着用户数量增加，本文所提算法的优势开始体现，迭代次数明显减少。当数量增大到一定程度，又变回差别较小的状态。这是因为当用户数量较少时，当前的计算资源比较充足可以满足所有用户的能耗需求，此时本文所提的优先经验重放策略起的作用比较小，但是也不会造成负面的影响。随着用户数量的增加，计算资源开始变得不再理想化，不能满足所有的用户的计算能耗需求，此时本文所提算法的优势就有所体现。当用户数量增大到一定程度，所有用户的满意度都达不到第一变点位置，此时计算资源相当匮乏，本文所提的优先经验重放策略作用再次降低。在实际中，第二种情况较为常见，由此可见本文所提算法的有效性。另外用户数量的增加对所提算法性能的影响明显小于 DDPG，这也是所提算法具有一定稳定性的体现。

　　计算机方向论文：基于机器学习算法的樟子松立木材积预测

　　5 结论

　　本文首先在考虑用户需求的情况下在现有任务模型的基础上加入了用户对于任务执行的能耗需求，然后在超密集网络的动态 MEC 系统中，提出了一个根据能耗需求设定的动态用户满意度的优化问题，该满意度可以用来表征用户在能耗方面的体验质量。在此基础上对基于深度强化学习的DDPG 算法进行了改进，使其优先经验重放策略更加适合求解上述优化问题。最后通过仿真证明，本文所提算法与现有算法相比，有效提升了算法收敛性以及稳定性。

　　参考文献：

　　[1] CHEN Zhenyue, CHENG Siyao. ComputationOffloading Algorithms in Mobile Edge ComputingSystem: A Survey[C]// Proceedings of InternationalConference on Computer Frontier. Guilin: CNKI, 2019:39.

　　[2] ALI H.S., ROUT R.R., PARIMI P., et al. Real-Time TaskScheduling in Fog-Cloud Computing Framework for IoTApplications: A Fuzzy Logic based Approach[C]//2021International Conference on COMmunication Systems &NETworkS (COMSNETS). Bangalore: IEEE, 2021:556-564.

　　[3] ZHANG Xinglin, LIANG Lingyu, LUO Chengwen, et al.Privacy-Preserving Incentive Mechanisms for MobileCrowdsensing[J]. Pervasive Computing, IEEE, 2018,17(3): 47-57.

　　[4] PANG Shanchen, WANG Shuyu, Joint Wireless Source Management and Task Offloading in Ultra-DenseNetwork[J]. IEEE Access, 2020, 8: 52917-52926.

　　[5] HU Shihong, LI Guanghui. Dynamic Request SchedulingOptimization in Mobile Edge Computing for IoTApplications[J]. IEEE Internet of Things Journal, 2020,7(2): 1426-1437.

　　[6] GUO Hhongzhi, LIU Jiajia, ZHANG Jie. ComputationOffloading for Multi-Access Mobile Edge Computing inUltra-Dense Networks[J]. IEEE CommunicationsMagazine, 2018, 56(8): 14-19.

　　[7] 谷晓会, 章国安, 孔德尚. 基于 SDN 和 MEC 的 5GVANET 架构及其性能分析 [J]. 电讯技术 , 2019,372(11): 1332-1337.

　　作者：鲜永菊，刘闯，韩瑞寅，陈万琼

查阅更多的电子论文文章