![移动物联网智能通信与计算](https://wfqqreader-1252317822.image.myqcloud.com/cover/386/53256386/b_53256386.jpg)
上QQ阅读APP看书,第一时间看更新
2.3 基于多智能体模仿学习的计算卸载算法
2.3.1 算法概述
基于多智能体模仿学习的计算卸载算法分为以下几个步骤。
(1)问题转换
由于问题 P2.1在分布式的环境下不能直接求解,本章首先建立了公式化的优化问题与随机博弈之间的关系。通过定义与所考虑的场景相关的状态、观测、行动和转移概率来指定博弈元素。然后,将 P2.1中的时延最小化问题转化为奖励最大化问题。在本章所考虑的博弈中,不仅要考虑每个设备在每个时隙所采取的行动,还需要为每个任务选择应该的行动。因此,本节给出了所考虑系统的唯一值函数和纳什均衡条件。奖励最大化问题可以进一步转化为拉格朗日对偶问题,该问题可以在分布式环境下求解。
(2)专家策略获取
在模仿学习中,专家策略是影响智能体策略最终性能的重要因素。因此,本节设计了一个有效的算法来得出专家演示。假设专家可以观察到整个系统的状态,并且可以通过自然梯度策略(如 ACKTR[8])以离线方式解决对偶问题,可以在设备之间达到纳什均衡,并通过收集它们的观察-动作对形成专家演示。
(3)智能体策略获取
在本章考虑的普适边缘计算网络中,每个设备仅可使用本地观察。为了评估基于完整系统状态的专家策略性能,本节通过集成 CNN、GAN[9]和 ACKTR 算法设计了一种新型的神经网络模型,该模型可以在线运行,以最大程度减小相应专家和智能体的观察-行动分布之间的差距。
(4)任务调度
通过智能体策略,每个设备都可以获得本地任务xik的动作,即选择在哪个设备上执行计算任务xik。而后任务xik可以从设备i发送到设备k。对于传输过程,可以通过几个中继节点建立一条直接或间接的路径。由于分布式无线网络中的路由问题已经得到了深入的研究[10-11],不在这里详细说明。