算力网络的早期有关论文——自用笔记
2023年底至2024年初阅读有关论文的自用笔记,作为参考。
算力网络架构
https://baijiahao.baidu.com/s?id=1727377583404975414&wfr=spider&for=pc
think¬e
是否可以和cpu进程调度联系。
目前:看一些综述深一步了解背景和发展现状,完善认知->学位论文和中文核心查看已有架构和仿真实验,考虑网络如何建模。
感知:仅在拓扑改变时通告,网络划分成子网,最高层只负责调配大致方向,分层调度任务(节点宕机并不会主动通报,可通过网关入口管理子网的形式)
路由:分布式(路由节点进行转发),集中式路由(中国联通研究院的文章,算网编排层,已实现于算网一体调度,不用再关注状态的集中感知)。或者考虑实现混合式路由。
可能需要解决的问题:怎么做到真?算力如何度量?服务优先级如何度量?多级、异构算力的统一标识,路由协议的统一问题
考虑仿真环境的限制,主要关注算力和网络联合调度的部分,服务简单建模为优先级别和服务时间。
下一步:除了继续调研发展现状以外,较少有算力网络路由的外文文献,计算卸载在学术领域的研究更加全面;
网络层面 | 算力层面 | 服务层面 | |
---|---|---|---|
资源信息 | 考虑链路质量、拥塞情况和数据实时性要求,选择质量较好且传输时延较低的路径 | 选择算力状态空闲、距离近且网络状态良好的节点 | 优先响应任务敏感性、高优先级服务 |
指标 | 时延、带宽、丢包率;吞吐量 | 节点的负载、经济成本、能耗; 节点资源: 计算,通信,内存和存储能力; 节点服务能力:安全性,定位功能 | 算力服务类型,服务数据量,新增请求量 |
分类 | 分布式(路由节点),集中式(算网编排层,算网一体调度),混合式 | 组合服务和单体服务 |
当计算时间和调度时间不在同一量级,没有优化意义?计算>>调度,对总体效率提升不大;调度>>计算,效率过低,在附近算
开题
集中式调度可能不适用于时延敏感型业务,面向需要处理大量数据进行分析的业务。
分布式调度虽然有时延优势,但目前东数西算不适用于低时延要求的场景,时延敏感型任务更倾向于在边缘节点处理。因此,集中式调度是东数西算的重要调度方式,它有助于处理大量数据分析的业务,降低计算的经济成本。
以优化目标为驱动;已经实现的东西;
遇到空闲节点附近的网络负载较重的情况,若选择该节点,网络传输时延大;若选择其他节点,任务等待时间大。吞吐量奖励对于俩种情况一致,时延小的奖励高。状态空 间需要提取网络、节点状态特征。
对于网络预测任务预计传输完成时间;对于节点预测任务预计完成时间。作为数据集的死数据就可以。这俩个时间对于实际来说是否可预测?(可以暂时不考虑)
可能是哪些网络指标会严重影响服务完成速度?网络剩余带宽、网络拥塞时队列长度
学位论文
学位论文:docker模拟算力路由节点,分别优化组合服务和单体服务,networkx进行仿真,蚁群算法进行集中式路由优化
算力网络中的服务路由机制研究_关晨晨东南大学
主要工作
基于 Chord协议的分布式算力服务发现方案:算力节点提-=算力 资源并承载服务;算力网关将算力节点中的服务及服务实例状态信息进行发布;算力路由节点作为 Chord 中的实体,负责分布式地维护服务信息,以及完成服务发现
改良 Bkd树的单体服务优化调度算法:将具有多维属性的服务实例状态数据以 Bkd 树的方式进行组织,设计剪枝策略实现对服务实例的高效选择,设计重构策略支持服务实例的动态更新,并融合用户偏好实现对服务实例的优化调度
融合遗传算法、蚁群算法的组合服务调度方案:Bkd 树对服务实例进行过滤,减小搜索空间;然后,经蚁群算法生成可行解,并以遗传算法对生成的可行解进行优化
相关工作:【7】将任播地址作为服务的标识,提供相同功能的服务使用同一任播地址,并根据服务所处的计算站点的负载和网络状态,将客户需求调度至最佳站点
单体服务优化调度问题:根据用户对服务质量的偏好及期望选择服务实例,服务或服务实例的质量以及用户对 QoS 的期望和偏好而进行调度,类似于服务选择问题
基于Chord的服务发现
建模:算力节点中的服务实例的响应性能:响应时间、代价、响应成功率及服务的可用性
假设:1.假设服务部署工作已完成,服务实例位于网络中的不同算力节点中。
2、服务状态感知机制通过监控、遥测等技术手段完成,本文仅考虑如何将感知后的服务及服务实例信息进行发布和发现
问题:服务命名、响应性能状态标识、服务发现(获取可提供服务的节点位置)
分类:
-
集中式:单点瓶颈及控制平面可扩展性差;控制平面及注册中心的可信度及安全性的要求,适用于集群环境
-
DNS服务发现:首先通过本地域名服务器进行解析,若解析成功则可直接完成服务调用,否则向上层 DNS 服务器发送请求进行解析,直至获得服务的位置信息。
-
无结构分布式服务发现:依赖中间转发设备完成,域内采用 OSPF,域间采用 BGP,对现有的BGP 和 IGP 协议进行改进来实现
-
Chord发现:同一服务的所有服务实例信息由同一个算力路由节点维护。通过拼接服务的前缀号prefix,服务功能名serviceName进行哈希计算SID。收到路由请求后,依次将请求转发至其后继节点,来查找维护该服务的节点
bkd树单体服务调度
问题定义:优化目标为在所有维度上(服务响应时间、代价、可用性、响应成功率)全部满足用户期望且综合性能最优
请求到来时,用户期望进行归一化并通过Bkd 树(二叉搜索树)筛选出满足公式(4.3)的服务实例,最终根据用户偏好计算各服务实例的综合得分完成服务实例的调度。
改良bkd树:增加一个buffer,当buffer大小与当前树一样大时将俩树合并;计数布隆过滤器来维护节点的更新,若在过滤器中有该实例说明已更新,则过滤该实例,否则加入备选;若所有实例均无法在四个维度上满足用户需求,则使用KNN算法计算k个与用户期望距离最近的实例。
缺陷:无法解决动态插入数据的问题,更适用于静态数据的存储
实验:服从泊松分布的任务到达, QWS 数据集,生成用户期望
(对完全不了解工作的人清晰的讲解)
基于遗传蚁群算法的组合服务优化调度:为每个服务的服务实例通过 Bkd 树过滤一部分不符合用户期望的服务实例;筛选后的服务实例通过遗传-蚁群算法进行组合,每个服务选择一个服务实例,并按照工作流的方式进行组合,完成业务功能。
实验:基线为qlearning,ACO,比较了优化目标、迭代次数的影响
面向算力感知网络的路由系统仿真设计与实现_顿昊BUAA
think:在实现上考虑是否有提供该服务的节点,该节点算力资源是否足够,然后考虑最小cost的路由。这篇文章优先考虑计算性能的盈余,在算力状态近似的情况下选择网络性能较优的服务节点,可能存在有盈余的计算节点网络负载较重的情况?可能是哪些网络指标会严重影响服务完成速度?最大化网络吞吐量的情况下,确保完成服务,
IETF标准化文稿《Compute First Networking Scenarios and Requirements》
算力网络体系的整体架构应该具备统一纳管底层计算资源、存储资源、网络资源的能力,并能够将底层基础设施资源以统一的标准进行度量,抽象为信息要素加载在网络报文中,通过网络进行共享。
相关技术
设计任播完成服务请求:由于使用任播标识各类计算服务,多个计算服务节点拥有自身ip地址外,还存在具有相同服务标识的ipv4地址的情况 ,且算力路由通告信息基于服务标识地址,所以无法使用普通ipv4完成路由转发。
关于任播:任播是使服务地址可用于两个或多个离散位置的任播节点上的路由系统的做法的名称。无论路由系统选择哪个特定节点来处理特定请求,每个节点提供的服务通常是一致的。对于使用任播分发的服务,没有引用到其他服务器或基于名称的服务分发(“轮询DNS”)的固有要求,(如果应用需要,可以与任播服务分发结合使用)。路由系统根据拓扑和请求节点来决定每个请求使用哪个节点。
节点之间的负载分配在请求和流量负载方面通常是不平衡的,任播节点之间的负载均衡通常很难实现。
p23
应用感知网络,APN6:扩展携带算力状态信息,通过IP报文传递转发实现全网感知
IP隧道:通过对现有网络传输协议报文进行头部的封装/解封装,实现不同网络间的通信功能.宏观来看是虚拟的点对点连接通道,保证将头部封装后的报文能够按照头部路由信息成功传输,同时通道两端具有对数据报封装和解封装的功能。缺点: 无法平衡实际网络的资源损耗,不实际。
主要工作
采用分布式方案:路由节点通过报文传递生成本地算力状态表,入口节点结合出口节点的网络状态生成本地网络状态表,根据算力和网络状态表生成算力路由表指导服务转发。
算力度量->分布式架构->(BGP协议扩展性)算力通告->路由算法->(IP隧道技术)任播服务的路由
算力度量:算力简单定义为cpu及内存使用率
计算 | 对CPU/GPU等计算资源运算能力的评估 |
---|---|
通信 | 节点对外通信速率.单节点: 在单位时间内能发送或接收的最大数据量 |
内存 | 内存容量,内存带宽 |
存储 | 存储容量 、 存储带宽 、 每秒操作数(IO数)及响应时间(IO请求完成时间) |
算力通告: 可将算力状态信息引入BGP UPDATE消息中扩展团体属性,同时増加监听功能函数识别含算力状态信息的BGP报文。算力节点到路由出口节点的算力和网络状态信息感知通过mysql数据库实现。
路由方法:CLRA,首先进行计算性能参数及网络性能参数的初始化,接着对服务注册表遍历,保证为不同计算服务类型计算最优服务节点,对于可提供相应计算服务的节点而言,优先考虑服务节点计算性能盈余,并能在算力状态近似的情况下选择网络性能较优的服务节点,通过迭代借助临时变量完成服务注册表中的计算服务最优节点的获取,保证了算力网络中各计算服务节点具备负载均衡特性。
任播标识的路由:对于不同的服务集群给予相应的服务类型SID,即一个IPv4单播地址。每个服务器有唯一IP地址和SID。使用ipip隧道,即在IPv4报文的上再封装一个外头部IPv4报文, 通过配置两节点之间的隧道自动生成一条路由。**缺点:**不能通过IP-in-IP隧道转发广播或者IPv6数据包,只是连接了两个一般情况下无法直接通讯的IPv4网络而已;在Linux实现,不能与其他操作系统或路由器互相通讯。
实验包括随请求流增加情况下负载变化情况、不同路由算法下用户服务满意度(根据时延判断,不超过1s则满意)、算力网络和传统网络(不考虑算力因子)的平均时延对比,在不同流量强度下取平均、算力通告周期的长短和通告时延的关系
- 算力路由通告时延和入口路由节点与出口路由节点的跳数成正相关。
- 随着算力通告周期的增大,算力路由通告时延也随之增大。
- 入口路由节点与出口路由节点跳数较多的情况下,算力通告周期大于15秒后通告时延会远高于环比增长。
- 考虑到实际需求及资源把控,算力通告周期设置在5秒至10秒之间最佳 。
展望:(1)优化算力度量,考虑多因子;(2)与现网技术和协议的兼容,(3)引入RL、DL规划路由,(4)系统可视化
分布式架构
分布式架构:计算服务节点将其所具有的量化算力资源发送给其最近的路由器,由边缘路由器生成转发表
优点:稳定,可扩展性强
集中式架构:基于SDN/NFV,SDN集中控制器维护网络状态表.节点向控制器发送请求报文,控制器生成下发路由项
优点:集中编排,易实现
缺点:控制器计算负担重,出现单点故障
服务请求端:请求通过任播地址(SID)识别服务节点,服务节点已被标记SID,表示某一类型的服务
算力路由入口节点:内部网元,面向客户端,依据路由表指导实现调度
算力路由中心节点:接收转发算力状态信息表
算力路由出口节点:面向服务节点,更新连接节点的算力状态信息,并进行全网通告
计算服务端:为服务请求提供服务
感知过程:计算节点将量化信息上报给最近路由器,周期性通过REST API发送POST请求更新算力负载信息,由此路由器进行算力通告.
决策过程:边缘路由器测量网络状态,调取算力状态表,生成路由信息项和转发表
2023-网内动态通算资源协同利用研究_齐建鹏-北京科技大学-博士
问题与解决
- 通算资源动态变化时的资源匹配度 - 资源稳定匹配评估模型,求出任务与资源的匹配度
- 分布式、动态、精准匹配最优节点
- 约束资源有效覆盖范围,确定资源状态更新间隔
评估动态算力、网络资源和任务的匹配度;匹配稳定、分布式通算资源;划分有效资源约束范围,确定更新间隔,提出分布式通算协同感知与匹配框架;基于信息中心网络仿真器ndnSIM,网络仿真平台NS-3,设计通算资源协同利用的仿真平台
匹配度:网内协同任务在面临可用资源波动时仍然能在一定时间内满足任务的时延需求程度
相关工作
动 态通 算 资 源匹 配 评 估
链 路 内 及 广 域 网 的 通 算 资 源 协 同 计 算
仿真平台:NS-3,omnet(c++);cloudsim(java,不支持网络协议栈);ndnSIM扩展[19];https://github.com/qijianpeng/awesome-edge-computing
算力网络路由调度技术研究-电信科学
T2-网络与信息安全学报
两个核心问题:算力和网络资源如何实时、精准、可量化地感知;算力和网络资源如何一体化路由调度。
一体化路由调度的前提是:异构泛在网络状态和资源状态的实时感知能力,感知过程包括资源状态的量化和信息发布。
无人机、自动驾驶等新型场景涌现出的数据量激增,需要更高的网络化算力支撑。卫星通信摆脱地形环境的限制,和地面通信网络相互补充,将分散的算力节点进行链接,赋能算力网络发展。
资源感知
网络资源
随着算网一体的逐步发展,亟须跨云网的端到端网络性能检测手段。
跨云网性能测量解决方案如图所示,可以实现跨云网的随流检测,实现网络资源状态感知能力升级。该方案不需要云内网络硬件设备升级,从而降低网络演进复杂度。
通过云内虚拟安全网关进行网络测量实现。
算力感知
面向网络侧,分布式算力路由:面向网络侧的算力资源状态感知,将算力状态信息关联到网络层并进行传播,可用于分布式算力路由调度解决方案。
算力节点首先将算力资源状态信息进行建模度量,定义新的网络协议报文携带算力状态信息,基于网络协议对网络侧通告算力状态信息,
面向算网编排层的算力资源状态感知,可用于集中式算力路由调度解决方案和混合式算力路由调度解决方案。面向算网编排层的算力状态感知是目前算网一体调度实现的现有技术。
面向算网编排层相对于直接面向网络层,可能存在感知速度的差异,但在算力信息的高效利用、现网升级等方面有较大优势。
**集中式算力路由调度:**集中式算力路由调度解决方案中,算力状态信息通告流程如b1→b2所示,算力节点通过南北向接口将算力状态信息逐层向算力管控层、算网编排层通告。
混合式算力路由调度:在混合式算力路由调度解决方案中,也可以通过南北向接口进一步实现算力状态信息由算网编排层向网络侧的传递。
算力状态信息通过算力侧北向接口传递至算网编排层(c1→c2),由算网编排层进行智能化处理(如阈值判定、通告颗粒度调整等)后,由网络侧北向接口下发至网络设备层(c3→c4)。
算力网络路由调度技术
基于网络和算力信息的网络路径选择和算力调度并不是一个全新的课题,在学术界已经有了大量的计算卸载相关技术研究。计算卸载在学术领域的研究更加全面,可以对算力网络的路由调度技术形成有效补充!可以参考计算卸载的相关研究。
考虑:计算节点的负载、经济成本、网络路径;综合考虑网络承载质量(时延、带宽、丢包率等)以及计算节点算力状态(算力类型、负载等)、经济成本、能耗等多重因素。
集中式算力路由调度方案由算网编排系统做出路由决策,分布式算力路由调度方案由算力路由节点(网元设备)做出路由决策。
混合式方案可以面向时延敏感型业务提供分布式路由调度能力,面向普通业务提供集中式路由调度能力。
混合式方案通过南北向接口进行算力资源状态感知与通告。纯分布式方案中算力资源状态通告是基于BGP/IGP 的扩展实现的,算力节点以及承载网中边界网络设备之间通过协议扩展进行信息扩散。
算力网络研究进展综述-网络与信息安全学报
[18]作者对边缘计算的计算任务卸载技术进行了研究,并从卸载决策、资源分配和系统实现 3 个方面进行了全面总结分析。加强边缘计算节点之间的协作,对于优化计算任务的调度、提升计算资源的利用率具有重要意义
[19]作者研究了面向智能物联网的多层算力网络,根据应用的不同算力需求考虑通过云计算、雾计算、边缘计算、海计算之间的交互和算力资源协同,实现算力的智能分发
文献[6]结合信息中心网络技术的命名机制,研究了基于 ICN 的算力网络融合架构和机制,采用计算图实现对算力资源的感知,并通过任务调度器实现对计算任务的分发调度。
算力网络基本架构
两个设计约束:边缘计算节点状态的实时感知和边缘计算资源的分布式协同处理及调度。
边缘计算节点状态的实时感知是合理均衡地使用计算和网络资源、动态高效地处理调度计算任务的基础。
处理及调度:是IETF 发布的关于 CFN 架构的草案,包含CFN 节点(CFN node)、CFN服务(CFN service)、CFN 适配器(CFN adaptor)
CFN 节点:提供节点的计算资源负载情况,向用户终端提供 CFN服务访问的能力。CFN 入口面向客户端,负责服务的实时寻址和流量调度;CFN 出口面向服务端,负责服务状态的查询、汇聚和全网发布。
CFN 服务是 CFN 节点服务注册表中的一个单位,具有SID。用来标识 由多个边缘计算服务节点 提供的特定应用服务,终端设备也采用 SID启动对服务的访问。终端设备无法预知提供服务的边缘计算节点,服务由SID对应节点群的某个节点响应。(在节点群中选择合适的节点?)
一个服务可以部署在多个边缘计算服务节点中
CFN 适配器:通过保持 BIP 信息、识别初始请求包等方式帮助终端设备接入 CFN
控制平面的主要作用是通告扩散服务状态信息;数据平面主要作用是基于 SID 进行寻址和路由转发
关键技术
网络信息:异构泛在计算资源状态,传输时延、抖动、带宽资源利用率等
计算负载:使用的 CPU、正在服务的会话数、每秒查询数、计算时延等;
资源状态感知机制(可考虑资源状态预测):指标变化超过阈值或更新计时器过期时才进行,避免网络波动。
计算资源不仅可以由边缘计算节点来提供,也可能会由终端设备来提供(如家庭网关设备、智能移动终端等)
调度:(可考虑边缘网络域内调度问题和域间调度问题)
原因:计算资源优先,计算能力不同,计算状态动态变化;多节点可完成任务,可分派给多节点协同;
以最短时间将计算任务分发,选择最佳的传输路径
当路由节点收到计算任务的数据包时,基于预先获取的计算任务类型、其他边缘计算节点和计算资源性能的对应关系,确定该计算任务类型对应的至少一个其他边缘计算节点及其计算性能。基于其他节点的计算性能,以及本地节点与其他节点之间的网络链路状态,综合权衡后确定目标计算节点。
传统的任播通常用于单请求−单响应式通信,当网络状态发生变化时,可能会将不同的请求发送到不同的位置;而在 CFN 中,需要在终端设备和服务节点之间进行多请求−多响应式通信。保持流的粘性:确保来自同一流的请求始终由同一边缘计算节点处理。
研究方向
SDN
ICT(信息中心网络):以信息内容为中心的通信模式。设计面向计算服务的命名寻址机制
结合区块链技术:一种将数据区块以时间顺序相连的方式组合,并以密码学方式保证不可篡改和不可伪造的分布式数据库。构建可信算力网络:将算力服务交易和结算的逻辑规则部署在区块链的智能合约层
结合确定性网络技术,构建超低时延算力网络:“准时、准确、快速”
自智算力网络:架构、技术与展望-物联网学报
挑战:
- 算网策略设计过度依赖人工经验
- 智能水平不高,缺少相互协作机制,无法实现系统级独立智能运行
- 无法根据应用场景动态变化,规模扩缩、用户需求变化、业务场景更替
- 忽略实际,局限于业务功能方案设计,缺乏感知、分析、决策、动作各环节综合考虑
将AI与算力网络基础设施、功能流程、服务应用深度融合,实现自主优化、智能自适演进。
本质是通过数据驱动进行自学习、自演进,算力网络中的基础资源感知和建模、资源的编排策略、算网运行的故障处理、算网系统的优化等关键动作,都可以通过智能算法实现自动化。
相关工作
文献[14]一体化编排与路由
文献[15]提出了基于深度强化学习的一体化任务调度策略,将计算任务分配的问题分为节点选择和节点内部任务分配两个阶段,以整合算力资源来提高总体资源利用率,优化节点内部的服务器与计算任务的匹配度来优化调度策略,降低总成本和提高资源使用效率。(该文献非DRL方法。)
文献[16]融智算力网络,从内生智能和业务智能两个维度进行阐述
文献[1]分析了SDN和ICN、区块链、确定性网络等技术的结合思想与技术路线
基于 DRL 的资源按需分配等[23](优化SFC编排)
文献[32]提出基于单域自治与跨域协同的解决方案。首先实现单域全面自治,在此基础上利用不同单域感知的差异性、计算资源的互补性、数据的共享性、域间的交互性,通过跨域协同赋予算网更高层次的智能水平。(局部自智,多域协同完成单域无法解决的问题)
自智算力网络
基于意图的算力网络需要根据用户的业务需求生成最优的算力服务提供策略,并通过对基础设施进行自动配置来进行功能实现。
生成满足用户意图需求的算网融合策略。用户表征、解析、生成策略。
- 流程自动化:算网能够在不依赖人工参与的情况下,利用 AI将单个流程的重复性算网操作转换成由系统自动执行,并将多个环节打通串联,使整个业务工作流的自动化运行
- 服务自优化:算网能够对业务资源的历史数据进行智能分析和预测,实现算网资源和参数配置的自优化,并能够根据用户反馈提升服务质量,形成资源、业务、服务的多重闭环优化
- 能力自主化:算网具备独立管理和控制算网的能力,进行全方位自动化管控,保障系统和业务持续稳定的运行
AI对单点或单域注智赋能,根据业务逻辑将各单域互联。算力网络在接收到上层指令与任务需求时,能够自动解
析业务意图并生成最优策略来对基础设施进行自动化配置,实现全流程的自动化和业务闭环处理。
关键技术
自智网络和算力网络的融合.
感知:对泛在异构、动态时变的计算资源的部署位置、实时状态、负载信息,网络的传输时延、抖动、带宽资源利用率. 多节点感知的算网信息进行聚合来扩展感知的维度和范围,并利用智能算法构建全局统一的算网状态视图; 资源状态预测; 提取感知数据特征;感知业务内容和意图, 考虑网络和计算资源,匹配算力和服务. 用户可能向网络提供所需资源信息, 也有可能需要网络对业务(文字,语音)意图进行解析,生成资源配置策略.
分析:分析用户业务、算网状态、功能流程,针对算力网络中泛在化的异构算力资源以及多样化的业务需求,如何有效地对算力进行标识和度量、对任务内容进行分类解析、对用户的满意度进行测评量化; 风险预判和预测性资源配置 ;分析定位故障节点,提供解决方案; 凝练可用的知识特征
决策:传统的策略生成通常基于人为设定的规则和经验数据,如基于链路基础度量值的路由选择[39]、基于分时的计算节点选择[40]、基于加权代价函数的任务调度[41]. 构建领域知识库, 对任务需求进行分析. 基于 AI 的策略自动生成机制、基于数字孪生等技术的策略验证,以及基于用户反馈的策略自动优化等技术已经成为相关研究的热点。
执行:精准控制算网全元素; 对算网进行全局协同控制; 基于生成的普适性、智能化的控制策略完成端到端的控制流程;自优化和自学习, 自动地选择学习目标、制定学习计划、构建学习方法、评价学习结果
展望
挑战:智能化能力建设缺乏完备的基础设施支撑,核心算法缺少领域知识、数据以及场景验证,融合机制缺少统一标准和评测规范等
- 通信、感知、计算、存储、控制一体化融合
- 基于知识定义的算网自治[43]旨在全域网络感知的基础上,使用 AI 技术处理算网数据生成知识,并利用这些知识帮助算网进行闭环自治。监控网络,采集分析数据,定义知识,知识和用户意图共同干预决策,从而配置网络应用,形成闭环
- 利用不同节点功能的差异性、计算资源的互补性、节点间的交互性,通过多节点协同自适应感知、智能在线适配学习、迁移学习与终身学习、群智能体分布式学习等赋予算网更高层次的智能水平。例如多节点协同的自适应适配学习、多容量权值共享的高效联邦学习策略[44]
- 将 AI 技术应用于故障发现、根因分析、故障自愈等
基于次模优化的边云协同多用户计算任务迁移方法_物联网学报
作者:梁冰,纪雯,中国科学院计算技术研究所
贡献:提出了一种基于边云联合计算的多用户任务卸载方案,设计基于次模理论的贪心算法充分利用云边通信和计算资源。结果:降低计算任务执行的时延和能耗;多用户卸载计算任务时能够保持稳定的系统性能。
- 基于用户 QoE(quality of experience)的效用函数,将问题表示为一个混合整数非线性规划问题。以最大化系统效用为目标,对任务卸载决策、发射功率、边缘节点的计算资源分配以及回程链路的通信资源分配等问题进行了联合优化
- 分解成2 个子问题,分别为固定用户的卸载决策后的资源分配问题,以及优化资源分配问题后对应的最优值函数下的任务卸载决策问题。资源分配问题分解为用户上传发射功率分配问题、边缘端计算资源分配问题和核心网传输带宽分配问题,并利用拟凸和凸优化技术对其求解。
- 证明了系统效用函数是一个次模函数,基于次模理论设计贪心算法求解用户任务的卸载决策问题
相关工作:现有研究集中在用户的卸载决策问题上,未考虑卸载过程中系统有限的通信与计算资源分配的问题;仅考虑用户任务只向边缘端或云端,并未考虑在边云联合计算的环境下用户如何进行卸载的策略以及资源的优化问题
考虑到边缘节点的计算能力以及远端云传输带宽的受限性,仅面向云端或边缘端的任务卸载将带来任务卸载的高时延性问题[1]。本文联合优化了用户计算任务卸载决策、边缘端计算和通信资源及远端传输过程中核心网有限的带宽资源分配,同样适用于仅边端或云端。
CPU cycle:时钟周期数,程序的 CPU 执行时间 =CPU cycle×时钟周期时间。时钟周期时间=1/主频(如2.8GHz),代表cpu识别出来的最小的时间间隔
实验:对比本地计算、边缘计算全卸载、云计算全卸载,后俩种方案同时优化资源分配。实验包括不同用户总数条件下各方案的系统效用;特定任务下的不同用户总数条件下各方案的系统效用;不同用户总数的条件下,边、云、本地计算的分布(思考:服务很少时,倾向于边端提供服务,服务较少时,倾向于向云端迁移,服务较多时,向本地迁移);不同用户对时间偏好权重下的任务卸载平均时耗对比
当卸载用户过多时,边缘计算方案下的边缘节点分配给用户的计算资源会低于本地的计算资源,而云计算方案下用户较低的上行通信资源会导致任务卸载的传输时延过高,进而导致以上 2 种方案的系统效用降低甚至低于本地算的效用。
建模
边缘完成任务的总时间包括:上传时间+执行时间+传回时间;云端完成任务时间包括:上传至边缘测时间+从边缘传至云端时间+执行时间+传回边缘时间,任务完成的输出结果的大小远远小于任务的输入大小,并且考虑到传输的下行速度远大于上行速度,因此忽略边缘传至用户的时间
用户网络为多用户正交频分多址接入,每个信道都是正交的,忽略小区内的干扰。
计算资源上限表示边缘服务器可用的 CPU cycle 总数。所有请求将任务卸载到 MEC 服务器进行计算的用户共同分享 MEC 服务器的计算资源。
云端会为每个用户分配固定且受限的计算资源,因此设置为固定值。核心网的总传输带宽有限。
用户的 QoE 主要由完成任务所产生的时延和能耗体现,用户u的卸载效用函数为:
V u = x u , 1 ( β u t t u l − t u e t u l + β u e E u l − E u e E u l ) + x u , 2 ( β u t t u l − t u c t u l + β u e E u l − E u c E u l ) V_u = x_{u,1}(\beta_u^t \frac{t_u^l-t_u^e}{t_u^l} + \beta_u^e \frac{E_u^l-E_u^e}{E_u^l})+ x_{u,2}(\beta_u^t \frac{t_u^l-t_u^c}{t_u^l} + \beta_u^e \frac{E_u^l-E_u^c}{E_u^l}) Vu=xu,1(βuttultul−tue+βueEulEul−Eue)+xu,2(βuttultul−tuc+βueEulEul−Euc)
l表示本地,e, x u , 1 x_{u,1} xu,1表示边缘,c, x u , 2 x_{u,2} xu,2表示云。涉及通信资源 t u l t_u^l tul、边缘服务器计算资源 E u e E_u^e Eue,云端传输资源 t u c , t u l t_u^c,t_u^l tuc,tul的分配, β \beta β为偏好权重,,所有用户的系统效用函数为: V = ∑ u = 1 U V u V = \sum_{u=1}^UV_u V=∑u=1UVu,目标为最大化V
根据推导,将该式分解为下式。其中,第三项为常数,据此将该优化目标分解成三个优化问题:1) 上传发射功率分配问题(二分法求最优);2)边缘端计算资源分配问题(凸优化求出最优值);3) 核心网传输带宽分配问题((凸优化求出最优值)),然后在最大化V目标下,使用基于次模理论的贪心卸载策略算法求解卸载决策集 X e X^e Xe和 X c X^c Xc
I ( x , p , f , R ) = ∑ u ∈ U e ∪ U c ϕ u + ψ u p u l b ( 1 + p u γ u ) + ∑ u ∈ U e β u t f u l f u e + ∑ u ∈ U c β u t f u l f u c + ∑ u ∈ U c β u t d u f u l c u R u c \begin{aligned}I(x,p,f,R)&=\sum_{u\in\mathcal{U}_e\cup\mathcal{U}_c}\frac{\phi_u+\psi_up_u}{\mathrm{lb}(1+p_u\gamma_u)}+\sum_{u\in\mathcal{U}_e}\frac{\beta_u^tf_u^l}{f_u^e}+\sum_{u\in\mathcal{U}_c}\frac{\beta_u^tf_u^l}{f_u^c}+\sum_{u\in\mathcal{U}_c}\frac{\beta_u^td_uf_u^l}{c_uR_u^c}\end{aligned} I(x,p,f,R)=u∈Ue∪Uc∑lb(1+puγu)ϕu+ψupu+u∈Ue∑fueβutful+u∈Uc∑fucβutful+u∈Uc∑cuRucβutduful
A_Gamebased_Network_Slicing_and_Resource_Scheduling_for_Compute_First_Networkingcxc
基本思想是动态地调度和分配各种类型的资源,以满足不同的服务需求。
两个关键问题是: 1)网络切片代理(NSB)如何为网络资源定价,如何分割网络资源,以从顶级服务提供商(OSP)部署不同的服务?2)OSP如何安排切片资源的通信和计算
方法:利用博弈论建模资源定价和网络切片过程;协调的片内资源调度,平衡计算和通信,合作博弈降低服务延迟
建模
NSB以网络切片将虚拟资源卖给OSP,OPS用于提供服务。NSB设置更高的单位资源价格,出售更多资源量;OSP争取更低资源价格和更少资源数。
不同的服务对相同数量的资源有不同的处理速率。对于相同数量的资源,请求处理速率随通信服务和计算服务而变化。在不失一般性的情况下,我们将容量-能力转换比分别表示为通信和计算的α和β。该比乘容量即为能力
通信能力和计算能力之和不超过租用资源限制。
总延迟包含通信延迟和计算延迟
资源调度实验包含不同规模请求到达率对时延的影响;不同算法在不同转换比例下的影响
Multi-Stage Geo-Distributed Data Aggregation With Coordinated Computation and Communication in Edge Compute First Networking
题目:边缘计算优先网络中具有协调计算与通信的多阶段地理分布式数据聚合 - 2023 - 光学JCR二区
作者:Zhen Liu , Xianming Yuan, Jia Yuan , Jiawei Zhang , Zhiqun Gu , and Long Zhang - BUPT
贡献
提出了CFN中地理分布式数据聚合方案,通过选择集群中心、划分集群和配置光路来最小化作业完成时间(JCT),通过基于JCT重新分配路由和频槽减少带宽消耗。将分布式数据聚合优化问题表述为线性规划模型,结合计算和通信资源提出MGDD-CC算法。解决问题:确定集群成员的平均数量;选择集群中心;通过弹性光网络路由;最小化JCT和FSs。
第一个算法决定了每个阶段的阶段数和聚类中心的集合,其目标是JCT的最小化。在第二种子算法中,提出了一种基于SCT的RSA算法,该算法旨在在不影响JCT的情况下最小化带宽消耗
该算法结合了计算和网络资源,以最小化聚合的时间,同时保证了更低的带宽消耗。该算法将数据聚合过程划分为多个阶段,并在每个阶段使用并行模式对地理分布式数据进行处理。
类似论文:集中式:先局部处理,在dc之间传递中间结果,减少dc流量,缩短jct完成时间;[14]链路分级,解决DC拥塞;[16]dc多任务分配,优化任务完成时间公平性;[19] 地理分布式数据分析中的带宽成本-吞吐量权衡,保证最大延迟。[20]确定本地任务优先级,分配路由和FS(频率时隙数),最小化完成时间和带宽消耗。分布式:优化目标有网络寿命、能量成本、延迟。
建模
模型定义:地理分布的数据聚合时间包括数据处理时间和通信时间。1)数据处理时间(计算):边缘DC上的数据处理时间与数据量成正比,与边缘DC的可用计算资源成反比。2)通信时间(网络):主要包括传输时间、传播时间、节点处理时间和排队时间。 网络节点上的排队和节点处理时间是指路由器/交换机的排队和处理时间远小于传输时间和传播时间,不考虑。
在第一阶段,CCT(集群完成时间)包括局部边缘处理时间、边缘与簇中心的通信时间,以及簇中心之间的处理时间。在阶段(m>1),CCT包括网络中的通信时间和集群中心中的处理时间。SCT取决于瓶颈集群的完成时间。JCT为SCT之和。所有分布数据传输到集群中心后,集群中心开始处理数据。
CCT:(8a)取决于到达集群中心的最慢数据的完成时间。约束(8b)定义通信时间,包括传输时间和传播时间;约束(8c)确保集群只有一个集群中心;约束(8d)保证可存储的数据量不超过集群中心的总可用存储容量;约束(8e)确保从源节点到集群中心的数据只能选择一条路径;约束(8f)保证每个链路上分配的FSs数量不会超过其可用带宽。
RSA(路由和frequency slots分配):最小化网络中利用的最大FSs
毛病:
技术细节:最小化cct路由:对数据量按降序排序,选择k个最短候选路径。如果候选路径上存在可用的FS,则选择可用FSs最大的路径,否则根据数据量调整分配给其他连接的FSs的数量,以提供该服务带宽。最小化带宽路由:对于要聚合的俩个数据,将短时数据的时间扩展至长时数据的时间,即可减少分配给短时数据的带宽
实验细节:
联系本研究题目的应用:本文将算力和网络联系起来的节点是时延,通过考虑处理时延和通信时延最小化聚合时间。
think¬e
-
也许的优化策略:定义RL三要素、策略网络使用GNN+LSTM捕捉时空特征,网络和算力变化具备时空相关性,对于算力来说,节点附近的网络变化预示着节点算力状态的变化,因此具备一定的空间相关性。
-
还需要的部分:状态空间被设计为剩余带宽、流量需求数据量特征和链路介数(有几条k-最短链路经过该路)
-
动作不只是为端到端的需求在k-最短路径中选择路由,而是决定目标节点+路由,启发式或根据某种建模方式计算k条备选链路(其目标节点可能不同),强化学习在备选链路中选择。生成备选链路可否直接生成具体链路?
基于SID的任播是更上层的东西,不关心目标节点,而是路由到节点群。也就是请求通过SID识别节点,路由系统决策后使用任播进行路由。
DeepEdge: A Deep Reinforcement Learning based Task Orchestrator for Edge Computing
任务协调器的主要工作是确定用户的卸载任务是通过WAN在云中处理,还是通过LAN/MAN在边缘处理。然后,如果请求的服务在边缘可用,协调器应该根据延迟、任务长度、带宽和边缘服务器的利用率来选择相应的边缘服务器。
贡献:满足不同需求的应用程序;部署不同数量的移动设备;建模为MDP,应用DDQN;在线训练
相关工作
[18]提出了一个基于DRL的框架,旨在将网络中所有设备的延迟和能耗的总成本最小化
[19]考虑任务完成时间和能耗的DRL代理
[21]减少边缘网络中的延迟、成本和能源消耗。他们通过使用LSTM网络改进了DRL的DQN算法,模拟环境包括多达100个应用程序、60个边缘服务器和一个云服务器
【26】双DQN的在线策略计算卸载算法,根据任务队列状态、能量队列状态以及移动用户与BSs之间的信道质量进行卸载决策
工作
成功条件:满足应用要求,则认为任务成功。(奖励:成功正奖励,不成功负奖励)
动作:在N个边缘服务器和1个云中选择
建模:约束:单个任务可以卸载到云服务器或其中一个边缘服务器;卸载任务的负载不能超过相应的边缘服务器的容量。MAN和WAN延迟时,我们使用了𝑀/𝑀/1队列模型;假设移动设备做出卸载的决定;每个传入的任务都是由一个移动设备通过遵循泊松过程而产生的。
虚拟机带宽是WlanBandwidth
除以主机列表长度和虚拟机列表长度之和,也就是它被均匀的分给每个虚拟机
总网络延迟包括lan和wan延迟。正如预期的那样,在广域网上花费的时间主导了网络延迟。由于单层体系结构不会将任务发送到全局云,因此它没有WAN延迟。假设边缘服务器和边缘协调器都连接到同一个网络上
并且移动设备在移动到相关位置时加入了相关的WLAN。在加入WLAN后,移动设备开始向边缘服务器发送任务。如果决定将任务卸载到全局云,则使用Wi-Fi接入点提供的WAN连接。这些任务有随机的输入/输出文件大小来上传/下载,并且根据指令的数量也有随机的长度。
MDP:协调器可以将卸载的任务a发送到边缘服务器4,但边缘服务器已经分配了一个任务资源,并且在卸载任务a到达之前完成,则边缘服务器的负载在𝑠𝑡+1时不会改变,或st+1与st和at无关,则不能满足马尔可夫属性。解决:状态表示使用活跃MAN任务数量,WLAN、MAN、WAN负载任务数量。
应用程序属性表示应用程序的个人需求,网络属性描述了网络的当前状态,使用了10个功能,其中3个表示应用程序属性,其中7个与网络条件相关。
实验:对于MAN延迟,我们使用了EdgeCloudSim的M/M/1排队模型实现,附加的传播延迟为5 ms。每个实验持续时间为5分钟。比较参数包括奖励、平均vm利用率、服务时间(高于其他方法,任务增多时转移到边缘完成,因为优化目标是任务完成率)、云服务时间、不同任务到达时间(任务到达时间长时,任务失败率教高)
network attributes | WanBw | 广域网带宽 |
---|---|---|
Man-Delay | MAN延迟 | |
NumberOfTaskToWLAN | 负载任务数量 | |
NumberOfTaskToMAN | 负载任务数量 | |
NumberOfTaskToWAN | 卸载到WAN的任务数 | |
NumberOfActiveMANT | 卸载到MAN但尚未到达目的地的任务数量 | |
LoadOfEdgeServer | 边缘服务器负载的最新情况,有N个服务器则有N个该属性 | |
任务QoS需求和卸载位置 | TaskReqCapacity | 虚拟机处理给定任务所需的能力 |
DelaySensitivity | 指示任务是否延迟不容忍。它的值在0到1之间。 | |
WlanID | 生成给定任务的移动设备的Wlan ID |
基于机器学习的车辆边缘计算的工作负载协调器:车辆应用程序的特征、上传/下载大小、任务的计算足迹、LAN、MAN和WAN网络模型,以及移动性