阿里云云边一体容器架构创新论文被云计算顶会 ACM SoCC 录用

news/2024/7/4 8:00:27 标签: 云计算, 架构, 阿里云, 云原生, 容器

近日,由阿里云撰写的关于 KOLE 创新论文被 ACM SoCC 国际会议长文录用。

在这里插入图片描述

ACM Symposium on Cloud Computing(以下简称 SoCC)是由美国计算机协会主办、聚焦云计算技术的一项学术会议,是云计算的首要会议。它汇集了对云计算感兴趣的研究人员、开发人员、用户和实践者,是唯一由 SIGMOD(数据管理特别兴趣组)和 SIGOPS(操作系统特别兴趣组)联合主办的会议, 这个会议在近些年蓬勃发展,旨在聚集数据库和计算机系统两大领域的学者,共同推进云计算技术在工业界的研究与发展。

此次被录用的论文为《KOLE: Breaking the Scalability Barrier for Managing Far Edge Nodes in Cloud》。此论文灵感诞生于阿里云边缘容器产品 ACK@Edge ,ACK@Edge 是阿里云容器服务针对边缘计算场景推出的云边一体化协同托管方案,采用非侵入方式增强,提供边缘自治、边缘单元、边缘流量管理、原生运维 API 支持等能力,以原生方式支持边缘计算场景下的应用统一生命周期管理和统一资源调度,现阶段已经覆盖了 CDN、音视频直播、物联网、物流、工业大脑、城市大脑、地产、票务、新零售、能源、交通等实际业务场景,并服务于阿里云 LinkEdge、盒马、优酷、视频云、大麦、CDN 等多个业务或项目中。

在这里插入图片描述

KOLE 全称:A framework built on top of Kubernetes to Orchestrate Limitless (far) Edge nodes。KOLE 针对 Kubernetes 在云边一体,大规模边缘节点管理方面的挑战,创新性的提出了基于 Kubernetes的新的云边架构,通过利用新的云边通信协议以及缓存快照的方式,使 Kubernetes 能够轻松管理数百万节点。为了突破 Kubernetes 管理大量边缘节点的可扩展性限制,KOLE 的设计遵循三个标准:

  • 避免创建大量对象来持久化边缘节点的状态;
  • 避免在节点与 APIServer 中保持大量的 HTTP 连接;
  • 使用 Kubernetes CRD 支持对边缘节点及其运行的应用程序进行所需的管理操作。

基于以上原则,KOLE 创新性的使用了 MQTT 协议作为云边通信机制,MQTT 被设计用于轻量级的发布/订阅式消息传输,旨在为低带宽和不稳定的网络环境中的物联网设备提供可靠的网络服务,是专门针对物联网开发的轻量级传输协议,并且适合百万级设备连接, MQTT 协议针对低带宽网络,低计算能力的设 备,做了特殊的优化,MQTT 的传输格式非常精小,最小的数据包只有 2 个比特,相对于 HTTP 协议具有更低的能耗。

经过我们大量的实验测试评估,KOLE 可以支持多达 100 万个节点,而不会给 Kubernetes 的核心组件(如 Apiserver 和 etcd)带来显著的开销。我们能够使用 KOLE 在约 73 秒内将工作负载规范分发到 100 万个节点,在 5 分钟内处理 100 万个节点注册,并在约 20 秒内使用快照中的 100 万个节点重建云状态缓存。具体特点如下:

  • 更强的处理节点心跳的性能

在这里插入图片描述

实验数据表明 KOLE 处理所有心跳的时间几乎随着节点数量的增加呈线性增加。处理一百万个注册心跳需要 ∼9.2 秒。

  • 更低的云端控制器组件的消耗

在这里插入图片描述

对于 100 万个节点,KOLE 控制器和 MQTT Broker 的内存消耗分别为 10.6GB 和 57.3GB,CPU 使用率适中,KOLE 控制器消耗~1.4 个核心,MQTT Broker 消耗~2 个核心。

  • 更快的工作负载分发

在这里插入图片描述

KOLE 通过 MQTT Topic 发送到单个节点时提供了线性可扩展性。将工作负载分别分发到一百万个节点需要 73 秒。线性来自 KOLE 控制器按顺序发布所有 MQTT Topic 的事实。

  • 更高效的云状态缓存快照

在这里插入图片描述

由于 Kubernetes 对 CRD 的限制为 1MB 大小,因此 KOLE 将云状态缓存的序列化字节流设置为为 500MB,对于一百万个节点,这意味着需要 ∼500 个快照用于保存一张快照的 CR 实例。另外为了对数据进一步压缩,KOLE 对常见的压缩算法进行了测试,最终在 KOLE 中,我们选择 gzip 作为默认压缩算法,因为它提供了高压缩比和快速压缩时间,将快照 CR 的数量从 503 个减少到 33 个(减少 93%)。

在这里插入图片描述

在极端情况下, 我们需要从快照中恢复最原始的数据,上图展示了从快照构建云状态缓存所需要时间,其中包括从 APIServer 加载所有快照 CR 的时间以及运行解压缩算法以恢复数据结构的时间。使用 gzip 算法构建具有 100 万个节点的缓存需要 ∼20 秒。为了突出 KOLE 中快速状态恢复的优势,我们通过列出来自 APIServer 的大量单个节点对象来检查 Kubernetes List API 的性能。结果如上图所示。正如预期的那样,从 APIServer 列出大量对象是低效的。列出一百万个节点对象需要 900 秒。很多 Kubernetes 控制器如 kube-scheduler,kube-controller-manager 需要在启动过程中列出所有节点, List API 性能是他们支持大量节点的瓶颈之一。

  • 更迅速的批量节点注册

在这里插入图片描述

实验结果表明,在拥有 100 万个节点情况下,同时批量注册成功需要 260 秒左右。

此次论文入选 ACM SoCC,是阿里云云原生容器技术领域,拓展服务边界,实现云边协同的又一次创新。

附论文信息

录用论文题目:

KOLE: Breaking the Scalability Barrier for Managing Far Edge Nodes in Cloud

作者:张杰,晋晨,黄玉奇,易立,叔同,郭飞

论文概述:在边缘计算领域,越来越多的趋势是利用容器化和 Kubernetes 等云原生技术和平台来管理边缘应用程序以提高运营效率。不幸的是,Kubernetes 中每个集群支持的节点数量只有几千个,这远远少于在典型边缘计算场景中所能管理的设备节点数量。在本文中,我们提出了 KOLE 方案,这是一个扩展上游 Kubernetes 以支持大量边缘节点的框架。它用 MQTT 消息系统代替了 Kubernetes 中现有的 Apiserver 与节点的通信机制。MQTT 代理完全卸载了为 Apiserver 中的节点保持大量 HTTP 连接的开销。在 KOLE 中,我们通过在云状态缓存中维护它们来避免在 Apiserver 中创建大量单独的对象。缓存会定期生成快照以进行灾难恢复。总体而言,KOLE 通过牺牲拥有单个对象的可管理性实现了出色的可扩展性。实验结果表明,KOLE 具有可扩展性,可支持百万级别的节点。

点击此处,了解边缘容器服务 ACK@Edge 更多详情!


http://www.niftyadmin.cn/n/1514.html

相关文章

【趣学算法】一棋盘的麦子

14天阅读挑战赛努力是为了不平庸~ 算法学习有些时候是枯燥的,这一次,让我们先人一步,趣学算法! 案例背景 有一个古老的传说,一位国王的女儿不幸落水,水中有很多鳄鱼,国王情急之下下令&#xff…

基于SpringBoot大学生心理健康咨询管理系统的分析与设计

目 录 摘 要 I Abstract II 1 前言 1 1.1 研究背景及意义 1 1.2 国内外研究现状 2 1.3 本文研究思路与结构 3 2 系统开发技术介绍 4 2.1 Java语言 5 2.2 Spring框架简介 6 2.3 Spring Boot 框架简介 6 2.4 MyBatis 框架简介 7 2.5 开发环境 8 3 系统需求分析 9 3.1 需求分析 9 …

书店管理系统

1、项目介绍 基于SSM的书店管理系统拥有两种角色:管理员和用户 管理员:VIP管理、用户管理、图书管理、上架、类目管理、订单管理、公告管理、发货等 用户:登录注册、购买图书、购物车、订单查看、评论图书、收货、修改个人信息等 2、项目…

如何编写优秀的测试用例,建议收藏和转发

1、测试点与测试用例 测试点不等于测试用例,这是我们首先需要认识到的。 问题1:这些测试点在内容上有重复,存在冗余。 问题2:一些测试点的测试输入不明确,不知道测试时要测试哪些。 问题3:总是在搭相似…

动态规划(Dynamic Programming)

我们清楚的知道使用分治算法来求解决斐波那契数列的效率惊人的低,其中的原因是,斐波那契数列分解成的两个子问题并不是独立的,它们之间有着非常多的交集,而在递归中,这些交集会被计算成百上千次,从而降低了…

期货开户风险因素都考虑清楚

1、 做投资,要把风险因素都考虑清楚,才能持续生存下去。 2、 风险来自看错,要想办法看对。看对了,风险控制就解决了,仓位管理就解决了,心态波动就解决了。 3、看对是最好的风控。做股票,做期货…

案例篇:Python爬虫的多重领域使用

大家好呀! 相信大家早有体会,大数据时代已到,数据的获取和分析已被应用于各行各业,在诸多领域承担着重要决策的作用,如互联网就业选择。 Python爬虫作为最好的数据采集技术,市场对它需求一直在增涨&#xf…

面试题 17.04. 消失的数字

顺序表题目消失的数字1、题目详情2、题目详解(1)方法1(2)方法2(3)方法3(4)方法4:消失的数字 1、题目详情 题目链接:leetcode消失的数字 数组nums包含从0到…