不止于网络:从 Cilium 2025年度报告,洞察云原生基础设施的六大演进

不止于网络:从 Cilium 2025年度报告,洞察云原生基础设施的六大演进

Cilium 项目始于 2015 年 12 月 16 日的第一次提交,已从一个实验性的 IPv6 容器网络项目成长为云原生世界的 CNI(容器网络接口)的事实标准。也正值 Cilium 的十周年,社区发布了 《Cilium 2025 年度报告》(PDF 原文)

  • CNCF 地位: Cilium 目前是 CNCF(云原生计算基金会)中贡献量第二大的项目,仅次于 Kubernetes。
  • 市场占有率: 根据 Isovalent(Cilium 母公司)发布的 《2025 Kubernetes 网络现状报告》,Cilium 占据了超过 Cilium 目前是 CNCF(云原生计算基金会)中 的 CNI 部署份额,是第二名的两倍以上 。如果算上由 Cilium 驱动的托管服务(如 Azure CNI powered by Cilium 和 GKE Datapath V2),其覆盖率超过 60%
  • 社区活跃度: 2025 年贡献了近 10,000 个 PR,年度开发活动较第一年增长了 55 倍 。

本文无意逐条复述报告内容。我们不妨将视线从具体数字上移开,转而透视这份行业风向标所揭示的云原生网络与安全核心趋势。希望能激发更多的思考与讨论。

趋势一:AI 基础设施的网络化

AI 训练集群正在成为网络技术的关键应用场景。随着 AI 模型训练对网络吞吐和延迟的要求极高,底层网络组件(如 CNI)的性能正在成为 AI 基础设施的关键瓶颈或加速器。

AI 大规模训练的场景下,成百上千个 GPU 必须频繁交换参数。如果网络中出现哪怕几毫秒的抖动或丢包,整个集群的计算都会停下来等待那个最慢的节点。基于 iptables 的传统 Kubernetes 网络在高并发下会产生显著的 CPU 开销和延迟,这对于极其昂贵的 GPU 资源来说是巨大的浪费。

从 Cilium 年度报告来看,像 Microsoft 和 Google 这样的科技巨头正在使用 Cilium 来运行世界上最大的 AI 训练集群 。G-Research 也在使用 Cilium 支持其本地裸金属集群上的机器学习工作负载 。

Cilium 在性能和扩展性方面具有优势,应该也是巨头们选择 Cilium 来驱动 AI 训练集群网络的原因。

趋势二:虚拟机与容器网络的融合

企业不再需要在“传统的虚拟机”和“现代的容器”之间做二选一的割裂选择。基础设施正在走向统一,传统的虚拟化负载正在被纳入云原生网络管理体系中 。通过 Cluster Mesh、KubeVirt 以及底层的 Netkit 等技术,组织可以在统一的网络平面上同时运行虚拟机和容器 。

  • KubeVirt (计算抽象): 它允许虚拟机作为 Kubernetes 中的 Pod 运行。这意味着可以用 kubectl 管理 VM,用 YAML 定义 VM。这消除了“双重管理栈”的痛苦。运维团队不再需要维护一套 OpenStack/VMware 和一套 Kubernetes。
  • Cilium Cluster Mesh (网络统一): Cluster Mesh 允许 K8s Pod 直接与 VM 通信,仿佛它们在同一个集群内。VM 可以拥有与 Pod 相同的身份(Cilium 通过其身份感知网络和安全模型实现的),从而继承 K8s 的网络策略。
  • Netkit (性能底座): 这是一个相对较新的 Linux 网络设备模型,旨在结合 eBPF 实现零开销的容器/VM 网络。它解决了长期以来 VM 网络 I/O 性能不如裸机的痛点,让“虚拟机容器化”不再有性能顾虑。

在 Cilium 年度报告中,25% 的受访用户已经在虚拟机环境中部署 Cilium 。报告预测,到 2026 年,这种融合将加速,因为企业需要一个能同时处理两者的平台 。

这是基础设施的不可变性与遗留系统的持久性之间的和解。

趋势三:本地裸金属部署的崛起

虽然云仍然重要,但为了性能和控制力,基础设施正在“下沉”。

云原生概念的二阶段进化:第一阶段是“上云”,为了敏捷和弹性;现阶段则是“下云”或“深云”,为了极致的性能与掌控力。这并不是简单的“退回到物理机”,而是用云原生的方式管理物理底座

从 Cilium 年度报告来看,本地裸金属(On-prem bare metal)已超越 AWS,成为最常见的 Cilium 部署环境 。当然这种转变可能也与上游 Kubernetes 采用率的增加有关,表明组织正在构建复杂的自管平台 ,特别是在涉及高性能计算和 AI 时。

“云”正在变成一种体验,而不是一个地点。

趋势四:运行时安全的基础设施化

趋势安全不再是外挂的工具,而是内置于基础设施之中。安全不再是一个需要运维人员手动安装的 Agent,而是 Kubernetes 和 Linux 内核本身具备的一种“默认能力”。

过去,运行时安全通常意味着在主机上安装像 Falcon 或 SentinelOne 这样的 Agent,或者在容器里塞入 Sidecar。这些方式要么资源开销大,要么容易被绕过。现在的趋势是利用 eBPF (Extended Berkeley Packet Filter) 将安全逻辑下沉到内核。

从“监听”到“阻断”(质变): 传统的安全工具通常是“事后报警”(基于日志分析)。而基于 eBPF 的工具(如 Cilium 的 Tetragon)可以直接 Hook 在内核系统调用(Syscall)上。

在 Cilium 年度报告中提到,Tetragon 正在重新定义运行时安全,使其成为基础架构的一部分 。通过 eBPF 技术,Tetragon 能够在不牺牲应用性能的前提下提供深度可观测性 。

这一趋势的终极形态是隐形安全,应用运行在现代化的基础设施上,就自动获得了一层基于内核的、无法被应用层绕过的安全防护。(几年前还跟人聊天时还开玩笑的说“空气架构”,能力完全下沉到基础设施)

趋势五:IPv6 的全面落地

IPv6 不再是“未来的选项”,而是当前大规模部署的现实。Pv6 单栈(IPv6-only)工作负载正在被主要组织广泛采用 。驱动这一变化的不再是单纯的“地址枯竭”恐慌,而是实实在在的经济成本(公有云 IPv4 收费)、架构复杂性(IPv4 下规划 Pod CIDR)和性能(IPV4 的 NAT 消耗 CPU、增加延迟)。

在 Cilium 年度报告中提到,TikTok 和 ESnet 等大型机构已经在大规模生产环境中运行 IPv6 。Cilium 1.17/1.18 增加了对 IPv6 underlay 的完全支持,允许封装模式完全运行在 IPv6 之上 。

IPv6 的落地意味着基础设施正在回归互联网设计的初衷:端到端连接(从虚拟机、容器网络开始)。

趋势六:多集群成为新常态

单集群时代已成过去,多集群架构成为标准。“单集群时代”就像当年的“单体应用时代”一样,虽然简单,但随着规模扩大,它变成了脆弱的单点故障源。多集群架构的普及,本质上是将 " 宠物与牲畜“ 的理念从容器层级提升到了集群层级。(无意冒犯宠物爱好者)

企业不再满足于“把所有鸡蛋放在一个篮子里”:爆炸半径控制(Kubernetes 本身也可能崩溃)、硬多租户隔离(金融或高合规场景下只有物理上独立的控制面才是真正的安全隔离)和边缘计算与 AI 推理(训练在中心、推理在边缘的标准模式)。

多集群不仅是数量的增加,更是管理复杂度的维度提升。多集群并不意味着孤岛。

在 Cilium 年度报告中提到,部署 2-5 个集群是目前最常见的配置 。用户正积极规划使用 Cilium Cluster Mesh 进行多集群连接 。

我们不再精心呵护一个庞大的生产集群,而是按需创建、销毁和替换集群。

总结

回看这六大趋势,其内核是相通的:复杂性正在下沉,能力正在成为默认,而控制力则在上升。

无论是服务于 AI 的极致性能、融合虚拟机与容器的统一平面,还是如空气般无处不在的隐形安全,都标志着基础设施正变得更加强大,同时也更加“透明”和“无形”。这正实现了我们先前所提及的愿景——“空气架构”

在这个架构中,像 Cilium 这样的项目,便是确保“空气”纯净、稳定流动的核心系统。展望未来,唯一的趋势或许就是:最好的基础设施,终将让应用对其存在毫无觉察。

(转载本站文章请注明作者和出处乱世浮生,请勿用于任何商业用途)

comments powered by Disqus