21 December, 2025

不止于网络：从 Cilium 2025年度报告，洞察云原生基础设施的六大演进

云原生

Cilium 项目始于 2015 年 12 月 16 日的第一次提交，已从一个实验性的 IPv6 容器网络项目成长为云原生世界的 CNI（容器网络接口）的事实标准。也正值 Cilium 的十周年，社区发布了《Cilium 2025 年度报告》（PDF 原文）。

CNCF 地位： Cilium 目前是 CNCF（云原生计算基金会）中贡献量第二大的项目，仅次于 Kubernetes。
市场占有率： 根据 Isovalent（Cilium 母公司）发布的《2025 Kubernetes 网络现状报告》，Cilium 占据了超过 Cilium 目前是 CNCF（云原生计算基金会）中 的 CNI 部署份额，是第二名的两倍以上。如果算上由 Cilium 驱动的托管服务（如 Azure CNI powered by Cilium 和 GKE Datapath V2），其覆盖率超过 60% 。
社区活跃度： 2025 年贡献了近 10,000 个 PR，年度开发活动较第一年增长了 55 倍。

本文无意逐条复述报告内容。我们不妨将视线从具体数字上移开，转而透视这份行业风向标所揭示的云原生网络与安全核心趋势。希望能激发更多的思考与讨论。

趋势一：AI 基础设施的网络化

AI 训练集群正在成为网络技术的关键应用场景。随着 AI 模型训练对网络吞吐和延迟的要求极高，底层网络组件（如 CNI）的性能正在成为 AI 基础设施的关键瓶颈或加速器。

AI 大规模训练的场景下，成百上千个 GPU 必须频繁交换参数。如果网络中出现哪怕几毫秒的抖动或丢包，整个集群的计算都会停下来等待那个最慢的节点。基于 iptables 的传统 Kubernetes 网络在高并发下会产生显著的 CPU 开销和延迟，这对于极其昂贵的 GPU 资源来说是巨大的浪费。

从 Cilium 年度报告来看，像 Microsoft 和 Google 这样的科技巨头正在使用 Cilium 来运行世界上最大的 AI 训练集群。G-Research 也在使用 Cilium 支持其本地裸金属集群上的机器学习工作负载。

Cilium 在性能和扩展性方面具有优势，应该也是巨头们选择 Cilium 来驱动 AI 训练集群网络的原因。

趋势二：虚拟机与容器网络的融合

企业不再需要在“传统的虚拟机”和“现代的容器”之间做二选一的割裂选择。基础设施正在走向统一，传统的虚拟化负载正在被纳入云原生网络管理体系中。通过 Cluster Mesh、KubeVirt 以及底层的 Netkit 等技术，组织可以在统一的网络平面上同时运行虚拟机和容器。

KubeVirt (计算抽象): 它允许虚拟机作为 Kubernetes 中的 Pod 运行。这意味着可以用 kubectl 管理 VM，用 YAML 定义 VM。这消除了“双重管理栈”的痛苦。运维团队不再需要维护一套 OpenStack/VMware 和一套 Kubernetes。
Cilium Cluster Mesh (网络统一): Cluster Mesh 允许 K8s Pod 直接与 VM 通信，仿佛它们在同一个集群内。VM 可以拥有与 Pod 相同的身份（Cilium 通过其身份感知网络和安全模型实现的），从而继承 K8s 的网络策略。
Netkit (性能底座): 这是一个相对较新的 Linux 网络设备模型，旨在结合 eBPF 实现零开销的容器/VM 网络。它解决了长期以来 VM 网络 I/O 性能不如裸机的痛点，让“虚拟机容器化”不再有性能顾虑。

在 Cilium 年度报告中，25% 的受访用户已经在虚拟机环境中部署 Cilium 。报告预测，到 2026 年，这种融合将加速，因为企业需要一个能同时处理两者的平台。

这是基础设施的不可变性与遗留系统的持久性之间的和解。

趋势三：本地裸金属部署的崛起

虽然云仍然重要，但为了性能和控制力，基础设施正在“下沉”。

云原生概念的二阶段进化：第一阶段是“上云”，为了敏捷和弹性；现阶段则是“下云”或“深云”，为了极致的性能与掌控力。这并不是简单的“退回到物理机”，而是用云原生的方式管理物理底座。

从 Cilium 年度报告来看，本地裸金属（On-prem bare metal）已超越 AWS，成为最常见的 Cilium 部署环境。当然这种转变可能也与上游 Kubernetes 采用率的增加有关，表明组织正在构建复杂的自管平台，特别是在涉及高性能计算和 AI 时。

“云”正在变成一种体验，而不是一个地点。

趋势四：运行时安全的基础设施化

趋势安全不再是外挂的工具，而是内置于基础设施之中。安全不再是一个需要运维人员手动安装的 Agent，而是 Kubernetes 和 Linux 内核本身具备的一种“默认能力”。

过去，运行时安全通常意味着在主机上安装像 Falcon 或 SentinelOne 这样的 Agent，或者在容器里塞入 Sidecar。这些方式要么资源开销大，要么容易被绕过。现在的趋势是利用 eBPF (Extended Berkeley Packet Filter) 将安全逻辑下沉到内核。

从“监听”到“阻断”（质变）： 传统的安全工具通常是“事后报警”（基于日志分析）。而基于 eBPF 的工具（如 Cilium 的 Tetragon）可以直接 Hook 在内核系统调用（Syscall）上。

在 Cilium 年度报告中提到，Tetragon 正在重新定义运行时安全，使其成为基础架构的一部分。通过 eBPF 技术，Tetragon 能够在不牺牲应用性能的前提下提供深度可观测性。

这一趋势的终极形态是隐形安全，应用运行在现代化的基础设施上，就自动获得了一层基于内核的、无法被应用层绕过的安全防护。（几年前还跟人聊天时还开玩笑的说“空气架构”，能力完全下沉到基础设施）

趋势五：IPv6 的全面落地

IPv6 不再是“未来的选项”，而是当前大规模部署的现实。Pv6 单栈（IPv6-only）工作负载正在被主要组织广泛采用。驱动这一变化的不再是单纯的“地址枯竭”恐慌，而是实实在在的经济成本（公有云 IPv4 收费）、架构复杂性（IPv4 下规划 Pod CIDR）和性能（IPV4 的 NAT 消耗 CPU、增加延迟）。