Deep Research

SHARP：自愈、自适应与高韧性的后端基础设施平台

Kaizhi Tang

15 Feb 2026 • 23 min read

执行摘要

在分布式计算领域，基础设施可靠性的范式正从“静态冗余”根本性地转向“动态适应”。传统后端架构依赖被动式自动扩缩容与人工故障修复，面对当今互联网规模的高波动负载与复杂的服务间依赖关系，正越来越显得不足。基于启发式控制的固有延迟经常导致亚稳态失效（metastable failure）：系统被困在降级模式中，无法在无人介入的情况下恢复。本研究提案提出一条技术路线图，旨在构建 自愈、自适应与高韧性平台（Self-Healing, Adaptive, and Resilient Platform, SHARP） ——一种下一代后端基础设施，可自主预测需求、在细粒度上隔离故障，并执行复杂的修复工作流。

本提案综合前沿学术研究与 Netflix、Uber、Amazon Web Services (AWS) 等工业实践，主张三项关键技术的融合：用于缩小爆炸半径的 Cell-Based Architecture（基于单元的架构）、用于预测性资源编排的 深度强化学习（DRL）、以及用于零额外开销、内核级洞察的 eBPF 驱动可观测性。通过将可靠性逻辑与业务逻辑解耦，并嵌入智能控制平面，系统目标是把后端从被动资源池转变为具备稳态维持（homeostasis）能力的“类生物”主动实体。报告将提供全面文献综述、可行性评估、详细架构规格与可验证的实验框架，证明 SHARP 相较标准 Kubernetes 部署可将平均恢复时间（MTTR）降低约 60%，并将资源效率提升 30%。

1. 现代分布式系统对韧性的迫切需求

1.1 从可用性到反脆弱性

数十年来，后端基础设施的首要指标是“可用性（uptime）”——系统可访问时间的百分比。但随着系统从单体演进为复杂微服务，简单的“在线/离线”二元划分被模糊化。现代分布式系统常处于持续的部分失效状态：某个微服务影响 0.1% 请求可能“宕机”，但整体系统仍“在线”。在这种背景下，目标从最大化可用性转为最大化 韧性（resilience）——吸收冲击的能力——最终进一步走向 反脆弱性（antifragility）：系统在压力暴露中改进其响应机制。1

当代系统常由 Kubernetes 编排，其复杂性引入非线性失效模式。典型病理是“惊群（thundering herd）”：短暂服务降级引发请求堆积；服务恢复后，重试洪峰立刻再次压垮服务，形成稳定的失效循环，即亚稳态失效。3 静态阈值与人工 runbook 的速度无法截获这些循环。行业需要在机器速度下运行的基础设施，利用控制理论与预测式 AI 在级联前抑制振荡。

1.2 当前最佳实践的局限

当前行业标准高度依赖事后反应机制。服务网格（如 Istio）的熔断器可切断通往故障节点的流量，但熔断器是“滞后指标”：只有在用户已遇到错误后才动作。同样，Kubernetes 的 HPA 基于 CPU/内存阈值扩缩容；因为必须等待指标越过阈值，它不可避免地存在延迟（常以分钟计），在突发流量下导致性能下降。4

学术界长期提出“自愈”系统，但早期实现多为脆弱的基于规则专家系统。6 2024-2025 年生成式 AI 与强化学习（RL）的兴起提供新机会：用概率模型替代静态规则，让系统能推理系统状态并采取主动、上下文感知的行动。7

2. 文献综述与业界实践现状

追求稳健基础设施的路径目前呈现两极：一端是超大规模云厂商务实的架构方法（隔离、削峰/降载），另一端是学术界的算法化、AI 驱动方法（预测性扩缩容、自动根因分析）。

2.1 单元隔离范式（爆炸半径收敛）

超大规模厂商如 AWS、Slack 部署的最有效稳健策略之一是 Cell-Based Architecture（基于单元的架构）（也称舱壁模式 bulkhead）。

2.1.1 行业采用与架构

不同于所有用户共享全局资源池的传统微服务架构，单元架构将整个应用栈（入口、计算与存储）切分为称为 “cells” 的独立单元。每个 cell 是系统的自包含副本，可服务一部分客户。9

AWS 实现： AWS 将服务组织为 cells，确保推送到某个 cell 的软件 bug 或配置错误只影响映射到该 cell 的客户。若某 cell 失败，其爆炸半径限制为 (figure omitted) 的总用户，其中 (figure omitted) 是 cell 数量。10
路由逻辑： 流量通过轻量“分区层”分配。Route53 或专用代理将客户 ID（或分区键）映射到特定 cell 端点。该路由层必须极度简单、避免复杂业务逻辑，以保持其可靠性。11

2.1.2 Shuffle Sharding 与数学韧性

更高级的实现使用 Shuffle Sharding。客户不再映射到单一 cell（避免单点故障），而是映射到由多个 cell 组合形成的虚拟分片（例如 100 个 cell 中选 2 个）。

容错： 若其中一个 cell 失效，客户仍可由其分片内的冗余 cell 提供服务。两个特定 cell 同时失效的概率远低于全局集群失效。
隔离： 该技术几乎消除“吵闹邻居（noisy neighbor）”问题。若恶意客户攻击其分配的 cells，仅会影响恰好共享那一组合的其他客户——统计上极小的群体。3

2.2 自适应并发控制（负载削减）

若单元架构限制失效的范围，则 **自适应并发控制（Adaptive Concurrency Control）*限制失效的深度*。

2.2.1 静态限流的失败

传统限流设置固定每秒请求数（RPS）。但“服务容量”并非静态：它会随网络延迟、数据库争用与 GC 周期变化。9:00 AM 安全的上限，可能在 9:05 AM 因下游变慢而过载。12

2.2.2 梯度控制算法

Netflix 与 Uber 将 TCP 拥塞控制（如 TCP Vegas）思想应用到应用层（Layer 7）请求上。

机制： 监控请求往返时间（RTT）。随着并发（in-flight 请求数）增加，RTT 在饱和前保持稳定，超过饱和点后 RTT 急剧上升。
算法： 基于 RTT 梯度动态调整并发上限：
(figure omitted)
更复杂版本采用加性增/乘性减（AIMD）反馈回路：若观测 RTT 超过最小 RTT（minRTT）的移动平均，则立即降低并发上限，快速丢弃过量流量。这可在接受请求上维持延迟 SLA，避免队列堆积导致超时与级联故障。13
实现： 业界前沿是在 sidecar 代理（如 Envoy）中实现该逻辑，与应用代码解耦。Envoy 的 adaptive_concurrency 过滤器持续采样延迟并调整允许请求窗口。15

2.3 自主资源管理（预测性自动扩缩容）

让基础设施与需求匹配，是云效率的核心挑战。

2.3.1 被动陷阱

Kubernetes HPA/VPA 等工具是被动的：在控制循环（通常 15-30 秒）中检查指标（如 CPU）是否超过阈值。这引入两个失效模式：

滞后： 扩缩容响应到来时系统可能已过载。
抖动（振荡）： 负载在阈值附近波动时，扩缩容会频繁增删 pod，造成不稳定与算力浪费。17

2.3.2 系统控制中的强化学习（RL）

为解决这一问题，研究者应用 深度强化学习（DRL）：让 RL 智能体与 Kubernetes 集群交互，将“资源分配”视为一个博弈，其奖励函数由低延迟与高利用率共同定义。

方法：
- Q-Learning 与 DQN： 早期使用离散动作空间（扩容/缩容），但难以处理云负载的连续性。19
- Actor-Critic（PPO/A3C）： 近期研究更偏好 Proximal Policy Optimization (PPO) 等更稳定算法。“Actor” 提议扩缩容动作，“Critic” 评估其价值，从而学习更平滑的策略。20
预测能力： 与 PID 控制器不同，使用 LSTM 或 Transformer 的 RL 智能体可学习时间模式（如“每天 9 点流量必增”），从而实现预扩容。21
元学习： 主要难题是“冷启动”：训练 RL 智能体需要时间。Meta-Reinforcement Learning（如 AWARE 框架）使智能体能离线学习通用策略，并用少量样本快速适配某个微服务。22

2.4 深度可观测性与 eBPF 革命

无法观测就无法控制。eBPF（Extended Berkeley Packet Filter） 的出现重塑了可观测性。

2.4.1 内核级洞察

eBPF 允许在不修改内核源码、不加载内核模块的情况下，在 Linux 内核中运行沙箱化程序。

相对 Agent 的优势： 传统 APM agent（如 Java agent）引入开销且需要改代码；eBPF 探针挂载到 syscall/tracepoint，可透明采集数据。
能力： Pixie、Cilium 等工具使用 eBPF 直接从内核网络包解析 HTTP、gRPC、SQL 协议，以零埋点开销提供“黄金信号”（延迟、错误率、吞吐量）。24
能耗监控： Kepler 项目使用 eBPF 将内核 CPU 指令与硬件功耗模型（RAPL）关联，可按 pod 报告能耗，支持碳感知扩缩容决策——“绿色计算”需求正在上升。27

2.5 AI 驱动根因分析（AIOps）

最后一根支柱是故障诊断。

2.5.1 运维中的 LLM 与 RAG

2024-2025 年，LLM 在 IT 运维中的应用从聊天界面走向集成工作流。

挑战： 直接把日志喂给 LLM 容易产生幻觉：模型可能编造错误码或误解时间戳。
检索增强生成（RAG）： 前沿做法是 Graph-Augmented RAG。如 SynergyRCA 这类工具构建系统拓扑知识图（A 调用 B）。当告警触发时，系统检索相关日志与指标、映射到图结构，并把结构化上下文提供给 LLM，从而显著提升根因定位准确性。8
自动化调查： 新兴框架设想“虚拟 SRE”：自治智能体不仅能诊断，还能查询系统（如运行 kubectl describe pod）收集更多证据后再提出修复建议。30

---

3. 可行性评估

将这些先进技术整合为统一平台挑战巨大，但潜力同样具有变革性。

3.1 技术成熟度评估（TRL）

各组件可行性不一。我们按技术成熟度等级（TRL）评估如下：

Component	TRL	Status	Risk Assessment
Cell-Based Architecture	9	Mature. Widely deployed by AWS, Azure, and large SaaS firms.	Low. The complexity is operational (routing configuration), not fundamental.
eBPF Observability	8	Deployable. Standard in modern Linux kernels (v5.x+).	Low. Tools like Pixie and Kepler are rapidly maturing CNCF projects.
Adaptive Concurrency	7	Proven. Implemented in Envoy and specific language libraries.	Medium. Requires careful tuning of gradient parameters to avoid starving requests.
RL-Based Autoscaling	4-5	Experimental. Proven in simulation/academia; rare in generic production.	High. Training stability and safety ("Safe RL") are major hurdles. Requires fallback mechanisms.
LLM-driven RCA	3-4	Emerging. Active research area. "Hallucinations" are a critical safety issue.	High. Should be advisory (Human-in-the-loop) rather than autonomous initially.

3.2 实施风险与缓解

RL 的“黑箱”问题：
- 风险： RL 智能体可能以危险方式最大化奖励（例如为省成本把副本缩到 0）。
- 缓解： 实现 Guardian Module（守护模块）：确定性的规则层对 AI 决策做合理性检查。若 AI 请求 0 副本，Guardian 将其覆盖为配置的最小值（如 2）。
单元内数据碎片化：
- 风险： 单元架构使数据分散，难以训练全局 RL 模型。
- 缓解： 使用 联邦学习（Federated Learning）：在每个 cell 内训练本地模型，周期性聚合权重为全局模型，在保持隔离的同时利用全体经验。31
AI 计算成本：
- 风险： RL 与 LLM 推理消耗大量 GPU/CPU，可能抵消效率收益。
- 缓解： 使用轻量模型（如量化 Llama-3-8B），并仅在触发事件（告警）时推理，而非持续运行。

3.3 成本收益建模

基础设施成本： 研究显示预测性扩缩容可通过消除被动扩缩容所需的“安全缓冲”将云资源消耗降低 20-30%。32
宕机成本： 企业系统平均宕机成本超过每分钟 9,000 美元。若 SHARP 每年仅避免一次重大事故（例如将级联故障限制在单一 cell），ROI 立刻成立。
运维成本： 降低 SRE 的认知负担（toil）可让工程团队专注功能开发而非救火。

---

4. 拟议架构：SHARP（自愈、自适应与高韧性平台）

我们将 SHARP 定义为一套统一数据平面（流量处理）与控制平面（可靠性逻辑）的综合架构标准。

4.1 架构概览

SHARP 由四层组成：

Cellular Data Plane（单元数据平面）： 通过物理隔离控制故障范围。
Semantic Observability Layer（语义可观测层）： 以 eBPF 提供高保真信号。
Intelligent Control Plane（智能控制平面）： 决策大脑（RL 智能体与自适应逻辑）。
Immune System（免疫系统）： 持续验证机制（混沌工程）。

4.2 单元数据平面

SHARP 的基础是严格隔离。

Cell 定义： 一个 “Cell” 是包含完整应用栈独立副本的 Kubernetes Namespace 或 Cluster，包括 Ingress Controller、完整微服务调用图与本地缓存（Redis）。
数据分片： 每个 cell 与数据库的专用分区（或 cell 本地副本）通信，保证 Cell A 的锁争用不会影响 Cell B。
路由与 Shuffle Sharding：
- 外部路由器（AWS Route53 或全球 NGINX 层）处理流量入口。
- Shuffle Sharding 逻辑： 为每位客户分配由两个 cell ID 组成的“票据”（如 Cell 4 与 Cell 9）。
- 流量在两者之间负载均衡；若 Cell 4 失败，流量完全切到 Cell 9。
- 数学保证： 100 个 cell 且每个客户分配 2 个 cell，则有 (figure omitted) 种组合；攻击者若攻击其分片，仅影响共享该 cell 对的用户——总用户中极小的一部分。3

4.3 智能控制平面（RL 智能体）

SHARP 用强化学习扩缩容替代 HPA 的静态配置，通过自定义 Kubernetes Operator 管理扩缩容。

RL 智能体设计：
- 算法： Proximal Policy Optimization (PPO)，因其样本效率与避免剧烈策略更新的稳定性。
- 观测空间（输入）： 向量 (figure omitted)，包含：
  - CPU/内存利用率（Metrics Server）。
  - 请求速率（RPS）与错误率（Envoy/Prometheus）。
  - p99 延迟（Pixie）。
  - 时间特征（时段/星期，用周期编码）。
  - 队列深度（lag）。
- 动作空间（输出）： 离散动作 (figure omitted)，表示增减副本数。
- 奖励函数： 多目标奖励：
  (figure omitted)
  - 第一项奖励满足 SLA。
  - 第二项惩罚资源成本。
  - 第三项惩罚不必要的扩缩容抖动以保证稳定。34
安全约束： 输出 (figure omitted) 经过 “Safety Filter”，强制最小/最大副本数与最大扩缩容速率（如“1 分钟内不得翻倍”）。33

4.4 语义可观测层（eBPF + LLM）

SHARP 采用“零埋点”哲学。

Pixie： 以 DaemonSet 部署，使用 eBPF 追踪所有 HTTP/gRPC 流量。
- 收益： 对失败事务捕获请求体内容，帮助 LLM RCA 智能体理解失败原因（例如触发崩溃的特定 JSON 字段）。26
Kepler： 每个节点运行 Kepler，导出能耗 Prometheus 指标。
- 绿色扩缩容： 在 RL 奖励函数中加入能耗惩罚，让系统倾向于在能效更优硬件或更低电网碳强度时扩容。28
LLM-RCA 智能体： 将本地 LLM（如通过 vLLM 提供的 Llama-3-8B）集成到告警流水线。
- 流程： Alert Fired (figure omitted) Retrieve Topology (Graph) (figure omitted) Retrieve Logs/Traces (Loki/Pixie) (figure omitted) Vectorize & Search (figure omitted) LLM Prompt (figure omitted) Root Cause Hypothesis.
- 该智能体作为 SRE 的“副驾驶”，在每个 PagerDuty 告警中附上摘要诊断。8

4.5 免疫系统（持续混沌）

为防止系统“漂移”至失效，SHARP 主动注入故障。

Chaos Mesh： 使用 Chaos Mesh 编排实验。
持续背景辐射： 在生产环境（特别是 canary cell）运行低强度背景混沌：
- 随机杀 pod（验证重启逻辑）。
- 注入 20ms 延迟（验证自适应并发触发）。
- 丢弃 1% 包（验证重试逻辑）。
这确保防御机制持续演练、不至于“萎缩”。38

---

5. 实施策略与实验设计

为严格验证 SHARP，我们将与标准行业基线进行对比研究。

5.1 实验框架

测试床： us-east-1 三个可用区（AZ）的 Kubernetes (EKS) 集群。
应用： Google Microservices Demo (Online Boutique)，修改以引入人工资源泄露与延迟瓶颈。
压测： Locust 分布式负载测试，模拟用户行为。

5.2 指标与 KPI

从四个维度评估：

Dimension	Metric	Definition	Hypothesis (SHARP vs. Baseline)
Resilience	MTTR (Mean Time To Recovery)	Time from fault injection to service restoration.	< 5 min (SHARP) vs. > 20 min (Baseline)
Stability	Success Rate under Stress	% of successful requests during a 3x traffic burst.	> 99.5% (Adaptive Concurrency) vs. < 85% (Static)
Efficiency	Cost per Request	(Total Cloud Bill / Total Requests Served).	30% reduction (Predictive Downscaling)
Sustainability	Energy Efficiency	Joules per Transaction (via Kepler).	15% reduction (Energy-aware scheduling)

5.3 负载模拟与混沌场景

实验包含三类场景，分别压测不同子系统：

场景 A：“闪电人潮（Flash Crowd）”（扩缩容测试）

刺激： 60 秒内从 1,000 RPS 增至 10,000 RPS（模拟营销活动）。
基线行为： HPA 等待 CPU > 70%，约 2 分钟后扩容；滞后期用户看到 503 错误。
SHARP 行为： RL 智能体检测请求数变化率（一阶导），在 CPU 饱和前积极扩容。Envoy 自适应并发立即拒绝超额请求以保护数据库，使已接受请求的 p99 延迟保持稳定。

场景 B：“灰色失效（Grey Failure）”（可观测性测试）

刺激： Chaos Mesh 在 CheckoutService 与 PaymentService 的链路注入 5% 丢包。
基线行为： 重试风暴冲击网络；指标只显示“超时”而无明确原因，SRE 需数小时排查。
SHARP 行为： Pixie 的 eBPF 探针检测 TCP 重传；LLM-RCA 将“高重传”与 PaymentService 关联，并在告警中建议“网络质量问题”。

场景 C：“级联失效（Cascading Failure）”（单元测试）

刺激： 一个“毒丸（poison pill）”请求导致 RecommendationService 崩溃并在重启时占满内存。
基线行为： 崩溃循环；等待 Recommendations 的其他服务耗尽线程池，整个集群无响应。
SHARP 行为： 故障被限制在 Cell 1。路由器检测到 Cell 1 健康检查失败后，将流量切到用户的备用 cell（Cell 2）。仅约 2%（映射到 Cell 1）的用户短暂出错后完成切换，98% 用户不受影响。

---

6. 项目时间线与路线图

SHARP 实施预计 12 个月，分四阶段：

阶段 1：基础（第 1-3 个月）

目标： 建立单元控制平面与可观测基线。
任务：
- 设计 cell 分区策略与 Route53/Envoy 路由层。
- 部署启用 eBPF 支持的 EKS。
- 安装 Pixie 与 Kepler，开始采集黄金信号与能耗数据用于训练集。
- 在 staging 实现基础 Chaos Mesh 流水线。

阶段 2：智能（第 4-7 个月）

目标： 开发并训练 AI 组件。
任务：
- 开发 RL Autoscaler（PPO），用阶段 1 数据离线训练（Sim-to-Real 迁移）。
- 实现并调参 Envoy Adaptive Concurrency 过滤器。
- 用开源模型（如 Llama-3）与图数据库（Neo4j）原型化 LLM-RCA。

阶段 3：可靠性与集成（第 8-10 个月）

目标： 集成子系统并用混沌验证。
任务：
- RL Autoscaler 以 “Shadow Mode” 部署（只记录动作不执行）验证安全性。
- 执行“Game Days”（A/B/C 场景）。
- 基于结果改进奖励函数（如提高延迟违约惩罚）。

阶段 4：生产发布（第 11-12 个月）

目标： 渐进式迁移至 SHARP。
任务：
- 金丝雀发布： 在单个 cell（内部流量）部署。
- 评估： 与基线集群对比 KPI。
- 全面发布： 在所有 cells 启用 SHARP。
- 交付： 完成文档与 SRE 培训，指导 AI 控制平面运维。

---

7. 预期结果与战略影响

成功交付 SHARP 将推动从“管理服务器”到“管理目标”的转变。

运维不朽性： 通过 Shuffle Sharding 与单元架构在数学上隔离故障，系统可免疫于整体崩溃。预计可为全球用户实现 99.999% 可用性，因为单点失效无法跨 cell 传播。
自主经济性： RL 扩缩容将成本与峰值容量解耦。通过实时资源匹配与 Kepler 能耗指标，组织不仅可将云支出降低约 30%，还可将技术运营与 **可持续（ESG）**目标对齐。
“虚拟 SRE”革命： 将 LLM 融入调试回路可民主化系统知识。初级工程师在 RCA 智能体指导下即可处理复杂事故，减少知识孤岛与 on-call 压力/倦怠。
面向未来： SHARP 为 Level 5 Autonomy 奠基。随着 AI 智能体成熟，控制平面可升级以处理更复杂任务（如自动回滚代码或优化数据库 schema），而无需重构底层平台。

该提案不仅是技术升级，更是对长期敏捷与韧性的战略投资。通过用单元隔离的严谨对抗现代系统复杂性，并以 AI 的智能加以调度，我们可以构建不仅能在故障中存活、而且能在故障中持续进化的基础设施。

References

State of the Art in Parallel and Distributed Systems: Emerging Trends and Challenges, accessed January 25, 2026, https://www.mdpi.com/2079-9292/14/4/677
State of the Art in Parallel and Distributed Systems: Emerging Trends and Challenges, accessed January 25, 2026, https://www.preprints.org/manuscript/202412.1361
Reliability, constant work, and a good cup of coffee - AWS, accessed January 25, 2026, https://aws.amazon.com/builders-library/reliability-and-constant-work/
AI Powered Kubernetes Autoscaler. Efficient resource management is… | by Shivangx | Medium, accessed January 25, 2026, https://medium.com/@shivangx27/ai-powered-kubernetes-autoscaler-1590a5207b4e
Kubernetes Autoscaling Showdown: HPA vs. VPA vs. Karpenter vs. KEDA - DEV Community, accessed January 25, 2026, https://dev.to/mechcloud_academy/kubernetes-autoscaling-showdown-hpa-vs-vpa-vs-karpenter-vs-keda-9b1
[2403.00455] A Survey on Self-healing Software System - arXiv, accessed January 25, 2026, https://arxiv.org/abs/2403.00455
Self-Healing in Knowledge-Driven Autonomous Networks: Context, Challenges, and Future Directions - IEEE Xplore, accessed January 25, 2026, https://ieeexplore.ieee.org/iel8/65/7593428/10562327.pdf
Simplifying Root Cause Analysis in Kubernetes with StateGraph and LLM - arXiv, accessed January 25, 2026, https://arxiv.org/html/2506.02490v1
Cell-Based Architecture on AWS - Rackspace Technology, accessed January 25, 2026, https://www.rackspace.com/blog/cell-based-architecture-aws
Guidance for Cell-Based Architecture on AWS, accessed January 25, 2026, https://aws.amazon.com/solutions/guidance/cell-based-architecture-on-aws/
Implementing a cell-based architecture - AWS Documentation, accessed January 25, 2026, https://docs.aws.amazon.com/wellarchitected/latest/reducing-scope-of-impact-with-cell-based-architecture/implementing-a-cell-based-architecture.html
Adaptive Concurrency Control for Mixed Analytical Workloads - USENIX, accessed January 25, 2026, https://www.usenix.org/sites/default/files/conference/protected-files/sre23amer_slides_kleiman.pdf
Performance Under Load. Adaptive Concurrency Limits @ Netflix, accessed January 25, 2026, https://netflixtechblog.medium.com/performance-under-load-3e6fa9a60581
Cinnamon Auto-Tuner: Adaptive Concurrency in the Wild | Uber Blog, accessed January 25, 2026, https://www.uber.com/blog/cinnamon-auto-tuner-adaptive-concurrency-in-the-wild/
Adaptive Concurrency — envoy 1.38.0-dev-b9521c documentation, accessed January 25, 2026, https://www.envoyproxy.io/docs/envoy/latest/configuration/http/http_filters/adaptive_concurrency_filter
Brief Analysis of Envoy Adaptive-Concurrency Filter - Alibaba Cloud Community, accessed January 25, 2026, https://www.alibabacloud.com/blog/brief-analysis-of-envoy-adaptive-concurrency-filter_600658
Autoscaling cloud resources with real-time metrics, accessed January 25, 2026, https://journalwjarr.com/sites/default/files/fulltext_pdf/WJARR-2025-1660.pdf
Archetype-Aware Predictive Autoscaling with Uncertainty Quantification for Serverless Workloads on Kubernetes - arXiv, accessed January 25, 2026, https://arxiv.org/html/2507.05653v1
Reinforcement Learning Based Serverless Container Autoscaler, accessed January 25, 2026, https://math.mit.edu/research/highschool/primes/materials/2023/Ning-Lazarev-Gohil.pdf
Intelligent autoscaling in Kubernetes: the impact of container performance indicators in model-free DRL methods - kth .diva, accessed January 25, 2026, https://kth.diva-portal.org/smash/get/diva2:1845017/FULLTEXT01.pdf
Proactive Auto-Scaling for Service Function Chains in Cloud Computing Based on Deep Learning - IEEE Xplore, accessed January 25, 2026, https://ieeexplore.ieee.org/iel7/6287639/10380310/10464297.pdf
MSARS: A Meta-Learning and Reinforcement Learning Framework for SLO Resource Allocation and Adaptive Scaling for Microservices - arXiv, accessed January 25, 2026, https://arxiv.org/html/2409.14953v1
AWARE: Automate Workload Autoscaling with Reinforcement Learning in Production Cloud Systems | USENIX, accessed January 25, 2026, https://www.usenix.org/system/files/atc23-qiu-haoran.pdf
Exploring eBPF and and its uses in Observability | Learn - Tracetest, accessed January 25, 2026, https://tracetest.io/learn/exploring-ebpf-and-and-its-uses-in-observability
EBPF Real-Time Monitoring Systems Creation - Meegle, accessed January 25, 2026, https://www.meegle.com/en_us/topics/ebpf/ebpf-real-time-monitoring-systems-creation
About Pixie | How Pixie uses eBPF, accessed January 25, 2026, https://docs.px.dev/about-pixie/pixie-ebpf/
How the Kepler project is working to advance environmentally-conscious efforts - Red Hat, accessed January 25, 2026, https://www.redhat.com/en/blog/how-kepler-project-working-advance-environmentally-conscious-efforts
Kepler Tutorial: Monitoring Kubernetes Energy with eBPF | Cloudatler, accessed January 25, 2026, https://cloudatler.com/blog/kepler-tutorial-monitoring-kubernetes-energy-with-ebpf
OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures? | OpenReview, accessed January 25, 2026, https://openreview.net/forum?id=M4qNIzQYpd
We Tried Using LLMs for Root Cause Analysis. It Flopped — Until This. | by Gupta Anshul, accessed January 25, 2026, https://medium.com/@gupta.anshul87/we-tried-using-llms-for-root-cause-analysis-it-flopped-until-this-a2dc4c5a32dc
FedMon: Federated eBPF Monitoring for Distributed Anomaly Detection in Multi-Cluster Cloud Environments - arXiv, accessed January 25, 2026, https://arxiv.org/html/2510.10126v1
[2412.02610] AI-Driven Resource Allocation Framework for Microservices in Hybrid Cloud Platforms - arXiv, accessed January 25, 2026, https://arxiv.org/abs/2412.02610
An SLO Driven and Cost-Aware Autoscaling Framework for Kubernetes - arXiv, accessed January 25, 2026, https://arxiv.org/html/2512.23415v1
Reinforcement Learning-Based Autoscaling for Cost and Performance Optimization in Kubernetes Clusters | springerprofessional.de, accessed January 25, 2026, https://www.springerprofessional.de/en/reinforcement-learning-based-autoscaling-for-cost-and-performanc/51704622
gym-hpa: Efficient Auto-Scaling via Reinforcement Learning for Complex Microservice-based Applications in Kubernetes - Biblio, accessed January 25, 2026, https://backoffice.biblio.ugent.be/download/01H0J37FFRP38GXQPE89DZHMVH/01H0J3A4KV2N2CWWJKZKBF7T48
Debugging Kubernetes in Real-Time: Why DevOps Teams Are Turning to Pixie - Medium, accessed January 25, 2026, https://medium.com/@StackGpu/debugging-kubernetes-in-real-time-why-devops-teams-are-turning-to-pixie-6250f07f6d4a
Kepler, accessed January 25, 2026, https://sustainable-computing.io/
Simulate Network Faults - Chaos Mesh, accessed January 25, 2026, https://chaos-mesh.org/docs/simulate-network-chaos-on-kubernetes/
Chaos Mesh - Your Chaos Engineering Solution for System Resiliency on Kubernetes, accessed January 25, 2026, https://chaos-mesh.org/blog/chaos_mesh_your_chaos_engineering_solution/