推理正成为路由问题

推理正在变成一个路由问题

重点不在于 AI 实验室和云厂商正在寻找 Nvidia 的替代方案;重点在于,推理正在变成一个工作负载路由问题,因为内存带宽、功耗边界、封装产能、延迟目标和软件支持,正在决定哪些模型调用在经济上可行。

最新信号不是某一个单独公告,而是一组信号同时出现。5 月 21 日,AMD 宣布将在台湾产业生态投入超过 100 亿美元,用于扩大策略合作伙伴关系,并提升面向 AI 基础设施的先进封装产能,其中包括 Helios 机架级平台和 Instinct MI450X 的部署计划。同一天,AMD 还宣布下一代 EPYC “Venice” CPU 已经在台积电 2 纳米制程上进入量产爬坡,并明确把 CPU 描述为 AI 数据移动、网络、存储、安全和系统编排的协调层。与此同时,Microsoft 正在推动 Maia 200 作为面向推理的一代加速器:216GB HBM3e、FP8/FP4 支持、重新设计的内存子系统,以及用于把模型迁移到异构加速器上的 SDK。周末的报道还称,Anthropic 正在与 Microsoft 商谈租用搭载 Maia 200 的 Azure 服务器,这会测试 Microsoft 的内部推理芯片能否为 Microsoft 自己产品栈之外的前沿模型运营方提供服务。Intel 的 Crescent Island 则补上了地图的另一侧:一张围绕 160GB LPDDR5X 和风冷企业服务器设计的推理专用 GPU,而不是走最昂贵的 HBM 路线。

这是一个 7 到 14 天窗口内的基础设施信号,但今天仍然重要,因为市场仍然倾向于把算力理解为产能竞赛:谁能拿到更多加速器、更多吉瓦、更多先进封装、更多接近 Nvidia 级别供应的能力。这个理解不完整。接下来的运营问题会更细:哪些工作负载应该跑在哪种芯片上,在什么延迟和成本约束下,用什么内存配置,放在哪种数据中心功耗和散热边界内?

这里的核心机制是“推理工作负载路由”。训练经济学奖励大规模连续集群和高端加速器。服务经济学更混杂。一个产品可能同时需要低延迟聊天回复、长上下文文档处理、批量摘要、代码执行规划、合成数据生成、向量嵌入、安全分类、语音轮次和智能体工具调用。这些调用并不需要同一种硬件。有些受内存容量限制,有些受带宽限制,有些受延迟限制,有些可以批处理,有些必须靠近客户数据,有些需要放进现有风冷企业机房。把它们全部叫作“GPU 需求”,会漏掉生产级 AI 运营方正在构建的真正控制平面。

容易被忽略的取舍是,硬件多样性会降低对单一供应商的单位成本依赖,但会提高路由和软件复杂度。说 AI 实验室应该摆脱对 Nvidia 的依赖很容易。难的是在 GPU、TPU、Maia 这类自研加速器、偏 LPDDR 的推理卡,以及承担编排任务的 CPU 节点之间,保持质量、延迟、模型兼容性、可观测性和事件响应的一致性。如果模型在量化、内核变化、调度变化或内存压力调优之后行为发生变化,运营方不能用“芯片更便宜”来解释。用户看到的是更慢的响应、不一致的答案,或者智能体行为退化。

这就是为什么 Maia 与 Anthropic 的角度比普通供应商新闻更有意思。如果 Anthropic 使用 Maia 产能,真正的测试不是 Maia 是否有漂亮的厂商公布 FLOPS。测试在于,一个外部前沿模型运营方能否把真实 Claude 工作负载路由到 Microsoft 的芯片上,同时不丢失客户期待的服务级行为。Microsoft 表示 Maia 200 已经在服务 Microsoft Foundry 和 Microsoft 365 Copilot 相关工作负载。但外部前沿推理是不同的证明点,因为工作负载所有者、产品所有者和基础设施所有者并不完全在同一家公司内部。

接下来要观察的具体运营行为,是“放置策略”的兴起。AI 基础设施团队会越来越多地按上下文长度、是否可批处理、延迟敏感度、数据位置、量化容忍度、内存占用和回退风险来标记推理任务。路由层会决定一个请求是进入高价 GPU 产能、自研推理芯片、更便宜但更偏内存容量的 LPDDR 板卡、靠近 CPU 的预处理路径,还是进入一个等待更好批处理窗口的队列。这不是一个好看的仪表盘功能,而是利润系统。如果错误的任务落到昂贵加速器上,利润率会受损。如果延迟敏感任务落到便宜但较慢的路径上,用户会流失。如果受监管工作负载被移到错误区域或错误技术栈上,合规会出问题。

二阶后果是,真正有防御性的层可能会从芯片获取能力上移到调度证据。买家仍然会关心谁有 GPU。但成熟客户会提出更好的问题:你能否证明我的工作负载由哪类硬件服务,运行的是哪个模型变体,使用了什么精度路径,适用什么延迟和成本边界,以及容量受限时发生了什么回退?在这种世界里,“我们有很多算力”不如“我们能把每类推理放到最便宜且可靠的路径上,并展示审计链路”有价值。

对构建者来说,具体启示是不要再把推理成本当成一个混合总账。要按任务拆开。把交互式用户轮次与后台任务分离。跟踪上下文长度、输出长度、缓存命中率、重试率、工具调用扇出、模型变体、硬件池、延迟分位数和失败模式。在成本压力迫使你紧急处理之前,先建立路由策略。即使你不运营自己的硬件,也应该假设供应商后端会越来越异构。一个会悄悄改变放置策略的模型 API,可能改变你的延迟和成本结构;一个能暴露路由控制的 AI 平台,可能变得具有战略价值。

反方观点也成立:大多数团队还没准备好在这一层做优化。对很多应用来说,正确答案仍然是使用主流 API、支付账单,并避免过早基础设施化。如果产品还没有找到足够的使用密度,或者质量变化更多来自提示词设计和数据检索,而不是加速器选择,那么硬件感知路由可能会成为干扰。重点不是每个创业公司都需要芯片战略。重点是,高容量 AI 产品会越来越需要工作负载战略。

下一步要看的指标是:模型 API 和云 AI 平台是否开始暴露更明确的放置、成本和性能控制。关注工作负载类别、延迟等级、缓存感知定价、区域和加速器披露、面向外部模型提供商的自研芯片选项,以及能把用户请求追踪到硬件池的可观测性。如果这些控制继续隐藏,买家会继续按大宗算力谈判。如果这些控制浮出水面,推理就已经从采购问题跨进运行时运营问题。

来源:AMD 台湾生态投资公告AMD Venice 量产爬坡公告Microsoft Maia 200 公告TechTimes 关于 Anthropic 与 Microsoft Maia 商谈的报道Tom's Hardware 关于 Intel Crescent Island 的报道


Read in English →