AI Signals and Reality Checks

视觉搜索正成为智能体记忆

Kaizhi Tang

10 Jun 2026 • 7 min read

视觉搜索正在变成智能体记忆

重要的不是网页搜索可以返回图片；重要的是，智能体开始需要把视觉证据纳入自己的工作记忆，因为许多真实任务依赖的是用户通过视觉识别的东西，而不只是能够用文字准确表达的事实。

OpenAI 6 月 9 日的 API 更新日志记录了一个看似很小的功能：Responses API 中的网页搜索现在可以在常规文本结果之外返回图片结果，适用于需要当前视觉信息或有网页依据的视觉信息的场景，例如产品照片、地标、地点、事件或视觉参考。单独看，这像是搜索能力的改进。更尖锐的解读是：视觉检索正在成为智能体运行时的基础能力。

这不是为了让聊天答案更好看，而是为了弥合用户识别世界的方式和 LLM 系统检索世界的方式之间的缺口。用户可能不知道一把椅子的型号、一栋建筑的名字、一款产品的准确版本，或某个公共事件的正式标题。他们可能指着一张照片、描述一个形状、问“带绿色标签的那个”，或者用视觉方式比较两个商品列表。文本搜索能帮忙，但它经常丢掉真正让任务变具体的区分特征。

这里的核心机制是“视觉 grounding 缓存”。在严肃的智能体工作流中，图片结果不应该被当作装饰附件。它们应该成为临时工作记忆：一组视觉证据卡片，包含来源 URL、时间戳、标题或说明、感知特征、置信度，以及与下游任务的关联。当智能体推荐产品、识别地点、制定旅行计划、核查新闻图片或验证品牌素材时，它需要把答案背后的视觉依据保留足够久，才能继续推理并展示自己的依据。

这也是为什么 6 月 9 日这个更新今天值得关注，尽管它并不是一次前沿模型发布。过去几年，智能体设计的重点一直放在工具、函数调用、浏览器控制、记忆和评估上。但很多实际任务在调用工具之前就已经失败了，因为系统对对象的表示是错的。一个纯文本智能体可能知道某家餐厅存在、评论也很新，却错过了当前门店正在施工。它可能知道某个商品 SKU，却不知道电商列表图片里展示的是不是正确的配件套装。它可能总结一个事件，却分不清官方照片和旧图转发。

容易被忽略的取舍，是检索范围和证据卫生之间的矛盾。加入图片会扩大智能体可检查的内容，但也会增加新的失败模式：过期缩略图、复制来的产品照片、AI 生成图片、CDN 重复图、页面上下文变化，以及看起来很像但指向错误对象的视觉近似结果。文本检索已经有引用漂移；图片检索会增加感知漂移。智能体现在可能以一种更有说服力的方式犯错，因为错误证据本身是可见的。

具体的运营行为会首先在电商、旅行、本地搜索、媒体监测和客服中改变。用户会要求智能体比较视觉选项，而不只是总结页面。购物者会问某个商品列表里的夹克是否和另一个列表是同一版型。旅行者会问酒店房间景观是否真的对应广告中的位置。客服人员会问用户上传的截图是否像某个已知 UI 状态。品牌团队会问产品图片在哪里被复用。这些不是“图像生成”任务，而是视觉证据任务。

二阶后果是，智能体界面需要证据工作区，而不只是聊天记录。如果图片成为网页搜索的一部分，那么 UI 必须允许用户检查、拒绝、固定和比较视觉结果。否则，智能体会把最重要的证据埋在文字回答后面。胜出的界面可能不太像聊天机器人，而更像轻量调查板：来源卡片、视觉聚类、并排比较、新鲜度标签，以及面向任务的备注。

这里还有一个开发者平台层面的信号。OpenAI 6 月 3 日关于 reusable prompt objects、Evals platform 和 Agent Builder 的弃用通知，正在把开发者推向在应用代码或外部工具中维护提示词、智能体逻辑和评估工作流。同样的方向也适用于今天这个变化。如果视觉搜索成为智能体行为的一部分，团队不应该把它藏在不透明的提示词里。团队应该记录检索到了哪些图片结果，哪些被使用了，模型从中推断了什么，以及人类是否接受或纠正了这些推断。

具体的构建启示是，把“找到的图片”和“可信证据”分开。生产级智能体应该保存图片结果元数据，做轻量去重，标记来源新鲜度，把原始页面 URL 和图片 URL 分开保存，并保留一段简短说明，解释每张图为什么重要。对于面向用户的决策，系统应该展示证据卡片，而不只是引用页面。对于内部评估，测试用例应该包含视觉干扰项：相似产品版本、旧事件照片、跨列表复用的图库照片，以及看起来像生成图的素材。

反方观点是，这也可能只是一个便利功能。很多开发者会用图片结果来丰富回答或生成更好看的总结，这没有问题。并不是每个有网页依据的应用都需要视觉证据管线。如果任务是“总结今天的 AI 新闻”，文本来源仍然是主要底层材料。更强的判断只适用于那些用户目标依赖于识别某个对象、地点、界面状态或视觉主张的场景。

可证伪的下一步指标是：智能体产品是否会把图片检索轨迹作为一等产物暴露出来。如果视觉网页结果继续隐藏在模型上下文里，这个功能大多只是改善演示效果。如果产品开始加入视觉来源卡片、新鲜度警告、反向图片检查、截图到网页的匹配，以及包含视觉干扰项的评估套件，那么视觉搜索就已经从媒体增强进入了智能体记忆。

对运营者来说，实际启示很简单。不要只问你的智能体能不能搜索网页。要问它在行动时能保留什么样的世界状态。对于用户通过视觉做决定的工作流，文本片段是不够的。下一个真正有用的智能体，不只是用当前信息回答问题；它会维护一份小而可检查的视觉记录，说明它认为自己看见了什么。

来源：OpenAI API 更新日志，6 月 9 日网页搜索图片结果，OpenAI 网页搜索指南，OpenAI API 弃用说明，6 月 3 日，OpenAI Cookbook：从 OpenAI Evals 迁移到 Promptfoo。

Read in English →