视觉搜索正成为智能体记忆

视觉搜索正成为智能体记忆

视觉搜索正在变成智能体记忆

重要的不是网页搜索可以返回图片;重要的是,智能体开始需要把视觉证据纳入自己的工作记忆,因为许多真实任务依赖的是用户通过视觉识别的东西,而不只是能够用文字准确表达的事实。

OpenAI 6 月 9 日的 API 更新日志记录了一个看似很小的功能:Responses API 中的网页搜索现在可以在常规文本结果之外返回图片结果,适用于需要当前视觉信息或有网页依据的视觉信息的场景,例如产品照片、地标、地点、事件或视觉参考。单独看,这像是搜索能力的改进。更尖锐的解读是:视觉检索正在成为智能体运行时的基础能力。

这不是为了让聊天答案更好看,而是为了弥合用户识别世界的方式和 LLM 系统检索世界的方式之间的缺口。用户可能不知道一把椅子的型号、一栋建筑的名字、一款产品的准确版本,或某个公共事件的正式标题。他们可能指着一张照片、描述一个形状、问“带绿色标签的那个”,或者用视觉方式比较两个商品列表。文本搜索能帮忙,但它经常丢掉真正让任务变具体的区分特征。

这里的核心机制是“视觉 grounding 缓存”。在严肃的智能体工作流中,图片结果不应该被当作装饰附件。它们应该成为临时工作记忆:一组视觉证据卡片,包含来源 URL、时间戳、标题或说明、感知特征、置信度,以及与下游任务的关联。当智能体推荐产品、识别地点、制定旅行计划、核查新闻图片或验证品牌素材时,它需要把答案背后的视觉依据保留足够久,才能继续推理并展示自己的依据。

这也是为什么 6 月 9 日这个更新今天值得关注,尽管它并不是一次前沿模型发布。过去几年,智能体设计的重点一直放在工具、函数调用、浏览器控制、记忆和评估上。但很多实际任务在调用工具之前就已经失败了,因为系统对对象的表示是错的。一个纯文本智能体可能知道某家餐厅存在、评论也很新,却错过了当前门店正在施工。它可能知道某个商品 SKU,却不知道电商列表图片里展示的是不是正确的配件套装。它可能总结一个事件,却分不清官方照片和旧图转发。

容易被忽略的取舍,是检索范围和证据卫生之间的矛盾。加入图片会扩大智能体可检查的内容,但也会增加新的失败模式:过期缩略图、复制来的产品照片、AI 生成图片、CDN 重复图、页面上下文变化,以及看起来很像但指向错误对象的视觉近似结果。文本检索已经有引用漂移;图片检索会增加感知漂移。智能体现在可能以一种更有说服力的方式犯错,因为错误证据本身是可见的。

具体的运营行为会首先在电商、旅行、本地搜索、媒体监测和客服中改变。用户会要求智能体比较视觉选项,而不只是总结页面。购物者会问某个商品列表里的夹克是否和另一个列表是同一版型。旅行者会问酒店房间景观是否真的对应广告中的位置。客服人员会问用户上传的截图是否像某个已知 UI 状态。品牌团队会问产品图片在哪里被复用。这些不是“图像生成”任务,而是视觉证据任务。

二阶后果是,智能体界面需要证据工作区,而不只是聊天记录。如果图片成为网页搜索的一部分,那么 UI 必须允许用户检查、拒绝、固定和比较视觉结果。否则,智能体会把最重要的证据埋在文字回答后面。胜出的界面可能不太像聊天机器人,而更像轻量调查板:来源卡片、视觉聚类、并排比较、新鲜度标签,以及面向任务的备注。

这里还有一个开发者平台层面的信号。OpenAI 6 月 3 日关于 reusable prompt objects、Evals platform 和 Agent Builder 的弃用通知,正在把开发者推向在应用代码或外部工具中维护提示词、智能体逻辑和评估工作流。同样的方向也适用于今天这个变化。如果视觉搜索成为智能体行为的一部分,团队不应该把它藏在不透明的提示词里。团队应该记录检索到了哪些图片结果,哪些被使用了,模型从中推断了什么,以及人类是否接受或纠正了这些推断。

具体的构建启示是,把“找到的图片”和“可信证据”分开。生产级智能体应该保存图片结果元数据,做轻量去重,标记来源新鲜度,把原始页面 URL 和图片 URL 分开保存,并保留一段简短说明,解释每张图为什么重要。对于面向用户的决策,系统应该展示证据卡片,而不只是引用页面。对于内部评估,测试用例应该包含视觉干扰项:相似产品版本、旧事件照片、跨列表复用的图库照片,以及看起来像生成图的素材。

反方观点是,这也可能只是一个便利功能。很多开发者会用图片结果来丰富回答或生成更好看的总结,这没有问题。并不是每个有网页依据的应用都需要视觉证据管线。如果任务是“总结今天的 AI 新闻”,文本来源仍然是主要底层材料。更强的判断只适用于那些用户目标依赖于识别某个对象、地点、界面状态或视觉主张的场景。

可证伪的下一步指标是:智能体产品是否会把图片检索轨迹作为一等产物暴露出来。如果视觉网页结果继续隐藏在模型上下文里,这个功能大多只是改善演示效果。如果产品开始加入视觉来源卡片、新鲜度警告、反向图片检查、截图到网页的匹配,以及包含视觉干扰项的评估套件,那么视觉搜索就已经从媒体增强进入了智能体记忆。

对运营者来说,实际启示很简单。不要只问你的智能体能不能搜索网页。要问它在行动时能保留什么样的世界状态。对于用户通过视觉做决定的工作流,文本片段是不够的。下一个真正有用的智能体,不只是用当前信息回答问题;它会维护一份小而可检查的视觉记录,说明它认为自己看见了什么。

来源:OpenAI API 更新日志,6 月 9 日网页搜索图片结果OpenAI 网页搜索指南OpenAI API 弃用说明,6 月 3 日OpenAI Cookbook:从 OpenAI Evals 迁移到 Promptfoo


Read in English →