溯源正成为分发特性

OpenAI and Google are not just labeling synthetic images. They are moving provenance checks into the places where trust decisions are made: search, browsers, platforms, and enterprise review queues.

Editorial image of a disputed online image passing through camera credentials, C2PA metadata, watermark scanning, platform upload, and browser verification checkpoints.
The provenance layer matters most when media leaves the generator and enters distribution.

重要的事情并不是 OpenAI 和 Google 能给 AI 生成图片打标签。重要的是,溯源检查正在进入分发层,因为信任判断发生在媒体离开生成器之后,而不是发生在它被创建的那一刻。

这是本周一系列内容溯源公告中更尖锐的信号。5 月 19 日,OpenAI 表示,它正在把 C2PA Content Credentials、Google DeepMind 的 SynthID 水印,以及一个早期公开验证工具结合起来,用于检查通过 ChatGPT、Codex 和 OpenAI API 生成的图片。同一天,Google 表示,针对图片、视频和音频的 SynthID 验证将从 Gemini 扩展到 Search,并随后进入 Chrome;C2PA 凭证检查也将在未来几个月进入 Gemini、Search 和 Chrome。

最容易的解读是:“AI 图片开始有水印了。”这是真的,但太小。生成时的水印只有在图片被复制、缩放、截图、转发、压缩,并在用户真正做判断的产品界面中被争议时仍然可读,才有意义。因此,内容溯源正在从附着在文件上的标签,变成嵌入搜索、浏览器、社交平台、企业审核队列、保险理赔和新闻编辑流程中的运行时信任服务。

这里的具名机制是信号分层。C2PA 携带带签名的元数据:发布方、创建背景和编辑历史。它表达能力强,但脆弱,因为上传、下载、格式变化、缩放和截图都可能剥离元数据。SynthID 的工作方式不同:它把不可见水印信号嵌入媒体本身。它提供的上下文少于 C2PA,但可能在某些会破坏元数据的转换之后仍然存在。OpenAI 自己的公告把这一点说得很清楚:元数据提供细节,水印提供耐久性。真正的产品动作,是把两者绑定到验证界面上。

Google 的发布更明确地说明了分发层的重要性。Google 表示,Gemini 中的 SynthID 验证已经在全球被使用 5000 万次,用户将能够通过 Lens、AI Mode、Circle to Search 以及 Chrome 中的 Gemini 等 Search 功能询问一张图片是否由 AI 生成。Google 还在 Gemini Enterprise Agent Platform 上推出 AI Content Detection API,用于排序信息流、防止保险欺诈、事实核查和标记合成媒体等后台场景。这不是创作者端的披露功能,而是接收外部媒体的人所需要的运营基础设施。

容易被忽略的取舍是:溯源最有用的时候,恰恰是它不再只是中性的元数据,而开始成为平台决策的一部分。如果 Search、Chrome、Instagram、理赔系统或新闻 CMS 能够解释凭证和水印,它们就能减少模糊性。但它们也会制造新的不对称:来自合作模型厂商和相机厂商的内容更容易被信任,而未签名或本地生成的内容即使真实,也可能被视为可疑。第二阶后果是,“已验证分发”会成为一个市场,溯源支持会影响触达、审核延迟、广告接纳、商品列表审查和机构可信度。

令人不舒服的证据是,单纯的文件级溯源并不够。一篇关于 GPT-Image-2 图片的近期 arXiv 论文,从 X 上收集了模型发布后六天内的 10,217 张确认生成图片,并报告称 Twitter 的 CDN 上传流程系统性剥离了 C2PA 凭证,使这些社交媒体副本无法进行加密溯源验证。另一篇 4 月的安全分析认为,当前 C2PA 规范还不应被用于金融披露、新闻或法律证据等高风险用途。即便不接受这些批评中最强的版本,也能看到产品含义:溯源必须能穿过真实的分发系统,而不只是通过实验室演示。

具体的运营行为会发生变化。新闻编辑不会只问:“这个文件是否有完美的保管链?”他们会问 CMS、相机凭证、搜索结果、通讯社和社交平台是否足够一致,能否支持发布。电商平台运营者会在溯源信号缺失或与卖家声明冲突时,把可疑商品照片转入审核。企业风险团队不会给每个员工一个检测 app,而是会把溯源检查插入内容入口、欺诈流程和审批节点。用户行为不是手工鉴定,而是默认分流。

对构建者来说,含义很具体:把溯源当成集成问题,而不是模型输出的勾选框。如果你的产品生成媒体,尽可能同时附加丰富元数据和耐久信号。如果你的产品接收媒体,要设计一套信任状态机:已验证来源、部分信号、转换后仍一致、信号缺失、信号冲突、已知不支持格式。展示不确定性,不要把“未检测到信号”直接解释为“不是 AI”。记录转换过程,避免自己的管线摧毁未来需要的证据。并且要明确升级规则,因为表情包信息流中的溯源失败,和法律理赔中的溯源失败,不应触发同一种行动。

反方观点也成立。如果用户不理解溯源,平台不保留溯源,攻击者绕开溯源,或者开源与本地生成制造出大量未签名媒体,溯源就可能变成安全剧场。没有凭证永远不能证明内容是假的。一个醒目的“已验证”徽章也可能被过度解读为“真实”,但它可能只意味着“这个文件来自某个工具,并走过这条路径”。溯源不能替代来源核实、取证分析、政策判断或媒介素养。

下一步可证伪指标很明确:观察未来六个月溯源检查是否成为默认基础设施,而不是看有多少厂商继续发布公告。看 Chrome 和 Search 是否在普通浏览流程中展示验证,看 Instagram 是否标记带 C2PA 的相机拍摄媒体,看保险和电商平台是否采用企业检测 API,看社交平台是否在自己的媒体管线中保留签名清单。也要看反向指标:如果主要分发平台仍然默认剥离凭证,C2PA 就仍然只是一个脆弱承诺。

现实校验是,AI 信任问题不会在模型实验室里被解决。它会在媒体被复制、压缩、变现、审核、诉讼和分享的混乱中间地带被决定。OpenAI 和 Google 正在把溯源推向那里。这也是为什么本周的信号在今天仍然重要,尽管相关标准和水印争论已经发展多年。

对 AI 构建者来说,实际问题不再是“我们是否标记生成内容?”而是“当某个人必须做决定时,这个标记在哪里仍然可读?”

来源:OpenAI 关于内容溯源的说明Google 关于识别 AI 生成媒体的说明GPT-Image-2 in the WildVerifying Provenance of Digital Media


Read in English →