溯源正成为分发特性
OpenAI and Google are not just labeling synthetic images. They are moving provenance checks into the places where trust decisions are made: search, browsers, platforms, and enterprise review queues.
重要的事情并不是 OpenAI 和 Google 能给 AI 生成图片打标签。重要的是,溯源检查正在进入分发层,因为信任判断发生在媒体离开生成器之后,而不是发生在它被创建的那一刻。
这是本周一系列内容溯源公告中更尖锐的信号。5 月 19 日,OpenAI 表示,它正在把 C2PA Content Credentials、Google DeepMind 的 SynthID 水印,以及一个早期公开验证工具结合起来,用于检查通过 ChatGPT、Codex 和 OpenAI API 生成的图片。同一天,Google 表示,针对图片、视频和音频的 SynthID 验证将从 Gemini 扩展到 Search,并随后进入 Chrome;C2PA 凭证检查也将在未来几个月进入 Gemini、Search 和 Chrome。
最容易的解读是:“AI 图片开始有水印了。”这是真的,但太小。生成时的水印只有在图片被复制、缩放、截图、转发、压缩,并在用户真正做判断的产品界面中被争议时仍然可读,才有意义。因此,内容溯源正在从附着在文件上的标签,变成嵌入搜索、浏览器、社交平台、企业审核队列、保险理赔和新闻编辑流程中的运行时信任服务。
这里的具名机制是信号分层。C2PA 携带带签名的元数据:发布方、创建背景和编辑历史。它表达能力强,但脆弱,因为上传、下载、格式变化、缩放和截图都可能剥离元数据。SynthID 的工作方式不同:它把不可见水印信号嵌入媒体本身。它提供的上下文少于 C2PA,但可能在某些会破坏元数据的转换之后仍然存在。OpenAI 自己的公告把这一点说得很清楚:元数据提供细节,水印提供耐久性。真正的产品动作,是把两者绑定到验证界面上。
Google 的发布更明确地说明了分发层的重要性。Google 表示,Gemini 中的 SynthID 验证已经在全球被使用 5000 万次,用户将能够通过 Lens、AI Mode、Circle to Search 以及 Chrome 中的 Gemini 等 Search 功能询问一张图片是否由 AI 生成。Google 还在 Gemini Enterprise Agent Platform 上推出 AI Content Detection API,用于排序信息流、防止保险欺诈、事实核查和标记合成媒体等后台场景。这不是创作者端的披露功能,而是接收外部媒体的人所需要的运营基础设施。
容易被忽略的取舍是:溯源最有用的时候,恰恰是它不再只是中性的元数据,而开始成为平台决策的一部分。如果 Search、Chrome、Instagram、理赔系统或新闻 CMS 能够解释凭证和水印,它们就能减少模糊性。但它们也会制造新的不对称:来自合作模型厂商和相机厂商的内容更容易被信任,而未签名或本地生成的内容即使真实,也可能被视为可疑。第二阶后果是,“已验证分发”会成为一个市场,溯源支持会影响触达、审核延迟、广告接纳、商品列表审查和机构可信度。
令人不舒服的证据是,单纯的文件级溯源并不够。一篇关于 GPT-Image-2 图片的近期 arXiv 论文,从 X 上收集了模型发布后六天内的 10,217 张确认生成图片,并报告称 Twitter 的 CDN 上传流程系统性剥离了 C2PA 凭证,使这些社交媒体副本无法进行加密溯源验证。另一篇 4 月的安全分析认为,当前 C2PA 规范还不应被用于金融披露、新闻或法律证据等高风险用途。即便不接受这些批评中最强的版本,也能看到产品含义:溯源必须能穿过真实的分发系统,而不只是通过实验室演示。
具体的运营行为会发生变化。新闻编辑不会只问:“这个文件是否有完美的保管链?”他们会问 CMS、相机凭证、搜索结果、通讯社和社交平台是否足够一致,能否支持发布。电商平台运营者会在溯源信号缺失或与卖家声明冲突时,把可疑商品照片转入审核。企业风险团队不会给每个员工一个检测 app,而是会把溯源检查插入内容入口、欺诈流程和审批节点。用户行为不是手工鉴定,而是默认分流。
对构建者来说,含义很具体:把溯源当成集成问题,而不是模型输出的勾选框。如果你的产品生成媒体,尽可能同时附加丰富元数据和耐久信号。如果你的产品接收媒体,要设计一套信任状态机:已验证来源、部分信号、转换后仍一致、信号缺失、信号冲突、已知不支持格式。展示不确定性,不要把“未检测到信号”直接解释为“不是 AI”。记录转换过程,避免自己的管线摧毁未来需要的证据。并且要明确升级规则,因为表情包信息流中的溯源失败,和法律理赔中的溯源失败,不应触发同一种行动。
反方观点也成立。如果用户不理解溯源,平台不保留溯源,攻击者绕开溯源,或者开源与本地生成制造出大量未签名媒体,溯源就可能变成安全剧场。没有凭证永远不能证明内容是假的。一个醒目的“已验证”徽章也可能被过度解读为“真实”,但它可能只意味着“这个文件来自某个工具,并走过这条路径”。溯源不能替代来源核实、取证分析、政策判断或媒介素养。
下一步可证伪指标很明确:观察未来六个月溯源检查是否成为默认基础设施,而不是看有多少厂商继续发布公告。看 Chrome 和 Search 是否在普通浏览流程中展示验证,看 Instagram 是否标记带 C2PA 的相机拍摄媒体,看保险和电商平台是否采用企业检测 API,看社交平台是否在自己的媒体管线中保留签名清单。也要看反向指标:如果主要分发平台仍然默认剥离凭证,C2PA 就仍然只是一个脆弱承诺。
现实校验是,AI 信任问题不会在模型实验室里被解决。它会在媒体被复制、压缩、变现、审核、诉讼和分享的混乱中间地带被决定。OpenAI 和 Google 正在把溯源推向那里。这也是为什么本周的信号在今天仍然重要,尽管相关标准和水印争论已经发展多年。
对 AI 构建者来说,实际问题不再是“我们是否标记生成内容?”而是“当某个人必须做决定时,这个标记在哪里仍然可读?”
来源:OpenAI 关于内容溯源的说明、Google 关于识别 AI 生成媒体的说明、GPT-Image-2 in the Wild 和 Verifying Provenance of Digital Media。