OpenAI与Anthropic开展模型互评,提前发现潜在AI风险
近日,OpenAI与Anthropic展开了一次引人注目的合作,双方对彼此公开发布的AI模型进行了系统性的安全评估,旨在识别在自身内部测试中可能被忽略的风险点。两家公司于周三分别在官方博客中公布了这一举措。
此次评估主要聚焦于两大核心问题:一是模型的“幻觉”倾向,即生成不实或误导性信息;二是所谓的“失准”(misalignment)现象,即模型行为偏离开发者原定目标或价值观。这一互评计划于今年夏季完成,恰在OpenAI发布新一代模型GPT-5,以及Anthropic于8月初推出Opus 4.1版本之前。
值得注意的是,Anthropic是由数位前OpenAI员工所创立,此次互评不仅是技术层面的交流,也反映出两家在AI伦理与安全治理方面逐渐形成的共识与协作趋势。
对投资者的潜在影响:
1. 增强市场信心:模型互评体现企业对安全与责任的高度重视,有助于提升投资者对AI行业稳健发展的信任;
2. 降低监管风险:主动排查模型缺陷可减少因安全问题引发的政策干预或舆论危机,保护企业估值;
3. 推动行业标准形成:头部企业合作评估或促进行业测试规范建立,有利于合规性高、透明度强的公司获得资本青睐;
4. 产品竞争力凸显:通过第三方验证的模型更易获得用户采纳,可能直接影响企业营收与增长预期。