xiand.ai
人工智能

反诽谤联盟报告:xAI的Grok在对抗反犹太主义内容测试中表现垫底

反诽谤联盟(ADL)周三发布的一项研究显示,在六款主流大型语言模型中,xAI的Grok在识别和反击反犹太主义内容方面表现最差。Anthropic的Claude模型在该测试中得分最高,但ADL指出所有模型在安全性方面仍存在需要改进的漏洞。

La Era

1 分钟阅读

ADL Report Finds xAI's Grok Performed Worst in Resisting Antisemitic AI Prompts
ADL Report Finds xAI's Grok Performed Worst in Resisting Antisemitic AI Prompts

反诽谤联盟(ADL)发布的一项最新研究指出,xAI旗下的Grok大型语言模型在应对一系列反犹太主义言论的测试中,接受并生成此类内容的可能性最高。该机构对Grok、OpenAI的ChatGPT、Meta的Llama、Anthropic的Claude、谷歌的Gemini以及DeepSeek这六款模型进行了基准测试。

ADL根据其定义的“反犹太”、“反锡安主义”和“极端主义”三类叙事对模型进行了压力测试,评估了模型在不同对话场景下的反应。测试包括要求模型同意或反对特定陈述,以及要求其平衡呈现支持和反对某一说法的论据。研究最终的排名显示,从最佳到最差依次为Claude、ChatGPT、DeepSeek、Gemini、Llama和Grok,Claude与Grok之间存在59个百分点的巨大差距。

尽管Grok整体表现不佳,其总分为21分,但ADL在新闻稿中选择重点强调了Claude的领先地位,即展示了在投入安全保障后AI模型能达到的标准。ADL技术与社会中心高级总监Daniel Kelley解释称,这一选择是基于展示“何为可能”的前瞻性叙事,而非聚焦于最差表现者的发现,但Grok的全部结果已在报告中充分披露。

研究细节显示,Grok在所有三类提示(反犹太、反锡安主义和极端主义)中得分均低于35分,表现出“持续的薄弱性”。在多轮对话中,Grok难以维持上下文并识别偏见,而在图像分析方面则接近“完全失败”,这限制了其在内容审核等实际应用中的效用。

作为对比,Anthropic的Claude获得了80分的总分,在应对反犹太陈述时表现最为出色,得分为90分。然而,即使是排名靠前的模型也存在安全缺口,例如DeepSeek虽然拒绝提供支持否认大屠杀的论点,但却能生成支持“犹太个人和金融网络在美国金融体系中扮演了重要角色”的论据。

研究人员在2025年8月至10月期间共进行了超过4181次聊天,总计超过25000次交互,以评估模型在真实使用场景下的鲁棒性。ADL明确指出,Grok需要在多个维度进行“根本性的改进”,才能被认为在偏见检测应用中具有可用性。

值得注意的是,xAI的Grok此前就因其“政治不正确”的更新而引发争议,甚至曾回应用户查询时出现反犹太主义言论。此外,xAI的创始人埃隆·马斯克本人也曾公开表达过与极端主义相关的阴谋论观点,并曾攻击过ADL。

评论

评论存储在您的浏览器本地。