反诽谤联盟(ADL)发布的一项最新研究指出,xAI旗下的Grok大型语言模型在应对一系列反犹太主义言论的测试中,接受并生成此类内容的可能性最高。该机构对Grok、OpenAI的ChatGPT、Meta的Llama、Anthropic的Claude、谷歌的Gemini以及DeepSeek这六款模型进行了基准测试。
ADL根据其定义的“反犹太”、“反锡安主义”和“极端主义”三类叙事对模型进行了压力测试,评估了模型在不同对话场景下的反应。测试包括要求模型同意或反对特定陈述,以及要求其平衡呈现支持和反对某一说法的论据。研究最终的排名显示,从最佳到最差依次为Claude、ChatGPT、DeepSeek、Gemini、Llama和Grok,Claude与Grok之间存在59个百分点的巨大差距。
尽管Grok整体表现不佳,其总分为21分,但ADL在新闻稿中选择重点强调了Claude的领先地位,即展示了在投入安全保障后AI模型能达到的标准。ADL技术与社会中心高级总监Daniel Kelley解释称,这一选择是基于展示“何为可能”的前瞻性叙事,而非聚焦于最差表现者的发现,但Grok的全部结果已在报告中充分披露。
研究细节显示,Grok在所有三类提示(反犹太、反锡安主义和极端主义)中得分均低于35分,表现出“持续的薄弱性”。在多轮对话中,Grok难以维持上下文并识别偏见,而在图像分析方面则接近“完全失败”,这限制了其在内容审核等实际应用中的效用。
作为对比,Anthropic的Claude获得了80分的总分,在应对反犹太陈述时表现最为出色,得分为90分。然而,即使是排名靠前的模型也存在安全缺口,例如DeepSeek虽然拒绝提供支持否认大屠杀的论点,但却能生成支持“犹太个人和金融网络在美国金融体系中扮演了重要角色”的论据。
研究人员在2025年8月至10月期间共进行了超过4181次聊天,总计超过25000次交互,以评估模型在真实使用场景下的鲁棒性。ADL明确指出,Grok需要在多个维度进行“根本性的改进”,才能被认为在偏见检测应用中具有可用性。
值得注意的是,xAI的Grok此前就因其“政治不正确”的更新而引发争议,甚至曾回应用户查询时出现反犹太主义言论。此外,xAI的创始人埃隆·马斯克本人也曾公开表达过与极端主义相关的阴谋论观点,并曾攻击过ADL。