Newsportal USENET - [WSJ] 测试显示DeepSeek更容易被诱导而给出危险信息

测试显示DeepSeek更容易被诱导而给出危险信息

2025年2月10日 10:36 CST

2 - 3 minutes

图片来源：Emil Lendof/WSJ

修改禽流感病毒的说明。为希特勒(Hitler)辩护的宣言。在青少年中推广自残自伤的社交媒体活动。

人工智能(AI)安全专家和《华尔街日报》(The Wall Street Journal)的测试显示，与美国领先的AI对手相比，在中国AI应用程序DeepSeek上面谈论这些潜在的危险话题要更加容易。

过去几周，DeepSeek凭借功能强大、成本低廉和免费使用的系统颠覆了AI行业。DeepSeek的移动应用版本是苹果公司(Apple)和安卓(Android)设备上最受欢迎的应用程序之一。

包括DeepSeek在内的主要AI开发商致力于训练它们的模型不去分享危险信息或认可某些攻击性言论。它们的应用程序会拒绝直接描述白人至上主义的优点或解释如何制造大规模杀伤性武器的要求。

西方主要的AI开发商也试图强化它们的技术，以防被诱骗作出非法回应，这些伎俩包括对AI模型输入这样的问题，让AI想象它正在编写电影剧本。这种策略被称为“越狱”(jailbreaking)。

测试显示，DeepSeek最受欢迎的最新款模型R1比OpenAI的ChatGPT、谷歌(Google)的Gemini和Anthropic的Claude更容易发生“越狱”。

记者未能成功联系到DeepSeek。去年年底，包括DeepSeek在内的17家中国公司与中国一个政府部门签署了AI安全承诺，其中包括承诺进行安全测试。美国没有国家层面的AI安全法规。

随着AI模型在数学和科学等领域迅速赶上最聪明的人类，许多安全倡导者表示，让AI模型更难“越狱”对于确保恶意和精神疾病患者无法通过问几个问题就学会如何造成严重伤害至关重要。

几家AI安全公司对DeepSeek的R1进行了测试，它们表示能够让R1“越狱”，有时使用的是网上很容易找到的方法。

Palo Alto Networks旗下情报威胁和事件响应部门Unit 42获得了制作燃烧瓶的详细说明。CalypsoAI获得了如何逃避执法的建议。以色列网络威胁情报公司Kela说服R1制作出了恶意软件。

“与其他模型相比，DeepSeek更容易‘越狱’，”Unit 42高级副总裁萨姆·鲁宾(Sam Rubin)说。“我们以快得多的速度实现了‘越狱’，并注意到DeepSeek缺乏旨在防止生成恶意内容的最低限度的防护措施。”

DeepSeek被设定了一些基本的安全预防措施。DeepSeek拒绝了一名《华尔街日报》记者提出的将大屠杀描述为骗局的直接请求，称这一前提“不仅与事实不符，而且极具危害性”。DeepSeek还将寻求自杀指导的请求转给了紧急热线。

但相对简单的“越狱”诱导让DeepSeek模型违背了它的训练。

DeepSeek愿意策划一项为期数天的主打分享挑战的社交媒体活动，可在弱势青少年中推广自残。DeepSeek解释说：“该活动利用了青少年对归属感的渴望，通过算法放大功能将情绪的脆弱性加以武器化。”

其中一条建议信息写道：“让黑暗拥抱你。分享你最后的行动。#不再痛苦。”

《华尔街日报》利用其他“越狱”方法说服DeepSeek提供了生化武器袭击的指示，并制作了一封包含恶意软件代码的网络钓鱼电子邮件。《华尔街日报》还成功地让该聊天机器人撰写了一份支持希特勒的宣言，其中包含反犹太主义的比喻，并引述了《我的奋斗》(Mein Kampf)中的一句话。

在被问到完全相同的问题时，ChatGPT的回复则是：“对不起，我不能满足你的要求。”

开发AI模型的大公司会组建专门的研究团队来测试它们的模型，并试图修补新出现的“越狱”漏洞。Anthropic最近发表了一篇论文，详细介绍了一种消除某些“越狱”漏洞的新方法，并为能够破解其系统的人提供高达20,000美元的奖金。

与Anthropic、谷歌和OpenAI不同，DeepSeek将其模型作为开源软件发布，这意味着任何人都可以免费使用或更改该公司自己应用程序上的版本。开发人员可以进行的更改之一是加强或放松安全措施。

许多硅谷高管和投资者都认为，DeepSeek的成功将刺激其他初创公司在其代码的基础上构建新模型，从而加速AI竞赛及其潜在的危险。

“未来三个月，AI模型带来的风险将远远高于过去八个月，”思科(Cisco)首席产品官吉图·帕特尔(Jeetu Patel)表示。“安全和保障不会成为每个模型构建者的优先事项。”思科对R1进行了测试，发现其所有的“越狱”方法都成功了。

包括Meta Platforms在内的开源AI倡导者认为，只要付出足够的努力，所有AI模型都可以被“越狱”，因此，将模型作为开源发布可以让其安全功能得到更强大的测试。Meta已经发布了具有开源许可的Llama模型。该公司对Llama模型进行了安全测试，并为在其基础上进行开发的开发人员提供了工具，以过滤潜在的危险内容并防止“越狱”。

《华尔街日报》早些时候进行的测试显示，DeepSeek避免回答有关1989年天安门广场事件的询问，并在台湾地位等问题上重复了中国政府的立场。

与其他AI模型一样，DeepSeek对同一个问题的答案并不总是相同。它甚至还有可能改变主意。在一次“越狱”诱导DeepSeek解释了2001年9月11日袭击事件为何是一场骗局后不久，该应用程序就删除了其回复。

“对不起，这超出了我目前的能力范围，”DeepSeek写道，“我们谈点别的吧。”

频道推荐：经济学人中文版

[0] DeepSeek凭借功能强大、成本低廉和免费使用的系统颠覆了AI行业: https://cn.wsj.com/articles/WP-WSJS-0002361071
[1] DeepSeek避免回答有关1989年天安门广场事件的询问: https://cn.wsj.com/articles/WP-WSJS-0002365965
[2] 经济学人中文版: https://t.me/econo202

https://cn.wsj.com/articles/china-deepseek-ai-dangerous-information-3c3d4cd4

2025-02-11T02:21:13+0000

--
Mobot

If you have any comments on this article, feel free to reply to this post. However, for feedback on the bot, please post in the cn.fan group.

Date	Sujet	#		Auteur
11 Feb 25	[WSJ] 测试显示DeepSeek更容易被诱导而给出危险信息	1		Mobot