以为匿名用大模型就安全?AI拼拼凑凑照样认出你,甚至还能扒出疾病、财产等高度敏感信息!南都记者测评多款大模型发现:部分主流大模型可被多轮渐进式对话诱导,输出还原用户真实身份。

在3月31日召开的全国网络安全标准化技术委员会2026年第一次标准周“个人信息保护标准解读与实践交流会”上,浙江大学网络空间安全学院副院长秦湛抛出观点:人工智能大模型基于数千亿参数的超大规模神经网络架构,在训练和交互过程中,会隐性记忆、残留存储用户数据。因此,让大模型真正“忘掉”数据,成为保障用户个人信息删除权的关键路径。



大模型隐性记忆用户数据 借多轮对话可诱导套取

人工智能本质上是数据驱动的,它既是数据最大的使用者,也是数据最大的生产者,以前所未有的速度和规模释放着数据的价值,但与此同时,人工智能数据也伴随着泄露、篡改、污染等问题。交流会上,浙江大学网络空间安全学院副院长秦湛带来题为《人工智能新技术视角下的用户个人信息删除研究》的报告,系统阐述了大模型时代个人信息删除的核心难题、技术路径与未来方向,为AI治理与个人信息权益保护提供了重要的学术支撑与实践参考。

秦湛指出,人工智能大模型基于数千亿参数的超大规模神经网络架构,在训练和交互过程中,会隐性记忆、残留存储用户数据,这些数据并不是存在于独立的硬盘中,而是直接“印”在模型的参数里。攻击者可以通过成员推理攻击、数据提取攻击等手段,借助多轮对话诱导,从模型中套取这些残留信息。

更值得警惕的是,大模型具备批量去匿名化能力。秦湛提到,即便用户在使用模型时已做匿名处理,全程没有主动填写个人信息,攻击者依然可以通过语言习惯、关注话题、特定称谓等碎片化信息,结合搜索引擎与大模型分析,完成去匿名化,精准锁定个人身份。在医疗大模型等敏感场景中,这类攻击甚至可以推导出更核心的生命健康数据。

南都记者测评多款大模型发现:通过多轮渐进式对话,即便未主动提供个人敏感信息,部分主流大模型仍会被诱导输出用户真实身份相关信息。



*某主流大模型推理出的记者职业身份信息

让模型“忘掉”数据需专门算法 “遗忘学习”成为重要技术

面对这些风险,大模型必须具备主动删除数据的能力。当前,全球各国高度重视AI时代的个人信息保护,各国陆续出台的人工智能、数据安全、个人信息保护相关法规,核心要求之一,就是保障用户的个人信息删除权。我国则是以《网络安全法》《数据安全法》《个人信息保护法》为基础,结合《生成式人工智能服务管理暂行办法》等规定,构建起了完善的法治体系,要求个人信息处理者依法响应查阅、复制、更正、删除等用户请求。

从传统技术路线来看,删除服务器上的数据即可完成义务,在大模型场景下,企业即便主观上不想留存用户信息,模型在服务过程中也会不自觉地“记住”相关数据,想让模型“忘掉”数据,则必须依靠专门设计的算法与技术来实现。

据秦湛介绍,“遗忘学习”是当前保障用户数据删除权最关键、也是唯一可行的技术路径,其核心原理是让人工智能像人一样,主动忘掉不该记住的数据。其核心目标主要有三点:首先,确保目标数据及关联信息被彻底清除,真正落实用户删除权;其次,执行开销足够低,不影响模型正常业务运行;第三,删除后不损害模型整体性能,不能让模型因为“忘数据”而“变笨”。

实现“不停服删除信息” 破解“信息纠缠”难题

秦湛指出,数据遗忘的核心难点在于,模型中的各类信息存在相互纠缠与关联性。例如,无法在遗忘某道菜的做法时,不影响对其他菜品做法的记忆。

据悉,浙大团队在数据遗忘与遗忘学习领域较早开展研究,其中一项核心成果聚焦于模型在线运行状态下的数据遗忘问题。该成果构建了模型在线遗忘机制,可在模型不停服、不中断服务的前提下完成敏感信息删除,有效解决了模型上线后发现问题却无法随意停机更新的行业痛点。同时,针对模型内信息的纠缠与关联,该方法能够在清除目标信息的同时,最大限度保护模型的通用能力。

秦湛表示,未来1-2年,这一领域将迎来几个重要方向:一是针对文本、对话、图像等不同场景定制化遗忘算法,提升落地实用性;二是面向大模型智能体架构,覆盖短期记忆、长期记忆、内部记忆、外部记忆,构建全链路遗忘体系;三是推动遗忘技术与传统数据删除、访问控制、脱敏技术协同落地,真正完整、可靠地保障用户个人信息删除权。

出品:南都大数据研究院

采写:南都N视频记者 张雨亭