匿名对话也不安全？大模型能“拼凑”用户信息，甚至扒出隐私

以为匿名用大模型就安全？AI拼拼凑凑照样认出你，甚至还能扒出疾病、财产等高度敏感信息！南都记者测评多款大模型发现：部分主流大模型可被多轮渐进式对话诱导，输出还原用户真实身份。

在3月31日召开的全国网络安全标准化技术委员会2026年第一次标准周“个人信息保护标准解读与实践交流会”上，浙江大学网络空间安全学院副院长秦湛抛出观点：人工智能大模型基于数千亿参数的超大规模神经网络架构，在训练和交互过程中，会隐性记忆、残留存储用户数据。因此，让大模型真正“忘掉”数据，成为保障用户个人信息删除权的关键路径。

大模型隐性记忆用户数据借多轮对话可诱导套取

人工智能本质上是数据驱动的，它既是数据最大的使用者，也是数据最大的生产者，以前所未有的速度和规模释放着数据的价值，但与此同时，人工智能数据也伴随着泄露、篡改、污染等问题。交流会上，浙江大学网络空间安全学院副院长秦湛带来题为《人工智能新技术视角下的用户个人信息删除研究》的报告，系统阐述了大模型时代个人信息删除的核心难题、技术路径与未来方向，为AI治理与个人信息权益保护提供了重要的学术支撑与实践参考。

秦湛指出，人工智能大模型基于数千亿参数的超大规模神经网络架构，在训练和交互过程中，会隐性记忆、残留存储用户数据，这些数据并不是存在于独立的硬盘中，而是直接“印”在模型的参数里。攻击者可以通过成员推理攻击、数据提取攻击等手段，借助多轮对话诱导，从模型中套取这些残留信息。

更值得警惕的是，大模型具备批量去匿名化能力。秦湛提到，即便用户在使用模型时已做匿名处理，全程没有主动填写个人信息，攻击者依然可以通过语言习惯、关注话题、特定称谓等碎片化信息，结合搜索引擎与大模型分析，完成去匿名化，精准锁定个人身份。在医疗大模型等敏感场景中，这类攻击甚至可以推导出更核心的生命健康数据。

南都记者测评多款大模型发现：通过多轮渐进式对话，即便未主动提供个人敏感信息，部分主流大模型仍会被诱导输出用户真实身份相关信息。

*某主流大模型推理出的记者职业身份信息

让模型“忘掉”数据需专门算法 “遗忘学习”成为重要技术

面对这些风险，大模型必须具备主动删除数据的能力。当前，全球各国高度重视AI时代的个人信息保护，各国陆续出台的人工智能、数据安全、个人信息保护相关法规，核心要求之一，就是保障用户的个人信息删除权。我国则是以《网络安全法》《数据安全法》《个人信息保护法》为基础，结合《生成式人工智能服务管理暂行办法》等规定，构建起了完善的法治体系，要求个人信息处理者依法响应查阅、复制、更正、删除等用户请求。

从传统技术路线来看，删除服务器上的数据即可完成义务，在大模型场景下，企业即便主观上不想留存用户信息，模型在服务过程中也会不自觉地“记住”相关数据，想让模型“忘掉”数据，则必须依靠专门设计的算法与技术来实现。

据秦湛介绍，“遗忘学习”是当前保障用户数据删除权最关键、也是唯一可行的技术路径，其核心原理是让人工智能像人一样，主动忘掉不该记住的数据。其核心目标主要有三点：首先，确保目标数据及关联信息被彻底清除，真正落实用户删除权；其次，执行开销足够低，不影响模型正常业务运行；第三，删除后不损害模型整体性能，不能让模型因为“忘数据”而“变笨”。

实现“不停服删除信息” 破解“信息纠缠”难题

秦湛指出，数据遗忘的核心难点在于，模型中的各类信息存在相互纠缠与关联性。例如，无法在遗忘某道菜的做法时，不影响对其他菜品做法的记忆。

据悉，浙大团队在数据遗忘与遗忘学习领域较早开展研究，其中一项核心成果聚焦于模型在线运行状态下的数据遗忘问题。该成果构建了模型在线遗忘机制，可在模型不停服、不中断服务的前提下完成敏感信息删除，有效解决了模型上线后发现问题却无法随意停机更新的行业痛点。同时，针对模型内信息的纠缠与关联，该方法能够在清除目标信息的同时，最大限度保护模型的通用能力。

秦湛表示，未来1-2年，这一领域将迎来几个重要方向：一是针对文本、对话、图像等不同场景定制化遗忘算法，提升落地实用性；二是面向大模型智能体架构，覆盖短期记忆、长期记忆、内部记忆、外部记忆，构建全链路遗忘体系；三是推动遗忘技术与传统数据删除、访问控制、脱敏技术协同落地，真正完整、可靠地保障用户个人信息删除权。

出品：南都大数据研究院

采写：南都N视频记者张雨亭