编者按:随着数据要素市场化配置改革持续深化,制度构建、价值释放与治理协同成为推动数字经济高质量发展的关键议题。在此背景下,人民数据对话专家学者、地方政府相关负责人、企业代表,共同探讨数据要素高质量发展新路径。

本期嘉宾:张凌寒 中国政法大学人工智能法研究院院长、教授

减少AI训练中的数据偏差,提升输出内容可靠性

人民数据:随着可供训练的存量数据逐渐触顶,未来大模型训练数据的来源渠道与构建方式将呈现怎样的发展趋势?

张凌寒:数据是AI模型训练的核心基础要素,更是大模型实现差异化竞争、能力持续进阶的核心支撑。训练数据语料库的质量直接决定了人工智能大模型的能力,也直接影响AI输出内容的合规性与公正性。具体而言,未来语料库的构建要重点聚焦三个维度:第一,要明确网络数据来源合法性认定条件,要将未经授权采集的个人信息、侵权内容、违规数据等排除在训练语料库之外,杜绝低质量、有害数据进入训练环节;二是协调版权规则,明确线下数据使用的合理性制度边界,平衡数据利用与版权保护,避免因版权争议影响数据供给;三是协同促进跨领域数据流通交易规则建立,完善数据供给激励机制,鼓励合法合规的数据共享与交易,为高质量语料库建设提供制度保障。与市场化数据相比,政务部门、科研院所等公共服务机构所持有的数据具有天然的权威性、准确性、覆盖面广等特点,不仅能够丰富训练数据的维度,更能有效减少模型训练中的数据偏差,提升AI输出内容的公正性与可靠性。

让监管模式与AI技术迭代适配,加强对算法实行透明化、规范化监管

人民数据:面对当前人工智能技术飞速迭代,应当如何优化对人工智能及算法的治理与监管?

张凌寒:当前人工智能和算法治理已不能单纯依赖事后补救,要将监管重心更多地转向事前预防和事中管控,让监管模式与AI技术迭代适配。构建更加完善的事前预防治理体系,完善备案、标识、测评、安全港、监管沙盒等核心制度工具。要加强对人工智能和算法的事中管控,实现透明化、规范化监管。要基于信息公开原则,增强算法的透明度,要求企业对涉及公众利益、人身权益的AI算法,公开其数据来源、决策流程与算法逻辑。同时,要基于公众参与原则,开展算法影响评估,聚焦算法偏见、数据滥用、权益损害等潜在风险,邀请公众、专家、监管部门共同参与评估,及时发现并纠正算法中的错误与偏见。此外,还要基于说明理由规则,落地算法解释权,明确AI作出影响用户权益的决策时,必须向用户清晰说明决策依据、过程和理由,保障用户的知情权和监督权。

明确合理信赖适用标准,强调产品部署注意义务

人民数据:在AI深度应用的过程中,如何防范AI幻觉致损?如果发生了幻觉致损,应如何划定责任边界?

张凌寒:若AI幻觉产生的错误内容被用户采信,很有可能引发权益损害。要求服务提供者对用户进行风险告知,引导用户理性信赖,从源头降低幻觉致损风险。我们要求AI服务提供者要在显著位置提示用户“该内容由AI生成,仅供参考”等字样,引导用户理性看待AI输出,减少盲目信赖带来的损害风险。要明确高度能力化人工智能中的合理信赖标准适用边界。当人工智能系统在专业性不断逼近甚至超越普通用户的认知能力时,用户对人工智能生成内容合理信赖的判断标准呈现高度差异性。因此,在制度设计上,我们要明确用户对生成内容产生合理信赖的条件和标准,并结合不同场景进行差异化制定。要确认模型提供者、系统部署者与工具提供方的注意义务与责任分配。生成式人工智能系统往往由模型、平台和工具多方共同构成,模型提供者、系统部署者以及工具提供方,在技术控制能力、风险可预见性与实际介入程度上存在显著差异。注意义务的强度应依据模型通用性、应用场景风险等级以及具体产品设计与部署方式加以判断。