四川师范大学学报(社会科学版)
大语言模型生成的具体内容由训练数据和深度学习算法决定:训练数据是指用于大语言模型训练的海
量数据,深度学习算法可以理解为大语言模型学习的方法。训练数据和深度学习算法涉及到大语言模型在
技术公正和算法黑箱方面的核心问题,具有相当的证据意义。但它们的可解释性非常弱,难以被人类的自身
能力感知,因此在证据运用上存在困难。其一,训练数据对模型可靠性有重要影响,如样本数据少容易“过拟
合” ,且“在不可信数据上训练的模型的性能将会大幅下降,甚至在模型中留有严重后门”②。评价训练数据
的因素包括数据质量、规模、多样性以及是否经过预处理等。《生成式人工智能服务管理办法(征求意见稿)》
提出,训练数据应符合法律法规要求,不得侵犯知识产权、个人信息权,应当保证真实性、准确性、客观性和多
样性。从证据角度看,训练数据规模巨大、内容复杂,人类无法通过自身感知能力对其进行有效审查,这与大
数据证据有一定相似性。本文认为,可以参照刘品新对大数据证据的观点,让训练数据通过司法鉴定,作为
鉴定意见进入证明活动③。其二,深度学习算法是一类超多层神经网络学习算法,其复杂性是大模型强黑箱
效应的重要原因④。从证据角度看,深度学习算法的内在逻辑难以为一般人理解,比如ChatGPT的深度学
习算法结合了Transformer架构、多头注意力机制、自监督学习和语言模型预训练等技术。鉴于深度学习算
法对证据运用的要求超出一般人能力水平,本文认为其也较适合作为鉴定意见进入证明活动。
①
大语言模型是在海量数据上训练得到的参数规模巨大的深度学习模型,其参数量一般在百亿级以上,代
表模型有OpenAI的GPT-4、百度的文心一言和阿里的通义千问等。从证据角度看,大语言模型至少有以
下值得关注的特点:其一,大语言模型是生成新内容而非简单检索,属于深度合成技术⑤;其二,程序员编写
的代码是大语言模型的骨架,但决定大语言模型预测结果的还是机器学习算法学习到的参数,换言之,直接
决定黑箱输出结果的大模型的核心是参数而非代码,因此,即使程序员也未必能理解大语言模型的“黑箱”;
其三,大语言模型的黑箱效应极为显著,但蕴含着大量人为因素,比如训练数据的选取和深度学习算法的设
计。因此,大语言模型由大量代码构成且可解释性差,与训练数据和深度学习算法存在一定相似性,也较适
合以鉴定意见的形式进入证明活动。
大语言模型是一种基础性工具,软件开发者可以将其集成到自己的应用中,形成功能丰富的产品⑥。目
前大语言模型产品主要包括ChatGPT、文心一言等聊天机器人,必应等搜索引擎,以及Copilot等办公应用。
大语言模型产品直接影响大语言模型材料的呈现,比如聊天机器人形成的大语言模型材料常以对话文本形
式呈现,联网大语言模型形成的材料则包含较丰富的网络链接。现阶段,不同种类大语言模型产品形成的材
料还没有脱离“一问一答”的基础文本形态,但未来大语言模型材料可能形态多样甚至难以辨认。相应地,大
语言模型材料的提取收集、固定保全、审查判断都会面临新的挑战。
3
.大语言模型运行环境信息
大语言模型需要强大算力的支持,比如微软Azure云计算平台是OpenAI运行和管理ChatGPT的重要
基础。但是大语言模型生成的内容与所部署的云计算平台无关,云计算平台主要影响到大语言模型产品运
行的稳定性,比如云计算平台的状况和故障可能导致大语言模型的响应时间较长,或者无法正常运行。本文
将云计算环境信息纳入大语言模型材料是出于完整性考虑,但云计算环境对证据法视角下的大语言模型材
料影响极为有限,因此云计算环境信息的证据价值不高。
使用者本地环境信息是指反映使用者操作大语言模型产品时的计算机或移动设备环境的信息,主要包
括使用的日期、时间和地区,所用大语言模型的产品版本,计算机或移动设备的型号、操作系统和浏览器,互
联网协议地址(IP地址)等。使用者本地环境信息在证明活动中的作用主要有二:一是保障大语言模型材料
①
②
③
④
⑤
周志华《机器学习》,第13页。
何灿《机器学习模型训练数据的安全性研究》,南京航空航天大学2021年硕士学位论文,第1页。
刘品新《论大数据证据》,《环球法律评论》2019年第1期,第28页。
张博伦《超越算法的黑箱想象》,《清华社会学评论》第18辑,社会科学文献出版社2022年版,第152ꢉ153页。
《互联网信息服务深度合成管理规定》,国家互联网信息办公室、中华人民共和国工业和信息化部、中华人民共和国公安部令第12号,2022
年11月25日公布,中国网信网,2022年12月11日发布,2023年5月23日访问,httpꢅꢄꢄwwwcacgovcnꢄ2022-12ꢄ11ꢄc_
1
672221949354811htm。
⑥
於兴中、郑戈、丁晓东《生成式人工智能与法律的六大议题:以ChatGPT为例》,《中国法律评论》2023年第2期,第2页。
64