四川师范大学学报(社会科学版)
log title
搜索
51卷第1期  
四川师范大学学报(社会科学版)  
JournalofSichuanNormalUniversity  
SocialSciencesEditionꢂ  
2
0241月  
Vol51ꢀNo1  
Januaryꢀ2024  
论大语言模型材料的证据属性  
———以  
和文心一言为例  
ChatGPT  
徐继敏严若冰  
ꢃꢃ摘要:ChatGPT和文心一言为代表的大语言模型产生海量大语言模型材料,此类材料进入社会生活并产生  
广泛影响,讨论大语言模型材料证据属性具有重要意义大语言模型材料可以成为证据,但是否具有证据资格需  
要在具体个案中进行判断从诉讼效率出发,大语言模型证据在不同诉讼中的呈现形式可以有所区别:一般案件  
可以仅举示人机交流材料和使用者本地环境信息,重大案件则应完整举示大语言模型材料区别于大数据证据和  
一般的人工智能证据,具有直观性强可解释性弱偏在于少数技术公司可识别性弱等特点。  
关键词:大语言模型;大语言模型材料;大语言模型证据;AIGC  
DOI1013734ꢄjcnki1000-531520230316  
收稿日期:2023-05-24  
基金项目:本文系国家社会科学基金项目在线行政行为证据规则研究”(21XFX004)的阶段性成果。  
作者简介:徐继敏,,四川内江人,四川大学法学院教授,E-mailꢅxujimin168@163com;  
严若冰,,浙江台州人,四川大学法学院博士研究生。  
新型大语言模型材料必将广泛运用于法治实践  
02211,OpenAI(LargeLanguageModel,  
ChatGPT聊天机器人是基于ChatGPT模型形成  
2
LLM ChatGPT访的  
)
的产品,但目前较少对两者进行区分ChatGPT是单一模态大语言模型,理解和生成信息都限于文本(含  
代码)形式,OpenAI20233月发布的GPT-4为多模态大语言模型,在理解图像处理复杂任务等方  
面有所提升两者都缺乏对数据截止时间后相关信息的了解,且给出的回答不一定正确,大语言模型的这些  
错误被称为幻觉”(hallucination)323,ChatGPT允许用户通过添加插件进行联网,实现了信息实  
,在国内,百度于316日发布大语言模型文心一言,阿里于4  
7日开放通义千问大语言模型体验申请,商汤科技于410日发布大语言模型产品商量”,我国的大  
语言模型也在不断推进关于大语言模型对文字行业的影响,我们可以从AI绘画对绘画行业的影响中窥  
大语言模型也称大型语言模型语言大模型”,均指英语中的LLM(LargeLanguageModel),可以作完全相同理解。  
ChatGPT既是OpenAI发布的聊天机器人的名字,也是产生该聊天机器人的大语言模型的名字,即大语言模型与大语言模型产品同名报  
道和研究常称产生ChatGPT聊天机器人的大语言模型为GPT-35,但根据OpenAI官网上的ChatGPT常见问题解答(ChatGPTGeneral  
FAQ),更准确地说,ChatGPT模型是以GPT-35为基础进行微调得到的2023314,OpenAI发布了GPT-4模型,升级后以GPT-  
4
模型为基础的聊天机器人叫作ChatGPTPlus。  
GPT-4的数据截止时间为20219,参见:“GPT-4isOpenAIꢆsmostadvancedsystemꢀproducingsaferandmoreusefulresponsesꢀꢇ  
OpenAIꢀupdatedMarch15ꢀ2023ꢀaccessedMay22ꢀ2023ꢀhttpsꢅꢄꢄopenaicomꢄproductꢄgpt-4。  
ꢈChatGPTpluginsꢀꢇOpenAIꢀupdatedMarch23ꢀ2023ꢀaccessedMay22ꢀ2023ꢀhttpsꢅꢄꢄopenaicomꢄblogꢄchatgpt-plugins  
文心一言可以生成文本语音图像和视频等内容,具备多模态能力根据笔者自317日参加内测的情况,文心一言与ChatGPT尚有明  
显差距,但是可以参与文稿初步生成文字校对文本翻译等日常工作。  
60  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
见一些线索AI绘画工具能够基于文字提示生成图像,成本低效率高,自推出时就受到绘画行业的抵  
笔者通过对国内游戏从业者的访谈了解到,目前AI绘画对游戏美术业务的冲击已经显现,游戏公司  
的美术外包业务甚至内部美术团队都面临着被裁撤的风险,因为绘画行业的抵制行动难以对抗企业降低成  
本的意愿。  
可以预见,大语言模型将广泛深入地参与到社会生活中首先,大语言模型已受到各科技企业和科研团  
队的高度重视,国外有谷歌的BardAnthropicClaudeMetaBlenderBot3,国内有百度的文心一言、  
阿里的通义千问商汤科技的商量华为的盘古腾讯的混元中国科学院自动化研究所的紫东太初等其  
,大语言模型有较成熟的技术和已经落地且取得商业成功的产品,其热度性质与暂时缺少技术铺垫的元宇  
宙概念不同再次,大语言模型作为基石性模型(FoundationalModel)具有较强拓展潜力,可以和搜索引  
,最后,大语言模型与个人生活工作结合  
紧密,有潜力成为新的枢纽平台ChatGPT允许联网后,用户可以通过它进行订餐订机票和订酒店。  
ChatGPT独特的产品能力和工作性能或可吸引一批用户改变原本的互联网消费习惯,ChatGPT作  
为新的信息处理枢纽,甚至通过路径依赖形成深度绑定随着大语言模型的铺展,大语言模型材料将大量出  
现并得到普遍运用。  
目前大语言模型产品的主要形式是聊天机器人和搜索引擎,虽然两者都非新兴事物,但是大语言模型相  
比以往技术的区别存在诸多特殊性,至少包括以下四项:第一,大语言模型材料以生成性的文本(含代码)为  
,多模态大语言模型材料还可能包括图片语音和视频;第二,大语言模型是基石性模型,未来许多产品和  
功能可以在其基础上搭建,大语言模型材料的形态和运用将非常丰富;  
第三,大语言模型能通过自然语言  
与使用者进行交流,甚至能让使用者察觉不到自己在与机器对话,难以意识到大语言模型材料的存在;第四,  
大语言模型有很强的黑箱效应,而且ChatGPTGPT-4和文心一言等主要大语言模型的训练数据和模型均  
未公开,使大语言模型及其形成材料的可解释性受到更深质疑。  
由上可知,大语言模型材料的广泛出现将带来新的法律问题,而证据问题在其中尤为突出比如在民事  
领域,大语言模型如果有不当广告行为,使用者和监管机构如何进行证据提取和审查;在刑事领域,大语言模  
型可能被利用来进行犯罪活动,公检法机关应如何调查取证和运用证据;在行政领域,大语言模型如果被用  
,可以在多大程度上影响甚至取代行政机关工作人员的行政行为,是否会出现智能行政行为,  
行政相对人如何在复议诉讼中运用大语言模型材料等虽然尚无案例出现,但随着大语言模型研究和运用  
的深化,大语言模型材料进入证明活动或许是司法实践和学术研究必然要面对的挑战目前大语言模型在  
产品应用上还相对保守,主要以聊天机器人和搜索引擎的形式呈现,但大语言模型产品的未来远不止这些:  
ChatGPTGPT-4,使;GPT-4  
集成到Copilot,今后Office系列软件的使用方式将发生巨大变化;超三百家公司宣布与文心一言合作,涵盖  
媒体文娱金融等行业领域当大语言模型作为一项基础工具与我们日常生活的方方面面结合,它产生的  
材料将远比本文能够看到的更加复杂正如电子数据随着互联网和计算机技术进入法律实践,或许大语言  
模型证据也将占有类似的重要地位。  
大语言模型材料的定义技术内容和类型化  
()大语言模型材料的定义  
大语言模型材料是指与大语言模型使用行为相关的在证明活动中可能作为证据使用的材料广义的  
大语言模型材料包括人机交流材料大语言模型本体相关材料和大语言模型运行环境信息三个部分;狭义的  
陶凤李想《“离谱AI绘画赚钱不离谱》,《北京商报202322,4。  
於兴中郑戈丁晓东生成式人工智能与法律的六大议题:ChatGPT为例》,《中国法律评论2023年第2,2。  
於兴中郑戈丁晓东生成式人工智能与法律的六大议题:ChatGPT为例》,《中国法律评论2023年第2,2。  
如张效羽认为,GPT技术的长处与法治政府建设的基本需求具有技术亲和性,未来法治政府建设要为人工智能嵌入行政执法程序做好充分  
准备参见:张效羽ChatGPT等人工智能内容生成技术对法治政府建设的影响及应对》,《电子政务2023年第4,12ꢉ14。  
61  
四川师范大学学报(社会科学版)  
从概念关系上看,大语言模型属于人工智能技术,如果  
承认大语言模型材料可以成为证据,那么,“大语言模型证据也属于人工智能证据的范畴人工智能证据已  
经受到司法实践和法学研究的关注,可以成为研究大语言模型材料的重要参考目前实践中还缺少将大语  
言模型材料作为证据的情形,而且大语言模型材料的具体内容和证据资格问题暂无学术共识或规范依据。  
为求稳妥,本文主要称大语言模型材料而非大语言模型证据”,不过本文认为大语言模型材料可以成为证  
,因此也将适当使用大语言模型证据的提法。  
()大语言模型技术的概况及相关法律规范  
自然语言处理(NatureLanguageProcessing,NLP)技术被广泛应用于搜索引擎智能客服机器翻译、  
舆情监测自动摘要等领域,大语言模型是自然语言处理领域的前沿成果ChatGPTGPT-4文心一言、  
通义千问等都属于预训练生成式通用大语言模型,具有通用性超多参数生成式等特点通用性是指模型  
不局限于某一行业或细分领域,旨在理解和回应常识性通用性问题ChatGPT通义千问是单一模态大语  
言模型,GPT-4和文心一言则具备多模态能力基于通用多模态的模型特点,大语言模型材料的内容也具  
有通用性,可能包含文字图片语音和视频等多种模态。  
模型指通过学习算法(LearingAlgorithm)“从数据中学得的结果,大模型和小模型以参数量(Param-  
eterSize)为划分标准,ChatGPT的参数量达到千亿级,GPT-4的参数量据说更达到兆级大模型和知识  
图谱(KnowledgeGraph,KG)是人工智能发展的不同路径,由于ChatGPT的成功,许多人认为大语言模型  
更可能是未来发展的方向,但知识图谱仍然可以作为大语言模型的训练数据或以外接方式发挥作用知  
识图谱的成本相对较低,且能够通过直观可视的关系网络呈现,可解释性较强;大语言模型以大算力+强算  
为重要特征,内部极为复杂,可解释性较差大语言模型的可解释性弱决定了大语言模型材料容易受到  
质疑,但这不意味着大语言模型材料缺乏证据法上的可靠性。  
大语言模型能够生成新的内容,其生成材料属于人工智能生成内容AIGC(AIGeneratedContent)。  
AIGC包括AI绘画AI,,的  
广泛运用411,国家网信办就生成式人工智能服务管理办法(征求意见稿)》公开征求意见,涉及对  
大语言模型生成材料进行规范从生成式特点出发,大语言模型材料属于深度合成内容我国在深度合成  
治理上走在世界前列,202211月出台的互联网信息服务深度合成管理规定对深度合成进行了定义和  
规范但大语言模型的深度合成能力超越以往算法,给立法提出了新的挑战,要求深度合成立法从算法治理  
走向人工智能治理。  
()大语言模型材料的具体内容及其证据价值  
由于缺少既有研究,“大语言模型材料大语言模型证据均为本文提出的概念。  
传统人机交互由人类以机器语言编程语言实现和机器的交流,而自然语言处理旨在让机器理解和生成人类语言,通过机器对人类语言的适  
应实现人机交互自然语言理解(NLU)支持机器理解人类自然语言文本的内容,自然语言生成(NLG)支持机器以自然语言文本的形式输  
出信息因此总体来说,自然语言理解和自然语言生成都属于自然语言处理除自然语言处理外,人工智能领域还有计算机视觉(Comput-  
erVision,CV)、计算机听觉(ComputerAudition,CA)等研究方向,与人类的自然感知系统形成对应关系。  
周志华机器学习》,清华大学出版社2016年版,1。  
目前ChatGPT和文心一言参数量均未公布,此处ChatGPTGPT-4参数量数据采用美国网站Semafor援引8名知情人士消息参见:  
ReedAlbergottiꢀꢈThesecrethistoryofElonMuskꢀSamAltmanꢀandOpenAIꢀꢇSemaforꢀupdatedMarch25ꢀ2023ꢀaccessedMay22ꢀ  
2023ꢀhttpsꢅꢄꢄwwwsemaforcomꢄarticleꢄ03ꢄ24ꢄ2023ꢄthe-secret-history-of-elon-musk-sam-altman-and-openai  
大语言模型是给一个有超多参数的模型网络喂海量文本数据进行训练,再对其进行微调;知识图谱则是显式地抽取出实体关系等信息,构  
成由节点(Node,表示实体)和边(Edge,表示关系)组成的关系网络。  
根据2023316日百度公司文心一言发布会内容,文心一言以5500亿事实的知识图谱为训练数据知识图谱的事实指由节点a,关  
r,节点b共同构成的一个三元组。  
AI孙燕姿”、“AI周杰伦等翻唱作品引发著作权相关讨论参见:顾敏陈月飞等技术迅猛发展,AI如何向善”》,《新华日报20235  
16,5;李欣璐专家:“AI歌手或涉嫌多项侵权》,《四川法治报2023517,5;刘凡解码AI歌手习艺之道》,《海南  
日报2023522,B09。  
张凌寒深度合成治理的逻辑更新与体系迭代———ChatGPT等生成型人工智能治理的中国路径》,《法律科学(西北政法大学学报)》2023年  
3,38ꢉ51。  
62  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
大语言模型材料是复合型材料,可以被分解为三个主要部分:人机交流材料大语言模型本体相关材料  
和大语言模型运行环境信息由于大语言模型本体材料和云计算服务平台环境信息提取收集的难度极高,  
且对证明一般案件的案件事实作用不大,大语言模型材料在实践中或将主要以人机交流材料和使用者本地  
环境信息的形式呈现。  
1
.使用者与大语言模型交流形成的材料  
使用者与大语言模型交流的材料(简称为人机交流材料”)以文本(含代码)为主,可能包含图片语音  
和视频,一般载于计算机或者移动设备的网页,呈现为人类使用者与大语言模型一问一答组成的连续性对  
以同一使用者为范围,涉及的人机交流材料可以被分为三个层次第一,最低层次材料是使用者与大语  
言模型一问一答形成的问答”,均由使用者先输入信息或提出问题,再由大语言模型进行回答第二,中间  
层次材料是由连续问题组成的对话”,这是人机交流材料中最重要的单位,适宜成为一份人机交流材料的基  
础范围。“对话并不以话题内容和时间间隔为识别标准,而是要考虑大语言模型的记忆范围本文所称  
记忆指大语言模型联系上下文的能力,记忆范围内,如果使用者能够通过恰当的提示”(Prompt)引  
导对话,大语言模型将给出更加精确的回答这种与大模型进行交流得到更优结果的方法被称为提示工程  
(
PromptEngineering),已经受到技术和产业领域的肯定和重视目前影响大语言模型记忆范围的因素主  
要有:问答是否属于大语言模型产品中的同一对话框,以及技术公司设置的大语言模型产品记忆上限,如微  
软的必应就有记忆问答的上限第三,最高层次材料是同一使用者账号下的所有人机交流材料,它包括同一  
使用者与大语言模型的所有对话需要注意的是,账号所有者与大语言模型使用者未必是同一人,需要结合  
使用者本地环境信息相关言词证据等进行综合判断。  
使用者输入的材料是大语言模型理解的对象根据GPT-4和文心一言的多模态能力,使用者输入大语  
言模型的材料可以是文本(含代码)和图像,且以文本为主要形式从证据角度看,使用者输入大语言模型的  
材料至少具有以下价值第一,能够反映使用者的主观心态,比如体现使用者对某类信息的需求和认知刑  
事案件中犯罪嫌疑人在浏览器留下的相关搜索记录能证明其主观上对犯罪行为的认识和心态,今后或许会  
有嫌疑人就类似问题向大语言模型产品提问,那么证据也相应地从电子数据转为大语言模型材料第二,能  
够反映大语言模型生成的材料是否合理大语言模型生成的材料应与使用者输入材料有一定对应关系,两  
者过于不匹配或说明大语言模型生成材料的可靠性较弱第三,能够反映使用者对大语言模型生成材料的  
认识在人机连续对话环境中,使用者输入的材料除了独立表达意思,还是对大语言模型生成材料的回复,  
因此能反映大语言模型生成材料对使用者的影响,比如使用者是否受到了不正当广告行为的诱导。  
大语言模型生成的材料可以被看作是最狭义的大语言模型材料目前大语言模型可以生成的材料类型  
包括文本(含代码)、图像语音甚至视频本文认为大语言模型生成材料包含了机器意见人类意见两  
种元素,“机器意见指大语言模型的创新性元素,“人类意见指使用者的指令干预引导元素。“机器意见”  
的可靠性不强,即使是目前公认性能最优秀的GPT-4模型也存在幻觉”。大语言模型还不能像一些文章中  
提到的人工智能证据那样———比如人脸识别系统判断照片中人是特定某人———能以机器自身的意见发挥  
大语言模型生成材料可以反映大语言模型服务提供者和使用者的不当甚至违法行为,比如服  
务提供者通过大语言模型推送不恰当广告信息,使用者利用大语言模型进行诈骗开展网络水军活动等。  
2
.大语言模型本体材料  
与大语言模型本体相关的材料有:第一,用于形成大语言模型且影响大语言模型生成内容的材料,主要  
包括训练数据和深度学习算法;第二,大语言模型算法本身,ChatGPT模型GPT-4模型和文心一言模  
;第三,大语言模型产品,指在大语言模型基础上形成的具体产品,ChatGPT聊天机器人接入GPT-4  
的必应搜索引擎。  
百度创始人李彦宏预测称,十年以后全世界或有50%的工作会是提示词工程(PromptEngineering)。参见:《李彦宏独家回应36:如何看  
AI代替人类工作》,36,2023322日发布,2023523日访问,httpsꢅꢄꢄ36krcomꢄnewsflashesꢄ2182652773859072。  
马国洋论刑事诉讼中人工智能证据的审查》,《中国刑事法杂志2021年第5,158。  
63  
四川师范大学学报(社会科学版)  
大语言模型生成的具体内容由训练数据和深度学习算法决定:训练数据是指用于大语言模型训练的海  
量数据,深度学习算法可以理解为大语言模型学习的方法训练数据和深度学习算法涉及到大语言模型在  
技术公正和算法黑箱方面的核心问题,具有相当的证据意义但它们的可解释性非常弱,难以被人类的自身  
能力感知,因此在证据运用上存在困难其一,训练数据对模型可靠性有重要影响,如样本数据少容易过拟  
,在不可信数据上训练的模型的性能将会大幅下降,甚至在模型中留有严重后门评价训练数据  
的因素包括数据质量规模多样性以及是否经过预处理等。《生成式人工智能服务管理办法(征求意见稿)》  
提出,训练数据应符合法律法规要求,不得侵犯知识产权个人信息权,应当保证真实性准确性客观性和多  
样性从证据角度看,训练数据规模巨大内容复杂,人类无法通过自身感知能力对其进行有效审查,这与大  
数据证据有一定相似性本文认为,可以参照刘品新对大数据证据的观点,让训练数据通过司法鉴定,作为  
鉴定意见进入证明活动其二,深度学习算法是一类超多层神经网络学习算法,其复杂性是大模型强黑箱  
效应的重要原因从证据角度看,深度学习算法的内在逻辑难以为一般人理解,比如ChatGPT的深度学  
习算法结合了Transformer架构多头注意力机制自监督学习和语言模型预训练等技术鉴于深度学习算  
法对证据运用的要求超出一般人能力水平,本文认为其也较适合作为鉴定意见进入证明活动。  
大语言模型是在海量数据上训练得到的参数规模巨大的深度学习模型,其参数量一般在百亿级以上,代  
表模型有OpenAIGPT-4百度的文心一言和阿里的通义千问等从证据角度看,大语言模型至少有以  
下值得关注的特点:其一,大语言模型是生成新内容而非简单检索,属于深度合成技术;其二,程序员编写  
的代码是大语言模型的骨架,但决定大语言模型预测结果的还是机器学习算法学习到的参数,换言之,直接  
决定黑箱输出结果的大模型的核心是参数而非代码,因此,即使程序员也未必能理解大语言模型的黑箱”;  
其三,大语言模型的黑箱效应极为显著,但蕴含着大量人为因素,比如训练数据的选取和深度学习算法的设  
因此,大语言模型由大量代码构成且可解释性差,与训练数据和深度学习算法存在一定相似性,也较适  
合以鉴定意见的形式进入证明活动。  
大语言模型是一种基础性工具,软件开发者可以将其集成到自己的应用中,形成功能丰富的产品目  
前大语言模型产品主要包括ChatGPT文心一言等聊天机器人,必应等搜索引擎,以及Copilot等办公应用。  
大语言模型产品直接影响大语言模型材料的呈现,比如聊天机器人形成的大语言模型材料常以对话文本形  
式呈现,联网大语言模型形成的材料则包含较丰富的网络链接现阶段,不同种类大语言模型产品形成的材  
料还没有脱离一问一答的基础文本形态,但未来大语言模型材料可能形态多样甚至难以辨认相应地,大  
语言模型材料的提取收集固定保全审查判断都会面临新的挑战。  
3
.大语言模型运行环境信息  
大语言模型需要强大算力的支持,比如微软Azure云计算平台是OpenAI运行和管理ChatGPT的重要  
基础但是大语言模型生成的内容与所部署的云计算平台无关,云计算平台主要影响到大语言模型产品运  
行的稳定性,比如云计算平台的状况和故障可能导致大语言模型的响应时间较长,或者无法正常运行本文  
将云计算环境信息纳入大语言模型材料是出于完整性考虑,但云计算环境对证据法视角下的大语言模型材  
料影响极为有限,因此云计算环境信息的证据价值不高。  
使用者本地环境信息是指反映使用者操作大语言模型产品时的计算机或移动设备环境的信息,主要包  
括使用的日期时间和地区,所用大语言模型的产品版本,计算机或移动设备的型号操作系统和浏览器,互  
联网协议地址(IP地址)使用者本地环境信息在证明活动中的作用主要有二:一是保障大语言模型材料  
周志华机器学习》,13。  
何灿机器学习模型训练数据的安全性研究》,南京航空航天大学2021年硕士学位论文,1。  
刘品新论大数据证据》,《环球法律评论2019年第1,28。  
张博伦超越算法的黑箱想象》,《清华社会学评论18,社会科学文献出版社2022年版,152ꢉ153。  
互联网信息服务深度合成管理规定》,国家互联网信息办公室中华人民共和国工业和信息化部中华人民共和国公安部令第12,2022  
1125日公布,中国网信网,20221211日发布,2023523日访问,httpꢅꢄꢄwwwcacgovcnꢄ2022-12ꢄ11ꢄc_  
1
672221949354811htm。  
於兴中郑戈丁晓东生成式人工智能与法律的六大议题:ChatGPT为例》,《中国法律评论2023年第2,2。  
64  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
的真实性,尽量避免人机对话材料被伪造或篡改;二是确定使用者的身份,大语言模型使用者和账号所有者  
未必是同一人,因此需要结合使用者本地环境信息进行身份同一性判断可见,使用者本地环境信息具有一  
定证据价值,且可以参照电子数据环境信息的相关程序规范进行收集和举示,证据运用成本不高。  
()大语言模型材料的类型化及其证据属性  
.以反映 性  
人类  
1
(1)“机器意见型大语言模型材料  
大语言模型可以对已经学习到的事物事件,或使用者输入的复杂内容进行分析,提出生成性的观点和  
判断。“机器意见型大语言模型材料中体现了较多大语言模型的机器判断,而使用者的人类意见较少得到  
体现,至少包括:其一,大语言模型对客观事件事物作判断形成的材料,如使用者要求大语言模型对某家公  
某所高校某项产品某个历史事件社会事件等进行的判断;其二,对使用者输入的弱主观性内容分析形  
成的主要体现大语言模型意见的材料,如使用者要求大语言模型对其输入学术文章所作的分析评价;其三,  
对输入的复杂内容进行鉴定形成的材料,如使用者要求大语言模型审查书证可靠性形成的分析意见;其四,  
对输入的复杂内容进行推理形成的材料,如案件侦办人员输入已经较确定的案件情况,大语言模型据此作出  
的案情推理那么,“机器意见型大语言模型材料能否成为证据呢? 比如某公司在广告中宣称其产品全国  
知名,依据是大语言模型在对话中肯定该产品全国知名,那么相关大语言模型材料能否成为支撑其广告行为  
合法性的依据? 大语言模型基于海量训练数据和深度学习算法产生,机器意见有一定客观性,与待证事  
实之间存在关联性,因此机器意见型大语言模型材料可以在合法前提下作为证据使用但是,大语言模型  
本身存在幻觉现象,而且使用者可以通过提示对大语言模型输出的内容进行误导比如使用者可以先告  
诉大语言模型该产品全国知名,再进行提问,就能得到想要的回答因此本文认为,“机器意见型大语言模  
型材料可以成为证据,但对其客观性和关联性的审查需要格外谨慎机器意见型大语言模型材料的审  
查尤其要注意人机对话的上下文,排除使用者提示对机器意见的诱导。  
(2)“人类机器意见平衡型大语言模型材料  
此类材料指人类意见和机器意见对大语言模型生成材料发挥作用较为平衡的类型在目前使用场景  
,“人类机器意见平衡型大语言模型材料至少包括以下情形:其一,人机合作创造性工作形成的材料,以  
法律职业为例,GPT-4能够通过美国模拟律师考试,并且分数位于应试者前10%左右,文心一言的法律能  
力有较大进步空间,两者都无法完全取代律师在处理复杂案情和证据调查取证等方面的作用,需要通过  
人机深度合作形成可用的工作成果;其二,对使用者输入的强主观性内容进行分析形成的材料,如案件侦办  
人员将数份言词证据输入大语言模型材料,要求其梳理前后是否有矛盾之处,对涉及人员言论的可信度进行  
评估;其三,经使用者重要提示”(Prompt)形成的材料,比如使用者在对话上文给出某公司为知名企业有  
良好商誉的信息,能够在大语言模型记忆范围内影响其回答;其四,在强人机交互环境中形成的材料,大语  
言模型已经被计划用于智能客服领域,由其形成的客户服务记录有较强的人机意见交换性,一般属于人类  
大语言模型材料。“人类机器意见平衡型大语言模型材料可以通过反映机器意见和  
人类意见发挥证据作用,这里的平衡不要求人机意见占比持平,而是一种基于人机交互复杂性的折中描  
以案件侦办人员通过大语言模型分析言词证据为例:言词证据形成的过程和侦办人员选取言词证据的  
过程都含有较强主观因素,体现的是人类意见;大语言模型分析言词证据得出结论,体现的是机器意见因  
,审查人类机器意见平衡型大语言模型材料时需要对机器意见和人类意见进行一定区分,根据具体案  
件需要排除人类意见或机器意见的干扰,抑或对两种意见分别进行审查判断。  
ꢈGPT-4isOpenAIꢆsmostadvancedsystemꢀproducingsaferandmoreusefulresponsesꢀꢇOpenAIꢀupdatedMarch15ꢀ2023ꢀaccessedMay  
22ꢀ2023ꢀhttpsꢅꢄꢄopenaicomꢄproductꢄgpt-4  
根据笔者在2023318日的测试,文心一言可以定位到中华人民共和国民法典部分具体条款,但会编造法条的条数和内容;它对中  
华人民共和国刑法了解得非常笼统,只到”;它对商法公司法的掌握也比较笼统但在适当和充分的提示下,文心一言对中华人民共  
和国土地管理法修改的情况作出了较为完善的描述和评价,甚至能对其中的土地征收程序修改情况进行描述和评价总体而言,文心一言  
在法条检索和法律咨询上的表现不尽如人意,但充分恰当的提示可以提高它的回答质量。  
65  
四川师范大学学报(社会科学版)  
(3)“人类意见型大语言模型材料  
一些大语言模型生成材料几乎完全是对人类意见的反映,至少包括以下情形:其一,基于使用者提供的  
内容经简单加工形成的材料,如不含艺术性的语言翻译文字语法校对文章润色等;其二,完全按照使用者  
要求生成的基本不含机器意见的材料,网络水军评论文本。“人类意见型大语言模型材料在一定情况  
下可以成为证据,比如使用者通过大语言模型翻译违法文章用于不当宣传,通过大语言模型大量生成垃圾信  
息用于网络水军活动等在这种情况下,大语言模型材料通过反映人类意见来证明案件事实,可以用来证  
明使用者行为的主观方面。  
2
.以证明活动中的作用为标准判断其证据属性  
1)用于证明案件事实的大语言模型材料  
案件事实是证据定义证明对象等问题的核心概念之一,既往研究对案件事实的理解存在争议,本  
(
文支持案件事实就是实体法事实的观点,所称案件事实即指对解决案件实体问题具有法律意义的事  
大语言模型材料可以在多种情况下对案件事实起证明作用:在著作权案件中,大语言模型材料可以证  
明通过大语言模型进行的改写抄袭等事实;在商业案件中,它可以证明大语言模型服务提供者在大语言模  
型对话中违规植入广告进行不良诱导等不当商业行为;在刑事案件中,它可以证明向大语言模型咨询犯罪  
法律问题的犯罪嫌疑人主观心态在这些情况下,大语言模型材料能够证明案件事实,具有作为证据的不可  
替代性,可以被称为大语言模型证据”。  
(2)用于证据审查的大语言模型材料  
大语言模型可以用来审查已经收集到的证据,尤其是书证言词证据等以文本内容发挥证明作用的证  
比如办案人员可以将大量言词证据输入大语言模型,要求大语言模型梳理陈述中的前后矛盾正如本  
文对人工智能证据审查方法人工智能证据的区分,本文认为这种发挥证据审查作用的大语言模型材  
料也不宜称为大语言模型证据”(详后)。对证明对象范围最广的理解是,证明对象包括实体法事实程序法  
事实和证据事实:实体法事实指对解决案件实体问题具有法律意义的事实;程序法事实指引起诉讼法律  
,;证据事实指证据提供的内容20世纪90年代  
中期之后,我国诉讼法通说观点基本认同证明对象范围包括实体法事实和程序法事实,并大多否定诉讼证明  
对象中包括证据事实证据事实不属于证明对象范围的通说印证了审查证据的方法不是证据的观点。  
本文认为,可以将通过大语言模型审查证据的方式称作大语言模型证据审查方法”,大语言模型证据相  
区分。  
(3)用于辅助案件调查的大语言模型材料  
除了证明案件事实和证据事实,大语言模型材料还可以用于辅助案件调查比如在刑事案件侦办中,办  
案人员可以将案件背景和收集到的证据情况输入大语言模型,要求其推理还原出可能的案件情况,甚至尝  
试推理具备作案嫌疑的人辅助案件侦查形成的大语言模型材料无法证明案件事实,只是拓宽使用者认识  
案件的思路,因此不属于证据。  
大语言模型材料的证据资格和运用  
()大语言模型材料和证据资格  
大语言模型材料将深度广泛地进入证明活动,那它能否成为证据? 诉讼法学研究对证据的定义存在分  
陈光中周国钧论刑事诉讼中的证明对象》,《中国政法大学学报1983年第3,58。  
也有观点主张不采用传统证明对象范围理论(区分实体法事实程序法事实和证据事实),认为证明对象的范围是诉辩双方的诉讼主张该  
理论与本文讨论内容有一定距离,因此未作展开参见:鲁杰曹福来论证明对象的范围是诉辩双方的诉讼主张》,《政治与法律2009年第  
1
,128ꢉ132。  
陈光中周国钧论刑事诉讼中的证明对象》,《中国政法大学学报1983年第3,58。  
卞建林编证据法学》,中国政法大学出版社2000年版,279。  
陈光中周国钧论刑事诉讼中的证明对象》,《中国政法大学学报1983年第3,62。  
闵春雷刘铭证明对象研究走向评析》,《吉林大学社会科学学报2009年第2,48。  
66  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
,其中对我国立法影响较大的观点主要有三种,分别是事实说”、“根据说材料说事实说认为证  
据是证明案件真实情况的一切事实”,曾在研究中占主导地位,  
我国1979刑事诉讼法采纳这一观  
根据说认为证据是查明和确定案件真实情况的根据,代表学者有陈一云龙宗智何家弘刘品新  
,最高人民法院关于贯彻执行<民事诉讼法(试行)>若干问题的意见采纳这一观点材料说认为证据  
可以用于证明案件事实的材料,2012刑事诉讼法修改的采纳为标志,材料说成为我国证据定  
义的主流观点本文从我国现行立法出发,认为证据是可用于证明案件事实的材料大语言模型材料证  
明案件事实的情形至少包括:证明通过大语言模型产品进行的不当行为(如不当广告行为、“网络水军行  
),证明咨询犯罪问题的犯罪嫌疑人的主观心态,等等因此,大语言模型材料可以成为证据。  
大语言模型证据能否在证明活动中被采纳? 这是证据资格的问题,研究中常见的证据能力证人  
大陆法系常采用证据资格(CompetencyofEvidence)、  
证据能力概念,英美法系中则表述为证据的可采性(AdmissibilityofEvidence)证据资格的内容在不同  
证明活动中面对不同的证据形式时有所不同,基本内容包括客观性关联性和合法性首先,客观性是指证  
据应当具有客观存在性,包括证据在内容上是对客观事物的反映,在形式上是一种客观存在,能够被人通过  
某种方式感知在内容上,大语言模型材料能够反映以使用者行为为代表的多种客观事物;在形式上,大  
语言模型材料中的人机交流材料能被人直观感知,本体材料和使用环境信息也能通过鉴定和技术公司公开  
为人感知其次,关联性是指证据必须与待证事实存在联系大语言模型材料深入社会生活,能够在民事、  
刑事行政等多种场景下与案件事实相联系,因此具备关联性最后,合法性是指证据的调查主体形式收  
集程序或提取方法应符合法律规定证据是否需要具有合法性在研究中有较大争议,何家弘认为该争议的  
存在是由于证据概念与证据资格发生混淆:合法性是证据资格的考量因素,经非法主体形式程序得到的材  
料依然可以是证据,只是不一定能在证明活动中被采纳本文认同这一观点,尽管大语言模型材料的取证  
主体证据形式和取证程序尚无法律依据,但这并不影响其成为证据,只影响其在证明活动中能否被采纳。  
综上,大语言模型材料可以成为证据出现在证明活动中由于大语言模型证据在一些情况下能够证明  
案件事实,具有真实性,本文认为通过完善法律,它也具有证据资格。  
()大语言模型证据和相关类型证据比较  
1
.大数据证据和大语言模型证据  
大语言模型是人工智能领域中自然语言处理的前沿成果,与大数据技术密切相关人工智能的发展基  
于大量数据,而大数据技术的分布式存储和分布式计算为人工智能提供了强大的存储和计算能力大数  
何家弘刘品新证据法学》,法律出版社2022年版,118ꢉ120。  
何家弘刘品新证据法学》,118ꢉ119。  
中华人民共和国刑事诉讼法》(1979)第三十一条:“证明案件真实情况的一切事实,都是证据。”《中华人民共和国行政诉讼法》(1989)  
中华人民共和国民事诉讼法》(1991)未对证据作定义:《行政诉讼法》(1989)第三十一条对证据种类进行列举,规定以上证据经  
法庭审查属实,才能作为定案的根据”;《民事诉讼法》(1991)第六十三条对证据种类进行列举,规定以上证据必须查证属实,才能作为认  
定事实的根据”。  
陈一云王新清严端编证据学》,中国人民大学出版社2013年版,3;龙宗智诉讼证据论》,法律出版社2021年版,8;何家弘刘  
品新证据法学》,119121。  
最高人民法院关于贯彻执行<民事诉讼法(试行)>若干问题的意见》(已废止),[1984]法办字第112其中第四节证据问题规定:“证据  
是查明和确定案件真实情况的根据。”  
龙宗智的观点部分体现了证据的材料说:“具体的证据,是指承载证据信息(事实与意见),而以特定形式表现出来的证明材料。”参见:龙宗智  
诉讼证据论》,8。  
中华人民共和国刑事诉讼法》(2012年修正)第四十八条:“可以用于证明案件事实的材料,都是证据。”  
证据能力,是指能够成为证据的资格。”参见:田口守一刑事诉讼法》,张凌于秀峰译,法律出版社2019年版,437。  
林志毅论刑事证据资格之多重性》,《中国法学2022年第1,263。  
ꢊꢋꢌ参见:田口守一刑事诉讼法》,438;何家弘刘品新证据法学》,124ꢉ125。  
ꢊꢋꢍ何家弘刘品新证据法学》,124ꢉ128。  
ꢊꢋꢎ何家弘刘品新证据法学》,128ꢉ132。  
ꢊꢋꢏ林子雨编著大数据导论———数据思维数据能力和数据伦理》,高等教育出版社2020年版,54ꢉ55。  
67  
四川师范大学学报(社会科学版)  
据证据和大语言模型证据都随前沿技术发展产生,面临着相似的黑箱质疑证据资格问题和证据种类问题,  
两者也存在区别第一,在技术基础上,大数据技术的重心在于对海量数据的处理和对相关性关系的发掘,  
是一种寻找结果的传统计算;而大语言模型属于人工智能技术,是一种允许机器执行认知功能的计算方  
,,第二,在具体内容上,大数据证据由海量基  
;最完整的大语言模型证据由人机交流材料大语言模型  
本体材料和运行环境信息组成第三,在运用难度上,大数据证据在证明活动中一般以大数据分析报告说  
明报告或鉴定意见的形式呈现,有一定专业门槛;大语言模型证据或多以人机交流材料(如对话文本)形式呈  
,运用难度相对较小。  
大数据证据已经在司法裁判中得到运用,法律实务和学术研究均认可其证据资格,但在证据种类问题上  
存在分歧在司法实践中有将大数据证据归为鉴定意见电子数据书证证人证言,甚至是将其作为侦破  
经过情况说明的做法;学术上对大数据证据的种类有纳入鉴定意见独立类型等不同看法本文  
认为大数据证据有别于传统证据种类,但是不宜作为大数据证据进入立法证据分类应当实现识别适用  
和交往的基本功能,大数据证据这一分类未必具有交往性(即普遍性)随着技术发展不能被归入法  
定证据种类的新技术证据只会越来越多,比如我们正在讨论的大语言模型证据有学者认为,鉴于法定证  
据种类在面对新技术证据时存在的困难,应该放弃将证据种类作为证据门槛的做法本文支持这一观点,  
证据资格才是证据门槛”,证据种类是我们认识证据的工具可以看到,大数据证据在证据种类上的混乱并  
未影响它在司法实践中被广泛运用,大语言模型证据或许也将走上类似的道路。  
2
.人工智能证据和大语言模型证据  
大语言模型证据属于人工智能证据,但是人工智能技术有多种研究方向,比如知识图谱和大语言模型是  
两种完全不同的方案因此,人工智能证据研究成果难以套用到大语言模型证据上,却可以成为理论来源和  
重要参考人工智能证据研究在刑事诉讼领域和民事诉讼领域都已展开,但现有研究存在将人工智能证据  
审查方法人工智能证据混用的情况,这与谢登科等指出的电子数据区块链存证区块链证据混用  
的情况具有一定相似性有文章举例的人工智能证据是人脸识别系统分析结论,该分析结论在诉讼中  
被用来证明特定照片上的人是特定某人本文认为该例子不一定妥当,人脸识别系统分析结论在诉讼中  
起到的是补强书证(即本案中照片)的作用,是作为辅助证据(或称补助证据)用来证明证据事实的用人  
工智能方法对其他证据进行审查判断形成的材料或不宜称为人工智能证据”,可以将这种方法称为人工智  
能证据审查方法”。  
可能会有这样的反对意见:验证其他证据形成的人工智能材料也与案件事实相关,所以是人工智能证  
”。本文认为该观点有一定道理,而且符合司法实践和通常认识,但尚有可商榷之处在区块链证据领域,  
区块链证据电子数据区块链存证的混用已经较为普遍,有文章指出了既往研究中存在的混用情况及  
林子雨编著大数据导论———数据思维数据能力和数据伦理》,55。  
严若冰以定义为中心的大数据证据独立种类研究》,《山东警察学院学报2020年第5,87ꢉ89。  
严若冰以定义为中心的大数据证据独立种类研究》,《山东警察学院学报2020年第5,80ꢉ91。  
刘品新论大数据证据》,《环球法律评论2019年第1,28。  
徐惠李晓东大数据证据之证据属性证成研究》,《中国人民公安大学学报(社会科学版)》2020年第1,47ꢉ57。  
识别性指分类能将某类证据与其他证据进行有效区分,适用性是指证据分类有助于适用证据规则,交往性即普遍性,是指证据分类获得普遍  
认可,因此便利交流与交往参见:龙宗智诉讼证据论》,44。  
严若冰以定义为中心的大数据证据独立种类研究》,《山东警察学院学报2020年第5,80ꢉ91。  
郑飞马国洋大数据证据适用的三重困境及出路》,《重庆大学学报(社会科学版)》2022年第3,207ꢉ218。  
谢登科张赫电子数据区块链存证的理论反思》,《重庆大学学报(社会科学版)》20221220日网络首发,1ꢉ14,httpꢅꢄꢄknscnki  
netꢄkcmsꢄdetailꢄ501023c202212191201001html。  
ꢊꢋꢌ马国洋论刑事诉讼中人工智能证据的审查》,《中国刑事法杂志2021年第5,158。  
ꢊꢋꢍ陈光中周国钧论刑事诉讼中的证明对象》,《中国政法大学学报1983年第3,58ꢉ64;田口守一刑事诉讼法》,438ꢉ439。  
68  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
其给研究带来的困难人工智能证据研究尚处初期,厘清概念有助于今后研究的顺利开展,因此本文更倾  
向于区分人工智能证据人工智能证据审查方法”。比较符合这一人工智能证据定义的有金融领域的  
智能投顾材料AI绘画工具生成的AI绘画作品,AI语音工具生成的AI翻唱作品,以及大语言模型  
,
证据等。  
()大语言模型材料的运用场景  
1
.民事法律证明场景中的大语言模型材料  
民事领域或将是各法律部门中最早出现大语言模型材料的大语言模型通过广告营利的商业模式几乎  
是板上钉钉,其中蕴含着法律风险大语言模型以一问一答的形式向使用者提供意见,使用者省去了在搜索  
引擎中筛选信息的过程,但这种不必选择也意味着难以选择易被误导”。如果大语言模型在对话过  
程中推荐商业广告,用户甚至可能意识不到广告存在,这种广告在涉及医疗法律服务等敏感行业时会更具  
危险性。  
据路透社报道,微软已经在尝试向搭载GPT-4的必应搜索引擎中加入广告,比如在机器回复中提供付  
又以文心一言为例,大模型的实现和维持依赖强算法和大算力,这意味着文心一言在开发阶段就  
消耗了巨量资源,且后续业务开展需要以大量资金投入为保障广告业务是百度公司的重要收入来源,百度  
022年第四季度的在线营销收入(OnlineMarketingRevenue)181亿,(331亿)  
54.68%文心一言作为国内推出的第一款大语言模型炙手可热,承接广告业务的经济效益相当可观。  
大语言模型的技术复杂性使其较难受到外界有效监督,且法律本身存在滞后性,但法律人对大语言模型的民  
商事合规风险应有一定预见和警惕。  
2
2
.刑事法律证明场景中的大语言模型材料  
一项新技术出现后,社会群体内接受新技术的速度和能力不同,由此带来的信息差将让犯罪分子有机可  
大语言模型以假乱真的对话能力可能被用于违法犯罪活动中,比如网络水军活动和电信诈骗犯罪。  
网络水军为例,目前水军在互联网上的发言较为生硬,辨识难度不高但大语言模型可以高效编写大  
量自然流畅的虚假文案,提高水军活动的效率,增强了违法犯罪的隐蔽性和危害性又以诈骗案件为例,  
在以婚恋为诱饵的杀猪盘骗局中,犯罪嫌疑人或可用大语言模型聊天机器人和受害者进行对话培养感  
”,降低犯罪成本在这些情况下,使用者与大语言模型交流形成的材料将成为证明案件事实的证据。  
除了直接证明案件事实,大语言模型材料在刑事活动中还可以作为破案线索,或是审查其他证据的辅助  
证据比如在案件侦破阶段,警方可以将已经搜集到的案件信息和经过确认的部分证据输入大语言模型,要  
求其推理出案件最有可能的几种情况,以此拓宽办案思路对于待初步审查的书证言词证据,警方可以将  
证据文本内容和搜集该证据的相关情况输入大语言模型,要求其梳理案件中的人物关系和主要情节,进行内  
程序上的审查作为破案线索和辅助证据的大语言模型材料虽然可靠性不一定高,但是在保证算法公正  
的前提下具有较高公正性,有助于提高办案效率。  
3
.行政法律证明场景中的大语言模型材料  
根据数字政府建设和2023年国务院机构改革体现的发展方向,我国在政府领域引入大语言模型或许只  
是时间问题一方面,数字化智能化是我国政府发展的重要方向,“十四五规划中明确要求全面推进政府  
谢登科张赫电子数据区块链存证的理论反思》,《重庆大学学报(社会科学版)》20221220日网络首发,1ꢉ14,httpꢅꢄꢄknscnki  
netꢄkcmsꢄdetailꢄ501023c202212191201001html。  
徐凤人工智能算法黑箱的法律规制———以智能投顾为例展开》,《东方法学2019年第6,83ꢉ86。  
如曾经发生过莆田系医院通过商业竞价在百度搜索结果中投放广告,患者通过广告被引导到莆田系医院就医导致治疗延误的事件参见:  
张燕莆田系医院盈利秘密》,《中国经济周刊2016年第19,24ꢉ26。  
SheilaDangꢀꢈExclusiveꢅMicrosoftꢆsBingplansAIadsinearlypitchtoadvertisersꢀꢇReutersNewsꢀupdatedFebruary18ꢀ2023ꢀaccessed  
May22ꢀ2023ꢀhttpsꢅꢄꢄwwwreuterscomꢄtechnologyꢄmicrosofts-bing-plans-ai-ads-early-pitch-advertisers-2023-02-17ꢄ  
ꢈBaiduAnnouncesFourthQuarterandFiscalYear2022ResultsꢀꢇBaiduIRꢀupdatedFebruary22ꢀ2023ꢀaccessedMay22ꢀ2023ꢀhttpsꢅꢄꢄ  
irbaiducomꢄinvestor-overviewꢄ  
69  
四川师范大学学报(社会科学版)  
运行方式业务流程和服务模式数字化智能化,2022,国务院关于加强数字政府建设的指导意见提出  
构建数字化智能化的政府运行新形态”。另一方面,2023部  
门人员编制将统一按照5%的比例进行精减,在安全可靠的前提下将大语言模型引入政府工作将是精简  
编制集中编制资源攻克重点问题的合理方案极为强调安全性的国内银行业已经开始拥抱大语言模型,  
,如果文心一言能够实现令人较为满意的对话  
和文本生成能力,这些银行的职位需求将相应减少。  
文心一言已经与一些政府部门国有企业和事业单位达成合作,如工信部新闻宣传中心邮储银行,  
大语言模型进入行政领域或不遥远从大语言模型目前的应用来看,它对外可以受理业务投诉为群众提供  
咨询服务参与网络行政执法,甚至进行自动化的行政许可形式审批;对内可以成为每一位行政机关工作  
人员的私人助手”,处理重复性和日常性较高非核心机要的文书工作,提供政策和决定咨询我国基层公  
务员的工作负担中有相当一部分是重复繁琐的文书工作,如果能在保证意思准确不影响工作质量的前提下  
引入大语言模型,将有助于解放基层劳动力当政务活动中开始应用大语言模型技术,大语言模型材料也将  
迈入行政程序活动行政复议和行政诉讼领域。  
()司法实践中大语言模型证据的运用  
证据在实践中的表现形式可能与法律规范要求的并不相同,非常典型的例子是民事诉讼中的电子证据,  
尤其是在网络交易型证明活动中有学者指出,网络交易型诉讼的证明活动高度依赖电子证据,但在实践中  
稿这在一定程度上是因为此类案件中的电子证据偏  
在于互联网平台,但足以反映出证据实践表现形式与法律规定之间的落差结合电子数据和大数据证据在  
实践中的举证状况,本文对大语言模型证据在诉讼证明活动的运用进行如下猜测:一方面,大语言模型证据  
举示方出于成本效率的考量,或将以截图打印稿的形式对人机交流材料进行举证;另一方面,质证方将从大  
语言模型的算法公正性(黑箱效应),大语言模型材料的完整性,账号所有者与人机交流者身份的同一性等角  
度质疑人机交流材料;同时,被质证的一方可以通过大语言模型黑箱属性的固有性和极高昂成本对抗黑箱质  
,通过充分举示人机交流材料大语言模型本体材料和大语言模型运行环境信息对抗完整性质疑,通过举  
示使用者运行环境信息对抗身份同一性质疑。  
从证明活动效率考虑,本文认为,一般案件可以仅举示人机交流材料和使用者本地环境信息,重大案件  
才需要对人机交流材料大语言模型本体材料和大语言模型运行环境信息作完整举示一方面,从成本上  
,大语言模型黑箱效应突出,本体材料和云计算环境信息的提取和审查有较高门槛,对相关人员专业能力  
要求极高;另一方面,从与待证事实的关联性来看,大语言模型训练和运行的成本极高,为实施普通违法犯罪  
行为故意调整大语言模型的可能性较小,云计算环境一般不影响大语言模型生成的内容,因此大语言模型本  
体和云计算环境与一般案件事实的关联性不强而人机交流材料和使用者本地环境信息与案件事实的联系  
紧密,且运用难度较小,因此本文支持在一般案件中将人机交流材料和使用者本地环境信息认定为完整的大  
语言模型证据。  
中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,中国政府网,2021313日发布,2023529日  
访问,httpsꢅꢄꢄwwwgovcnꢄxinwenꢄ2021-03ꢄ13ꢄcontent_5592681htm。  
肖捷关于国务院机构改革方案的说明———202337日在第十四届全国人民代表大会第一次会议上》,中国政府网,202338日发  
,2023523日访问,httpꢅꢄꢄwwwgovcnꢄguowuyuanꢄ2023-03ꢄ08ꢄcontent_5745356htm。  
李海颜牵手百度多家银行寻求中国版ChatGPT新应用》,《北京商报2023228,7。  
赵乐瑄工信部新闻宣传中心(人民邮电报社)宣布接入百度文心一言树立行业媒体智能化新标杆》,中国工信产业网,2023214日发  
,2023523日访问,httpsꢅꢄꢄwwwcniicomcnꢄrmydbꢄ202302ꢄt20230214_446697html。  
邮储银行宣布接入百度文心一言提供更智能更有温度的金融服务》,中国邮政集团有限公司网站,2023218日发布,20235月  
2
3日访问,httpꢅꢄꢄwwwcptuorgcnꢄxhtml1ꢄreportꢄ23021ꢄ7167-1htm。  
GPT-4已经能够对输入的文本和图像进行分析,如果未来该类技术更加成熟且能保证安全性,或可用于自动化行政许可形式审查,甚至能实  
现一定程度的实质审查。  
比如在一起食品网络交易诉讼中,原告提供了4项电子证据,分别是网页商品快照打印件网页订单详情截图打印件快递单打印件电子支  
付账单详情截图打印件参见:周翔论电子证据的偏在性及其克服》,《大连理工大学学报(社会科学版)》2020年第1,92。  
70  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
大语言模型材料作为证据的特点  
)直观性强:人机交流材料能够被人类直观感知  
(
人机交流材料呈现为一问一答的连续人机对话,这种直观性使大语言模型证据与需要鉴定的科学证据  
形成区别人机交流材料的形成过程处于极强黑箱效应中,但我们并非一定要通过司法鉴定打开这个黑箱。  
一方面,对人机交流材料形成过程的探究需要对大语言模型本身进行分析,鉴定成本较难得到有效控制;另  
一方面,大语言模型的形成和运行需要巨额资金投入,黑箱内部与普通个案的关联性不强因此,本文认为,  
强行要求对人机交流材料进行鉴定将极大提高诉讼成本,缺少必要性人机交流材料可以凭借其直观易理  
解的优势,参照互联网聊天记录网页信息进行举证质证从成本效益上看,人机交流材料最有可能成为未  
来诉讼活动中大语言模型证据的表现形式。  
在收集提取人机交流材料时,当事人应尽可能保证材料的可链接性和真实性人机交流材料目前多以  
浏览器网页为载体,且缺少规范便捷的证据提取收集方法,存在伪造篡改的可能性比如在Chrome浏览  
器中打开网页F12进入开发者工具,可以通过修改网页元素(Elements)来改变网页呈现内容在司法  
实践中运用大语言模型材料可注意以下两点:第一,保留原始材料,使审判人员和其他诉讼参与人能够通过  
网络链接查阅到人机交流材料原件;第二,在提取过程中进行屏幕录像,并对提取到的网页文件计算哈希  
①  
,
或者通过司法区块链工具将相关网页信息以链上数据的形式进行保全。  
()可解释性弱:不等于大语言模型证据可靠性弱  
可解释性的定义存在争议,涉及到认知科学计算机科学心理学和哲学等领域本文中人工智能的  
可解释性指人类对人工智能自动决策的理解,包括人工智能自动决策的原因方法和内容等大语言模型属  
于深度学习模型,可解释性弱是其目前最为人诟病的特征之一深度学习模型的黑箱程度高于社会主流观  
点对算法黑箱的认识有社会学者指出,算法黑箱问题常被归结到专业知识透明度,许多观点认为  
只要人类具有关于算法的专业知识而且能够接触到相应代码,就能够探查到算法的社会影响,消除存在于  
其中的可能的偏见”。但深度学习模型的黑箱与传统算法想象对黑箱的理解不同,黑箱是深度学习模型的  
固有特征,它不仅对用户来说是一个黑箱,甚至对开发它的程序员和公司来说也是如此。  
大语言模型的可解释性弱不仅表现在与主流黑箱认识的对比上,还表现在与知识图谱和小模型等其他  
人工智能技术的对比上知识图谱由一系列包含实体和关系的事实组成,直观可见,因此具有强可解释性。  
与小模型相比,大模型不仅有更庞大的参数量,还具有涌现能力(EmergentAbilities)。涌现性(Emergence)  
是指系统中数量性的变化引起了行为上性质的变化,可以理解为量变引起质变大语言模型的涌现能力则  
是指当模型的训练量到达一定程度,就会有新的推理结构在神经网络中自发涌现,使其精准度得到大幅提  
,涌现能力意味着,大语言模型  
在程序员设计框架之外拥有非人为设计的能力,机器决策不能被完全预测,故可解释性难以得到保障。  
大语言模型的可解释性弱决定了大语言模型材料的可解释性弱尽管人机交流材料的内容直观可见,  
但我们难以认识大语言模型理解用户输入材料生成输出材料的过程此外,部分大语言模型材料由于客观  
原因并不在我国境内存储,我国在大语言模型技术方面与国际最先进水平仍存在客观差距一些国内用户  
使用ChatGPT等国外大语言模型产品辅助工作,提高效率对于这部分在国内使用但由国外大语言模型  
生成且存储在国外的材料,如何进行收集保存和审查,或将成为我们在技术和国际关系上需要面临的挑战。  
大语言模型材料的可解释性弱,并不意味着大语言模型证据的可靠性弱一方面,人机交流材料与电子  
孙百昌网页取证网页电子数据证据获取固定步骤与方法(2022)》,中国工商出版社2022年版,156ꢉ175。  
RobertoConfalonieriꢀLudovikCobaetalꢀꢈAHistoricalPerspectiveofExplainableArtificialIntelligenceꢀꢇWiresDataMiningandKnowl-  
edgeDiscovery11ꢀno1ꢁJanuaryꢄFebruary2021ꢂꢅ2-4  
算法想象是张博伦提出的概念,指社会对算法的一般认识参见:张博伦超越算法的黑箱想象》,《清华社会学评论18,152ꢉ  
53。  
RobertoConfalonieriꢀLudovikCobaetalꢀꢈAHistoricalPerspectiveofExplainableArtificialIntelligenceꢀꢇWiresDataMiningandKnowl-  
edgeDiscovery11ꢀno1ꢁJanuaryꢄFebruary2021ꢂꢅ2-4  
1
71  
四川师范大学学报(社会科学版)  
数据相似,它可以通过可链接性来保障真实性,并且适宜通过司法区块链和公证的方法进行存证,较适应现  
行电子数据保全框架另一方面,大语言模型本体材料和大语言模型云计算环境信息被封装在黑箱中,一  
般不影响大语言模型材料对具体案件事实的反映对于确有必要进行举示的大语言模型本体材料和大语言  
模型云计算环境信息,也可以通过司法鉴定以鉴定意见的形式进行举示因此,大语言模型证据有能力反  
映一定案件事实,在诉讼证明活动中具有可靠性。  
()偏在性:部分材料仅由少数技术公司掌握  
证据偏在现象是指负有证明责任的一方无法掌握相应证据,因而难以履行证明责任,面临败诉风险证  
据偏在问题产生于20世纪初的现代型诉讼,如医疗案件里医院和医生掌握患者病历现代型诉讼的证据偏  
在问题未脱离诉讼双方,但随着互联网兴起和平台经济发展,电子证据常由互联网平台掌握,即电子证据常  
大语言模型证据的偏在与互联网平台案件中电子证据的偏在有一定  
相似性,部分大语言模型证据仅由少数技术公司掌握在大语言模型技术存在国家和地区间差距的情况下,  
这种证据偏在的状况还可能涉及到国际关系问题OpenAI会收集用户使用ChatGPT服务时的各种信息,  
OpenAI未在中国大陆正式开展服务,我国使用者作为海外用户被收集的各类信息均存储在美国,这意  
味着我国司法机关获取ChatGPT生成材料的难度极大。  
大语言模型证据偏在和互联网时代的电子证据偏在有一定相似性,因此也可以参考各国应对互联网时  
代电子证据偏在的方案欧陆模式以证明责任减轻理论为核心,在法官主导证据调查的传统下展开诉讼证  
明活动;英美模式采取证据开示,坚持由当事人收集证据我国立法与欧陆模式较为一致,但有观点指出这  
一方案正越发难以回应互联网平台垄断电子数据的问题,认为我国可以适当借鉴英美法系,适时提出网络平  
台的信息公开义务。  
本文更支持借鉴英美的证据开示模式,如果继续按照欧陆的证明责任减轻模式,我国法官将主导对大语  
言模型材料,尤其是本体材料和云计算服务信息的调查但一般法官并不具备相应技术能力,加之法官群体  
工作量普遍较大,这样的制度设计难以发挥作用而另一方面,大语言模型材料和相关专业知识均由技术公  
司掌握,根据百度公司的文心一言(测试版)个人信息保护规则OpenAI公司的个人隐私政策,这些主要  
技术公司掌握着包括人机交流材料大语言模型本体材料和大语言模型运行环境信息在内,所有可能被作为  
证据运用的大语言模型材料因此本文认为,可以借鉴英美法系的电子数据证据开示制度,明确科技公司作  
为社会信息垄断者的证据开示义务。  
()可识别性弱:大语言模型与深度合成治理  
本文提出的大语言模型材料可识别性指人类能否识别一份材料是由大语言模型生成的,主要在于人  
机交流材料的可识别性ChatGPT在对话时相当流畅自然,以至于能够让使用者感觉像与一名真正的人在  
对话互联网上常有关于ChatGPT能否通过图灵测试的讨论,,成  
共识的是,当人类在不知情状态下与类ChatGPT水平的大语言模型对话,他有相当概率无法正确判断与其  
对话的是人类还是机器也就是说,人类在缺少明确信息的情况下,未必能识别一份文本材料是否属于大语  
言模型的人机交流材料该问题在刑事侦查阶段会影响案件调查的方向,影响案件性质和涉案主体的确定,  
在诉讼阶段也是庭审举证质证中难以回避的问题它在民事领域也有一定影响,比如消费者要求与商家的  
真人客服进行沟通,能否有效判断对方提供的是大语言模型聊天机器人还是人类客服。  
大语言模型属于深度合成技术,从理论上看,大语言模型材料的可识别性问题可以通过深度合成治理得  
到缓解我国的深度合成治理立法走在世界前列,20231月开始实施的互联网信息服务深度合成管理  
规定要求深度合成服务提供者应当在生成或者编辑的信息内容的合理位置区域进行显著的深度合成标  
周翔论电子证据的偏在性及其克服》,《大连理工大学学报(社会科学版)》2020年第1,94ꢉ96。  
ꢈPrivacyPolicyꢀꢇOpenAIꢀupdatedApril27ꢀ2023ꢀaccessedMay23ꢀ2023ꢀhttpsꢅꢄꢄopenaicomꢄpoliciesꢄprivacy-policy  
周翔论电子证据的偏在性及其克服》,《大连理工大学学报(社会科学版)》2020年第1,91ꢉ102。  
AlanM TuringꢀꢈComputingMachineryandIntelligenceꢀꢇMind59ꢀIssue236ꢁOctober1950ꢂꢅ433-460  
72  
徐继敏严若冰论大语言模型材料的证据属性———ChatGPT和文心一言为例  
,避免公众混淆或者误认目前ChatGPT和文心一言在对话中都会强调自己作为大语言模型的身份,  
这在某种程度上符合我国立法关于深度合成标识的要求。  
但在实践层面,深度合成标识相关规定未得到充分落实:深度合成服务提供者未充分遵守立法关于深度  
合成标识的规定,且深度合成标识难以约束深度合成服务使用者的不当利用一方面,从深度合成服务提供  
者的角度来看,笔者通过百度文心一格(AI绘图工具)生成了四张图片,成品图片上并无人类可以感知的深  
度合成标识,这是当前深度合成服务的普遍状况另一方面,从深度合成服务使用者的角度来看,运用和传  
播无深度合成标识的AIGC内容也相当普遍,且管理部门对此缺乏有效识别和规范手段,如目前互联网内容  
平台上充斥着由AI配音但未加标注的视频,以及由AI绘图生成的图片(甚至包括为数众多能够以假乱真  
虚拟人类图片)。  
国家网信办在2023411日发布的生成式人工智能服务管理办法(征求意见稿)》体现了国家对大  
语言模型运用的态度:生成式人工智能服务提供者应当指导用户合理利用相关服务,对利用过程中违反法律  
法规商业道德或社会公德的用户暂停或终止服务基于深度合成的立法现状和生成式人工智能的立法方  
,本文认为可以考虑增设以下规定:第一,强调大语言模型的深度合成属性,使大语言模型运用与我国现行  
的深度合成治理规范相衔接,明确大语言模型和大语言模型产品适用于有关深度合成的法律法规;第二,要  
求应用大语言模型技术的产品至少在交互界面和生成文本中充分明确地强调其大语言模型身份,并提醒用  
户合理合法地使用大语言模型产品;第三,使用大语言模型产品代替其进行对外交往的机构或个人应当表明  
其正在使用大语言模型产品,否则将承担不利法律后果。  
致谢:本文在撰写过程中得到许多专业人士和同学的帮助,王钰薇女士对游戏行业AIGC使用情况给予  
了指导,李琳婕女士就大语言模型材料的运用场景部分与笔者进行讨论,柏林洪堡大学(Humboldt-Uni-  
versitaetzuBerlin)苏泓宇同学对金融行业相关情况给予了指导,北京航空航天大学张雪峰同学,西湖大学  
高文炀同学,清华大学李思磐同学邱浩先生李岚皓先生在大语言模型云计算知识图谱等方面进行了技  
术指导在此向他们表示衷心的感谢!  
[责任编辑:苏雪梅]  
参见:《互联网信息服务深度合成管理规定》,国家互联网信息办公室中华人民共和国工业和信息化部中华人民共和国公安部令第12,  
0221125日公布,中国网信网,20221211日发布,2023523日访问,http://www.cac.gov.cn/2022-12/11/c.  
2
1
672221949354811.htm;张凌寒深度合成治理的逻辑更新与体系迭代———ChatGPT等生成型人工智能治理的中国路径》,《法律科学(西北  
政法大学学报)》2023年第3,39。  
73