第51卷第6期

024年11月

四川师范大学学报(社会科学版)

ꢀ

2

ꢀ

JournalofSichuanNormalUniversity

ꢀ

Vol51ꢁNo6

ꢀ

ꢂSocialSciencesEditionꢃ

Novemberꢁ2024

机器与人类的不可区分性问题研究

—

——回到图灵测试

尹孟杰

ꢄꢄ摘要:图灵测试聚焦探索机器与人类之间的不可区分性,并引发智能问题的广泛争论。由于其后续的变体测

试多着眼于通过技术实现机器迷惑人类的目的而逐渐脱离了智能问题的核心,并且智能问题本身也涉及诸多难以

明确定义的概念,因此学界尚未就“机器是否能够思考”达成共识。人工智能的新发展,揭示出许多先前被视为正

确的理论在面对现实时的不足和缺陷。为此,需要考虑一种新的智能观。其一,智能具有多种功能、形式和结果,

人类中心主义的智能观忽视了存在其他非人类智能方式的可能性。其二,关于人工智能是否能够如人类般思考,

或者是否产生了意识的争论可以使智能问题由此走出意识的僵局。

关键词:图灵测试;人工智能;不可区分性;理解;意识;因果推理能力

ꢀ

DOI1013734ꢅjcnki1000-531520240216

收稿日期:2024-01-06

基金项目:本文系教育部人文社会科学研究规划基金项目“相容论与无意志的道德责任研究”(22YJA720008)的阶

段性成果。

作者简介:尹孟杰,女,湖北襄阳人,哲学博士,香港中文大学(深圳)人文社科学院讲师,研究方向为分析哲学、形而

ꢀ

上学、自由意志问题以及科学技术哲学,E-mailꢆ_yinmen_g_jie@cuhkeducn。

智能(intelli_gence)对于人类而言具有重要意义,不同领域对智能问题的研究侧重不一:或者关注智能主

ꢀ

体的思维过程,或者关注智能主体的行为表现。在此基础上,人工智能(artificialintelli_gence)的相关研究不

仅试图理解和解释智能问题,还试图构建智能主体。经过一定的历史周期,人工智能逐渐发展成为一个独立

ꢀ

的领域,而不仅仅是在控制论、运筹学或决策理论的框架下进行。图灵测试(Turin_gTest)自1950年首次提

出以来,引发关于“机器是否能够思考”的深入讨论,对人工智能的研究产生了深远影响。时至今日,随着大

ꢀ

语言模型(Lar_geLan_gua_geModels)的兴起,我们仍然致力于探寻智能的本质,并开始思考一些新的问题:人

工智能是否能够真正理解自然语言?我们能否信任人工智能可以参与到传统的人类工作中?等等。

不论是图灵测试最初关注的问题,还是我们如今思考的一系列新问题,都聚焦于机器与人类之间的不可

区分性(indistin_guishabilit_y)。探讨智能问题不仅触及到意识(consciousness)等复杂概念,同时也依赖于具

体的科学研究作为基础。在此背景下,对于意识等概念,既缺乏一套确切的哲学定义,也未能在科学领域内

达成标准的共识。因此,人工智能的概念具有微妙的割裂感:我们如何在没有完全理解意识、心智的情况下,

创造出能模拟这些复杂特性的智能机器。

围绕上述的种种智能问题,本文第一部分将简要复述图灵测试的具体设定,并厘清其核心要点,即机器

与人类的不可区分性。第二部分将提出明确的理论模型,以意识和因果能力作为核心要素,分析不可区分性

问题。第三、四部分将重新审视图灵测试的初衷,反思人类中心主义的智能观,揭示存在其他非人类智能方

式的可能性;智能研究应当致力于创造出更为优秀的智能工具,而非简单地复制人类智能的模式。

一ꢄ图灵测试:不可区分性问题

ꢀ

0世纪40年代末^,^随^着^第^一^台^电^子^数^字^计^算^设^备⁽^A^t^aⁿ^a^s^o^f^f^-^B^e^r^r^y^C^o^m^p^u^t^e^r^,^阿^塔^纳^索^夫ꢇ^贝^瑞^计^算

2

71

四川师范大学学报(社会科学版)

ꢀ

机)的出现,公众对现代科学奇迹的潜力展开了广泛讨论^①^。随后^,维纳⁽NorbertWiener⁾在^《控制论^》中^,将

机器与动物的大脑和神经系统进行比较,认为“解释动物记忆的性质和种类的问题与为机器构建人工记忆的

ꢀ

^问^题^有^相^似^之^处^”^,^并^由^此^触^及^了^许^多^与^人^工^智^能^相^关^的^概^念^②^。在公众辩论的背景下^,图灵⁽AlanM.Tur-

)

开始思考人工智能的可能性,并从现代数字计算机的角度来探讨这个问题。由于不太认可某些偏见,特

ing

别是那些断言“机器永远无法思考、推理或创造”的言论,图灵为此提出了现在被我们熟知的图灵测试,旨在

探讨机器是否能展示出无法区别于人类智能的能力。

图灵测试的初衷之一是为了避免科学与哲学之间无休止的争论。然而,测试本身却引发了更为激烈的

辩论。据统计,1950年至1964年间,学界围绕“机器是否能够思考”的问题发表了一千多篇论文^③

。_例_如,_彭

ꢀ

齐亚斯(ArnoPenzias)对图灵测试提出了批评,“对于一台愚蠢的机器来说,与人类对话比图灵想象的要容

^易^得^多^。^人^们^会^无^意^识^地^、^轻^松^地^填^补^缺^失^的^部^分^”^④^。而有学者赞誉^“图灵的论文^…^…至今仍是对人工智

能哲学最清晰的简短描述,而图灵测试……仍然是识别机器智能的最佳标准”^⑤^。

如果我们回到图灵测试本身,或许能够厘清后续争议的分歧所在。图灵在《计算机器与智能》中提出问

ꢀ

题:机器能够思考吗?他设计了模仿游戏(ImitationGame)来评估机器智能,即我们现在所熟知的图灵测

^试^⑥^。模仿游戏包含三名参与者^:一名男性⁽A⁾^、一名女性⁽B⁾和一名询问者⁽C⁾^。询问者待在某个看不见其

他两人的房间里。对于询问者来说,这个游戏的目的是确定另外两人的性别。询问者通过给A和B贴上X

ꢀ

或者Y的标签来区分二者。在游戏结束时,询问者需要得出判断:“X是A,Y是B”或者“X是B,Y是A”。

为了避免受到声音或视觉线索的干扰,询问者和被询问者可以通过电传打字机交流,或者借助中间人传话的

形式进行。对于被询问者B来说,她的目标是帮助C得出正确判断,因此她会尽可能地提供真实答案。例

如,B可以在回答中提示C“我是女性,别听信另一个人的回答!”但是,A也可以采取同样的表达策略来迷惑

_C。_随_后_,_图_灵_进_一_步_修_改_了_游_戏_的_设_定_:_让_一_台_机_器_取_代_A的角色,因此询问者的任务变成了通过提问来

判断哪个是人类,哪个是机器。通过游戏机制的转变,图灵将关注点从“机器能够思考吗?”这一哲学问题转

移到另一个更为具体的问题上,即:“机器能否在特定条件下模仿人类,并且达到让人类无法区分的程度?”对

此,图灵并没有给出绝对的结论来直接回答问题,而是给出了一种解释:如果机器在图灵测试中,能够表现得

足以让人类无法区分其回答是来自人类还是机器,那么我们就有理由认为这样的机器具有智能,或者至少它

能在某种程度上模仿人类的思考过程。

不可区分性是图灵测试的核心。图灵预见到,随着时间的推移和技术的进步,数字计算机能够拥有足够

的存储空间、速度和适当的编程,能够在图灵测试中取得越来越好的成绩,逐渐模糊人类与机器之间在智能

表现上的界限。“最初的问题是‘机器能够思考吗?’我认为这太无意义了,不值得讨论。然而,我相信,到本

世纪末,词汇的使用和大部分受教育的人的观点将会发生很大的变化,人们将能够谈论机器思维而不会被反

驳”^⑦^。不可区分性分为两种形式^:结构的不可区分性^、功能的不可区分性^。显然^,图灵测试以功能的不可区

分性为基础。在此基础上,后续的研究者们在解释图灵测试时,大多持有两种不同的观点。

第一类观点认为,数字计算机无法理解对话,但可以模拟人类的理解能力。不可区分性显示出人工智能

ꢀ

无法真正地思考。这类观点预设了人类的物理能力(_ph_ysicalca_pacities)和心智能力(intellectualca_pacities)

之间存在着明确界限。因此,我们在直觉上天然地认为机器虽然有可能模仿人类的物理能力,却无法拥有人

类的心智能力。有学者认为,“计算机有句法(s_yntax),但没有语义(semantics)”^⑧^,人工智能虽然熟悉各种

ꢀ

①

阿塔纳索夫ꢇ贝瑞计算机不可编程,只能进行线性方程组的计算。ENIAC(ElectronicNumericalIntegratorandComputer,电子数字积分计

ꢀ

算机),通常被认为是第一台通用计算机;它可以被编程,因此被称为图灵完备(TuringComplete)。

ꢀ

②

③

④

⑤

⑥

⑦

NorbertWienerꢁCyberneticsorControlandCommunicationintheAnimalandtheMachineꢁ2ndedꢂMITPressꢁ1965ꢃꢁ14

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

AlanRossAndersonꢁedꢁMindsandMachinesꢂPrentice-Hallꢁ1964ꢃꢁ1

ꢀ

ArnoPenziasꢁIdeasandInformationꢀManaginginaHigh-TechWorldꢂW W Norton&Companyꢁ1989ꢃꢁ143

ꢀ

RichardL GregoryꢁedꢁTheOxfordCompaniontotheMindꢂOxfordUniversityPressꢁ1987ꢃꢁ784

ꢀ

A M TuringꢁꢈComputingMachineryandIntelligenceꢁꢉMind59ꢁno236ꢂ1950ꢃꢆ433-434

ꢀ

A M TuringꢁꢈComputingMachineryandIntelligenceꢁꢉMind59ꢁno236ꢂ1950ꢃꢆ442

ꢀ

⑧JohnRSearleꢁꢈMindsꢁBrainsꢁandProgramsꢁꢉBehavioralandBrainSciences3ꢁno3ꢂ1980ꢃꢆ422

72

尹孟杰ꢄ机器与人类的不可区分性问题研究———回到图灵测试

ꢀ

符号的操作规则,但无法理解这些符号所代表的意义或对象。例如,本德(Emil_yM.Bender)等人使用随机

ꢀ

鹦鹉(stochastic_parrots)来比喻大型语言模型虽然能够生成看似合理的语言,但却无法理解它们处理的语

言含义,而只是鹦鹉学舌地重复它们从大型数据集中学到的统计模式^①^。

第二类观点认为,数字计算机实际上能够理解对话,拥有人类的理解能力。这类论点大多沿袭图灵的做

法,将智能问题建立在思维的功能性的基础上,探寻意识是否能够由自组织过程产生,并希望通过将思考概

念黑箱化来处理智能问题。机器需要具备一种普遍的应答能力,才能与人类展开对话,而这种能力不同于下

棋这样的单一能力。图灵测试中的问题范围广泛,以至于程序员无法通过预设回答、随机猜测或查询数据库

等常规编程技术解决问题。因此,有学者认为通过图灵测试的机器具备普遍的语言应答能力,因此它们拥有

某种程度的理解能力和智能。例如,有研究认为,大语言模型似乎展现出了人类智能,“在对话中,大型语言

模型常常反映出对谈者的信仰和期望,这是一种亲社会行为”^②^。^,

然而如前文所述^,由于意识^、心智等概念

的复杂性,相关研究很容易陷入术语混乱。

综合两方面的意见,人工智能似乎展现出了一种既理解、又不理解人类世界的模糊状态。时至今日,人

工智能的新发展揭示了许多先前被视为正确的理论在面对现实时的不足和缺陷。因此,本文尝试在第一类

解释立场的基础上,考虑一种新的智能观,提出明确的理论模型,选取意识与因果能力为核心因素,作为判断

不可区分性的标准。

二ꢄ双因素模型:意识和因果能力

如前文所述,“通过图灵测试的数字计算机是否能够理解与人类的对话”构成了图灵测试的两种不同解

释立场。对于人类来说,理解语言以及非语言信息意味着将知识和经验抽象化,以便进行归纳、推理,预测、

干预,验证假说并向他人解释自己的理解。而这些正是我们致力于让人工智能拥有的能力。因此,人工智能

面临的首要挑战之一是如何理解人类世界。有学者认为,意识是理解的必要条件^③^。^“意识应该是理解的一

^个^基^本^要^素^,^而^这^种^理^解^必^须^是^任^何^真^正^智^能^的^一^部^分^”^④^。在此基础上^,本文接下来将意识作为理解的第

一个核心因素,选取因果能力作为理解的第二个核心因素,即理解和掌握因果关系(causalit_y)的能力。

其一,意识概念的相关争议很多。部分观点认为自然科学能够解释意识,人脑中的每一项活动都可以找

到充分的物理原因。而另一些观点则认为意识的神秘性无法被科学充分解释。总体来看,意识可以分为两

大类形式:以人或动物为主体的意识形式和以精神状态为属性的意识形式^⑤^。

第一类形式通常是指人或者动物的内在属性,与生理或心理过程密切相关,是主体对特定事物或者情境

的连续的、流动的感知能力。在此基础上,拥有较强意识的主体能够反思,能够理解道德责任和法律责任,能

够对行为进行自主掌控。语言无法完全传达这种内在属性的复杂性和丰富性,意识无法完全被数字化或形

式化。这也正是泛心论(_pan_ps_ychism)为何不支持强人工智能的主要原因^⑥^。具体来说^,数字人工智能将认

知能力抽象为由二进制代码表示的离散状态,而不是连续的状态。“如果泛心论是正确的,那么数字人工智

^能^可^能^无^法^以^任^何^有^意^义^的^方^式^产^生^连^贯^的^宏^观^现^象^意^识^”^⑦^。因此^,尽管当前的人工智能在某些特定任务

上表现出高度智能,但它们并未拥有第一类形式的意识。

ꢀ

第二类形式通常指人类心理状态的主观体验,即感质(_qualia)。内格尔(ThomasNa_gel)提出的“作为某

物是什么感觉”的测试揭示了意识的两个特征:(1)意识并不是全有或全无的状态;(2)不同实体的意识是不

ꢀ

①EmilyM BenderꢁTimnitGebruꢁAngelinaMcMillan-MajoretalꢁꢈOntheDangersofStochasticParrotsꢆCanLanguageModelsBeToo

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

BigꢊꢁꢉinFAccTꢁ21ꢀProceedingsofthe2021ACMConferenceonFairnessAccountabilityandTransparencyꢂAssociationforComputing

ꢀ

Machineryꢁ2021ꢃꢁ616-617

ꢀ

②

TerrenceJSejnowskiꢁꢈLargeLanguageModelsandtheReverseTuringTestꢁꢉNeuralComputation35ꢁno3ꢂ2023ꢃꢆ316

ꢀ

③

SamSRakoverꢁꢈTheTwoFactorTheoryofUnderstandingꢂTFTUꢃꢆConsciousnessandProceduresꢁꢉJournalofMindandBehavior42ꢁ

ꢀ

no3ꢅ4ꢂ2021ꢃꢆ349

ꢀ

④

RogerPenroseꢁShadowsoftheMindꢀASearchfortheMissingScienceofConsciousnessꢂOxfordUniversityPressꢁ1994ꢃꢁ40

ꢀ

⑤PeterCarruthersꢁPhenomenalConsciousnessꢀANaturalisticTheoryꢂCambridgeUniversityPressꢁ2000ꢃꢆ9-22

⑥

⑦

泛心论认为,所有的物理事件在某种意义上都是精神事件,例如电子也以某种形式拥有精神属性。

ꢀ

MarcusArvanꢁCoreyJ MaleyꢁꢈPanpsychismandAIConsciousnessꢁꢉSynthese200ꢂ2022ꢃꢆ3

73

四川师范大学学报(社会科学版)

^同^的^,^某^些^物^种^的^意^识^可^能^超^出^了^我^们^的^理^解^范^围^①^。那么^,我们是否能够合理设想^:^“作为人工智能是什么

感觉?”显然,意识的主观性不仅使我们无法完全理解其他实体的意识状态,并且也很容易产生被其他实体理

ꢀ

解的错觉。例如,在人工智能发展的早期,伊莉莎效应(ELIZAeffect)揭示了人类与机器交互时认知的复杂

ꢀ

性。伊莉莎是魏岑鲍姆(Jose_phWeizenbaum)在20世纪60年代编写的早期自然语言处理程序,最著名的实

例是DOCTOR脚本:它扮演精神病医生的角色与病人谈话,分析出家庭、朋友、孤独、悲伤等关键词,然后提

出后续的开放式问题。即便是非常简单的模拟对话也可能给用户一种错觉,使他们觉得机器背后存在一个

有理解力的实体^②^。类似的现象^,在面向消费者的虚拟助手^、聊天机器人普及后更为明显^。机器学习领域中

ꢀ

常常出现捷径学习(shortcutlearnin_g)或聪明汉斯效应(cleverHanseffect)。在完成某个特定任务时,某个

学习系统是因为数据中的虚假相关性才表现良好,而非拥有类似于人类的理解力^③^。在大语言模型的规模

下,有可能任何评估都包含着复杂的统计相关性,从而在不需要人类水平理解力的情况下也能近乎完美地完

成任务。“我们很难想象,技术和相应的技术产品,比如人工智能,会在乎人类的根本关切”^。人工智能由

④

ꢀ

此可能会生成虚假信息,造成欺骗人类的假象。近日,AI幻觉(AIHallucination)引起了广泛关注。由于大

语言模型常常在对话中输出虚假信息,对话者感受到了一种被人工智能故意欺骗的感觉,进而认为人工智能

产生了人类化特征。AI幻觉似乎预设了人工智能拥有了意识,甚至能够对人类的意图、欲望进行因果推断。

对此,有学者指出,幻觉一词带有明显的人类意图性。实际上,大语言模型的输出错误仅仅是法兰克福所说

的胡扯^⑤^,即无意图地提供虚假信息^。这是技术层面的原因所致^:大型语言模型的目标是复制人类的语言或

写作、提供回应而非表达真理,并非人工智能具有了意向性。因此,如果使用幻觉一词来描述这种现象,那么

^会^误^导^大^众^舆^论^以^及^政^策^制^定^者^的^倾^向^⑥^。如果随意地将人工智能拟人化^,那么可能会导致创造者将责任

都归因于模型的错误输出,由此回避作为有意识的人类创造者本应该承担的责任,进一步会引发众多道德责

任难题。其主要原因在于,我们对待人类和非人类的道德责任判定是有差异的。“与人打交道时,我们会要

求他人的行动‘讲道理’……面对物时,就只关乎物理,不涉及道理”^⑦^。^,

例如律师使用大语言模型生成的虚

假案例形成了诉讼文件,金融分析师使用人工智能助手审查交易而产生误判,等等。由于人类行为具有可解

释性与可理解性,以及人类拥有意识、自由意志等原因,后续的道德责任以及法律责任往往会由人类行动者

承担。而让人工智能承担责任会导致人类行动者回避责任,并且对现有的社会秩序以及政策制定产生冲击。

对比两种意识形式,如果在人类智能的视角中,那么人工智能无法真正思考,也没有产生意识。但另一

方面,智能问题可以由此走出意识的僵局,避免复杂概念的模糊。

综上,从意识这一核心要素来看,机器与人类之间存在着较弱的不可区分性。主要原因在于,我们往往

ꢀ

^认^为^:^人^类^的^许^多^行^为^和^决^策^都^不^能^像^计^算^机^那^样^被^程^序^化^或^者^固^定^形^式^化^⑧^。中文屋⁽Chineseroom⁾的

思想实验也很好地佐证了这一点^⑨^。

其二,如果从意识的角度无法得到较强的不可区分性,那么我们接着尝试从因果能力的角度探讨。

图灵在提出模仿游戏的同时,也提出了一种通过该测试的策略。与其尝试编写一个模拟成人思维的程

ꢀ

①

ThomasNagelꢁꢈWhatIsItLiketoBeaBatꢊꢉPhilosophicalReview83ꢁno4ꢂ1974ꢃꢆ435-450

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

ꢀ

②

JosephWeizenbaumꢁꢈELIZA-AComputerProgramfortheStudyofNaturalLanguageCommunicationbetweenManandMachineꢁꢉ

ꢀ

CommunicationsoftheACM9ꢁno1ꢂ1966ꢃꢆ36-37

ꢀ

③

RobertGeirhosꢁJörn-HenrikJacobsenꢁClaudioMichaelisetalꢁꢈShortcutLearninginDeepNeuralNetworksꢁꢉNatureMachine

ꢀ

Intelligence2ꢁꢂ2020ꢃꢆ665

苏德超《技术冲击与人文底线———兼论新人文教育的迫切性》,《四川师范大学学报(社会科学版)》2019年第6期,第9页。

④

ꢀ

⑤

法兰克福将“胡扯”这一术语引入哲学领域。胡扯并非有意欺骗,而是出于对真相的无知与漠视。参见:HarryG FrankfurtꢁOnBullshit

ꢀ ꢀ ꢀ ꢀ

ꢂPrincetonUniversityPressꢁ2005ꢃꢁ55-56。

ꢀ

⑥

⑦

MichaelTownsenHicksꢁJamesHumphriesꢁJoeSlaterꢁꢈChatGPTisBullshitꢁꢉEthicsandInformationTechnology26ꢂ2024ꢃꢆ1-10

田昶奇《理由响应机制、因果机制与道德责任———兼评刘清平与苏德超的争论》,《四川师范大学学报(社会科学版)》2021年第5期,第114

页。

ꢀ

⑧

HubertL DreyfusꢁSkillfulCopingꢀEssaysonthePhenomenologyofEverydayPerceptionandActionꢁed MarkA WrathallꢂOxford

ꢀ ꢀ ꢀ

UniversityPressꢁ2014ꢃꢁ123

ꢀ

⑨JohnRSearleꢁꢈMindsꢁBrainsꢁandProgramsꢁꢉBehavioralandBrainSciences3ꢁno3ꢂ1980ꢃꢆ417-418

74

尹孟杰ꢄ机器与人类的不可区分性问题研究———回到图灵测试

序,不如先试着编写一个模拟儿童思维的程序。如果能够实现这一点,就可以通过类似于教育小孩的方式来

ꢀ

训练它。对此,珀尔(JudeaPearl)认为达到这一目标的关键是理解和掌握因果关系。人类在进化早期就意

识到世界并非由孤立的事实堆砌而成,而是通过复杂的因果关系网络融合在一起的。“因果解释而非枯燥的

^事^实^构^成^了^我^们^大^部^分^的^知^识^,^它^应^该^成^为^机^器^智^能^的^基^石^”^①^。人类的因果能力分为观察能力^、行动能力

和想象能力三个层次,分别对应复杂程度不等的因果问题。绝大多数动物以及目前的人工智能都居于第一

层级,主要通过关联来学习。早期人类位于第二层级,他们的行动基于计划。位于结构顶端的是反事实

₍_c_o_u_n_t_e_r_f_a_c_t_u_a_l)学习者,他们能够想象一个不存在的世界,并推断现象背后的原因。

具体来说,拥有反事实因果能力的行动者,能够对人类意图进行合理判定。这也是人工智能面临的重大

挑战之一,准确推断人类的需求是解决人工智能价值一致性问题的先决条件,解决问题的工具之一是逆强化

学习。逆强化学习是将强化学习^②的方法倒置^:通过观察已经学习了有效策略的智能体行为^,从而推断出导

致这些策略的奖励。意图是行动者决策过程中的一个关键因素。如果行动者能够理解自己的意图并将其作

为因果推理的依据,那么这意味着智能实体达到了自我认知的层次。我们试图推断出激励人类行为的奖励、

推断他人行为背后隐藏的原因,其实是在寻找某种人类行为模型。如果这个模型是准确的,我们就能作出有

效的推论,反之则会出错。例如,当教授没有立即回复学生的电子邮件时,学生可能会推断出教授对他漠不

关心;但与此同时,学生没有考虑到教授或许正在度假。从历史上看,寻找人类行为模型与人工智能的发展

密切相关。第一个人工智能系统,逻辑理论家能够通过模拟人类数学家使用的策略自动生成数学证明^③^。

此外,错误信念任务被认为是测试“人类能否理解他人心理状态”的可靠实验,旨在测试儿童对他人信念的理

解能力,尤其是那些与自己认知不同的信念。这类任务通常涉及某个故事或情景,其中一个角色根据不正确

的信息作出了决定或行动,而测试的目标是关注被试儿童是否能认识到这种信念的错误性并预测角色的行

^为^④^。小男孩马克西将一块巧克力放在红色橱柜里^,然后出门玩耍^。在他外出的时候^,妈妈将巧克力从红色

橱柜移到了绿色橱柜。随后,马克西回到家中。在这种情景下,研究者向被试儿童提问:“马克西会去哪里找

巧克力呢?”正确答案应该是“红色橱柜”,因为马克西并未目睹妈妈转移巧克力位置的过程。根据韦尔曼对

78项错误信念任务的分析显示^:^在^通^过^测^试^的^儿^童^中^,50%^的^年^龄^为44^个^月⁽3^岁^零8^个^月⁾^;^年^龄^从⁴⁴^个

月增长到45个月,随之正确率从50%增加到52%^⑤^。_儿_童_们_通_常_在_大_约₄_到₅_岁_时_开_始_能_成_功_地_解_答_此_类

错误信念任务,显示出他们开始理解他人的信念可能与事实不符。

1

新近的相关研究显示,人类独有的这种心智能力,可能自发地出现在大语言模型中。研究者设计了40

个错误信念任务,“GPT-3-davinci-001(自2020年5月起)和GPT-3-davinci-002(自2022年1月起)解决了

0%的任务^;GPT-3-davinci-003⁽^自2022^年11^月^起⁾^和ChatGPT-35-turbo⁽^从2023^年3^月^开^始⁾^解^决^了

1

5%的任务^,^模^仿^了³^岁^儿^童^的^表^现^。ChatGPT-4⁽^自2023^年6^月^起⁾^解^决^了⁹⁰^%^的^任^务^,^与7^岁^儿^童^的^表

3

现相当”^⑥另一个案例也显示了人工智能在处理反事实问题上的进步^。大型语言模型的基石是指令微调

。

ꢀ

(_i_n_s_t_r_u_c_t_i_o_n_t_u_n_i_n_g),有效地使模型的训练目标与人类意图相符合,从而确保模型能够解释和执行人类的指

令。现有的众多英文指令微调数据集已显示出较好的流畅性和准确性,然而中文指令微调的可用数据集要

么规模有限,要么不符合自然的中文交流模式。因此,有研究团队尝试建立一个更高质量的中文指令微调数

据集,以更好地将模型行为与人类互动结合起来;并从多渠道收集了中文互联网的高质量人工写作语料库,

ꢀ

①

②

③

朱迪亚·珀尔、达纳·麦肯齐《为什么:关于因果关系的新科学》,江生、于华译,中信出版集团2019年版,第4页。

强化学习是训练智能机器的标准方法,通过将特定的结果与奖励联系起来,机器学习系统可以被训练成遵循产生这些结果的策略。

ꢀ

由西蒙(HerbertSimon)和纽维尔(AllenNewell)于1955年编写的计算机程序,被认为是第一个用来执行自动推理的程序。参见:Pamela

ꢀ

McCorduckꢁMachinesWhoThinkꢀAPersonalInquiryintotheHistoryandProspectsofArtificalIntelligenceꢂAKPetersꢁ2004ꢃꢁ161。

ꢀ

④

⑤

⑥

HeinzWimmerꢁJosefPernerꢁꢈBeliefsaboutBeliefsꢆRepresentationandConstrainingFunctionofWrongBeliefsinYoungChildrenꢋs

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

UnderstandingofDeceptionꢁꢉCognition13ꢁno1ꢂ1983ꢃꢆ106-107.

ꢀ

HenryM WellmanꢁDavidCrossꢁJulanneWatsonꢁꢈMeta-analysisofTheory-of-MindDevelopmentꢆTheTruthAboutFalseBeliefꢁꢉChild

ꢀ

Development72ꢁno3ꢂ2001ꢃꢆ675

ꢀ

MichalKosinskiꢁꢈTheoryofMindMayHaveSpontaneouslyEmergedinLargeLanguageModelsꢁꢉarXivꢁlastmodifiedFebruary17ꢁ2024ꢁ

ꢀ

accessedDecember23ꢁ2023ꢁhttpsꢆꢅꢅdoiorgꢅ1048550ꢅarXiv230202083

75

四川师范大学学报(社会科学版)

这13个来源包括社区问答论坛、百科网站、内容创作平台、考试以及现有的中文自然语言处理数据集;最终

ꢀ

经过严格的人工过滤处理收集到的语料库,形成COIG(ChineseO_penInstructionGeneralist,即中文开源指

令数据集)^①^。研究团队在CQIA的不同子集上训练了不同规模的模型^,进行了深入的评估和分析^。从结果

看,使用GPT4在BELLE-EVAL上评估了Yi-6B在不同数据集上训练的性能,考试子集在所有子集中实现

了最佳性能,在提取、数学任务以及逻辑推理中表现出色。

综上,相较于意识层面的对比,因果能力这一层面似乎得到了程度较高的不可区分性,但在高层级的因

果能力上仍然存在提升空间。至此,意识与因果能力两方面都未展现出强意义上的不可区分性。

三ꢄ我们需要智能工具,而非人类意识行动者

图灵测试的初衷及其后续引发的争论表明,智能没有一个绝对的定义,它取决于不同的研究视角。通过

图灵测试的机器具有一定的智能,但图灵测试并未断言没有通过测试的机器一定不具有其他方面的智能。

因此,需要考虑一种新的智能观:智能具有多种功能、形式和结果。

正如不同的物种能够更好地适应不同的环境,不同的智能系统也能够更好地处理不同的问题。对比人

ꢀ

工智能采取的两种主要路径:早期的符号人工智能(S_ymbolicAI)使用符号来代表系统正在推理的内容,拥

ꢀ

有程度很高的透明度,我们可以凭借指令完全确定机器的行为。与此相对,神经网络(NeuralNetworks)将

人脑结构作为智能系统的组成部分进行建模,拥有更强的泛化能力,但知识不透明和系统不稳健也由此成为

了其弊端。例如,在与李世石的对局中,Al_phaGo在第二局下出了令人迷惑的第37手^②^。从历史上看^,人工

智能系统日渐表现出了强大的泛化能力和良好的判断力,有时甚至展现了认知灵活性和创造力。

尽管人类大脑和数字计算机可能在结构和运作方式上仍然存在差异,但如果数字计算机能够很好地处

理任务,我们似乎不能否认它展现出了智能。对此,可以借助一种特殊的本体论进行分析:“事实证明,将术

语‘本体论’扩展到其基本含义之外……或者将其用于表示更近代的计算机程序必须处理的‘事物’集合,都

是非常实用的。”^③在人类的本体论中^,存在着对具体事物的喜爱或者厌恶等情感^,但这些都不存在于数字计

算机的本体论中。没有任何机器能够感受到成功的快乐,在自己的零部件被熔断时感到悲伤,被众人奉承时

感到自豪,因程序出错而痛苦,对其他的机器产生爱慕。同时,“我们不希望因某台机器在选美比赛中无法脱

颖而出而惩罚它,也不希望因某个人在与飞机的比赛中输掉而对他进行惩罚”^④^。图灵指出^,这种极端的唯

我论(Soli_psist)意味着:如果我们要确认机器会思考,唯一的方法就是成为机器,感受机器的思维。面对智

能问题,我们往往天然地持有唯我论立场,而忽视了存在其他非人类智能方式的可能性。有学者认为,由于

动物无法使用语言与人类交谈,因此我们常常带有偏见地低估其他动物的智力^⑤。那么,当大语言模型已经

能够使用自然语言交谈时,以往的旧观念似乎不再足够有效。对此,我们不妨采取一种较弱的立场:同时承

认人类本体论与非人类本体论的合理性,尝试放弃人类中心主义的智能观,正视人工智能日益展现出的新智

能。当大众对不断出现的人工智能系统的热潮逐渐放缓时,多视角的意见值得我们关注。

首先,虽然从人类智能的视角来看,机器与人类之间的不可区分性仍然较弱,但二者之间的关系已逐渐

转变为相互促进;人工智能不仅会在许多智能活动中模仿人类,还会在这个过程中改变人类。而传统的人类

中心主义智能观,似乎无法全面解释这些新的现实问题。近日,有开发者在测试场景中同时集结了四种人工

ꢀ

智能(GPT-4TꢁClaude3O_pusꢁLlama3ꢁGeminiPro)以及一个真实的人类,用以测试这些模型能否判断

^出^谁^是^人^类^。^最^终^通^过^互^问^互^答^,^人^工^智^能^模^型^轻^松^获^胜^⑥^。有学者指出^,在与人类对话时^,大语言模型实

ꢀ

①

YuelinBaietalꢁꢈCOIG-CQIAꢆQualityisAllYouNeedforChineseInstructionFine-tuningꢁꢉarXivꢁlastmodifiedMarch26ꢁ2024ꢁ

ꢀ ꢀ ꢀ ꢀ

accessedJuly23ꢁ2024ꢁhttpsꢆꢅꢅdoiorgꢅ1048550ꢅarXiv240318058

AlphaGo于2016年与世界围棋冠军李世石进行对决,并以4︰1的成绩获胜。

丹尼尔·丹尼特《从细菌到巴赫再回来》,冯文婧、郭瑞东译,中国纺织出版社2024年版,第64ꢇ65页。

②

ꢀ

③

④

⑤

⑥

ꢀ

AlanM TuringꢁꢈComputingMachineryandIntelligenceꢁꢉMind59ꢁno236ꢂ1950ꢃꢆ435

ꢀ

FransdeWaalꢁAreWeSmartEnoughtoKnowHowSmartAnimalsAreꢂꢂW W Norton&Companyꢁ2016ꢃꢁ1-6

ꢀ

ToreKnabeꢂ@tamulurꢃꢁꢈReverseTuringTestExperimentwithAIsꢁꢉYouTubeꢁMay28ꢁ2024ꢁaccessedJuly23ꢁ2024ꢁhttpsꢆꢅꢅyoutu

beꢅMxTWLm9vT_oꢊsi=kRVYklziUdWSgC4x

76

尹孟杰ꢄ机器与人类的不可区分性问题研究———回到图灵测试

际上在执行一个更复杂的反向图灵测试:“你越聪明,提示越聪明,大语言模型看起来就越聪明。”^①

其次,人类如何看待人工智能的态度以及如何处理人类与技术之间关系的实践^②^,产生了新的变化^。

有

研究分析,“对于强AI议题的态度,均经历了一个转换过程:AI界从支持者逐渐转变为质疑者;而哲学社会

科学界则从悲观论者转化为乐观论者”^③^。例如^,在科幻电影^《银翼杀手^》中有着具象化的情节设定^:已退役

的银翼杀手日复一日地进行测试,目的是确定一个看似美丽的年轻女子是否真的是机器人^④^。从最开始我

们对新技术的未知而衍生出担忧与抵触,到现在各类智能工具和我们日常生活融为一体,现实逐渐表明不可

区分性问题已不仅仅局限于最初的目的———寻找机器与人类的不可区分性,智能问题需要面对更多新的

议题。

最后,我们还需要警惕认知退步的风险。信息时代也是信息缺失时代,智能问题的研究目标是创造出更

为优秀的智能工具,而非简单地复制人类智能的模式。即使人工智能根据已有的数据形成了数量庞大的各

种模式,但仍然有更多的可能性从未被数据化或者无法被数据化。如丹尼特所言,“我们不需要人工意识行

ꢀ

动者(ArtificialConsciousA_gents)。有过多的自然意识行动者(NaturalConsciousA_gents),足以处理任何

ꢀ

应该留给这些特权实体的任务。我们需要的是智能工具(Intelli_gentTools)”^⑤^。人工智能与人类各司其职^,

那些需要大量数据分析才能达到最优解的问题,依旧是大规模统计模型擅长的工作;而那些涉及到因果机制

的问题以及其他无法被数据化的问题则更需要人类智能。

四ꢄ结语

综上所述,图灵测试及其关注的不可区分性问题,核心在于探寻人工智能与人类智能二者之间的关系。

现实表明,人工智能已从最初的模仿人类智能逐渐转变为开始影响人类智能。在人类中心主义智能观的视

角下,以意识以及因果能力作为核心要素,机器与人类之间的不可区分性程度较弱,并且人类中心主义智能

观已无法有效地解释新的现实问题。更为可取的态度是,既不低估当前人工智能的优秀表现,又不过早地将

其拟人化;在努力创建更优秀的人工智能的同时,也应该对已有的人工智能秉持更加谨慎的态度。

[责任编辑:何_ꢄ毅]

ꢀ

①

②

TerrenceJSejnowskiꢁꢈLargeLanguageModelsandtheReverseTuringTestꢁꢉNeuralComputation35ꢁno3ꢂ2023ꢃꢆ317

需要指出的是,“人工智能”不等同于“实现人工智能的技术和方法”。许多描述人工智能的方式似乎都存在着类似的混淆,即根据所使用的

技术或方法来定义人工智能。

③

④

王彦雨《“强人工智能”争论过程中的“态度转换”现象研究》,《科学技术哲学研究》2020年第6期,第27页。

ꢀ

《银翼杀手》(BladeRunner)是斯科特(RidleyScott)于1982年拍摄的经典科幻电影,改编自迪克(PhilipK.Dick)所著小说《仿生人会梦见电

子羊吗?》。

ꢀ

⑤

DanielC DennettꢁꢈWhatCanWeDoꢊꢁꢉinPossibleMindsꢀTwenty-FiveWaysofLookingatAIꢁedJohnBrockmanꢂPenguinPressꢁ

ꢀ

2019ꢃꢁ51

77