第44卷第1期
2
017年1月
四川师范大学学报(社会科学版)
JournalofSichuanNormalUniversity(SocialSciencesEdition)
Vol.44,No.1
January,2017
组合原则和自然语言虚化成分
1
,2
邹崇理
(1.四川师范大学逻辑与信息研究所,成都610066;2.中国社会科学院哲学所,北京100732)
摘要:计算机人工智能时代最重要的任务之一是自然语言的信息处理,逻辑语义学则是其基础理论,而组合原
则又是逻辑语义学的基本原则,表现为部分决定整体的函项思想。自然语言的虚化成分是自然语言复合表达式中
对整体意义不起作用的那些部分,自然语言违反组合原则的情况表现为句法和语义的不对应,意味着决定整体意
义的“部分”这个概念应该受到限制,组合原则的经典表述在自然语言的某些场合受到挑战。就自然语言的某些语
义领域而言,限制性的组合原则概念是关于组合原则具体精准的表述。
关键词:逻辑语义学;组合原则;自然语言;虚化成分
中图分类号:B815.3;O141 文献标志码:A 文章编号:1000-5315(2017)01-0005-05
逻辑学是人文社会科学和自然科学共同的基础学
科。1974年,联合国教科文组织规定的七大基础学科
依次为数学、逻辑学、天文学和天体物理学、地球科学
和空间科学、物理学、化学、生命科学。由此可见,逻辑
学在人类整个知识结构中的基础地位。20世纪中叶
以来,计算机科学技术的迅猛发展,导致席卷全球的信
息革命,而自然语言是信息的重要载体之一,信息革命
离不开自然语言的计算机处理。逻辑作为人类知识结
构的基础,同样在自然语言的信息处理领域内发挥巨
大作用。
从逻辑语义学角度对自然语言进行形式化研究,
组合原则是其重要的方法论,那么怎样理解组合原则?
组合原则是什么?
一
什么是组合原则
组合原则是逻辑语义学的基本原则。组合原则直
观表述为:如果表达式E依据某个句法规则由部分E1
和E2 所构成,则E的语义M(E)是依据某个语义规则
把E
的语义M(E)和E 的语义M(E)合并起来而
1 1 2 2
获得的。举例来说,表达式“伟大祖国”的语义是由形
容词“伟大”的语义限制名词“祖国”的语义而获得。表
达式“戴眼镜的女孩”的语义是以由定语从句“某某戴
眼镜”的语义和名词“女孩”的语义合并而成。
自然语言的计算机信息处理过程是:首先,把需要
研究的语言学问题用数学或逻辑的形式严密而规整地
表示出来;其次,把这种严密而规整的表述表示成算
法,建立各种自然语言处理系统;第三,对自然语言处
理系统进行评测,不断改进质量和性能。逻辑语义学
关于自然语言的研究主要对第一步骤发生作用,逻辑
语义学是自然语言信息处理的基础理论学科,前者为
后者提供了诸多重要的操作工具和指导思想。
严格讲,组合原则意味:一个复合表达式的语义是
由部分的语义贴合这些部分的句法运算的意义所构成
的函项。组合原则的数学定义深刻揭示了这样的特
[1]526
征
。
令A=<A,F>和B=<B,G>都是代数,映射h:A
→B 是同态的,当且仅当,存在一个映射h':F →G 使
收稿日期:2016-02-26
基金项目:国家社科基金重大招标项目“自然语言信息处理的逻辑语义学研究”(10&ZD073)。
作者简介:邹崇理(1953—),男,四川成都人,四川师范大学特聘教授、逻辑与信息研究所学术委员会主席,中国社会科学院博
士生导师,中国逻辑学会会长,主要研究自然语言逻辑。
5
四川师范大学学报(社会科学版)
延伸到自然语言的研究领域,形成了以蒙太格语法
得对所有f ∈F 和所有a1,…,an ∈A 都有:
h(f(a ,…,a ))=h'(f)(h(a ),…,h(a
[2]247-270
))
(MontagueGrammar)
为首的逻辑语义学群体,
1
n
1
n
在自然语言领域,A 是句法代数,B 是语义代数,h
就是从句法生成到语义组合的意义指派。A是句法表
达式的集合,B是语义值的集合,F是句法算子的集
合,G是语义算子的集合。f是F中的某个算子,a1,
组合原则自然也成为逻辑语义学的灵魂。
蒙太格语法是强调组合原则的逻辑语义学理论。
在其构造的三个英语部分语句系统那里,句法和语义
处处严格对应。以PTQ系统为例,17条句法规则对
[2]247-270
…
,an是A中的n个表达式,h'(f)是G中对应f的语
应17条语义翻译规则
。每条翻译规则体现出:
义算子,h(a1),…,h(an)是B中对应a1,…,an 的n个
语义值。复合表达式f(a1,…,an)是f对a1,…,an进行
句法生成的结果,其语义h(f(a1,…,an))就是语义算
子h'(f)对n个部分语义h(a1),…,h(an)进行运算的
结果,是语义算子贴合部分语义进行运算的函项。
例子解读:令句法代数A的论域A={张三,李四,
散步,学习,张三散步},语义代数B的论域B={a,b,
复合表达式的翻译是其部分表达式翻译的函项。句
子、动词短语和名词短语三类合取复合表达式的句法
规则及其翻译规则如下:
Syn1.若φ,ψ∈Pt,则F8(φ,ψ)=φandψ∈P
;
t
Syn2.若δ,γ∈PIV
, (,)
F
δγ=δandγ∈PIV;
Syn3.若α ∈P Fα =αorβ∈P
, (,) 。
β
T 9 T
8
,
β
Tra1.若φ,ψ分别翻译成φ',ψ',则φandψ翻译
[
'∧']
φ ψ
;
{
b},{a,b},1,0}。再令f(张三,散步)=张三散步,h
张三)=a,h(散步)={a,b},h'(f)=g。对此进行语义
指派得:h(f(张三,散步))=h'(f)(h(张三),h(散步)) λx[δ'(x)∧γ'(x)];
成
(
Tra2.若δ,φγ别翻译成δ',γ',则δandγ翻译成
=
g(a,{a,b})=1,当且仅当a∈{a,b}。
Tra3.若α,β分别翻译成α',β',则αorβ翻译成λP
[α'(P)∨β'(P)]。
可以看出组合原则具有两个重要特征:(1)复合表
达式语义组合“h'(f)(h(a1),…,h(an))”的根源依据是
复合表达式的句法生成“f(a1,…,an)”,这就是句法和
语义对应的思想;(2)复合表达式的语义不仅依靠其部
分的语义“h(a1),…,h(an)”,还取决于合并这些部分
的句法生成的意义“h'(f)”。
翻译起意义指派函项的作用。令T是翻译函项,
拿Tra2.来说,T(δandγ)=T(and(δ,γ))=h'(and)(T
(δ),T(γ))=λx[δ'(x)∧γ'(x)]。复合表达式的翻译
依赖部分表达式的翻译。
组合原则的作用还体现在更多的领域内。
在计算机科学那里,连接许多通信处理器的大网
络技术发展很快,人们特别关注超大系统的行为。在
有关研究中,组合原则起到很大的作用:牵涉整个系统
行为的证明应该是各个处理器的证明的函项。这方面
的介绍参见文献。
组合原则是现代逻辑的基石,在构造逻辑系统中
起到方法论的作用。组合原则要求逻辑系统中每个句
法(语形)形成规则必须对应一个语义解释规则。命题
逻辑严格遵循了意义的组合原则,令∥∥为意义指派
函项h,则有:
Syn1.原子公式p
,p
,∈Form;
组合原则在形式翻译领域作用更大。为了考察逻
辑系统之间的关系,比较表达力的大小以及获得相对
的协调性,人们往往设立符合组合原则的翻译程序。
最著名的例子是Gödel把直觉主义逻辑转换成模态逻
辑的翻译。在直觉主义逻辑那里,联接词具有一种构
造性解释,如φ→ψ被解释成:给定φ的证明,据此构造
ψ的证明。令Tr为翻译函项,翻译程序定义为:
a.Tr(p)=□p 对原子命题p
1
2
Syn2.若φ∈Form,则( φ)∈Form;
Syn3.若φ,ψ∈Form,则(φ→ψ)∈Form。
Sem1.‖pi‖∈{0,1};
Sem2.‖( φ)‖=1当且仅当‖φ‖=0;
Sem3.‖(φ→ψ)‖=1当且仅当‖φ‖=0或‖ψ
‖
=1。
句法规则Syn1对应语义规则Sem1,Syn2对应
Sem2,Syn3对应Sem3。显然,这里复合表达式的语义
依据其部分表达式的语义,复合表达式的所指是部分
表达式所指的函项。如‖(φ→ψ)‖=‖→(φ,ψ)‖=
h'(→)(‖φ‖,‖ψ‖)=1,当且仅当‖φ‖=0或‖ψ
b.Tr(φ∨ψ)=Tr(φ)∨Tr(ψ)
c.Tr(φ∧ψ)=Tr(φ)∧Tr(ψ)
d.Tr(φ→ψ)=□p(Tr(φ)→Tr(ψ))
复合表达式的翻译,依据部分表达式的翻译来确
定。Gödel的翻译是一种组合翻译,逻辑系统之间大量
的组合翻译可以参见Epstein的著述。
‖
=1。
自20世纪70年代初开始,现代逻辑的方法扩展
6
邹崇理组合原则和自然语言虚化成分
在不同自然语言之间也可以实行组合性的机械翻
译。把一种自然语言翻译成另一种语言,要求保留源
美丽
的
姑娘
Lex
Lex
Lex
语言的意义,机器翻译的研究项目“Rosetta”企图基于 n/n:美丽
翻译的组合原则来达到这一目标,两个表达式能够互
(n/n)\(n/n):lM.M n:姑娘
\E
译仅当它们的部分能够互译。
n/n:lM.M(美丽)
组合原则在理论和应用方面尽管有很大的价值和
作用,但是也有其局限性。在Pelletier看来,下列句子
对组合原则构成挑战:
/E
n:(lM.M(美丽))(姑娘)
λꢀ转换
Everylinguistknowstwolanguages.
n:美丽(姑娘)
Thephilosophersliftedthepiano.
最后结果表明,表达式“美丽的姑娘”的语义表达
“美丽(姑娘)”中没有“的”所对应的语义表达。而王欣
在她的博士论文《类型逻辑语法与现代汉语“是”和
“的”》中给出的推演为:
第一个句子因为两个不同的语言学家所熟知的两
种语言是否彼此相同而产生歧义,第二句子不能确定
是每个哲学家分别抬这台钢琴,还是哲学家们共同抬
这台钢琴。两句的歧义既不来源于词汇,也不是由句
法生成所引起。两句的情况都是:由相同部分的语义
a.中式
家具 b.中式的家具
n/n n
n/n n
和相同的句法运算意义不能唯一确定整体表达式的语
义。
n
n
她直接指出,在a和b里“中式”和“中式的”的范
[
4]157
组合原则是一个纯理论的数学概念,而具有相当
灵活性和复杂性的自然语言中出现不遵循组合原则的
例子在所难免。这些例子由自然语言的语用因素、歧
义现象和句法语义的不对应所引起。本文所关注的自
畴都是n/n,加不加“的”意思都相同
。也就是说,
这个“的”对语言分析来说是多余的成分。
通常对汉语的动词短语表达式“飞快地跑步”是这
样处理的:令“飞快”的逻辑式为α,“跑步”的逻辑式是
然语言虚化成分现象,涉及句法和语义的不对应,而并 γ,“飞快地跑步”的逻辑表达就是α(γ)。从语义角度
非遵守组合原则。即有的自然语言表达式,其句法构
成是f(A,B,C)=ABC。按照组合原则粗略看,其整
看,这里“地”是没有所指的。况且,在英语中,“飞快地
跑步”对应“runrapidly”,“漂亮的女孩”对应“pretty
体语义依赖A的语义、B的语义和C的语义。这里,由 girl”,英语上述短语的语义只需要两个成分起作用,这
于B是虚化成分,其整体语义仅仅依赖A的语义和C
的语义。那么,什么是虚化成分?
里汉语表达式中的“地”和“的”均可以看作是没有语义
所指的虚化成分。
二
自然语言虚化成分
我们从类型逻辑语法角度审视,首先确立包含下
列词条的词库:
我们注意到,在自然语言中,有那样一些语言表达
式,在句法上把其左边具有语义所指的表达式跟其右
边具有语义所指的表达式隔开,而自身在整个表达式
的语义解释中没有所指物。如汉语的结构助词,英语
不定式中的小品词to等,我们称之为虚化成分。简言
之,虚化成分是复合表达式中那些不起语义作用的句
法成分。
飞快⇒np\s)/(np\s):α 地⇒B:Ø(空逻辑式)跑
步⇒np\s:γ
然后可以看到从□飞快地跑步推出np\s:α(γ)”的
树模式图示:
飞快
地
跑步
我们以汉语结构助词“的”为代表来看学术界对此
的处理情况。刘壮虎在《逻辑学增刊》上构造的复合谓
词逻辑系统中,把诸如“大的蚂蚁”之类短语的逻辑语
义分析看作是“大”对应的谓词对“蚂蚁”对应的谓词进
行复合的结果,结构助词“的”在这里没有对应的逻辑
(np\s)/(np\s):α B:Ø np\s:γ
np\s)/(np\s):α np\s:γ
np\s:α(γ)
删去虚化成分
[3]146
词项。张秋成在专著《类型逻辑语法研究》
中的推
上述删去虚化成分的推演需要提供新的推演工
具。这就是:从A:α,B:Ø,C:γ推出A:α,C:γ。对此
抽象,去掉与范畴配对的λꢀ项,再把虚化成分B及其
演是:
7
四川师范大学学报(社会科学版)
左右范畴A和C构成一个所谓“省略槽”的复合范畴
A{B}C],即得:[A{B}C]→(A·C),这就是新的推演
υ(A·B)={x|∃y∃z[Rxyz&y∈υ(A)&z∈
[
υ(B)]}
工具。三元复合范畴[A{B}C]是删去虚化成分的起
点,据此揭示包含虚化成分的表达式的语义特征,如
υ(C/B)={y| ∀x∀z[Rxyz & z ∈υ(B))⇒x ∈
υ(C)]}
“迅速地跑步”,“美丽的女孩”和“玩得高兴”,其中的
υ(A\C)= {z| ∀x∀υ[Rxυz & υ ∈υ(A))⇒x ∈
“
地”、“的”和“得”所属范畴就是起间隔虚化作用的B。 υ(C)]}
三元复合范畴的语义解释如下:
按照惯例给出系统的框架语义,这是一个由三元可及
关系R和四元可及关系S组成的混合框架。系统的语
义特色在于下述框架限制:
v([A{B}C])={x|∃yz[Sxyg(B)z&y∈║A║
&
z∈║C║]}
按照上述定义:Sxyg(B)z意味:x是y、g(B)和z毗
限制0:∀B∀x[x~g(B)⇒x∈v(B)]
限制1:∀xyz[Rxyz⇒Rxzy]
连的结果,具有语义所指的符号串y和z分别属于A
和C,而g(B)指起虚化作用的符号串,B是A和C之
间的虚化范畴(对应的语义所指为空逻辑式)。于是
有:
限制2:∀xyzu[Sxyzu⇒Rxyu]
限制3:∀xyzuvw[Rxyz&Szuwv⇒t[Sxtwv&
Rtyu]]
限制0:∀B∀x[x~g(B)⇒x∈v(B)]
限制4:∀xyzuvw[Rxyz&Syuvw⇒t[Sxtvw&
这里x~g(B)的直观理解是:x是g(B)(起虚化作 Rtuz]]
用的符号串)。限制0表明起虚化作用的符号串是║
B║中的元素。
限制5:∀xyzuvw[Rxyz&Szuvw⇒t[Sxuvt&
Rtyw
限制6:∀xyzuvw[Rxyz&Syuvw⇒t[Sxuvt&
Rtwz]]
]]
于是,我们提出基于[A{B}C]的范畴逻辑系
[
5]370-381
。其公理是:
公理0:A→A
统
限制7:∀xyzuvwst[Rxyz&Syuvw&Szsvt⇒
∃ab[Sxavb&Raus&Rbwt]]
公理1:A·B↔B·A
公理2:[A{B}C]→(A·C)
依据上述提供的框架语义解释及其限制,可以证
公理3:D·[A{B}C]→[(D·A){B}C]
公理4:[A{B}C]·D→[(A·D){B}C]
公理5:D·[A{B}C]→[A{B}(D·C)]
公理6:[A{B}C]·D→[(A{B}(C·D)]
公理7:[A{B}C]·[D{B}E]→[(A·D){B}(C·
明系统的可靠性和完全性。可判定性证明也可按照惯
[5]370-381
例给出
。
上文已强调,系统的最大特色就是公理2:[A{B}
C]→(A·C)。意味从A:α,B:Ø,C:γ推出A:α,C:γ。
从句法角度看,复合表达式“ABC”的部分表达式是
E)]
“A”、“B”和“C”。公理2的潜在显示为:“ABC”即“[A
系统的规则有(Lambek演算的5条推演规则):
{B}C]”的整体语义就是“A·C”的语义,即“α(γ)”。而
A·B→C
A→C/B
A→C/B
A·B→C
A·B→C
这仅仅取决于部分表达式“A”的语义“α”和部分表达
式
“C”的语义“γ”,复合表达式的语义并非如组合原则
B→A\C
所要求的是由所有部分表达式的语义来决定。
在自然语言复合表达式中间的部分表达式是虚化
成分的条件下,这时的组合原则就是受限的,其表述就
B→A\C
A·B→C
A→B B→C
A→C
是
:
复合表达式的语义是由除去作为那个虚化成分的
此外,系统还有两条独特的推演规则:
部分的语义以外的其他部分的语义贴合这些部分的句
法运算的意义所构成的函项。受限组合原则的定义
为:
规则6:
规则7:
A→B
[
A{D}C]→[B{D}C]
令A=<A,F>是句法代数和B=<B,G>是语义代
数,映射h:A→B是同态的,当且仅当,存在一个映射
A→B
[D{C}A]→[D{C}B]
对构成其他复合范畴的算子,传承Lambek演算L h':F→G,存在f∈F并且存在a1,…,an∈A满足:
系统的语义解释如下:
h(f(a,…,a,…,a))=h'(f)(h(a),h(aiꢀ1),h
1 i n 1
8
邹崇理组合原则和自然语言虚化成分
(
a
i+1)…,h(an))(1<i<n)
结构助词“的”也都是自然语言中的虚化成分。
结论
其中,h(ai)是作为虚化成分的部分的语义。
例子解读:动词短语表达式“飞快地跑步”的句法
生成:f(飞快,地,跑步)。令“飞快”的逻辑语义为α,
三
由于自然语言的丰富多样性,句法和语义的对应
及意义的组合原则往往表现出异彩纷呈的局面。这给
人们留下研究的空间,探讨作为数学概念的组合原则
怎样通过具体生动的自然语言而呈现出多种多样的表
现形式,是逻辑语义学介入自然语言信息处理领域所
期待的工作,是逻辑学作为基础工具学科作用于计算
机人工智能科学的价值所在。
“跑步”的逻辑语义是γ,“飞快地跑步”的逻辑语义就
是h(f(飞快,地,跑步))=h'(f)(α,γ)=α(γ)。从语义
角度看,这里“地”是没有逻辑语义的,在复合表达式
“飞快地跑步”的整体语义组合中不起作用,是语义虚
化的部分表达式。“美丽的姑娘”和“中式的家具”中的
参考文献:
[
1]JanssenT,Partee.Compositionality [C]//JohanvanBenthemetal.(eds.).HandbookofLogicandLanguage [M].
Amsterdam:Elsevier,2011.
2]MontagueR.FormalPhiloso h
[
p y [M].NewHaven:YaleUniversitPress,1974.
3]张秋成.类型逻辑语法研究[M].北京:中国人民大学出版社,2007.
4]王欣.类型逻辑语法与现代汉语“是”和“的”[M].北京:北京语言大学出版社,2009.
y
[
[
[5]ZOUChonglietal.TheCategoricalLogicofVacuousComponentsinNaturalLanguage[C]//VanDitmarschetal.(eds.).
Logic,Rationality,andInteraction,LNAI6953.Berlin:Springer-Verlag,2011.
PrincipleofCompositionalityand
VacuousComponentsinNaturalLanguage
1
,2
ZOUChong-li
(1.InstituteofLogicandInformation,SichuanNormalUniversity,Chengdu,Sichuan610066;
2
.InstituteofPhilosophy,ChineseAcademyofSocialSciences,Beijing100732,China)
Abstract:PrincipleofcompositionalityisthemostimportantprincipleforLogicalSemantics,
atheoreticalfoundationofNLP(NaturalLanguageProcessing),whichisoneofthemostimpor-
tanttasksintheageofartificialintelligence.Principleofcompositionalityembodiestheideathat
themeaningofthewholeexpressionisthefunctionofthemeaningsofitscomponents.However,
asatypicalphenomenonofanti-syntax-semantics-correspondence,thevacuouscomponentsin
complexexpressionsofnaturallanguagemakenocontributiontothemeaningofthewholeex-
pression.Therefore,themeaningsofitspartsshouldbemanipulatedunderacertainrestrictions
ofprincipleofcompositionality.Thispaperproposestherestrictedprincipleofcompositionality
asamoreaccurateexpressionofthePrinciple.
Keywords:logicalsemantics;principleofcompositionality;naturallanguage;vacuouscom-
ponents
[责任编辑:帅巍]
9