丹渥智能科技有限公司

闲话语义

2020年03月27日

前言

话说，人工智能已经来到了一个重要的拐点，自然语言语义的精准理解已经成为皇冠上的明珠，谁有本事摘取这颗明珠，谁就能在历史上留下浓墨重彩的一笔。

但是，语义是什么？语义知识长什么样？我们应该建设什么样的语义知识基础设施，才能够满足夺冠的需要？这些问题，可能是很多人想了解但又被各种走捷径的思潮所诱惑下不了决心深入了解的。

在这种情况下，我们隆重推出骨灰级NLP专家原创的《闲话语义》系列，期待能够对大家有所帮助和启发。

什么是语言？

语言是人类或类人智能系统在交际活动中产生并使用的、以“牺牲自己、代表别人”为主要特点的线性符号系统。语言可以分为自然语言和人工语言，我们这个闲话系列中只考虑自然语言。

牺牲自己，就是说符号自身在正常的交际过程中被忽略。符号成为“能指”，处于“元层次”。

代表别人，就是说符号在正常的交际过程中是符号之外的某些事物的代表/表示/表达。符号所代表之物成为“所指”，处于“对象层次”。

当然，在“非正常的”交际过程，比如歧义/双关、修辞手法、语言游戏、语言相关的学术研究等活动中，符号自身会被关注，会被强制拉扯到意义层面，形成层次纠缠。

比如，相声《答非所问》中，向我们展现了一个答非所问的语言游戏，里面有一个问者，一个答者，问者连续问五个问题，答者对每个问题的问答都必须答非所问，否则算输。当问者问到“几句了？”的时候，答者回答“三句了”，被问者抓到把柄。后来重复玩这个游戏的时候，答者在第三句时防范了一下，没想到问者在第四句又设下了连环套，让答者再次中招儿。

其实，人类使用自然语言的时候，可以无感地在对象层次和元层次之间来回切换。但是这个切换是不需要明示的，全靠语言交际双方的默契。当默契被故意打破的时候，元层次和对象层次之间的差异才被揭示出来。就好像只有戏法演砸了或者在戏法中讲解戏法的时候，我们才会了解戏法是怎么变的。

通过类似这段相声的场景，我们了解了语言其实是符号系统，它的背后有一个符号所代表的世界，这就是意义的世界，就是语言“牺牲自己、代表别人”当中的“别人”的世界。这个世界，我们称之为“语义”。

什么是语义？

关于语义世界，有三种典型的观点：

柏拉图主义，认为意义存在于一个由抽象事物组成的世界之中。（以手指月，手不是月，月是独立于手而存在的）

行为主义，认为词语的意义就是词语的使用的总和。（以手指月，月是否存在无关紧要，指月的所有动作的总和就等价于月）

唯名论，认为词语的意义就是词语本身，不存在符号之外的意义的世界。（以手指月，手即是月）

哥德尔不完全性定理表明，一个形式化的符号系统中只要丰富到足以包含算术，就不能完全代表它所指的模型，模型总是比形式系统更为丰富。换言之，从理论上说，唯名论是错的，行为主义是有局限的，柏拉图主义是对的。

在人类的语言实践中，各个自然语言无一例外地都有歧义现象（人工语言如世界语暂不论）。比如“The scene ofthe crime is at the bank ” 其中的bank就有河岸和银行二解。单纯孤立的符号不足以消解此歧义。歧义现象的存在说明，从实践上看，唯名论是错的，不足取；行为主义是可操作的，可作为底线目标；柏拉图主义是理论上更彻底的，是构建语义知识的理想境界。

语义是有结构的，语义的结构既通过符号的结构得到反映，又从总体上说比符号的结构更加丰富多彩。

语义知识及其形式化表示

语义知识，顾名思义，是对语义进行表示、定义、理解、推理所需要的知识。

之所以需要研究语义知识，并不只是出于语言学者的个人兴趣。在摘取自然语言的精准语义理解这颗人工智能皇冠上的明珠的进程中，对语义知识的研究占据了异常重要的地位，是地地道道的“核武器”级别的技术。谁掌握了这门技术，谁就能率先进入语义计算的时代。

所谓表示，就是使用具有足够丰富表达力的符号体系对语义进行无歧义的、合逻辑的再现。

注意，原始的自然语言也是符号系统，但它很有可能是包含歧义的。语义知识表示所用的形式化机制（formalism），是精准的、不含歧义的符号系统。虽然转了一圈从符号又回到了符号，但是此符号非彼符号。在这样的符号系统里，“河岸”的意思和“银行”的意思有不同的表示方法，不应产生歧义。所以，一个好的语义知识表示框架，首先要满足的一个基本条件就是要具有对歧义的区分能力。

其次，用作语义知识表示的符号系统，也不应该过度知识化。人类对世界的认识，经常会反作用于语义研究者，使之每每在一些局部做出超过NLP实际需求的符号系统来表示语义，比如对生物做出生物学分类意义上的庞大分类树，就基本上无助于语义的精准理解。这样的符号系统既笨重又不实用，不该区分的乱区分，该区分的又很可能无法区分。所以，一个号的语义知识表示框架，必须具有恰到好处的、均衡的区分能力，而不能让区分能力在某些局部过度畸形而在另一些局部却无处下手。

表示有两种途径，一种是定义、一种是计算。

一般对语言基础单位（词语）的语义表示，我们采用定义的方式进行表示。这种定义形成特定的语义知识库（也被人称为“本体”），是精准语义理解所不可缺少的基础资源。

对于更为复杂的语义结构，我们采用计算的方式，以定义为基本构件，依托符号的结构把这些基本构件组合成结构更加丰富的语义表示体。这是精准语义理解的应有之义，做不到就免谈精准语义理解。

本体

最后我们来说说本体。

本体（Ontology）原本是一个哲学概念。在语义表示的几十年发展进程中，逐渐渗透到人工智能当中来，不仅用于构建形式化的、全面广泛关联的语义表示体系，也用于构建具有推理和漫游能力的知识服务体系。但是，很多人说到本体的时候，其实说的是实体知识库。其实，实体知识库是本体的实例化，又是本体局限于实体类对象的产物。如今，除实体之外，事件也已进入本体的视野，成为本体的顺理成章的组成部分。事件既有自身的上下位结构，又通过格角色和角色名（范畴词）等途径与实体发生千丝万缕的联系。所以我们再次把“四象限模型”拿出来说事儿：本体与实例是纵向二分，实体与事件是横向二分。严格意义上的本体并不包含实体，但本体天然包含事件。所以重要的事情说三遍：本体在第一、二象限，实体知识库在第三象限，它不是本体，不是本体，不是本体！