人工智能拓宽话语研究路径

时间：2020-07-18 07:49:10来源：光明日报

在互联网时代，以话语为呈现方式的海量信息全部依靠人工分析是不现实的，要实现大规模文本数据的自动语义处理，就必须搞清楚话语的语义特征、表征规律等。人工智能拓宽了话语语言学研究的路径和领域。随着机器计算和存储能力的大幅提升，特别是以神经网络为基础的深度学习应用到自然语言处理，计算机对语言的处理不再停留在词、句层面，而是有能力处理话语层面的语义信息。话语是由连续的语句构成，形式上相衔接，语义上相连贯，具有一定交际目的和功能的语言使用单位，也称为语篇或文本。一般来说，话语是大于句子，具有一定交际功能的语义单位，其表现形式为故事杂文、新闻报道、社交信息、访谈文字等。

近年来，自然语言处理作为人工智能的重要领域之一，在词性标注、命名实体识别、句法分析等方面取得了可喜成果，但在语用层面的自动语义处理方面还处于起步阶段。从长远来看，机器能像人类一样自如地理解自然语言，是这个领域的短板，也是走向强人工智能的关键。为此，话语研究者可围绕语言使用过程中的语义问题，深入探讨以下几个问题。

首先，话语生成和理解过程中大脑神经认知机制研究。话语是人们在社会交往过程中对语言系统的使用，它既是认知对象又是认知过程，表现为语言使用者如何感知、理解、记忆、评价语言单位，以及如何表达交际意图。认知科学在解释话语的可计算性、话语意义表征、语篇知识和语境知识相互作用等方面作出了贡献；认知心理学在研究语言生成理解方面提出了很多模型，为话语计算奠定了基础。然而，话语理解过程中的神经系统是如何操作的仍然是一个黑箱。神经网络对于输入的信息会有一个输出结果，但在高维空间的计算过程很难得以解释。例如，人脑做决定是一种思维活动，至于决策是如何生成的，以及决策过程是怎样进行的却难以解释。加强话语生成和理解的机制研究，不断探索人类语言使用过程中的大脑神经活动规律，将有助于研发自适性强，可分析推理，具有自主学习等特点的机器学习新理论。

其次，跨语言、多语类文本语义表征的结构化规律。通用型语义结构模型是提高话语计算质量、让机器理解人类自然话语的重要环节。近年来，搜索引擎、舆情监控、自动文摘等应用领域对话语的自动语义分析提出了迫切需求。然而，目前自然语言处理的大部分研究局限在句级单位以下。有些语义问题在句法层面是解决不了的，它存在于文本的字里行间，存在于句与句、段落与段落之间，要想让计算机真正理解话语的意义，必须研究句间的连贯关系，研究整体话语的形式化结构，从而实现由表面结构到内部意义的映射，真正理解交际意图。话语的表现形式多种多样，将表层非结构化的文字序列转化成深层有结构的语义表征，刻画出各个部分之间的语义关联绝非易事。探索多语种、适用于各种语类文体的通用型语义结构模型，能使其融合话语内部信息和话外背景知识，进而更好地理解话语的主旨和意图，正是话语研究者在人工智能时代需要解决的重大问题。

最后，多语种、跨模态的语料库和语料资源建设，尤其是标记文本层面宏观语义关系的语料库建设。深度学习在自然语言处理方面的应用解决了词汇形态、句法结构等很多问题，但标记宏观语义关系的语料资源相当短缺。基于神经网络的深度学习依赖于大规模有标注信息的丰富语料，在训练过程中学习和掌握话语的结构性特征，如连贯关系、语篇结构、情感倾向等。然而，由于语料资源的匮乏以及语篇关系分析任务本身的复杂性，迄今为止，汉语语篇关系和结构识别研究尚处于初级阶段，这在一定程度上制约了自然语言处理向纵深方向发展。此外，研制开发语篇的宏观结构关系语料库，有助于解决自然语言理解过程中的语义推理问题，这是认知智能需要解决的另外一个问题。

话语的计算研究既是语言学自身发展需要，也是人工智能对语言学提出的必然要求。人们的话语意图、主要观点、情感态度、舆论立场只有从话语整体层面才能得以准确地获取和分析。如何做到让计算机真正理解人类话语，实现从表层结构到深层语义的映射，达到图灵所说的像人类一样理解语言，是认知智能领域未来的方向。