史上最专业的毕业论文!格式最专业!

时间:2024.4.27

哈尔滨工业大学毕业论文

本体论和统计语言模型相结合的

跨语言信息检索研究

学 生 姓 名 X X X

指 导 教 师 均已陈教授

授予学位级别 工学博士

专 业 计算机应用技术

学 院 计算机学院

授 予 单 位 哈尔滨工业大学

2012.11.11

哈尔滨工业大学毕业论文摘 要

互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息检索的需求,而普遍存在的目标语译词准确性和检索结果的精确度偏低问题成为制约跨语言信息检索研究大步向前发展的瓶颈。本体论和统计语言模型在自然语言信息处理领域分别取得的成功,为人们利用知识和统计方法实现跨语言检索问题在理论和实践方面指明了方向,对于信息检索及自然语言处理研究具有重要的理论意义和实用价值。本文以汉-英两种语言之间的跨语言信息检索为研究对象,提出了一种本体论和统计语言模型相结合的混合语言模型,给出跨语言信息检索的一整套解决方案。作为跨语言信息检索的重要环节,首先研究了混合语言模型的建模问题,该语言模型的结构由词义本体表示及语言本体知识组成,在此基础上,研究并实现了词义本体的构建、语言本体知识的自动获取等问题。通过对自然语言处理有关问题的应用评价,验证了所提出混合语言模型的有效性,进而将其应用于用户查询的目标语译词选择以及目标语言检索文档的排序,在该混合语言模型的指导下实现了一个跨语言信息检索的实验平台。具体地讲,本文从如下几个方面进行了研究:

1. 研究了跨语言信息检索的模型建模技术。分析了目前困扰跨语言检索精确度偏低问题的主要原因,提出了一个本体论和统计语言模型相结合的混合语言模型,有效地解决了目前的检索模型表达和处理语义层面信息不完全,未能很好地适应主题多变的应用环境等相关问题。该语言模型的结构由词义本体表示及语言本体知识组成,综合考虑了自然语言句子中出现的特征项与其同现信息在语义、语用、词法、句法等方面的用法,力图在采用一种概率估计的前提下,引入本体知识库的支持,寻求有效提高跨语言信息检索精确度的改进方法。

2. 研究了词义本体表示及语言本体知识的获取技术。探讨了词义本体的构建以及有效的语言本体知识表示方法,提出利用机器学习方法自动获取语言本体知识获取的策略,提出将从单语言语料中获得的语言本体知识应用于解决跨语言信息检索问题的方法。语言本体知识将通过机器学习方法从训练语料中自动获取,实现技术主要以语料处理为基础,获得特征项在上下文环境中的语义、语用、句法等方面的用法,以一种量化的形式保存,作为特征项的用法描述,对有关全部特征项的描述则构成了一个语言本体知识库。该问题的研究也避开了可利用的大规模双语语料不易获得的问题。

3. 研究了源语言用户查询的目标语译词选择技术。对比了几种跨语言信息检索中比较实用的实现用户查询的译词选择方法,在此基础上,提出并实现了两种跨语言信息检索的解决方案:一种方法是目标语言译词选择技术与文档分类技术相结合,其中译词选择采用领域双语词典结合语料库的方法实现,分类器通过两种不同语言的语料分别训练得到。另一种方法是基于本文提出的混合语言模型选择用户查询的目标语译词,分别给出扩展查询译文的不同组合,然后根据获取的源语言本体知识,考察每种组合在语义、语用、句法等方面与所获得语言本体知识的匹配程度,重点解决词义消歧问题。

4. 研究了跨语言信息检索结果文档的排序技术。提出了基于语言本体知识实现目标语文档排序的方法,主要技术是利用语言本体知识考查源语言用户查询与目标语检索文档的匹配相似度。在此基础上给出了跨语言信息检索系统的基本框架,构造了一个完整的跨语言信息检索的实验系统,最后通过对跨语言信息检索结果的评价及与其它方法的比较,验证了本文所提出方法的有效性和可行性。

关键词 跨语言信息检索;本体论;统计语言模型;语言本体知识;文档排序

I

哈尔滨工业大学毕业论文

Abstract

Search engine has become a crucial tool for information acquisition from the Internet. People need cross-language information retrieval (CLIR) system to treat increasing international information and cross language barriers. The precision of target language translation selection of user query and retrieval results is becoming the bottleneck of CLIR. The success of ontology and statistical language model guides people using language knowledge and statistical method in natural language processing field respectively, which provides us the theoretical significance and practicability for the research on CLIR and natural language processing. This thesis investigates and presents a hybrid language model based on a combination of ontology with statistical language model to realize Chinese-English CLIR system. As important step, it firstly studies methods for language modeling. This structure is comprised of ontology description framework for Chinese words and representation of linguistic Ontology knowledge. Subsequently, it studies the construction of word sense ontology and automatically determining acquired of a linguistic ontology knowledge bank, through evaluation on natural language processing application, the efficiency of the hybrid language model is validated. And then, the hybrid language model is applied in translation selection of user query and target language documents ranking. Finally, in the guide of the hybrid language model, an experimental platform for CLIR is created.

This thesis is arranged as follows:

1. A hybrid language modeling is studied for CLIR. The thesis analyzes the main reason why the precision is lower on CLIR, and proposes a hybrid language model based on a combination of ontology with statistical language model. It is effective in the expression and processing of semantic information, and it can adapt the changeful topics effectively. This structure of hybrid language model is comprised of word sense ontology representation and linguistic ontology knowledge, for each word and its co-occurrence will be considered in semantic, pragmatics, and syntactic information from the corpus. This thesis tries to make use of probability estimation and ontology knowledge bank to improve the precision of CLIR.

2. Automatic linguistic ontology knowledge acquisition method is studied. This thesis discusses the construction of word sense ontology and the representation of linguistic ontology knowledge, then, it presents automatic acquisition method on linguistic ontology knowledge by machine learning from train corpus, and proposes the technique how to apply the linguistic ontology knowledge from single language to CLIR. The linguistic ontology knowledge will be acquired from corpus by machine learning method and be expressed by the quantitative format to act as the description on keyword usage. The usage constructs the linguistic ontology knowledge bank and this way avoids the question that it is difficult to acquire large-scale bilingual corpus.

3. Target language translation selection of user query is studied. This thesis compares several methods of translation selection of user query, then, proposes two methods for realizing CLIR. One is based on a combination of translation selection with categorization technique, and translation selection combines a domain bilingual dictionary with corpus, classifier is respectively gotten by deference language training corpus. Another method is based on the proposed hybrid language model, in which the several association of II

哈尔滨工业大学毕业论文they will be examined weather they are matching with linguistic ontology knowledge to solve the word sense disambiguation.

4. Retrieval documents ranking technique of CLIR is studied. The proposed method is based on linguistic ontology knowledge to examine the matching between user query of source language and target retrieval documents. Finally, this thesis gives a frame and constructs an experimental system for CLIR. Evaluation on the CLIR results of this system shows the efficiency of the proposed method, and the feasibility and significance of the proposed hybrid language model in this thesis is verified.

Keywords cross-language information retrieval; ontology; statistical

language model; linguistic ontology knowledge; document

ranking

III

哈尔滨工业大学毕业论文 目 录

摘 要 ................................................................................................................................ I Abstract ................................................................................................ 错误!未定义书签。 1 绪 论 ........................................................................................... 错误!未定义书签。

1.1 研究背景 .............................................................................................................. 6

1.2 研究的目的和意义 .............................................................................................. 2

1.2.1 研究目的 ................................................................................................... 2

1.2.2 研究意义 ................................................................................................... 7

1.3 相关研究综述 ...................................................................................................... 3

1.3.1 单语言信息检索 ....................................................................................... 3

1.3.2 问答式信息检索 ....................................................................................... 3

1.3.3 跨语言信息检索........................................................................................4

1.3.4 基于机器翻译系统的方法........................................................................5

1.3.4.1 基于中间语言的方法...................................................................5

1.3.4.2 基于双语语料库的方法...............................................................6

1.3.4.3 基于潜在语义标引的方法...........................................................6

1.3.4.4 基于双语词典的方法...................................................................7

1.3.4.4.1 跨语言信息检索的评测................................................7

1.3.4.4.2 多语言信息处理............................................................7

1.4 本文研究的主要内容 .......................................................................................... 8

2 本体论和统计语言模型相结合的建模方法研究 ......................................................... 8

2.1 引言 ...................................................................................................................... 8

2.2 本体论及其构造 .................................................................................................. 9

2.2.1 本体论的概念 ............................................................................................. 9

2.2.2 本体描述语言 ............................................................................................. 9

2.2.3 本体论与语义网 ......................................................................................... 9

2.2.4 本体的构造方法........................................................................................10

2.2.5 本体论的研究与应用................................................................................10

2.3 几种信息检索模型比较.....................................................................................10

2.3.1 传统信息检索模型....................................................................................10

2.3.2 统计语言模型............................................................................................11

2.3.2.1 N元模型.......................................................................................11

2.3.2.2 概率上下文无关文法(PCFG)......................................................11

2.3.2.4 风险最小化模型...........................................................................12

2.3.3 几种主要模型之间的对比........................................................................12

2.3.4 统计语言模型的研究与应用....................................................................12

2.4 本体论和统计语言模型相结合的混合语言模型.............................................12

2.4.1 混合语言模型的数学描述........................................................................12

2.4.2 混合语言模型建模的可行性分析............................................................13

2.4.3 混合语言模型建模的关键技术分析 .......................................................13

2.4.4 混合语言模型的建模方法........................................................................13

哈尔滨工业大学毕业论文 2.4.4.2 语言本体知识的数学表示...........................................................14

2.4.5 混合语言模型的性能评价及实验分析................................................... 19

2.5 本章小结............................................................................................................20

3 跨语言信息检索的语言本体知识获取研究................................... ...........................20

3.1 引言....................................................................................................................20

3.2 汉语词义本体的构建 ...................................................................................... 21

3.3 共现信息的获取 ................................................................................................ 21

3.4 相关问题域的实验与分析 ................................................................................ 23

附 录..............................................................................................................................24

哈尔滨工业大学博士学位论文原创性声明......................................................................29

哈尔滨工业大学博士学位论文使用授权书......................................................................30

致 谢 ............................................................................................................................. 31

哈尔滨商业大学毕业论文

1. 绪 论

1.1 研究背景

目前,人类社会已经进入了互联网时代,为了能够从Internet这个浩瀚无穷的知识海洋仓储中真正获取所需要的各种各样信息,高效的搜索引擎已经成为人们最重要的手段之一,这其中检索技术无疑将是人们从互联网上获取信息的钥匙。当前的信息检索(例如Google、百度等搜索引擎)是基于关键词进行查询的,用户向信息检索系统输入关键词序列或者关键词的布尔表达式,系统按照其得出的相关性由大到小的顺序返回与用户查询相关的网页链接,用户逐一访问这些链接,最终得到满足其信息需求的答案。

伴随着Internet中各类信息不断爆炸性增长的同时,互联网中书写信息所使用的语言呈现日益的国际化,其中英文信息仍然占有一半以上的信息量,而用其它语种,如以中文(包括简体和繁体)、日文、朝文等为代表的东方语言;以俄文、德文、法文等为代表的西方语言,以及其它一些小语种等,所书写的各类信息也正加快其发展的步伐,因此,从上世纪90 年代末开始,人们对信息检索提出了更高的要求,即不再满足于在同一语种文档集中检索,而要求在检索结果中包含多语种信息。用户所面对的查询一个多语种文档集的情形变得越来越普遍,为了获得更多、更全面、更准确的信息,同时为了跨越语言障碍(Language Barrier),人们希望能够以自己最熟悉的一种语言(如汉语)描述用户查询,而同时将其它语言(如英语)书写的文档集在检索结果中呈现出来,即进行跨语言信息检索(Cross-Language Information Retrieval/ Cross-lingual information retrieval,CLIR)。在当今信息社会中,跨语言检索已经越来越成为世界范围内一个极需解决的关键问题,这也是Internet的全球信息基本结构造成了针对跨语言信息检索系统的迫切需要,从而使得国内外越来越多的研究团体深入研究跨语言检索问题,并探索实现跨语言信息检索的不同方法、技术路线等。人们越发对搜索引擎质量的关心,也为跨语言检索、搜索引擎方法和技术的研究提供了大量的用户需求。

不仅在互联网中,在所有同时存在多语种的信息系统(如数字图书馆)中,这种语言障碍都限制了人们对信息的有效获取,影响了多语种信息价值的充分发挥。另一方面,面对这种多语的信息海洋,一些用户需要获得准确性高的信息,另一些用户可能需要获得更全面些的特定信息,而他们可能根本不清楚所查询的信息如何使用目标语进行准确的描述,尤其是一些生僻的词语或者自己不熟悉的一些专业词汇,更加不知道如何表达。这同样也决定了跨语言信息检索系统的研究与开发具有潜在的广阔市场应用前景和价值,如何在高效的检索技术和准确性、全面性方面进一步研究,更加成为世界范围内众多单位和团体的研究热点之一。

在有关跨语言信息检索的研究方面,关于英语与其它语言之间的跨语言检索研究较普遍。如国内的复旦大学、微软亚洲研究院等学术团体先后开展英-汉跨语言信息检索的研究,并取得了很好的成绩,中科院软件所的研究者开展了汉-英双向跨语言信息检索的有关实验。随着在日本举行的针对英语及亚洲语言之间跨语言信息检索评测会议的成功举行(NTCIR),更加带动了在该方面研究的繁荣。在第三届评测会议上仅有中科院软件所1个研究组递交了3个汉-英跨语言信息检索的运行结果;第四届 6

哈尔滨商业大学毕业论文

评测会议上共有7个研究组递交了24个汉-英跨语言信息检索的运行结果;第五届评测会议上有5个研究组递交了20个汉-英跨语言信息检索的运行结果。可见,关于汉-英跨语言信息检索的研究越来越受到国内外的广泛重视

1.2 研究的目的和意义

1.2.1 研究目的

尽管许多国家都越来越重视并有效地利用国际互联网,不同语种的信息量在互联网中也在逐步增加,尤其是我国的上网人群及互联网上的中文信息的发展也极大地加快了步伐,但英文信息的数量(约占50%左右)目前还是远远多于中文信息的数量(不足10%),开展中英文跨语言信息检索可以使用户获得更加丰富的检索结果,跨语言信息检索系统的开发也将更加方便用户充分地利用互联网中的信息,同时有利于用户跨越语言障碍这道难关。跨语言信息检索的研究目前仍然处于它的初期阶段,基于国际互联网的跨语言信息检索使得机器翻译技术面临着巨大的挑战,而本课题的研究将能够满足上述各方面的需求

1.2.2 研究意义

尽管许多国家都越来越重视并有效地利用国际互联网,不同语种的信息量在互联网中也在逐步增加,尤其是我国的上网人群及互联网上的中文信息的发展也极大地加快了步伐,但英文信息的数量(约占50%左右)目前还是远远多于中文信息的数量(不足10%),开展中英文跨语言信息检索可以使用户获得更加丰富的检索结果,跨语言信息检索系统的开发也将更加方便用户充分地利用互联网中的信息,同时有利于用户跨越语言障碍这道难关。跨语言信息检索的研究目前仍然处于它的初期阶段,基于国际互联网的跨语言信息检索使得机器翻译技术面临着巨大的挑战,而本课题的研究将能够满足上述各方面的需求。

在理论方面, 当前的信息检索技术在给人们日常生活中的信息查询带来巨大便利的同时,也逐渐暴露出一些不足之处,除了在易用性和信息检索效率等方面难以满足用户的信息需求之外,在技术层面上也存在着严重的缺陷。影响信息检索系统性能的因素有很多,其中最为关键的是信息检索模型,包括文档和查询条件的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的最终排序方法和用户进行相关反馈的机制等。经过科研人员近半个世纪的不懈努力,一些信息检索模型陆续被提出来,其中影响比较大的检索模型包括:布尔模型、向量空间模型、概率模型以及20世纪80年代后提出的语言模型[1]。前三种传统的信息检索模型为适应信息检索实时性的需要,仅靠经验来设计启发规则计算用户查询与检索文档的相似性,忽略了语义的多样性和语言结构分析,使得理论基础并不牢固,这是信息检索系统的精确性难以进一步提高的根本原因[2]。统计语言模型和信息检索的结合改进了传统检索模型的不足,语言模型检索方法以数理统计以及随机过程作为理论基础,利用概率统计方法来估计与检索有关的参数,同时可以通过对语言模型更准确的参数估计或者使用更加合理的语言模型来获得更好的检索性能,另外,在如何改善检索系统性能方面有了更加明确的 7

哈尔滨商业大学毕业论文

指导方向。

综上所述,由于跨语言信息检索任务对信息检索的需求和精确性提出了更高的目标,使得传统的信息检索模型更加难以胜任,在语言模型的基础之上,提出一个比较完善的跨语言信息检索模型是目前信息检索技术中一个至关重要,亟待解决的问题。同时,本研究的开展,将提出一整套跨语言信息检索理论和方法的完整解决方案,

在应用方面,随着计算机的普及和信息化程度的日益提高,人们对自然语言理解技术的需求也越来越大。由于跨语言信息检索的研究涉及到多个领域和方向,包括计算语言学、信息学以及计算机学科中的网络信息处理、信息检索、信息抽取、机器翻译、词义消歧、知识获取等相关语言处理技术,这些研究应用不仅带动相关语言处理技术发展,也对上述学科和研究方向提供重要的资源和技术支持。当前,网站正朝着小型化,专业化的方向发展,各类网站非常需要智能化搜索引擎的支持,这种集易用性和高效性于一身的跨语言信息检索技术必将会为各个门户或者专业网站所乐于接受,并成为其吸引广大网上用户的重要手段之一。因此,这项研究具有极其广阔的市场前景和实用价值,只要应用系统的综合性能达到要求,必然会受到信息检索服务提供者及最终用户的欢迎,极大地提高人们通过国际互联网获取信息的效率。同时,跨语言信息检索系统也是一项相关技术与系统集成的系统工程,这一研究的开展,必将为大型语言处理系统研发的工程方法积累宝贵的经验,为适用于自然语言处理领域的系统工程方法探索出一条实用化的新路。

随着“2008北京奥运会”和“2010上海世博会”的申办成功,届时必将有大批外国政要、专家学者及旅游观光人员来华参观访问,在本研究开展的基础上,构建多语言信息检索平台,将极大地方便不同语言和不同国家人员及时检索盛会的情况、加深对我国的了解,同时也有助于检索外文信息、了解外国文化,因此本研究的开展将具有非同一般的应用价值和现实意义。

1.3 相关研究综述

1.3.1 单语言信息检索

信息检索技术起源于人们为方便查询和访问文献资料而将它们重新整理与分类的手工劳动。现代信息检索技术则是在计算机技术和通信技术发展的基础上建立起来的,它产生于20世纪50年代,经过长期缓慢的发展阶段,从20世纪90年代开始至今,随着国际互联网技术的诞生和发展而进入了一个兴盛的时期。

19xx年,美国学者Calvin N. Mooers提出了“信息检索”这一术语;19xx年,美国学者Luhn提出了统计信息检索的基本理论和方法;19xx年,Marson和Kuhns提出了信息检索的概率模型;19xx年,美国康奈尔大学的Gerard Salton 教授及其学生,创立了信息检索向量空间模型(Vector Space Model, VSM),他们也因此成为信息检索领域的世界顶尖学者。向量空间模型至今仍然是信息检索领域最为有效和广为应用的理论模型,Salton教授及其学生开发的基于向量空间模型的SMART信息检索系统也沿用至今[3],成为信息检索系统的样板,甚至是一些信息检索商业或实验系统的重要组成部分。之后信息检索系统的评价方法、查询扩展方法等相继被提出。

90年代初期国际互联网技术的诞生和随之而来的网络信息的爆炸式增长,更使信息检索技术进入了一个崭新的发展时期。在这一时期,具有代表性的理论成果包括 8

哈尔滨商业大学毕业论文

潜在语义索引技术、贝叶斯网络和神经网技术等等。基于国际互联网的大型搜索引擎在这一时期大量涌现出来,如Google、infoseek、Lycos以及国内的百度等等。

随着计算机技术的不断进步和网络信息量爆炸性增长,对信息检索技术提出了越来越高的要求。信息检索技术正在深度和广度上迅猛发展。在深度上,进一步提高信息自动管理和自动加工的能力,如探索自动信息抽取、自动索引、自动检索、自动文摘、自动分类、自动翻译等等;在广度方面,信息检索正由文本信息检索向全文文本、多媒体、跨语言等新型信息检索发展。

1.3.2 问答式信息检索

问答式信息检索的研究起源于上个世纪50年代,最初仅限于一些专门的应用领域。直到90年代,在每年一度的TREC(Text Retrieval Conference)会议中引入了问答专题(Question Answering Track),才真正推动了开放域问答系统的研究。当前的问答系统的研究综合了自然语言处理技术中信息检索(Information Retrieval, IR)与信息抽取(Information Extraction, IE)的思想与技术。

第一个面向数据库的问答系统的成功范例出现于19xx年,是一个针对棒球运动的问答系统,用户可向系统提出与比赛结果、比赛地点及比赛时间有关的问题;19xx年出现的LUNAR系统,可用于回答Apollo 11登月行动中采集到的岩石和土壤物质的有关内容;80年代初期开发的PHLIQA1主要用于回答与计算机安装有关的一些问题

[4]。这些系统尽管运行效率很高,但它们受到各自领域的限制,其技术方法很难推广到其它领域。这类系统的主要技术难点有两个:一是实现自然查询语句到数据库查询语言的转换,通常的解决方案是为数据库系统提供一个自然语言接口;二是自动提取有关信息构建结构化的数据库,其解决方法一般是结合特定领域采用相应的信息抽取技术。

近几年来,颇具影响的TREC会议于99年引入问答专题引起了新一轮的研究高潮。许多问答领域的新技术、新方法通过TREC得到了验证与应用。参加TREC的研究机构与组织针对标准问题集对各自的问答系统进行评价与比较。例如,微软的研究小组在使用专门的搜索引擎搜集到的网页数据中,利用简单的模式匹配、n-gram文法和计数等方法来搜索和确认问题的答案,该系统处理知识性文档显示了较高的性能;Waterloo大学的系统使用Web作为第二个文档集,用它来进一步确认由TREC文档集中直接获取的答案,这种方法使这一系统的性能提高了25%左右。目前基于Web的问答系统也已经出现,Mulder、Answerbus与NSIR系统都能够对Web搜索引擎返回的结果进行分析处理;Ionaut使用信息抽取技术从下载到本地的网页中抽取答案;FAQ Finder系统通过对Web上经常提出的问题进行统计,建立常用问题库,通过将用户问句与常用问题库中的问句进行比较的方法来获取答案。

在问答式信息检索领域,20xx年召开的NTCIR-5会议上推出了跨语言问答(CLQA)方面的研究,共有84个研究组递交94个运行结果,其中有7个研究组递交了8个汉-英跨语言问答的运行结果,也充分说明了跨语言信息处理研究的重要性和广泛应用。

1.3.3 跨语言信息检索

目前,关于跨语言信息检索的研究越来越集中在选择用户查询的目标语译词方 9

哈尔滨商业大学毕业论文

面,因此,跨语言信息检索研究的任务可分为以下两个步骤:(1)将用户输入的查询需求在线描述成目标语言的表示形式;(2)在多语种文档集中实施信息检索,可根据需要既检索出源语言书写的文档集,又可以检索出目标语言书写的文档集。然而,由于机器翻译的性能、自然语言的歧义、未登录词的识别以及一些人名、地名、机构名等名实体的因素,译词选择的质量一直不能令人满意。目前,解决跨语言信息检索的核心问题采用的方法主要有:基于翻译系统的方法、基于翻译词典的方法、基于中间语言的方法以及基于语料库的方法等几种。

1. 3. 4 基于机器翻译系统的方法

机器翻译是随着计算机而诞生的,在过去的50多年的历史中,在国外先后受到美国国防部、日本第五代计算机、欧洲共同体等大型研究机构或计划的支持,不断地尝试基于规则的方法、基于实例的方法、基于模板的方法和基于统计的方法等,但其效果仍然不尽如人意。国内也有多家单位从事这方面的研究,并研发出了“译星”、“华建”等商业机器翻译软件。

面对曾经如火如荼的对于机器翻译方法和技术的研究,人们自然而然地认为将机器翻译系统嵌入到搜索引擎中,应该是解决跨语言信息检索问题的一个较好的解决方案。基于机器翻译系统的解决方案主要有以下几种:

1. 3. 4. 1 基于中间语言的方法

由于机器翻译系统所面临的种种困境,也出于多种语言信息之间相互检索的需要,一些研究者提出了一种利用中间语种表达的方式进行翻译的方法(Inter-lingual Representation Approach)。这种方法的思想是:可以把用不同语言所表示的相同概念的词语都映射到一个与语言无关的机制上,然后检索操作在这个所谓的“中间语言”上进行。可以说这种检索机制已经不再是两种语言之间的跨语言模式,而是将多种语言的检索问题统一在一个相同的框架下。Ruiz等人提出基于概念中间语言(Conceptual inter-lingual)[17,18]的方法解决多语言之间的信息检索问题,Collins、Kishida等人也提出了类似的利用被称为Triangulated translation、Pivot language的方法[19~21],Volk等人提出了利用Ontology作为中间构件的方法[22]。

一般认为,选择的中间语言应该是计算机容易自动处理的语种(如英语),可以使用辞典分类或独立语种向量空间模型来实现中间语种翻译。特别是在跨语言信息检索中会遇到两种语言之间无法进行直接互译,即两者进行直接翻译的语言资源(如双语词典等)不存在时,只能借助于中间语言将源语言翻译成目标语言,或者将源语言和目标语言均翻译成这种“中间语言”。

使用中间语种翻译方法实现跨语言信息检索将是一个不错的选择,尤其对于处理多语种的信息检索问题,在某种程度上能很好解决两种看似不太相关的语言之间的“语言鸿沟”问题。然而不足之处是,机器翻译系统所面临的“一词多义”以及“一义多词”现象可能会更加严重,在多种类语言的情况下,跨语言的方式会变得更加复杂,而且这种方法的造价太高,除了很多与语言相关的概念具有严重的不兼容性外,可能要开发出多个机器翻译系统,同时会导致检索精度的进一步下滑,不利于跨语言信息检索的发展。

10

哈尔滨商业大学毕业论文

1. 3. 4. 2 基于双语语料库的方法

语料库(Corpus)是将相同信息或相同主题的信息用两种或多种语言进行描述,并由人工或通过计算机建立不同语种间信息联系的集合。自20世纪80年代以来,语料库语言学(Corpus linguistics)的崛起和迅速发展令世人耳目一新。人们希望通过对大规模真实语料的处理来自动获取自然语言的各种语言事实及语法规律,世界各国也相继建立了数以百计的各种语料库,规模也跃升到词次数以亿计,如八十年代2000万词次的英国COBUILD语料库,九十年代10亿词次的美国计算语言学学会的ACL/DCI语料库和英国牛津文本档案库OTA等等。通过对这些语料库进行深层次加工、统计和学习,自然语言处理领域取得了许多令人瞩目的成果。例如,英国兰卡斯特大学采用基于语料库的方法实现了非受限文本的词性标注系统CLAWS,取得了极大的成功,向人们显示了语料库方法的巨大潜力[23]。美国宾州大学句法标注树库Penn TreeBank的建立,为基于统计的相关自然语言处理的研究提供了统一的训练和测试平台[24,25]。语料库方法的出现不仅为机器翻译的研究带来了新的希望,也为跨语言信息检索的实现注入了新的生机和活力。

1. 3. 4. 3基于潜在语义标引的方法

潜在语义标引(Latent Semantic Indexing, LSI)技术形成于19xx年,是Deer wester等人在单语言信息检索研究中提出来的,它是一种基于内容概念的检索技术。在P. G. Young的论文中论述了这种方法[42],Dumais等人进一步把这种方法引入到跨语言信息检索中[43],它提供了一种不需要翻译就能使一种语言的文本片段与具有相似内容概念的另一种语言的文本片段进行匹配的方法,可以不对用户查询的语种或目标语种进行翻译来实现跨语言信息检索。

潜在语义标引方法使用了一种向量空间模型(Vector Space Model, VSM),在该模型中文档和查询都由K维的词语向量表述。这种方法的前提是需要双语语料作为训练文档建立一个词语矩阵,矩阵中包括了每个词在每篇文档中的出现次数,理想情况是同一语义的词在一对双语文献中的出现次数是一样的。以此矩阵为基础利用数学公式SVD(Singular Value Decomposition)导出K维的语义向量空间,实际上是从许多不同的词和文档中抽取出的相同语义成分。基本的语义向量空间建成后,新的文档可以不断加入,新文档在向量空间中的位置通过计算它所包含的词语向量的平均值而确定。用户查询也作为文档以同样的方法来处理,检索时查询与文档的相似性通过计算它们向量的余弦值来测量。

相比较而言,潜在语义标引方法的优点有:一方面,该方法不需要对用户查询或查询文档进行翻译,因而不需要双语词典、词表、机器翻译系统等这些昂贵的资源,从而避免了其中如消歧等一系列技术难题;另一方面,该方法应用于新的语言比较方便,只要有相应的双语语料作为训练文档。

11

哈尔滨商业大学毕业论文

1. 3. 4. 4 基于双语词典的方法

研究的主上述提及的基于机器翻译系统方法、基于中间语言方法、基于双语语料库以及基于潜在语义标引方法均具有一定的复杂性和不确定性,近些年,由于机器可读双语词典特有的简单、易用、处理速度快以及易于得到和维护的特性,这种方法被普遍应用于跨语言信息检索的研究,通过双语词典选择用户查询的目标语言的译词

[48]。

基于双语词典方法的中心思想是:基于双语字典或词典,找出用户查询的每个检索单词所对应的全部目标语言的译词候选,生成目标语言的用户查询,然后进行目标语言的单语言信息检索。如果用户查询的检索单词在目标语言中有不止一个单词与之对应,就会形成不同的由目标语言描述的查询组合。对于查询组合的选择通常有两种解决方案:

1. 3. 4. 4. 1跨语言信息检索的评测

目前,在跨语言信息检索领域,有4个与之相关的重要的国际会议,它们全面反映了当今跨语言信息检索的研究热点和趋势,即:由美国国家技术标准局组织召开的文本检索会议TREC(Text Retrieval Conference)[90];由欧盟的信息技术协会( IST) 支持的CLEF(Cross-Language Evaluation Forum)[91];由日本科学技术促进会(JSPS) 和日本国家科学信息系统中心(NACSIS) 共同主办的NTCIR(NACSIS Test Collection for IR Systems)[92]以及由美国计算机协会主办的SIGIR(Special Interest Group on Information Retrieval)[93]。

(1) TREC TREC,即Text Retrieval Conference,是由美国国家标准技术研究所(National Institute of Standards and Technology, NIST) 和国防部高级研究计划局(Defense Advanced Research Projects Agency, DARPA) 共同发起和主办的国际会议,始于1992 年,其旨在促进大规模文本检索领域的研究,加速研究成果向商业应用的转化,促进学术研究机构、商业团体和政府部门之间的交流与合作。跨语言信息检索是在19xx年举行的第六届文本检索会议(TREC-6)评价中建立的一项新任务,在此后分别于19xx年、19xx年举行的举行的第七届、第八届这三届文本检索会议上,主要针对欧洲语言(英语、法语、德语以及意大利语等)的跨语言检索问题展开了研究。在20xx年的第九届文本检索会议(TREC-9)的CLIR任务评价中,第一次引入汉语作为文本描述语言。“9?11”之后,在20xx年举办的第十次文本检索会议(TREC-10)上引进了对阿拉伯语和英语、法语之间的跨语言检索问题的研究。可以看出,自19xx年第六届开始的连续五次文本检索会议对于跨语言信息检索问题均给予了极大的关注,只是每一次的侧重点不同。

1.3.4.4.2多语言信息处理

要内容多语言信息处理一般指的是多种语言之间的跨语言信息检索、信息过滤、信息抽取以及聚类和分类等信息处理任务,多语言信息处理涉及到信息检索、机器翻译、自然语言理解以及计算语言学等多个研究领域,一个多语言信息检索系统指的是 12

哈尔滨商业大学毕业论文

具有跨语言处理交叉语言和混合语言信息的能力,例如,某个汉、英、日、韩多语言信息检索系统中,用户用中文提问,系统除了反馈给用户中文的检索结果外,还同时给出用英文、日文、韩文书写的信息。跨语言信息检索可以作为多语言信息处理的其中一个应用方面,用来完成双语交叉语言的信息处理。因为用户查询和检索文档集可以由不同语言表示,语言之间的差异性必将给检索过程带来很大的困难。

1. 4本文的主要研究内容

本文研究内容主要包括以下三个方面的内容:

(1)借鉴现有的几种典型的语言模型,探索一种新的适用于单语言、跨语言以及多语言信息检索问题的语言模型;

(2)探索跨语言信息检索中用户查询的译文选择有效方法,目的是帮助用户正确选择目标语的译文,重点是消除译文的歧义现象;

(3)寻求信息检索结果文档的重排解决方案,目的是将与用户最相关的信息优先呈现给用户

第2章 本体论和统计语言模型相结合的建模方法研究

2.1 引言

物流鉴于Internet上的绝大多数信息都用自然语言表述,目前使用机器词典、知识库、规则和统计相结合等方法对自然语言进行句法分析、语义分析和推理,使得信息检索与NLP技术相结合,成为当前国际上的一个研究热点。

语言模型是对自然语言的一种描述,构造语言模型是研究计算语言学、自然语言理解的核心内容之一, 好的语言模型将有助于自然语言相关内容处理的准确性。统计语言模型应用于自然语言处理领域后,在语音识别[94]、机器翻译[95]、信息检索[96]等许多研究方向都获得了很好的结果。

总体讲,本体是对共享概念的正规、明确的表述。而本体是始自于哲学上的概念,90年代初被引入人工智能领域后[97],作为一种能在语义和知识层面上描述信息系统的概念模型建模工具,在知识工程[98]、数字图书馆[99]、信息检索和语义Web[100]等许多领域得到广泛应用。

本章将重点描述提出的本体论和统计方法相结合的一种混合语言模型,第2节概述一下有关本体论及其应用研究;第3节介绍几种主要的信息检索模型,其中将重点介绍统计语言模型及其应用研究;第4节分析了目前应用比较广泛的语言模型的优缺点,给出本体论和统计语言模型相结合的一种新的语言模型,并主要从语言模型的建模方法论和语言模型的评价两个方面作重点论述;最后对本章内容进行了简单的总结。

13

哈尔滨商业大学毕业论文

2.2 本体论及其构造

2.2.1 本体论的概念

本体论(Ontology)是一个始自于哲学上的概念,从哲学范畴讲,Ontology是对客观存在的解释或说明。在人工智能界,最早给出Ontology定义的是Neches等人[97]。1993 年,Gruber 给出Ontology的一个较为正式的定义,即“An ontology is an explicit specification of a conceptualization”[101,102],Studer等人提出Ontology是共享概念模型的明确的形式化规范说明[103]。具体来说,某个领域的本体(Domain Ontology)就是关于该领域的一个公认的概念集,其中的概念含有公认的语义,这些语义通过概念之间的各种关联来体现,本体通过它的概念集及其所处的上下文来刻画概念的内涵。总之Ontology强调相关领域的本质概念,同时也强调这些本质概念之间的关联。对Ontology的上述定义,可以方便地描述不同的概念、概念与概念之间的关系、概念与实例之间的关系等。考虑到自然语言表达概念的方式与本体表示基本一致,这为语言现象的学习,基于事物的本体构建知识库提供了理论依据

2.2.2本体描述语言

本体描述语言起源于历史上人工智能领域对知识表示的研究,主要有以下描述语言或语言环境:KIF(Knowledge Interchange Format)[104]、Ontolingua[105,106]、OKBC(open knowledge base connectivity)[107]、OCML (operational conceptual modeling language)[108]、Frame Logic[109]、CycL[98]以及LOOM[110,111]等。在具体的应用中,本体的表示方式可以多种多样,主要可分为非形式化语言、半非形式化语言、半形式化语言和形式化语言等4大类[112]。可以用自然语言、框架的形式、语义网络或逻辑语言等来描述本体,目前使用较普遍的方法是Ontolingua、CycL和Loom等。

2.2.3本体论与语义网

2.3 SWOT1998 年,互联网(Internet)的创始人Tim Berners Lee提出了下一代网络--语义网(Semantic Web)的概念及其技术路线[100]。20xx年2月,W3C正式成立“Semantic Web Activity”来指导和推动Semantic Web 的研究和发展,其主要目标就是在现有Web 标准之上创建一种对本体进行定义和描述的语言。

作为知识表示工具,Ontology与Semantic Web既有许多相似之处,又有一些区别。一方面,它们都是一种知识表示的形式,较适合用于逻辑推理。另一方面,从描述的对象或范围而言,Ontology 是对共享概念的规范解释或说明,一般情况下,Ontology是面向特定领域的,更侧重于表现整体的内容,需要有领域专家的参与,在知识的表示深度方面往往比Semantic Web强一些;而Semantic Web最初用于表示命题信息,现广泛应用于专家系统表示知识,其描述的对象或范围比Ontology广, 一般也不要求有相关领域的专业知识,也不需要专家的参与,比较容易建立。 14

哈尔滨商业大学毕业论文

2.2.4本体的构造方法

关于本体构建的方法国际上还没有形成一套完整、统一的标准,尽管已有的本体描述很多,但都是出于对各自问题域和具体工程的考虑,构造本体的过程也不尽相同。得到研究人员公认的是,在构造领域本体的过程中,应该有本领域专家的参与。Gruber提出的5条构建规则[107],值得我们借鉴。

2. 2. 5 本体论的研究与应用

本体论的研究与应用主要包括以下三个方面:

(1) 理论研究 主要研究概念及概念分类、Ontology 上的代数等。

(2) 在信息系统中的应用 主要包括处理信息组织、信息检索和异构信息系统互操作问题。

(3)在Semantic Web中的应用 Ontology作为一种能在知识层提供知识共享和重用的工具在Semantic Web中的具体应用。

2.3几种信息检索模型比较

信息检索主要是针对非结构化或半结构化的文本数据库进行检索,用户输入检索需求(User Query),通过信息检索系统查找、浏览文档数据库。目前的信息检索系统归根结底都是基于关键词的形式,把用户的无形需求用有形的关键词表达出来。

对于信息检索而言,一个中心问题是如何判断一篇文档是否与用户查询条件相关。对相关性进行判定的方法通常是设计一个评价函数(相似性计算函数),对检索过的文档进行评分,然后再根据评分的高低对这些文档进行排序。一般来说,排在越前面的文档(Top N, N<50)被认为与查询条件更加相关。因此,评价函数是衡量信息检索是否有效的关键之一。

根据对相关文档判定方法的不同,信息检索模型主要分为布尔模型、向量空间模型、概率模型三个传统的检索模型以及近几年新发展的语言模型。随着对信息检索系统的深入研究与发展,又从上述四类经典模型中派生了许多扩展模型,以下分别从建模方法论与相似性计算两方面对检索模型进行简单概述。

2.3.1 传统信息检索模型

传统的信息检索模型中影响比较大的主要包括布尔逻辑模型、向量空间模型和概率模型。

布尔逻辑模型从数据库系统的查询方法中抽象出来,使用词语的布尔逻辑组合作为查询条件,从文档数据库中检索满足查询条件的文档。由于布尔逻辑模型来自于数据库管理系统,所以只能查找结构化精确的数据信息,而不能很好地解决非结构化的文本信息检索,也不能实现查询条件与文档的部分匹配。

向量空间模型是Sation等人在19xx年提出的,使用由词语构成的向量来表示文档与查询条件之间的信息,并研制了基于向量空间模型的SMART实验检索系统

[3,120],用户无须构造布尔逻辑组合的查询条件,只需输入用户查询的词语、短语、语句甚至一段文章,检索系统能根据用户的查询条件构造查询向量,按照查询条件向 15

哈尔滨商业大学毕业论文

量与文档向量间的余弦相似性排序,得到检索结果,这样也就实现了查询条件与文档间的部分匹配。尽管向量空间模型被当前搜索引擎广泛采用,但经常因缺乏理论基础而受到批评。

2.3.2 统计语言模型

最初的语言模型是利用统计技术计算词汇间的依赖关系以提高语音识别的性能,之后开始被应用到其他相关领域,Ponte和Croft于19xx年首次将统计语言模型和信息检索结合起来[125]。在最初提出的基于语言模型的检索方法中,首先估计每篇文档的词汇概率分布,然后计算从这个分布抽样得到查询条件的概率,并按照查询条件的生成概率对文档进行重新排序。在这个模型中,一些统计信息比如词频、文档频率等信息成为语言模型检索方法中的有机组成部分。与传统检索模型不同的是,这些信息都是作为启发规则性质的计算因子引入的,而文档长度归一化成为不必单独计算的因子,因为它已经隐含在语言模型的概率参数中。这个新的检索模型提出后受到了广泛的关注,之后几年内有不少学者在此基础上提出了一些改进的方法及模型。

2.3.2.1 N元模型(N-Grams)

统计语言模型是关于某种语言的所有语句或者其他语言单位的分布概率情况

[126],其主要研究任务是:假设某个词语的出现与它前面的n-1个词语有关,那么己知文本序列中的前n-1个词语,求第n个词语为单词W的概率。在语音识别、机器翻译、信息检索等多数统计语言模型的应用研究中,一个句子的概率常常被分解为n-gram概率的乘积,也就是统计语言模型中的n元模型,其描述方式如下:

2.3.2.2 隐马尔可夫模型(Hidden Markov Model)

隐马尔可夫模型(Hidden Markov Model, HMM)方法是将信息检索看作是一种离散的隐马尔可夫过程,最初将隐马尔可夫模型引入信息检索领域的是Mills等人[127]。在该方法中,假设文档集合S包含N个不同文档,HMM方法根据每一篇文档d和文档集合S构造包含两个状态的离散隐马尔可夫模型,这样得到N个不同的隐马尔可夫模型的集合。任一个离散隐马尔可夫模型由以下四组参数集合构成:文档d本身和文档集合S构成状态集合:状态间的转移概率集合T={a1, a2, ??, a3};状态输出可见符号集合由文档集合中出现的所有词汇构成;而每个状态产生可见符号的概率集合通过以下最大似然估计得到.

2.3.2.3 概率上下文无关文法(PCFG)

概率上下文无关语法(probabilistic context-free grammar, PCFG)又叫做随机上下文无关语法( stochastic context-free grammar,了解SCFG),最早是由Booth提出来的[133]。该语法是以概率论的基本原理为基础,基于大规模的真实语料库进行概率统计,给出了一种传统的句法结构树评分模式。其基本过程是:构建一个合适的语言概率模型,利用大规模的真实语料对模型中的基本参数进行训练,然后在此概率模型中对每个句法分析结果(通常是句法结构树)进行评分,并以这个分值作为优选的依据。

16

哈尔滨商业大学毕业论文

2.3.2.4 风险最小化模型

Lafferty和Zhai等人基于贝叶斯决策理论提出了风险最小化模型[134],在该模型中,用户查询和文档通过统计语言模型建立,用户需求偏好(User Preference)通过风险函数进行建模,于是信息检索就转换为风险最小化问题。文档和查询条件的相似性度量采取了如下的文档语言模型和查询条件语言模型之间的Kullback-Leibler距离.

2.3.3 几种主要模型之间的对比

在上述四种比较经典的模型中,布尔模型是功能最弱的模型,这主要是因为它不能支持文档与用户查询之间的部分匹配从而导致其检索性能最差;尽管概率模型有很好的理论基础,但无论在学术研究价值及实际效果方面,向量空间模型更受欢迎;统计语言模型方法虽然还有很多学术问题有待解决,由于结合了文档中的词频、上下文共现等信息,其实际检索效果比上述三种方法要好,而且表现出了更好的研究价值和应用前景。表2-1是四种经典模型之间各方面的对比结果。

2.3.4 统计语言模型的研究与应用

目前,在语言模型的研究方面,研究者提出了许多有创见的方法,在许多方面也取得了很大成功。如传统的统计语言模型,试图估计自然语言规律及语言现象的分布情况,用来改善自然语言处理的性能,可以用来估计各种语言单元的概率分布,如自然语言的词、句子甚至文档等。统计语言模型自19xx年被首次提出后,研究者也尝试了很多改进模型,并先后被有效地应用于语音处理[135]、机器翻译[136]、信息检索[137]等相关应用领域,都取得了不错的结果。

2.4 本体论和统计语言模型相结合的混合语言模型

尽管统计语言模型在许多应用领域均取得了很好的效果,但当前的统计语言模型还有众所周知的一些弱点,其一,可能的训练数据稀疏问题,例如,统计语言模型应用于信息检索领域,最初的语言模型的训练集相对较小,而自动语音识别的语言模型使用的语料多达百万个词;其二,当前的语言模型对训练数据有较强的依赖性,一旦移植到其它领域或跨领域,语言模型将降低实效;其三,词与词之间的独立性假设不成立,不同的模型对同一篇文档的假设甚至也不尽相同。上述弱点不仅限制了语言模型的通用性,同时,在应用的过程中,上述模型本身还暴露出了一些问题,其中比较突出的是它不能很好地表达和处理语义层面信息,不能很好地适应主题多变的应用环境等。

2.4.1 混合语言模型的数学描述

本文提出的应用于跨语言信息检索的混合语言模型的结构由词义本体表示和语言本体知识组成,该模型用一种较为精确的表达形式表示为:用户向跨语言信息检索系统提交源语言查询Q,系统通过词义本体表示o以及取自于用户查询的语言本体知 17

哈尔滨商业大学毕业论文

识 ,对用户查询进行译词选择C,获得源语言用户查询的目标语译词T,然后,对目标语文档集合D进行信息抽取E,再结合词义本体表示o、取自于用户查询的知识 和取自于文档的知识 ,对符合检索条件的文档集合D’进行重新排列R,最终获得结果A。基于混合语言模型的跨语言信息检索的过程如图2-1所示。

2.4.2 混合语言模型建模的可行性分析

本文提出了本体论和统计语言模型相结合的一种新的混合语言模型,将概念本体所具有的正规、明确的表示形式与统计语言模型所具有的对语言现象、语言规律的概率统计有机地结合起来,希望采取优势互补的原则进行强强联合。

2.4.3 混合语言模型建模的关键技术分析

(1) 本体论和统计方法的有机结合 在跨语言信息检索的有关研究中,由于语言现象中一词多义现象的普遍存在,用户查询的译词选择的消歧问题成为制约跨语言信息检索的关键之一。由于本体是对概念的正规的、明确的表述形式,构造适于计算机与人类共享的本体表示与描述,将有助于歧义的消除。同时,统计语言模型在一系列自然语言处理应用中也取得了可观的成绩。因此,本体论和统计方法的有机结合是本文的关键问题之一,可以为提高自然语言理解及其应用的精确度提供理论支持和实践检验。

(2) 语言模型结构的有效表示 建模问题是语言模型要解决的两大主要任务之一,有效的语言模型需要一个好的模型结构的支持。本文提出的语言模型的建模结构中即要明确体现相关领域的本质概念,同时要有效表达出语言现象、揭示语言规律。对于该语言模型构建,即要考虑词串本身,同时也包括上下文共现的多元信息,包括共现词的词性、语义信息、位置关系、共现概率等。如何有效地表示上述信息,使语言模型充分发挥它的作用,将是本文研究的另一个关键问题。

2.4.4 混合语言模型的建模方法

本体论是对共享概念的正规、明确的表示,可以使人和计算机对概念的处理建立在共同的基础之上,因此本文针对跨语言信息检索的研究,基于本体论构建一种有效的语言知识表示形式。统计语言模型的主要任务包括两方面的工作,其中最重要的部分就是语言模型的建模方法,而统计语言模型的主要目标是用来估计各种语言单元的概率分布,如自然语言的词、句子甚至文档等,其中一些统计信息比如词频、文档频率等信息成为语言模型检索方法中的有机组成部分,在自然语言信息处理领域发挥了重要作用。本文所提出的混合语言模型的结构由词义本体表示和语言本体知识构成,本文将结合本体论的有关理论构建语言本体知识库,并融合统计语言模型中的有关统计信息。

18

哈尔滨商业大学毕业论文

2.4.4.1 词义本体表示

定义2-1 词义本体 传统的词义是指词本身所表示的意义,包括词的词汇意义和语法意义。按照本体的概念,本文提出的词义本体是对词语的正规、明确的一种表述。 定义2-2 词义本体描述框架 词义本体描述框架是以机器可读的格式,将与该词相关的部分或全部信息有效地组织在一起的一种类似于框架的结构。

2.4.4.2 语言本体知识的数学表示

在自然语言信息处理的相关应用中,语言知识库的建设是最基本、最重要的基础,同时也是本研究提出的语言模型建模的组成部分之一,语言知识库的规模和质量将在某种程度上决定语言模型的优劣。

2.4.5 混合语言模型的性能评价及实验分析

评价一个语言模型性能的好坏,需要与解决实际问题的性能联系起来,也就是说,需要考查在相关问题域上的错误率。然而,错误率是典型的非线性的,能够将平均错误率降低10%~20%,将会转化为实际应用性能上很大程度的改进。一般采用困惑度(perplexity)衡量一个基于n-gram的统计语言模型,而n-gram对于英语文本的困惑度范围一般为50~1000,值越小说明性能越好。对于本文的实际问题,所提出的混合模型并非完全是基于n-gram的统计语言模型,因此不做此方面的测试。为了评价本文所提出的混合语言模型的性能,本文选择特定信息过滤和文本相似度计算两个相关问题域进行了初步的测试,以验证所提出语言模型的性能优劣。

2.4.5.1 信息过滤

一般传统的用于信息识别/过滤(Information Filtering, IF)系统,是根据用户提供的一个固定而特殊的要求(User Profile),从待处理的信息流中寻找用户预先设定的特征信息进行甄别,决定接受或拒绝。这种特殊信息一般都有所指,如垃圾邮件过滤、有害信息识别等。然而,由于汉语语言表达的丰富性和多义性,目前基于特征词机械式匹配模式、基于向量空间模型以及基于概念的过滤技术等对特定信息的识别及过滤效果并不理想。究其根源,无论是单纯的特征词匹配模式,还是各种形式的VSM方法,都是相对孤立地看待文本中出现的特征项,而没有把特征项放在上下文环境中来考察。这样即便能判断所截获的文本与待识别的信息类主题相关,也无法推断这个文本是正面还是反面,导致误判率很高。

2.4.5.3 实验及分析

对于语言模型的性能评价问题,本文从理论和实践两个方面进行了论证,初步的实验结果表明,利用本文所提出的混合语言模型,在解决实际问题时取得了很好的效果。

在上述两组实验中,我们通过获得不同问题域的语言知识的方法,作为进一步信 19

哈尔滨商业大学毕业论文

息处理的基础,其中并没有用到所提出的模型的全部信息,即根据上述不同问题域的实际情况,没有引入语义信息,该部分内容将在第3章将重点论述。

2.5 本章小结

本章概要介绍了本体论的有关知识及其应用研究,然后介绍几种主要的信息检索模型,其中重点介绍了统计语言模型的有关内容及其应用研究,在此基础上分析了现有语言模型的优缺点,提出了本体论和统计语言模型相结合的一种混合语言模型,该语言模型的结构由中文的词义本体表示和语言本体知识构成,并主要从语言模型的建模方法论和语言模型的评价两个方面作了重点论述,用以解决困扰自然语言处理精确度不足的问题,其中针对如何应用到本文的跨语言信息检索问题展开了较详细的叙述。利用本文提出的混合语言模型所完成的一系列初步实验表明,对比其它方法的性能均得到了程度不等的改善,这也验证了所提出方法的有效性和可行性,为将该模型有效地应用于跨语言信息检索的问题域中奠定了基础。

第3章 跨语言信息检索的语言本体知识获取研究

3.1 引言

知识获取是人工智能研究中一个至关重要又极难解决的问题。对于面向实用的跨语言检索系统来说,这一问题尤为突出。传统的方法通常是采用人工获取方式建立的,随着系统规模的扩大,这种人工获取知识的方式逐渐暴露出其效率低、可移植性差、一致性难以保证等弱点。

目前,研究者所提出的众多关于跨语言信息检索的方法和模型,各有所长,但总体讲用户所更加关心的检索精度问题并没有实质性的突破。另一方面,研究者普遍的作法是:只考虑实现源语言用户查询的译词选择,纷纷采用各种方法竭力提高译词的准确性,之后的工作仅围绕目标语展开。上述作法无异将会损失一些有用的信息,因为即便使用最好的机器翻译系统,目前也无法做到100%的译词准确率,完全撇开用户的源语言查询,也导致检索精确率的下降。本文提出的方法即采纳一些传统做法,又不丢掉用户源语言查询的有用信息(将使用从源语言获得的语言本体知识),以期提高检索性能。

3.2 汉语词义本体的构建

20

哈尔滨商业大学毕业论文

语言知识的自动获取是自然语言处理的核心之一,在信息检索、数据挖掘、机器翻译等许多领域都有广泛的应用。词语是构成自然语言的基本要素,也是最重要的要素之一,词义知识一直是制约其发展的瓶颈问题,一个多义词语的词义只有在上下文环境中才可以确定,而上下文环境中影响词义的因素是多种多样的,同时也表现出其特有的不完整性和不确定性,如何从自然语言描述中获得词义的确切知识并有效地应用,是语言信息处理研究中的难点也是重点。在本文的研究过程中,由于本体能够使人或机器间的交流建立在对所交流领域共识的基础上,因此比较适合构造上述的词义本体知识。

3.2.1 词义本体的构成

本文在§2.4.3.1中已经定义了词义本体的结构表示,图2-1也给出了词义本体表示的剖面图示。这种表示方式综合了HowNet、同义词词林、双语词典等资源的部分内容,用机器可读的方式将有关信息有效地组织在一起,主要包括定义并给出的以下几个方面信息:

3.2.2 汉语分词及词性标注

中文自然语言信息(包括简体、繁体)以及其它一些亚洲语言的书写不像英语那样,词与词之间有天然的空格分开,因此,处理这些自然语言文字信息时必须首先解决分词问题,然后再需要确定词性信息。

本文的实验处理采用了本实验室自主开发的汉语分词及词性标注系统,该系统的分词正确率在98.5%以上,词性标注正确率在95%以上,达到了适用的程度。关于汉语分词及词性标注过程本文不再赘述。

3.2.3 基于知网的语义标注

为了获得词义本体及语义本体知识,我们需要确定词语在句子或文档中的语义信息,我们将根据知网给出的词的概念标注语义符号。

3.2.3.1 知网描述

知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。面向计算机是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。

3.3 共现信息的获取

本文在§2.4.3.2中已经定义了语言本体知识的结构表示,为了便于描述以及方便 21

哈尔滨商业大学毕业论文

自然语言信息处理的具体应用,本文将语言本体知识用一个四元组描述特征项以及与其共现的多元信息,式2-1列出了某个特征项的语言本体知识表示,某个问题域的全部特征项及其它们所获得的语言本体知识,组成了该问题域的语言本体知识库。为了获得相应的语言本体知识,我们需要确定特征项的描述、共现词条的表示、同现概率、位置关系等几个问题。

3.3.1.1 知识库中的特征项描述

在解决本文的实际问题中,我们采用了词语本体表示中对特征项的定义、词性、语义描述、英语译词(涉及汉英跨语言检索的实际问题)四方面的信息组成一个四元组,来唯一地标识该特征项。

我们将特征项Keyword和与其共现的词条(Semi, POSi, L)定义为一对语义关系对,记作<Keyword, (Semi, POSi, L)>,标识训练语料中与特征项共现的第i个词条,在实际应用中,我们的工作重心将围绕特征项以及上述语义关系对展开。

3.3.1.2 共现信息的表示

训练语料中与特征项共现词条的有关信息也表示成一个四元组 的形式,(Semi, POSi, L)作为对与特征项共现的词条的表示,需要确定词语的语义信息Semi、词性信息POSi、位置信息L; 描述为特征项与该词条的平均共现距离值。在本文关于语言本体知识的表示中,将分隔开以特征项为中心的左右两个方向的共现信息。

有关词性信息及语义信息的获取,参见§3.2.2以及§3.2.3中的有关描述,以下将重点介绍特征项与共现词条的平均共现距离的获取。

3.3.2 知识获取策略

本文提出从训练语料的机器学习过程中,自动获得特征项与其共现的其它词条在语义、语用、句法等方面的用法,形成语言本体知识库,算法3-3给出了语言本体知识的获取策略及过程。

3.3.3 语言本体知识的应用

从词义本体表示及语言本体知识的描述形式不难看出,每个与特征项Keyword共现的词条,由它的语义表示Sem、词性POS及位置信息L唯一确定,且有左向共现信息和右向共现信息之分。进行语言信息处理时,将按照与算法3-3类似的处理方法,得到特征项Keyword在实际文档中的用法,可以与已经获取的词义本体知识相比较。

在具体的实际问题中,语言本体知识的应用将不尽相同,对于不同的实际应用,不同的处理文档将从语言本体知识库中分别获得文档评价值。

22

哈尔滨商业大学毕业论文

3.4 相关问题域的实验与分析

在§2.4.4关于语言模型的性能评价的有关实验中,并没有完全使用语义信息,部分特征项是由人工采集而得到,因此,为了测试语言本体知识的作用,也是进一步验证本文所提出的混合语言模型的性能,尤其是评测加入自动标注的语义信息后的性能,又选择了两组项目及公共语料进行测试,一组是针对单语(汉语)的信息检索,另一组则是自动文本分类问题。对于上述两组问题的测试,不仅仅是验证在跨语言信息检索问题域上的有效性,更进一步希望该混合语言模型在自然语言处理的有关领域都能应用。

23

哈尔滨商业大学毕业论文

附 录

附录1 汉语词性标注集

ng 一般名词 usdi 助词“地” nx 中文姓氏 usdf 助词“得” nm 中文人名 ussu 助词“所” nd 地名 ut 时态助词

ny 外国译名 ur 其它助词 nj 机构名 y 语气词

nq 行政单位名 o 象声词/拟声词 nc 称呼词 e 叹词

t 时间词 h 前接成分

S 处所词 k 后接成分

F 方位词 i 成语

M 数词 j 简称略语

Q 量词 l 习用语

B 区别词 g 语素

R 代词 x 非语素字

vg 一般动词 sym 其它符号 vx 系动词 wd 顿号

vz 助动词 wo 标点逗号

vq 趋向动词 wj 标点句号 vb 补语助动词 wp 标点破折号

A 形容词 wkl 左括号 Z 状态词 wkr 右括号

D 副词 wsl 左书名号 P 介词 wsr 右书名号

C 连词 wyl 左引号

usde 助词“的” wyr 右引号

24

哈尔滨商业大学毕业论文

附录2 汉语短语标注集

AP 形容词短语 NS 处所名词短语

ASIDE “似的”结构 NT 时间名词短语 BAP 基本形容词短语 PP 介词短语 BDP 基本副词短语 PFP (介词)方位结构 BMP 基本数量短语 SS 小句(或子句) BNP 基本名词短语 VP 动词短语

BNS 基本处所名词短语 VBA “把”字结构 BNT 基本时间名词短语 VBEI “被”字结构 BVP 基本动词短语 VC 动补结构

CO 并列结构 VJ 兼语结构

DP 副词短语 VO 动宾结构

INP 插入语 VOO 双宾结构

MP 数量短语 VSUO “所”字结构

NP 名词短语 VV 连动结构

NDE “的”字结构 XP 搭配结构

25

哈尔滨商业大学毕业论文

附录3 英语词性标注集

ART 冠词 CC 并列连词

CD 基数词 DT 限定词

EX There be FW 外来语

IN 介词 JJ 形容词

JJR 形容词比较级 JJS 形容词最高级

LS 列表 MD 情态动词

NN 单数或集合名词 NNS 复数名词

NNP 单数专有名词 NNPS 复数专有名词

POS 所有格结尾(’s) PRP 人称代词

PRP$ 名词所有格 RB 副词

RBR 副词比较级 RBS 副词最高级

RP 小品词 SYM 符号

TO To UH 感叹词

VB 动词基本形式 VBD 动词过去式

VBG 动名词或动词现在进行式 VBN 动词过去分词

VBP 动词非第三人称单数现在时 VBZ 动词第三人称单数现在时 WDT wh-限定词 WP wh-代词

WP$ wh-代词所有格 WRB wh-副词

# 英镑符号 $ 美元符号

. 句号 , 逗号

: 冒号 ( 左括号

) 右括号 '' 双引号

26

哈尔滨商业大学毕业论文

附录4 英语短语标注集

ADJP 形容词短语 RRC 简化的关系从句

ADVP 副词短语 S 陈述句

BNP 基本名词短语 SBAR 从句

CONJP 连接词词组 SBARQ 特殊疑问句

FRAG 片语 SINV 倒装句

INTJ 语气化较强的句子 SQ 一般疑问句

LST 列举 VP 动词短语

NP 名词短语 WHADJP How+形容词

PP 介词短语 WHADVP How+副词

PRN 插入语 WHNP 疑问代词短语

QP 数量短语 WHPP 介词+疑问词

攻读博士学位期间发表的论文

1 Dequan Zheng, Yi Hu, Hao Yu, Tiejun Zhao and Sheng Li. Research of Specific Information Recognition in Multi-Carrier Data Streams. Journal of Software. 2003, 14(9): 1538~1543 (EI检索, 04027814415)

2 Dequan Zheng, Hao Yu, Tiejun Zhao, Sheng Li and Yuan Peng. Research on a Chinese Language Model Based on Ontology and Statistical Method. Journal of Chinese Language and Computing, 2004, 14(4): 305~315

3 郑德权, 李生, 赵铁军, 于浩. 基于一种混合语言模型的自动文本分类技术研究. 电子与信息学报(已录用)

4 郑德权, 李生, 赵铁军, 于浩. 本体论和统计方法相结合的中英文跨语言信息检索模型. 哈尔滨工业大学学报(自然科学版) (已录用)

5 Dequan Zheng, Tiejun Zhao, Sheng Li and Hao Yu. A Hybrid Chinese Language Model based on a Combination of Ontology with Statistical Method. Proceedings of IJCNLP 2005, 2005: 15~20

6 Dequan Zheng, Jianfeng Gao, Guangyuan Wu and Tiejun Zhao. A Novel Method for Cross-Lingual Information Retrieval. Proceedings of AIRS-2004, 2004: 229~232

7 Dequan Zheng, Tiejun Zhao, Sheng Li. Machine Learning for Automatic Acquisition of Chinese Linguistic Ontology Knowledge. Proceedings of ICMLC 2005. 2005: 3728~3733 (EI检索, 05509539378)

8 Dequan Zheng, Yi Hu, Tiejun Zhao, Hao Yu and Sheng Li. Research of Machine Learning Method for Specific Information Recognition on the Internet. Proceedings of 27

哈尔滨商业大学毕业论文

ICMI’02, 2002: 229~234 (ISTP)

9 Dequan Zheng, Hao Yu, Tiejun Zhao, Sheng Li and Yuan Peng. Research on an Ontology-based Language Model. Proceedings of ICCC 2005, 2005: 95~102

10 郑德权, 赵铁军, 李生, 于浩. 基于内容的词义本体知识自动获取. Proceedings of JSCL 2005, 2005: 247~252

11 郑德权, 于凤, 赵铁军, 于浩. 基于汉语二字应成词的歧义字段切分方法.计算机工程与应用, 2003: 17~18

12 郑德权, 于凤, 于浩, 赵铁军. 提高Web信息检索精度的多步策略. 哈尔滨商业大学学报(自然科学版), 2003: 303~305

28

哈尔滨商业大学毕业论文

哈尔滨工业大学博士学位论文原创性声明

本人郑重声明:此处所提交的博士学位论文《本体论和统计语言模型相结合的跨语言信息检索研究》,是本人在导师指导下,在哈尔滨工业大学攻读博士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。

作者签字: 日期: 年 月 日

29

哈尔滨商业大学毕业论文

哈尔滨工业大学博士学位论文使用授权书

《本体论和统计语言模型相结合的跨语言信息检索研究》系本人在哈尔滨工业大学攻读博士学位期间在导师指导下完成的博士学位论文。本论文的研究成果归哈尔滨工业大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨工业大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权哈尔滨工业大学,可以采用影印、缩印或其它复制手段保存论文,可以公布论文的全部或部分内容。

本学位论文属于不保密。

作者签名: 日期: 年 月 日

导师签名: 日期: 年 月 日

30

哈尔滨商业大学毕业论文

致 谢

值此论文完成之际,心中感慨良多。这篇论文能够得以顺利完成,使我既体会到了辛勤劳动后的喜悦,又深深感到它与大家的热心帮助是分不开的。

首先向我尊敬的导师李生教授致以深深的谢意。李老师开阔的视野、严谨的学风以及 严以律己、宽以待人的高尚品质无不是学生学习的楷模,论文的每一步进展都离不开李老师的悉心指导和亲切关怀。

感谢赵铁军教授多年来的大力支持和帮助,赵老师渊博的知识、严谨的治学态度和勤恳的工作作风深深感染了我,激励着我不断地把工作做得更好。

感谢微软亚洲研究院高剑峰博士的关心和指导。本文的部分工作是作者在微软亚洲研究院实习期间在高博士的悉心指导下完成的,高博士渊博的知识、敏锐的思维和对新研究方向非凡的洞察力使学生受益匪浅。感谢微软亚洲研究院黄昌宁老师、周明博士、李航博士的启发和帮助。

感谢于浩、刘挺、杨沐昀、姚建民、徐冰几位老师的鼓励与支持,感谢已经先期毕业的张民博士、荀恩东博士、吕雅娟博士、孟遥博士等几位师兄师姐的关怀与支持,感谢在实验室一起学习与奋斗过的尚福华、曹海龙、齐浩亮、薛永增、韩习武、张姝、赵华、胡熠、刘占一、张军、陈鄞、彭渊、伍贵宾、张剑以及实验室的所有成员,这篇论文的顺利完成是与他们的热心帮助和密切合作分不开的。

感谢辛勤培育我的哈尔滨工业大学,感谢计算机学院的所有老师们。

感谢国家自然科学基金、国家863高科技项目基金、哈工大-微软联合实验室以及黑龙江自然科学基金、黑龙江省教育厅对本课题研究的支持。

感谢对本论文进行评审、提出宝贵意见的各位专家。

31

更多相关推荐:
山东师范大学毕业论文格式要求

山东师范大学毕业论文(设计)格式要求一、毕业论文(设计)的编辑格式本科生毕业论文(设计)应一律采用打印的形式,使用学校统一的封面格式,按以下项目依次编排:1.封面使用学校统一格式(第二学位论文使用专用封面)。题…

大学本科毕业论文格式范文

大学本科毕业论文格式范文一、纸页面要求A4纸,纵向单面打印。页边距要求如下:页边距上下各为厘米,左边距为,右边距为厘米。二、论文装订页码顺序1、封面(按标准格式装订)、论文摘要、关键词(中、英文单独成页,不…

福建师范大学本科生毕业论文格式要求

福建师范大学本科生毕业论文(设计)打印格式要求一、毕业设计(论文)用纸、页面设置要求毕业设计(论文)应按规定格式用激光打印机单面打印,纸张大小一律使用国际标准A4型复印纸。页面设置:版心为297×210mm;页…

大学毕业论文格式

大学毕业论文的格式一:1、题目。应能概括整个论文最重要的内容,言简意赅,引人注目,一般不宜超过20个字。论文摘要和关键词。2、论文摘要应阐述学位论文的主要观点。说明本论文的目的、研究方法、成果和结论。尽可能保留…

兰州交通大学毕业论文格式

毕业论文格式(一)毕业论文所附资料中文摘要、关键词英文摘要、关键词目录(中英文摘要不进目录)正文参考文献致谢(二)论文摘要1.中文摘要中文摘要约400字左右,论文摘要一般包括:论文的目的和重要性;采用的研究方法…

建筑经济管理毕业论文格式

建筑经济管理毕业论文任务书20xx-06-1216:12来自:一、指导思想毕业论文是对学生所学理论知识及应用能力的综合检验,学生必须严肃认真对待,写作过程中应结合本身工作进行选题,认真收集资料、查阅文献、进行撰…

大学本科毕业论文格式标准

大学本科毕业论文格式标准大学本科毕业论文格式大学本科毕业论文格式大学本科毕业论文格式大学本科毕业论文格式毕业论文格式标准1.引言1.1制定本标准的目的是为了统1规范我省电大财经类本科毕业论文的格式,保证毕业论文…

毕业论文写作基本格式要求

毕业论文写作基本格式要求一文本结构1封面这个由学校发给2目录单独一页列写出文章各章节名称及所在页码3正文4注释或参考文献二正文写作格式1标题2内容摘要200300字标题下空两行顶格写3关键词3到4个词组摘要下空...

专科毕业论文(格式范本)

阳泉学院毕业论文毕业生姓名专业学号指导教师国际经济与贸易080821009所属系部经济贸易系二一五年六月阳泉学院毕业论文评阅书题目经济贸易系系国际经济与贸易专业姓名设计时间20xx年9月15日20xx年11月1...

本科学生毕业论文撰写格式规范--北京师范大学珠海分校版

北京师范大学珠海分校本科学生毕业论文撰写格式规范一对论文主要组成部分的要求1题名题名即题目或标题应以最简明的词语反映论文最重要的思想内容题名中应避免使用非公知公用的缩略语字符代号以及结构式和公式要简洁明了最好控...

工商管理本科毕业论文写作格式

工商管理本科毕业论文写作格式工商管理毕业本科论文写作格式工商管理毕业本科论文写作格式1纸型及页边距毕业论文一律用国际标准A4型纸297mm210mm打印页面分图文区与白边区两部分所有的文字图形其他符号只能出现在...

毕业论文格式范例及解释(引言版)

山东政法学院毕业论文设计跨国公司在中国投资的动因分析及地域分布20xx年5月5日系年专班部商学院级20xx级业国际经济与贸易级本科1班学生姓名贺光学学号061100114指导教师刘丽霞教授毕业论文设计跨国公司在...

毕业论文格式(130篇)