回复: 请帮忙找一篇博士论文
[FONT=宋体]双语WordNet[FONT=宋体]语义知识库的构造理论与工程实践[/FONT][/FONT]
[FONT=宋体]在过去,计算语言学研究集中在词法分析和句法分析上,基于规则、基于统计的语法分析技术率先在自然语言处理领域得到广泛运用。目前,随着Internet[FONT=宋体]网络应用的普及和深入,多语种内容信息的理解和处理逐渐受到人们的关注。语义分析的研究,如词义排歧和语义归纳、推理等,开始处于萌芽期并将逐步走向前台,成为下一阶段计算语言学研究的一个亮点。[/FONT] [/FONT]
[FONT=宋体]计算机本身没有智能,自然语言的语义分析和内容信息的理解,离不开语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的一个物质前提。语义知识库继各种语法信息词典、语料库之后,成为所有自然语言处理领域不可或缺的一项基础资源。迄今为止,语义知识库研究的主要成果有Princeton[FONT=宋体]大学的[/FONT]WordNet[FONT=宋体]、[/FONT]California[FONT=宋体]大学[/FONT]Berkeley[FONT=宋体]分校的[/FONT] FrameNet[FONT=宋体]、[/FONT]Microsoft [FONT=宋体]公司的[/FONT]MindNet[FONT=宋体]和中国科学院董振东先生的[/FONT]HowNet[FONT=宋体](或称知网)。其中,[/FONT]WordNet[FONT=宋体]体系简洁、内容详实,已经成为自然语言处理领域最重要的公用语义资源和语义知识库事实上的国际标准,[/FONT]WordNet[FONT=宋体]研究(包括各种单语、双语和多语[/FONT]WordNet[FONT=宋体]的构造和应用研究)的国际性学术组织和国际性学术会议都已相继成立或召开。同时,由于普遍存在[/FONT]“[FONT=宋体]人类语言的认知语义结构具有共通性[/FONT]”[FONT=宋体]的假设,[/FONT]WordNet[FONT=宋体]作为人类语言语义知识库研究和应用标准的地位以后可能还会加强。[/FONT] [/FONT]
[FONT=宋体]汉语是我们的母语,也是世界上的一个大语种。在这样的大背景下,双语WordNet[FONT=宋体]语义知识库,特别是汉英双语[/FONT]WordNet[FONT=宋体]语义知识库的构造研究具有重要的现实意义,它不仅是中文信息处理的关键的基础资源,同时也是全球多语种[/FONT]WordNet[FONT=宋体]资源建设的一个重要的组成部分。本文的内容就是围绕语义知识库的建设,特别是国际上通用的汉英双语[/FONT]WordNet[FONT=宋体]语义知识库的构造研究(包括理论方面和工程实践)展开的。[/FONT] [/FONT]
[FONT=宋体]这项跨语言(汉语和英语)、跨学科(语言学和计算机科学)的研究,包括两方面的含义:一、需要构造什么样的双语WordNet[FONT=宋体]语义知识库(在内容上[/FONT]“[FONT=宋体]有用[/FONT]”[FONT=宋体])?二、如何构造这样的双语[/FONT]WordNet[FONT=宋体]语义知识库(在方法上[/FONT]“[FONT=宋体]有效[/FONT]”[FONT=宋体])?由于双语[/FONT]WordNet[FONT=宋体]语义知识库涉及两类不同的知识体系及其概念的映射,知识库结构复杂(大规模的双子网结构,每个子网各自约[/FONT]105[FONT=宋体]个概念节点和[/FONT]107[FONT=宋体]个概念关系)并且构造工程庞大(项目通常持续数年),开发什么样的解决方案至关重要。解决方案的优劣对工程进度(时间、人工开销以及资金投入等)和工程结果(语义知识库的内在质量)的影响是巨大的。[/FONT] [/FONT]
[FONT=宋体]在制定了知识库规范后,作者提出了构造双语WordNet[FONT=宋体]语义知识库的演化模型。新模型强调双语语义知识库构造中的继承和转换思想,希望从[/FONT]WordNet[FONT=宋体]现有的单语语义信息出发,通过词典编纂者的联机翻译和可视化操作,逐步实现由单语[/FONT]WordNet[FONT=宋体]到双语[/FONT]WordNet[FONT=宋体]的计算性转换,自然地得到一个双语语义知识库,从而大幅度提高构造此类语义知识库的效率和质量。该方法是构造双语[/FONT]WordNet[FONT=宋体]语义知识库的一个通用的解决方案(不局限于汉语和英语),对其它语义知识库的构造也具有一般的方法论意义。[/FONT] [/FONT]
[FONT=宋体]针对该构造模型,作者设计并实现了一个可视化的辅助词典构造软件VACOL[FONT=宋体]。该软件在北大计算语言所的[/FONT]CCD[FONT=宋体]项目(该项目受[/FONT]“[FONT=宋体]国家[/FONT]863[FONT=宋体]计划[/FONT][[FONT=宋体]项目号[/FONT]2001AA114040]”[FONT=宋体]、[/FONT]“[FONT=宋体]国家自然科学基金[/FONT][[FONT=宋体]项目号[/FONT]69973005]”[FONT=宋体]等资金支持)中得到大规模的应用,取得了很好的成果。[/FONT][/FONT]
[FONT=宋体] [/FONT]
[FONT=宋体]在内容组织上,全文共分六章。 [/FONT]
[FONT=宋体]在第一章的“引言”,作者着重介绍了课题背景与研究意义。 [/FONT]
[FONT=宋体]第二章是“WordNet[FONT=宋体]理论基础与方法论[/FONT]”[FONT=宋体]。它可看作是本文课题全部研究工作的一个理论基础,在大的框架下,本文的所有工作是从这个基础上展开的,本文的研究成果也将成为它的一个新的组成部分。[/FONT] [/FONT]
[FONT=宋体]接下来的第三、四、五章是本文研究、创新工作的核心成果,分三个方面阐述。 [/FONT]
[FONT=宋体]其中,第三章的“双语WordNet[FONT=宋体]的[/FONT]CCD[FONT=宋体]构造理论[/FONT]”[FONT=宋体]描写了构造双语[/FONT]WordNet[FONT=宋体]的新的理论,即[/FONT]CCD[FONT=宋体]构造理论,它包括了[/FONT]“CCD[FONT=宋体]语义知识库规范[/FONT]”[FONT=宋体]和[/FONT]“CCD[FONT=宋体]构造模型[/FONT]”[FONT=宋体]等两大块内容。前者是对具体的汉英双语[/FONT]WordNet[FONT=宋体]语义知识库的本体研究及其成果,后者则是为了得到该成果,应当开发什么样的解决方案的问题研究和探索,并且给出了一个新的构造模型。[/FONT] [/FONT]
[FONT=宋体]第四章的“VACOL[FONT=宋体]辅助软件的设计与实现[/FONT]”[FONT=宋体]针对上面提出的构造模型,最终设计、实现了[/FONT]VACOL[FONT=宋体]辅助软件。作者阐述了[/FONT]VACOL[FONT=宋体]辅助软件设计与实现的原理,对其中涉及的一些关键算法,如[/FONT]WordNet[FONT=宋体]语义信息抽取、数据敏感的树结构构造及其可视化操作等,也重点做了介绍,这些新的算法在语义知识库构造上有特别重要的价值。[/FONT] [/FONT]
[FONT=宋体]第五章的“构造双语WordNet[FONT=宋体]语义知识库的工程实践[/FONT]”[FONT=宋体]则是北大计算语言所针对新的构造模型,采用[/FONT]VACOL[FONT=宋体]辅助软件进行工程实践情况的介绍,包括[/FONT]CCD[FONT=宋体]项目工程实践的经验总结、目前已经采用的工程规范以及作者的工程实践引发的一个副产品:[/FONT]WordNet[FONT=宋体]语义错误的深入发掘。[/FONT] [/FONT]
[FONT=宋体]
最后,第六章的“结束语”对本文工作进行了总结,并详细列出了作者进一步的研究计划。[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]关键词:语义分析、语义知识库、概念、双语WordNet[FONT=宋体]、[/FONT]CCD [FONT=宋体]、[/FONT]VACOL [/FONT]