语言信息处理与分领域语言研究的现代化

patricx

高级会员
#1
本项目其下各个子项目目标如下:
1.汉英平行语料库(陈小荷,软件,2005年12月完成)。目标是对合计100万词的汉语语料和英语语料进行对齐和深层次加工。对齐至少达到句子级别,加工则至少达到句法层次。除语料库本身之外,还应有一套语言自动分析的系列软件和一个专门的检索软件。出版论著和教材各一部,发表论文若干篇。
2.语义网络工程(李葆嘉,软件和论著,2005年12月完成)。软件部分为:现代汉语语义网络、现代英语语义网络等4个信息库;论著部分为《面向语言工程的语义语法学》等5部专著,《自然语言处理装置的研制思路》等几十篇论文。
3.现代汉语语域信息库(李葆嘉,软件,2005年12月完成)。预期成果为商务、法律、日常生活三个语域信息库、语料库、词汇库和范式库,出版专著3部,发表论文若干篇。
4.汉语方言语音词汇库(刘俐李,软件,2005年12月完成)。选取多个汉语方言点的相同或相近的方言词汇(每个方言点的词条不少于4000个,每一词条用国际音标标注声韵调),建立电子版的语音词汇库。该词汇库有三个特点:一是方言覆盖面广:相对完整地集中了汉语各方言的词汇;二是各方言点的词汇有较整齐的可比性;三是有注音,这将为语音研究提供帮助。发表论文若干篇。
5.外国人汉语语料库(肖奚强,软件,2005年12月完成)。拟收录50万词外国人作文语料,对语料做语病标引,着重词汇和语法两个方面。预期成果为50词的病句标引语料和检索软件。此成果不仅在对外汉语研究和教学领域将有重大意义,对于汉语机器学习的研究也将有不可忽视的借鉴作用。出版专著一部,发表论文若干篇。
6.汉语俗语言语料库(董志翘,软件,2005年12月完成)。目标是将中古(东汉至隋)、近代(主要是唐宋)时期比较切近口语的文献语料录制成电子文本,并对其进行进一步加工,包括版本选择、校勘,分词和词性标注,首期规模约300万字。这一成果将为汉语史的研究中的词汇、语法史研究打下必要的物质基础。发表论文10篇。
7.面向中文信息处理的语言知识库(曲维光、陈小荷,软件, 2005年12月完成)。目标是开建立一个为中文信息处理服务的汉语知识库,包括语素、实词、凝固短语和习惯搭配等各种词表,详细描写每个条目的词法、句法、语义等信息。其中实词(分义项)条目不少于6万,短语条目不少于90万。开发语言知识抽取软件2个,发表论文若干篇。
8.汉语语料库加工与检索系统(贺胜,软件, 2005年12月完成)。目标是开发一个汉语语料加工和全文检索系统,加工包括自动分词和词性标注,检索包括字符串检索、词语/词性模式检索以及用户定义的属性检索。适用于新闻、商务、现当代文学、古代文献、外国人汉语作文等各种语料库。在千万词级语料库上检索字符串,要求反应时间在10秒以内。发表论文若干篇。
9.新闻语言研究(段业辉,论著,2005年12月完成)。探讨共同语与新闻语言的异同、比较不同载体上的新闻语言的差别、找出同一载体上的新闻语言在不同体裁的作品中的运用规律等是本课题研究的主要目的。阶段性成果为系列论文,最终成果是专著《新闻语言比较研究》。出版专著一部,发表论文若干篇。
10.中古汉语虚词研究(董志翘、何亚南,论著,2005年12月完成)。预计收集研究1000个左右的中古虚词,除了详细分类,准确诠解每个虚词的语法意义、语法功能外,还将分阶段举例,辨析用法,进行溯源及探索语法化过程。有条件的话,还将在每个虚词下列出相关句型。出版专著一部,发表论文10篇以上。
11.文献语言专题、专书研究文库(黄征,丛书,2005年12月完成)。研究传世的中土文献语言,敦煌吐鲁番文献俗语言,汉译佛典与汉文宗教文献语言,为完整的汉语史的构架打下基础。丛书主要包括《汉语俗语词通论》等五部专著。 发表论文60篇。
12.现代汉语中传承语言成分研究(马景仑、方向东,论著,2005年12月完成)。以现代汉语书面语为研究范围,以其中的传承成分即古代汉语在现代汉语中的历史积淀为研究对象,从词汇入手,通过对比考察,首先区分出传承成分和非传承成分,然后系统地对传承成分进行结构的、语义的、语用的个案研究,理清现代汉语语词的来龙去脉及其发展变化,从而总结出其中的规律,剖析印证古今汉语研究的成果。出版专著一部,发表论文若干篇。
13.现代汉语存现句研究(潘文,论著,2005年12月完成)。本课题研究将第一次系统地研究存现句动词的语义特征,探求存现句动词对名词性成分的制约作用。系统地研究存现句的语用特征。通过语篇考察,分析不同语体和不同文体中存现句在功能和形式上的差异。发表论文5篇。
14.江淮方言声调和汉语调素的实验研究(刘俐李,论著,2005年12月完成)。本课题的理论假设是:汉语一个音节的声调由不等值的几个调素组成。这是声调的微观结构实验研究和理论研究。具体做法是对江苏境内的15个江淮方言点的声调进行单字调和连读调的相关测定和统计分析,用统计分析数据证实或证伪“不等值调素说”。发表论文5篇,建立江淮方言声调音档(每个方言点一盒录音)。
15.基于语料库的隐喻研究(汪少华,论著,2005年12月完成)。认知语言学理论来自国外,但同样适用于观察和研究现代汉语。以往的汉语认知语言学研究只满足于举例说明,我们准备对200万字的汉语语料进行穷尽式的研究, 以期得到准确的数据和发现汉语认知的特殊规律。出版专著一部,发表论文若干篇。 (本文已被浏览 792 次)
本文摘自:http://202.119.104.100/wxy/cipp/news_view.asp?id=14
 
顶部