中文信息处理———“奇葩绽放”

lingjoin

封禁用户
转自www.lingjoin.com

中文信息处理是我国计算机领域中的一朵奇葩,是计算机技术与语言学、心理学、数学、控制论、信息论、声学、自动化技术等相互交叉融合而形成的一个学科。
由于中文语言和文化上的壁垒,在我国计算技术普遍落后的20世纪80年代,中文信息处理就已经处于国际领先的水平。北大汉字激光照排、联想汉卡等一批重大科研成果,为中国催生了一批优秀的计算机企业。此后,五笔字型、金山WPS、中文之星等也都为中国人使用电脑做出了贡献。近些年来,汉王手写输入、科大讯飞语音合成、TRS中文检索等一连串带有中文特色的高水平、实用化的成果相继诞生。
2005年底,国家科技部组织专家编写的《中国技术前瞻报告》指出:未来10年我国在信息、生物、新材料三大领域中最有可能的科学突破与技术突破集中在10个方面,其中之一就是中文信息处理技术。2006年,国家“863”计划信息技术领域设立了“中文为核心的多语言处理技术”重点项目,总经费7000万元,这是前所未有的大手笔。权威预测和政府的重点支持,预示着中文信息处理又一个春天的到来。
近年来中文信息处理的升温得益于互联网的迅猛发展。互联网上的海量文本一方面为语言处理提供了巨大需求,一方面又提供真实的训练、测试数据。中文搜索引擎的成功为中文信息处理的研发工作注入极大的活力、随着搜索引擎向精准化、智能化、专业化方向发展,语言处理将找到更大的用武之地。与Web 2.0相关的论坛、博客等的出现,又提出了处理网络语言、进行褒贬分析等新的课题。中文处理通用套装软件,在现有国情下很难大规模获利,高速度成长。搜索引擎等以提供软件服务,收取广告费的方式解决了盈利模式问题。在PC机时代受挫的中文处理软件,在互联网时代则正在胜出。此外,电信网和广电网的发展为中文语音处理创造了条件。
我们观察到中文信息处理发展的一些趋势:(1)处理单元越来越大:从字到词,再到命名实体、短语、句子,进而处理篇章、同主题的篇章集合,直至海量文本。(2)处理深度越来越深:从输入输出开始,到词法、句法,再到语义、语用,逐步深入。由于语言处理技术的进步,中文信息处理将由语言处理向以语言为载体的信息处理和知识处理过渡,从而真正为知识经济的发展做出贡献。(3)应用范围越来越广:中文信息处理作为核心技术,往往以嵌入其他应用系统的方式实现自身的使用价值。随着互联网的发展,中文信息处理技术已渗透到社会生产和生活的诸多方面。从桌面到企业内部网络,到互联网,到移动设备,到无线网,从新闻、图书、情报领域到电子商务、信息安全、远程教育、电子政务等,都能够看到中文信息处理的身影。(4)技术路线走向融合:统计方法仍占主流,但由于面临数据稀疏等问题,逐步吸纳传统语言分析技术,在更深的层次上建立统计模型,已是大势所趋。
中文信息处理包括对中文的形、音、义各个层面的处理,中文语音技术是中文信息处理非常重要的一个方面。近年来,语音技术在电信、广电、教育和安全等各个领域都有越来越实际的应用。
经过多年的培养,中文信息处理领域已经积累了一批优秀人才,有继续奋战在第一线的前辈们,有逐渐挑起大梁的30-40岁的中青年学者,还有一批20出头的研究生。他们已经逐步进入国际学术界,在ACL、SIGIR等国际顶级会议上发表论文,在国际技术评测屡获佳绩。
在看到喜人成绩的同时,我们也看到自身的不足以及潜在的危机。对国外技术的跟踪和改良居多,偏重应用,而原创的新理论、新方法还比较少。在基础研究中,对词法、句法、语义、语用等单项技术的研究较多,对各个层面之间交互作用的研究较少。国门大开,国内研发机构已无法再像80年代那样依靠中文屏障获得天然的领先优势。在21世纪互联网上的文化撞击中,中国人有责任掌握和研制最先进的中文技术,推广中文语言文化,提高中文信息的的使用效率,拓展中文互联网的疆土,并通过机器翻译等技术打通与其他语种的信息通道,提升中国在世界的形象和影响力,这是这一代中文信息处理工作者的使命。
 
Back
顶部