大规模汉语语料库中任意n的n-gram统计算法及知识获取方法

xujiajin

管理员
Staff member
#1
【篇名】 大规模汉语语料库中任意n的n-gram统计算法及知识获取方法
【作者】 张民. 李生. 赵铁军.
【刊名】 情报学报 1997年01期
【机构】 哈尔滨工业大学计算机科学与工程系.
【关键词】 n元语法. 统计. 信息熵. 知识获取.
【摘要】 本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
http://www.corpus4u.org/upload/forum/2005092415070056.pdf
 

xujiajin

管理员
Staff member
#3
回复: 大规模汉语语料库中任意n的n-gram统计算法及知识获取方法

Link is restored. It works now.
 
#5
回复: 大规模汉语语料库中任意n的n-gram统计算法及知识获取方法

The objective of the ACE program is to develop automatic content extraction technology to support automatic processing of human language in text form. The program is devoted to three sources types. These are namely newswire, broadcast news (with text derived from ASR), and newspaper (with text derived from OCR). ACE technology R&D is aimed at supporting various classification, filtering, and selection applications by extracting and representing language content (i.e., the meaning conveyed by the data). Thus the ACE program requires the development of technologies that automatically detect and characterize this meaning.
 
顶部