【篇名】 大规模汉语语料库中任意n的n-gram统计算法及知识获取方法
【作者】 张民. 李生. 赵铁军.
【刊名】 情报学报 1997年01期
【机构】 哈尔滨工业大学计算机科学与工程系.
【关键词】 n元语法. 统计. 信息熵. 知识获取.
【摘要】 本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
http://www.corpus4u.org/upload/forum/2005092415070056.pdf
【作者】 张民. 李生. 赵铁军.
【刊名】 情报学报 1997年01期
【机构】 哈尔滨工业大学计算机科学与工程系.
【关键词】 n元语法. 统计. 信息熵. 知识获取.
【摘要】 本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
http://www.corpus4u.org/upload/forum/2005092415070056.pdf