W wdjihui 2011-08-30 #1 各位老师好。本人想以HSK汉语词汇等级大纲为基础,对一篇报刊文章的词汇使用情况进行分析,统计并标记出其中的超纲词汇,不知道有没有软件或办法可以帮助实现。不胜感谢!
superyangt 2011-08-30 #2 回复: 求助:HSK超纲词统计与标注 作者 wdjihui: 各位老师好。本人想以HSK汉语词汇等级大纲为基础,对一篇报刊文章的词汇使用情况进行分析,统计并标记出其中的超纲词汇,不知道有没有软件或办法可以帮助实现。不胜感谢! Click to expand... 如果不考虑词性的话,问题可以进一步简化为两个词表的比对。 第一个词表就是HSK词汇大纲,第二个则是你的文章(要先经过分词)。 然后提取出在第二个词表中,且不在第一个词表中的词,形成第三个词表。 最后对第三个词表进行处理,即对重复出现的词统计频次。 如果考虑词性的话,还需要对第一个词表进行词性标注,因为据我所知HSK词汇大纲是没有标注词性的,此外还有一些是常用格式,如“边……边……”。 只能写个程序来一步实现了。
回复: 求助:HSK超纲词统计与标注 作者 wdjihui: 各位老师好。本人想以HSK汉语词汇等级大纲为基础,对一篇报刊文章的词汇使用情况进行分析,统计并标记出其中的超纲词汇,不知道有没有软件或办法可以帮助实现。不胜感谢! Click to expand... 如果不考虑词性的话,问题可以进一步简化为两个词表的比对。 第一个词表就是HSK词汇大纲,第二个则是你的文章(要先经过分词)。 然后提取出在第二个词表中,且不在第一个词表中的词,形成第三个词表。 最后对第三个词表进行处理,即对重复出现的词统计频次。 如果考虑词性的话,还需要对第一个词表进行词性标注,因为据我所知HSK词汇大纲是没有标注词性的,此外还有一些是常用格式,如“边……边……”。 只能写个程序来一步实现了。