高频词与低频词的比率 词频最高的表头如何确定

1.请问高频词与低频词的比率怎么计算?
我的做法是:在某英语语料库的的词表(未经削尾处理)中先确定一个值,如0.1%,高于0.1%就是高频词(如100个词),低于0.1%就是低频词(如200个词),然后用100//200*100%=50%,这样做对不对,另外的问题是,我发现词表(降序排列)的最后很多词只有频数,并没有显示频率(我用的是wordsmith5.0),那么这些词是否应该包括在低频词内呢
“Laviosa[FONT=宋体]用高频词[/FONT]([FONT=宋体]即最常用的词语[/FONT])[FONT=宋体]的范围[/FONT][FONT=宋体]来考察英语翻译叙事文的词语使用的模式。她[/FONT][FONT=宋体]提出并验证了翻译英语中高频词所占比率高于[/FONT][FONT=宋体]非翻译英语,词频最高的表头[/FONT](listhead)[FONT=宋体]占更[/FONT][FONT=宋体]高的比率,但词目[/FONT](lemma)[FONT=宋体]数量却更少[/FONT][FONT=宋体][/FONT]

[FONT=宋体]2.词频最高的表头如何确定?[/FONT]
[FONT=宋体]我的做法是:在某英语语料库的的词表(经削尾处理)中先确定一个值,如0.1%,高于0.1%就是词频最高的表头(如50个词目),那么词频最高的表头的比率就是这50个词目的频率之和,我的做法对吗?[/FONT]
 
Back
顶部