检索weccl生成词表统计数据时,wst 4.0默认的基数是1000,总词数少于1000词的文本其STTR(standardised type/token ration)便是0。weccl中所搜集的学生语料平均长度大致在250词左右,所及如果使用wst 4.0默认的标准化类型符基数(standardised type/token basis)为1000计算式,STTR当然会是0。可以在setting->wordlist 下,通过调整standardised type/token basis 来计算出STTR。
这儿有些相关信息可以参考:
http://www.lexically.net/downloads/version5/HTML/index.html?type_token_ratio_proc.htm