wordsmith4.0检索weccl的议论文部分，结果有问题？

corpora · 2009-12-25

我用wordsmith4.0导入所有的weccl的议论文部分，生成一个词表。但结果中standardised TTR一项为没有信息。空白。这是什么原因呢？对其他的库不存在这个问题？请高人指教。谢谢了。

虾仁儿 · 2009-12-26

回复: wordsmith4.0检索weccl的议论文部分，结果有问题？

同问

chrisyang · 2009-12-26

回复: wordsmith4.0检索weccl的议论文部分，结果有问题？

检索weccl生成词表统计数据时，wst 4.0默认的基数是1000，总词数少于1000词的文本其STTR（standardised type/token ration）便是0。weccl中所搜集的学生语料平均长度大致在250词左右，所及如果使用wst 4.0默认的标准化类型符基数(standardised type/token basis)为1000计算式，STTR当然会是0。可以在setting->wordlist 下，通过调整standardised type/token basis 来计算出STTR。

这儿有些相关信息可以参考：
http://www.lexically.net/downloads/version5/HTML/index.html?type_token_ratio_proc.htm

corpora · 2009-12-28

回复: wordsmith4.0检索weccl的议论文部分，结果有问题？

作者 chrisyang:
检索weccl生成词表统计数据时，wst 4.0默认的基数是1000，总词数少于1000词的文本其STTR（standardised type/token ration）便是0。weccl中所搜集的学生语料平均长度大致在250词左右，所及如果使用wst 4.0默认的标准化类型符基数(standardised type/token basis)为1000计算式，STTR当然会是0。可以在setting->wordlist 下，通过调整standardised type/token basis 来计算出STTR。

这儿有些相关信息可以参考：
http://www.lexically.net/downloads/version5/HTML/index.html?type_token_ratio_proc.htm

您说的很有道理。非常感谢。我试了一下，确实如此。另外请问2个问题1.）假如我比较wecll和Brown中的type数量如何，那么采用哪种方法更合理，方法一是用wordsmith统计wordlist，其设置的type统计基数都设为200，方法二通过重新调整wecll的格式，把它的小文件都合并为一个。如果是方法二更合理的话，有没有把若干小文件合并为一个大文件的软件？？
问题2.)我要比较两个语料库中的某类词，比如跟着副词的动词的数量和种类的多少，数量可以用SF（Standardized frequency）比较, 那么type怎么样才有可比性呢，通过type/token ratial 吗？担心没有可比性，因为库容不同。但是这个有办法计算STTR吗？我自己没想出来，请大家教教我吧。

wordsmith4.0检索weccl的议论文部分，结果有问题？

corpora

初级会员

虾仁儿

chrisyang

普通会员

corpora

初级会员