Wordsmith Tools应用及存在问题

xujiajin

管理员
Staff member
1、如何让WS统计词表时,把缩略形式统计为一个词,如I'll, don't, he's?
在Settings菜单中,选择Adjust Settings-->text & languages-->characters within word,键入',并选择‘allow to end of word’,这样可以把students' 这种形式也可以统计为一个词。
存在问题:WS3在这个功能上没问题,但WS4似乎不起作用,注意检查文本的编码格式。
2、在对比两个语料库时,为什么前后结果不一致?
WS有个Choose Language的选项,不要随意设置。如果对比的两个语料库使用两个不同的语言设置,结果可能很混乱。
3、有些词语料库中可以看到,但WS词表却统计不上?
如果文本中碰巧有些词在行末,并且词后没有空格,也没有标点,WS可能会忽略整个词。
4、在词簇统计中为什么会出现??符号,如何去掉?
这些符号代表文本出现的阿拉伯数字。重复第一个问题的操作步骤,选择numbers in wordlist。但有时你可能需要忽略数字,就不用选择它。
5、互信息值统计的意义,如何进行操作?
搭配力用Z或T值测定时,表示该词语同现在整体语料库中分布的概率;用互信息值(MI)测定时,表示两个词相互选择的概率。两种统计结果如果降序排序,会有很大差异,尤其是一些频率很低的词或词组可能MI值很高。有人认为这两种统计方法互补,可以参照使用。
WS中的互信息值统计操作步骤较多,请仔细阅读其帮助文件。
存在问题:WS3和WS4在处理词簇和互信息值时,步骤不一样。
Originally posted by laolee
Found at laolee's site
www.laoleehsd.com
 
Back
顶部