菜鸟问题: 关于wordsmith

请问各位论坛大侠们,我建了一个很小的专业英语语料库,为什么wordsmith做wordlist,文本(txt)里的数字都显示成了#? 然后frequency就很高,排第四,严重影响我后面做keyword list的结果, 我也试unicode格式,也不行,请教一下怎么解决这个问题呢?

另外,我想the Bank of English做reference corpus, 请问哪里可以获取它的wordlist啊?我只在网上找到了the BNC的,可是我的库里有American, British and Autralian Englishes.

在此先谢谢大家
 
回复: 菜鸟问题: 关于wordsmith

All Arabic numerals in WordSmith results are reduced to hash sign.
 
回复: 菜鸟问题: 关于wordsmith

#1 请问各位论坛大侠们,我建了一个很小的专业英语语料库,为什么wordsmith做wordlist,文本(txt)里的数字都显示成了#? 然后frequency就很高,排第四,严重影响我后面做keyword list的结果, 我也试unicode格式,也不行,请教一下怎么解决这个问题呢?

在WST4中之所以数字都会显示成#,那是因为你使用了WST4的默认设置,确切些说是你没有勾选setting-->language一栏下面的“numbers in wordlist”前那个方框。
 
回复: 菜鸟问题: 关于wordsmith

下面是以一个数字和单词混合的小文本为例使用WST4在不同设置下做出词表的情况。

当设置为setting-->language-->不勾选“numbers in wordlist”这一项时,做出的词表如下:
 

附件

  • 不勾选.jpg
    不勾选.jpg
    29.2 KB · 浏览: 7
  • 1234.txt
    106 bytes · 浏览: 6
回复: 菜鸟问题: 关于wordsmith

当设置为setting-->language-->勾选“numbers in wordlist”这一项时,做出的词表如下:
 

附件

  • 勾选后.jpg
    勾选后.jpg
    39.9 KB · 浏览: 5
回复: 菜鸟问题: 关于wordsmith

同样,在使用AntConc 3.3.1w做词表时,也可以选择词表中包含数字或者不包含数字。
如果使用默认设置,即Global Setting-->Token Definition Settings 中只勾选了Letter Token Classes下的Letter这一项,则做出的词表中不包含数字;但如果在Token Definition Settings 中只勾选了Letter Token Classes下的Letter这一项的同时,有勾选了Number Token Classes下的Number这一项,那么做出的词表中就会包含各个数字的频次。
 
Back
顶部