暂时还没有买到这本书,所以关于北外这个软件的使用细节不太清楚。但有个问题想请教许博,这个软件检索的文本需要提前标注,还是直接用纯文本就行了呢?我做毕业论文比较LOCNESS和CLEC,一开始用到了这个软件,后来才发现搭配的统计有误,就连词频都有问题(和WordSmith检索结果相比)。所以,后来还是用了EXCEL作的搭配计算工具,记得在这个论坛某处可以下到。我就是想问这种差异是什么原因引起的?谢谢!如果你要是做搭配的话,答案是YES。
有关BFSU Collocator的相关说明,可参见《语料库应用教程》的94-100页。
如果你要是做搭配的话,答案是YES。
有关BFSU Collocator的相关说明,可参见《语料库应用教程》的94-100页。
如果你要是做搭配的话,答案是YES。
有关BFSU Collocator的相关说明,可参见《语料库应用教程》的94-100页。
我以前在论坛好像说过这个问题。再贴一下吧。
不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、Collocate、BFSU Collocator等)得出的MI值、Z值、T值、χ2值、对数似然比值常常有差别。
......
别人的软件要花钱,我们做了免费提供。AntConc虽免费,但搭配信息不够。
我以前在论坛好像说过这个问题。再贴一下吧。
有《语料库应用教程》的朋友,可以参看94-100页。有更详细的说明。另外,生语料和标注语料都可以做,在settings里选一下即可。
不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、Collocate、BFSU Collocator等)得出的MI值、Z值、T值、χ2值、对数似然比值常常有差别。这些差别一种情况是由公式不同引起的,即我们上面提到的以Mike Scott的WordSmith为代表的经典搭配计算法和以Stefan Evert提出的BNCweb的搭配计算方法。在相同计算公式下,如出现数值差别,可能有如下原因:各软件对形符或单词的定义(token definition)不一致,比如BFSU Collocator中,我们将数字和不同的标点符号视作单独的形符,因此,频数会有差异。再有,含有连字符的单词(如255-page)视作一个单词,而不是两个。有些工具中会将所有的阿拉伯数字都归并成一个#。这些都是造成最后的搭配统计值不一致的一些可能因素。
所得的不同搭配强度值,一般来说无对错之虞,只是我们需要弄清产生数值差异的主要原因。另外,我们应该在同一个课题中坚持用同一种搭配计算工具,并在报告结果时言明。