有关BFSU Collocator

#1
请教前辈们一个问题,如果我在论文中使用BFSU Collocator这个软件的话,是否需要对它进行说明?同时是不是就不需要使用Antconc软件了呢?

谢谢
 

xujiajin

管理员
Staff member
#2
回复: 有关BFSU Collocator

如果你要是做搭配的话,答案是YES。

有关BFSU Collocator的相关说明,可参见《语料库应用教程》的94-100页。
 
#3
回复: 有关BFSU Collocator

如果你要是做搭配的话,答案是YES。

有关BFSU Collocator的相关说明,可参见《语料库应用教程》的94-100页。
暂时还没有买到这本书,所以关于北外这个软件的使用细节不太清楚。但有个问题想请教许博,这个软件检索的文本需要提前标注,还是直接用纯文本就行了呢?我做毕业论文比较LOCNESS和CLEC,一开始用到了这个软件,后来才发现搭配的统计有误,就连词频都有问题(和WordSmith检索结果相比)。所以,后来还是用了EXCEL作的搭配计算工具,记得在这个论坛某处可以下到。我就是想问这种差异是什么原因引起的?谢谢!:)
 

xujiajin

管理员
Staff member
#4
回复: 有关BFSU Collocator

我以前在论坛好像说过这个问题。再贴一下吧。

有《语料库应用教程》的朋友,可以参看94-100页。有更详细的说明。另外,生语料和标注语料都可以做,在settings里选一下即可。

不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、Collocate、BFSU Collocator等)得出的MI值、Z值、T值、χ2值、对数似然比值常常有差别。这些差别一种情况是由公式不同引起的,即我们上面提到的以Mike Scott的WordSmith为代表的经典搭配计算法和以Stefan Evert提出的BNCweb的搭配计算方法。在相同计算公式下,如出现数值差别,可能有如下原因:各软件对形符或单词的定义(token definition)不一致,比如BFSU Collocator中,我们将数字和不同的标点符号视作单独的形符,因此,频数会有差异。再有,含有连字符的单词(如255-page)视作一个单词,而不是两个。有些工具中会将所有的阿拉伯数字都归并成一个#。这些都是造成最后的搭配统计值不一致的一些可能因素。
所得的不同搭配强度值,一般来说无对错之虞,只是我们需要弄清产生数值差异的主要原因。另外,我们应该在同一个课题中坚持用同一种搭配计算工具,并在报告结果时言明。
 
#6
回复: 有关BFSU Collocator

如果你要是做搭配的话,答案是YES。

有关BFSU Collocator的相关说明,可参见《语料库应用教程》的94-100页。
许博士,您好!
我想再问一下,第100页提到,计算搭配强度主要采用Wordsmith及BNCweb的搭配计算方法,那么BFSU Cloocator 是根据哪种来计算的?

另外第100页提到“我们应该在同一个课题中坚持使用同一种搭配强度计算工具”,如果使用了 BFSU Collocator 就要避免重复使用哪些工具啊?
谢谢
 

xujiajin

管理员
Staff member
#7
回复: 有关BFSU Collocator

我们用的是BNCweb。所以数据不同于WordSmith。

之所以选BNCweb的算法,是因为WordSmith的传统搭配算法基本上不考虑span的长短(据Mike Scott说好像只有Z值用到span值)

而BNCweb的算法多半考虑span的长度,因为我倾向于用BNCweb的算法而不是WordSmith的算法。
 

xusun575

高级会员
#8
回复: 有关BFSU Collocator

我以前在论坛好像说过这个问题。再贴一下吧。


不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、Collocate、BFSU Collocator等)得出的MI值、Z值、T值、χ2值、对数似然比值常常有差别。
......
既然此前已经有了"WordSmith、AntConc、BNCweb、Co-occurrence、Collocate", BFSU 推出Collocator的意义何在?是对他人的补充,还是纠正了他人的不足,或是什么方面有创新?
不过应该相信,BFSU这么好的地缘优势和资源优势应该会有好的创意的.
 

xujiajin

管理员
Staff member
#9
回复: 有关BFSU Collocator

别人的软件要花钱,我们做了免费提供。AntConc虽免费,但搭配信息不够。

从创新来说,我们的支持生文本和赋码语料两种检索(上面的工具中只有Co-occurence可以,但因为是日本人做的,界面上有日文,看上去很别扭);同时我们的还支持正则表达式。
 
#13
回复: 有关BFSU Collocator

我想请教一下,我在做毕业论文,研究中用到了BFSU Collocator工具,但是对于这个工具的使用我不是很了解,比如研究wish这个单词的搭配,它有两种词性,名词和动词,如果我研究名词,那么即是研究它与左边形容词的搭配,在检索中我输入wish准确吗?因为它还有wishes的复数形式,同时wish及wishes都还可以作为动词,检索出的结果不一定只是名词左边形容词的搭配,还有动词的搭配了,这种情况应该怎么检索了,希望大家教教我这个工具的具体操作,我看语料库应用教程对这个工具的介绍了,但他是用but举例说明的,不会出现我说的这种情况,我该怎么操作呢?谢谢大家了,迫切想知道答案,要不我的论文就进行不下去了。
 
#14
回复: 有关BFSU Collocator

AntConc中有计算MI值的功能吗?我用的3.2.1有这种功能吗?








我以前在论坛好像说过这个问题。再贴一下吧。

有《语料库应用教程》的朋友,可以参看94-100页。有更详细的说明。另外,生语料和标注语料都可以做,在settings里选一下即可。

不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、Collocate、BFSU Collocator等)得出的MI值、Z值、T值、χ2值、对数似然比值常常有差别。这些差别一种情况是由公式不同引起的,即我们上面提到的以Mike Scott的WordSmith为代表的经典搭配计算法和以Stefan Evert提出的BNCweb的搭配计算方法。在相同计算公式下,如出现数值差别,可能有如下原因:各软件对形符或单词的定义(token definition)不一致,比如BFSU Collocator中,我们将数字和不同的标点符号视作单独的形符,因此,频数会有差异。再有,含有连字符的单词(如255-page)视作一个单词,而不是两个。有些工具中会将所有的阿拉伯数字都归并成一个#。这些都是造成最后的搭配统计值不一致的一些可能因素。
所得的不同搭配强度值,一般来说无对错之虞,只是我们需要弄清产生数值差异的主要原因。另外,我们应该在同一个课题中坚持用同一种搭配计算工具,并在报告结果时言明。
 
顶部