怎么用bnc作为参照语料库?

各位大虾好,我正在研究新闻英语的特点,语料是txt格式的。我想用bnc作为参照语料库提取关键词。可是手头的bnc是xml格式,有标注的,大小有好几G,而且分为许多个文件。请问如果用wordsmith4.0作为检索工具的话,如何用现有的资源检索关键词呢?是否需要把bnc合成一个文件,或改变其格式呢?
 
回复: 怎么用bnc作为参照语料库?

<P>BYU BNC是在线查询的吧,应该不能作为reference corpus吧?</P>
 
回复: 怎么用bnc作为参照语料库?

类似于这种权威人士做的词表。还有哪些,望高手指点,呵呵。

只要使用有wordlist功能的语料库软件,如ws,你也可以成为权威人士:)
 
回复: 怎么用bnc作为参照语料库?

What you actually need is a BNC wordlist, not the BNC corpus texts.

This wordlist is available at the WordSmith website:
http://www.lexically.net/downloads/version4/downloading BNC.htm
在ws主页上,下载BNC wordlist 下面有个 “下载2-5 word clusters of BNC world”, sh是什么意思呢 怎么用?
我用 BNC 做参照语料库,在上面那个网址上下载了第一个 wordlist, 用WS 的wordlist 生成的此表是这样的:
对吗?共有1,266,618的tokens, 387,568 types.
 

附件

  • list.jpg
    list.jpg
    50 KB · 浏览: 9
回复: 怎么用bnc作为参照语料库?

What you actually need is a BNC wordlist, not the BNC corpus texts.

This wordlist is available at the WordSmith website:
http://www.lexically.net/downloads/version4/downloading BNC.htm
我把第二个2-5 word cluster 也下载了,然后生成此表 得出的下面的结果:
这二者有什么分别? 我用BNC 做参照 与自建的语料库做对比,首先对比的是词频,TTR,以及keywords.
 

附件

  • list2.PNG
    list2.PNG
    66.9 KB · 浏览: 8
Back
顶部