LOCNESS语料库的替代品NESSIE语料库

xujiajin

管理员
Staff member
LOCNESS语料库的替代品NESSIE语料库

NESSIE Corpus Version 1
(Native English Speakers' Similarly- and Identically-prompted Essays, Version 1, October 2, 2012)

NESSIE corpus 1.0版是一个18万词次左右规模的英美本族语者英语作文语料库。其中所收文本主要是英美本族语者依照中国四六级、四八级作文题所撰写的英语作文。也有部分语料文本取自BAWE、MICSUP等英美大学生语料库中话题近似的文本。创建NESSIE语料库的主要考虑是,很多国内语料库研究者没法得到LOCNESS语料库。另外,LOCNESS中所收文本的作文题与中国大学生所写的作文题差异巨大,因而不具很好的可比性。

目前NESSIE语料库中的一部分语料文本还没有得到版权所有者的许可(我们正在联系相关人士,主要是一些在华外教),所以没法提供所有语料库文本的下载。现在大家可以通过我们的在线检索系统BFSU CQPweb全文检索,计算搭配、生成词频表和主题词表等。应能满足大家的常见研究需求。

NESSIE语料库这次发布的是1.0版,我们还会进一步扩大语料库规模。待完成后再公布。

请在http://111.200.194.212/cqp/上找到
NESSIE corpus version 1 (Native English Speakers' Essays)
用用户名:test和密码:test访问。

附:LOCNESS的介绍
http://www.uclouvain.be/cps/ucl/doc/cecl/documents/LOCNESS.doc

NESSIE语料库的详细documentation等我写好后,再上传到这里来。
 
Last edited:
回复: LOCNESS语料库的替代品NESSIE语料库

好消息,我前阵写邮件请求Granger教授授权LOCNESS,但是都没有得到回应。
 
怎样利用NESSIE查询某一词性的frequency list?

请问许博士及各位C友,我想做出NESSIE中名词的词频表,具体应该怎样操作呢?我现在先在首页菜单选frequency lists,在接下来的页面中选view a list based on pos,接下来会得到按词性列出的词频表。但我想得到在这一语料库中所有名词的词频列表,从而得到高频使用的名词,该如何操作呢,谢谢!
 

附件

  • concordance_frequency_breakdown.txt
    133.3 KB · 浏览: 203
Last edited:
回复: LOCNESS语料库的替代品NESSIE语料库

谢谢许博士!指导很详细!我去操作下,有问题再请教您。
 
回复: LOCNESS语料库的替代品NESSIE语料库

在CQPweb中提取N-gram/cluster/chunk的做法
如果要提取bi-gram,在Query mode:为[CQP syntax]的情况下,查询 [word=".*"] [word=".*"],或[word=".*"]{2}即可。同理可得三词四词ngram。
 
回复: LOCNESS语料库的替代品NESSIE语料库

请问,我怎么在NESSIE语料库里查某一个单词构成的所有词块,谢谢》
 
回复: LOCNESS语料库的替代品NESSIE语料库

应该是可以的,给你举个例子吧。

比如你再CQP syntax状态下搜[word="good"] [word=".*"] [word=".*"],就可以搜到所有以good开头的三词词块。速度很快。
 
回复: LOCNESS语料库的替代品NESSIE语料库

请问这个语料库是不是也可以做惯用语的研究?谢谢您啦?我刚刚加入,您的消息真是太令人惊喜了!
 
回复: LOCNESS语料库的替代品NESSIE语料库

请问 LOCNESS的语料还不能下载,那怎样在网上操作,可以得到通过wordsmith统计后的基本信息,比如STTR,平均词长,平均句长等等?
 
回复: LOCNESS语料库的替代品NESSIE语料库

另外想和许博士确认下NESSIEv1中的语料是2012年的吗?具体的年份是?谢谢!
 
回复: LOCNESS语料库的替代品NESSIE语料库

都不是2012年的,具体的年份我还要查一下。
等有时间时,我会写一个NESSIE的说明文档,目前较忙。
 
回复: LOCNESS语料库的替代品NESSIE语料库

请问各位老师,我要检索带up的动词短语怎么输入格式? 我输入了* up,出来的还有很多其他搭配。
 
回复: LOCNESS语料库的替代品NESSIE语料库

请问:我想找出所有3词词块极其频率,该如何操作?谢谢!
 
Back
顶部