10年后的BNC该不该退休?谁是继任者?

xujiajin

管理员
Staff member
现在大家动辄用BNC说事儿。

不过,要知道,BNC里的语料为90年前后居多,最晚的大约93年,算起来,很多语料都有20岁了。

那么十年以后,30年前的BNC,还会受到亲睐吗?

曾经有人提出过BNC2.0的想法,但后来放弃了。

是否要再建一个类似BNC的通用库呢?今天来看,版权问题已变得越来越困难了。

或者干脆追寻WaC(Web as Corpus)的思路走下去?

我曾经想过,每年建一个Brown family的汉语库,成为一个微型的动态库。后来也因为时间问题,没能实行下来,希望将来能有时间做。

或者像Lancaster所采取的每30年一个库的思路也可以尝试。
 
回复: 10年后的BNC该不该退休?谁是继任者?

干脆追寻WaC(Web as Corpus)的思路走下去?

我曾经想过,每年建一个Brown family的汉语库,成为一个微型的动态库。

WaC 的思路很好。

不是每年一个库,而是每月一个10亿单词以上的库。这在现在的技术下,只需一台3000元的破PC就可以办到了。

当然,Web库的质量,自然不能和BNC同日而语。
 
回复: 10年后的BNC该不该退休?谁是继任者?

BNC不是定期更新和加入新语料么?
 
回复: 10年后的BNC该不该退休?谁是继任者?

BNC已经完全定型,不会再往里增加新的语料了。英国英语语料库不知道会怎样发展,美国英语中的Corpus of Contemporary American English (COCA, 由BYU的Mark Davies教授建立)倒是一个发展方向,它的语料从2000年开始,每年增添4千万词,目前已有4亿词,且可以在网络上免费使用,只不过有些复杂的工作不知道该怎么进行。正好这次去参加研修班可以讨论一下这个问题。
 
回复: 10年后的BNC该不该退休?谁是继任者?

我非常喜欢使用COCA,特别是它支持各种形式的搜索以及各种统计工具,非常有用。
 
回复: 10年后的BNC该不该退休?谁是继任者?

不好意思!:D 记性不好,说错话了。COCA的语料是从1990年开始的,每年增添2000万词,到目前为止有4亿词。:eek:
 
回复: 10年后的BNC该不该退休?谁是继任者?

不好意思!:D 记性不好,说错话了。COCA的语料是从1990年开始的,每年增添2000万词,到目前为止有4亿词。:eek:

COCA非常好,但最大的问题是取样极不均衡,不能代表美国英语。不是一个均衡的语料库。

语料库光大是没有用的。如果大家需要大规模语料,搜狗可以给你1T语料,http://www.sogou.com/labs/dl/q.html
但大家心里可能会嘀咕它的代表性。COCA也有类似的问题。
 
回复: 10年后的BNC该不该退休?谁是继任者?

WaC 的思路很好。

不是每年一个库,而是每月一个10亿单词以上的库。这在现在的技术下,只需一台3000元的破PC就可以办到了。

当然,Web库的质量,自然不能和BNC同日而语。

说的很对,web库的质量问题太让人头疼了
 
回复: 10年后的BNC该不该退休?谁是继任者?

大容量和高质量常常成负相关。建库确实不容易,向那些语料库建设者致敬!
 
回复: 10年后的BNC该不该退休?谁是继任者?

楼上的说的太对了,建库的艰辛不是一般人能体会到的。眼睛都快瞎了! 一点不慎,就要从头再来。
 
回复: 10年后的BNC该不该退休?谁是继任者?

楼上的说的太对了,建库的艰辛不是一般人能体会到的。眼睛都快瞎了! 一点不慎,就要从头再来。

这个问题在下面这篇文章中提出了解决方法,借用的软件领域的“敏捷”开发,提出语料的收集,标注,检索可以分成多个小的阶段,这样便于“敏捷”的改进,不一定要等到前一阶段的工作全部完成(语料收集完毕),后续工作(开始标注)才能展开,这样可以避免检索时发现问题就需要把标注推到重来的尴尬局面。

Voormann, H. & Gut, U. (2008). Agile corpus creation. Corpus Linguistics and Linguistic Theory, 4, 235-251.
 
回复: 10年后的BNC该不该退休?谁是继任者?

楼上的说的太对了,建库的艰辛不是一般人能体会到的。眼睛都快瞎了! 一点不慎,就要从头再来。
建库是艰辛的,但来日方长,"眼睛都快瞎了"就得不偿失了:p.
建议:不要一个人去战斗,更不要一个人像"Great Lion"那样去战斗:D.
另外haiyang的建议有道理,分阶段去工作.知道自己建库是为了什么,考虑好,细分阶段,组织团队,这样至少眼睛是瞎不了滴.:D
询问:大狮子能透露一下吗:您现在建的是什么库?
 
回复: 10年后的BNC该不该退休?谁是继任者?

COCA其实已经相当好了,但取样方面还是比较粗的。主要收录原则还是有什么收什么,比如学术文章、新闻、小说,广播电视脚本。这些的电子本都相对容易获得。COCA的缺陷是没有充分从语言使用的角度入手。

考虑的语言实际使用的有:
Brown family的15个分类,虽然也有问题,但较均衡。
BNC:分类很细,特别是1亿词的口语部分(demographic +context governed)。
ICE:也有非常好的sampling strategy



The corpus is composed of more than 400 million words in more than 160,000 texts, including 20 million words each year from 1990-2009. For each year (and therefore overall, as well), the corpus is evenly divided between the five genres of spoken, fiction, popular magazines, newspapers, and academic journals. The texts come from a variety of sources:

*
Spoken: (83 million words) Transcripts of unscripted conversation from more than 150 different TV and radio programs (examples: All Things Considered (NPR), Newshour (PBS), Good Morning America (ABC), Today Show (NBC), 60 Minutes (CBS), Hannity and Colmes (Fox), Jerry Springer, etc). [See notes on the naturalness and authenticity of the language from these transcripts).
*
【口语部分基本上是广播电视媒体上的内容,似乎不太有日常口语。而BNC里有很多。】
Fiction: (79 million words) Short stories and plays from literary magazines, children’s magazines, popular magazines, first chapters of first edition books 1990-present, and movie scripts.
*
【小说占了近1/4,比重过大】
Popular Magazines: (84 million words) Nearly 100 different magazines, with a good mix (overall, and by year) between specific domains (news, health, home and gardening, women, financial, religion, sports, etc). A few examples are Time, Men’s Health, Good Housekeeping, Cosmopolitan, Fortune, Christian Century, Sports Illustrated, etc.
*

Newspapers: (79 million words) Ten newspapers from across the US, including: USA Today, New York Times, Atlanta Journal Constitution, San Francisco Chronicle, etc. In most cases, there is a good mix between different sections of the newspaper, such as local news, opinion, sports, financial, etc.
*

Academic Journals: (79 million words) Nearly 100 different peer-reviewed journals. These were selected to cover the entire range of the Library of Congress classification system (e.g. a certain percentage from B (philosophy, psychology, religion), D (world history), K (education), T (technology), etc.), both overall and by number of words per year

Because of copyright and licensing issues, the texts themselves are not available for download, under any circumstances. All access to the texts is via this web interface.
time corpus American English word lists word lists frequency BYU Mark Davies
 
回复: 10年后的BNC该不该退休?谁是继任者?

谢谢许博士对COCA的点评。想请教您一个初级的问题,如果在COCA输入“drink”,语境不限,得到TOT数目是25914,这个数目真的是在4亿词的COCA中drink出现总的次数吗?还是一部分?不好意思刚刚接触这个库,很多不懂,也不知有没有对这个库详细的使用介绍。
 
Back
顶部