如何从BNC中获取新闻语体的语料呢

各位老师,请问如何从BNC语料库中抽取新闻语体的子语料呢,BNC本身就已经存在这样的子语料,还是需要自己进行检索选取的?A—J文件夹哪些个文件是新闻语体的呢?万分感谢!
 
回复: 如何从BNC中获取新闻语体的语料呢

文件名见附件
 

附件

  • BNCnews.TXT
    1.2 KB · 浏览: 201
回复: 如何从BNC中获取新闻语体的语料呢

这些是文件名,你如果有BNC语料的,可按这些语料去找。
本论坛不主张传播有版权的材料。
 
回复: 如何从BNC中获取新闻语体的语料呢

非常谢谢许老师,回的迟了,首先祝老师新年快乐。
老师提供的信息对我帮助很大,我在许老师所提供的基础上用powergrep 把所有text type 为"News"的全部检索出来,然后发现除了A文件里有新闻语体外:),B,C,E,H,K文件里有部分也是新闻语体的,我想是不是也应该把它考虑进去的,许老师您觉得呢?
 
回复: 如何从BNC中获取新闻语体的语料呢

不知你是如何判断B,C,E,H,K的部分也是新闻语体的,我是用BNC indexer分离出来的。

也许你的判断是对,不烦举例说明B,C,E,H,K中哪些是新闻语体,以及你的判断理由。
 
回复: 如何从BNC中获取新闻语体的语料呢

比如 B03, BM4,c88,CBC-CBM等,我是先从老师说的A文件里找出这个<wtext type="NEWS">表达式,然后用powergrep检索的,我以为有这个表达式的都是新闻语体,呵呵,好像can't hold water,:p. 老师怎么用Indexer的,能否教教我哈
 
回复: 如何从BNC中获取新闻语体的语料呢

比如 B03, BM4,c88,CBC-CBM等,我是先从老师说的A文件里找出这个<wtext type="NEWS">表达式,然后用powergrep检索的,我以为有这个表达式的都是新闻语体,呵呵,好像can't hold water,:p. 老师怎么用Indexer的,能否教教我哈
 
Back
顶部