我刚刚接触语料库,很多最基本的问题还不清楚。现在我要自己建一个中美大学生记叙文的语料库,比较语块的使用模式。有很多问题要请教前辈们。统计之前我首先要对文章中语块进行标注是吗?怎么样标注比较方便统计呢?烦求各位指点一二。不胜感激!
我刚刚接触语料库,很多最基本的问题还不清楚。现在我要自己建一个中美大学生记叙文的语料库,比较语块的使用模式。有很多问题要请教前辈们。统计之前我首先要对文章中语块进行标注是吗?怎么样标注比较方便统计呢?烦求各位指点一二。不胜感激!
多谢您的指点。我是应该再多看些资料,不能急于操作。首先,搞清楚语块是什么?
然后根据其界定进行分类,确定是应该标注后提取呢?还是自动提取。
可搜索本站,本站内有不少关于此方面的论文。
太感谢了。我现在也在看语块方面的书,试图根据需要给出一个操作性定义。要标注词块?如果库容小的话倒是可以尝试一下,但是如果库容大的话,就够你受的了。最好采取计算机提取,加人工勘定的方法。建议参考 王建新 著 计算机语料库的建设和应用 一书,P172 语料库自动提取搭配的研究,卫乃兴 著 词语搭配的界定与研究体系 P51 提取词丛方法。 但是搭配是不是就是你所指的词块,还是要你自己来决定。如楼上所说,先要弄清楚什么是词块或语块。
trial service: http://ucrel.lancs.ac.uk/claws/trial.html……请问哪里可以获取CLAWS?