语料库可比性,标准化处理,卡方

假如一个语料库50万字,另一个语料库100万字,我在第二个语料库中随机抽出一半的文章,字数大约有50万字,这样的话这两个语料库是否可以说具有可比性?有同学对这种方法不赞同个,说要用百分比进行标准化处理,但是我在很多论文上看到的都是随机抽取一定数量的文章,然后就进行检索分析了,前辈,同仁们鉴定一下,我说的是否可行?谢谢了
 
回复: 语料库可比性,标准化处理,卡方

我觉得这个问题是,如果两个语料库的字数不同,是否具有可比性?除了字数这个限制以外,语料来源、时间、类型等因素是否也应该作为语料库对比研究应考虑的因素?
个人意见不全面,请专家指正。
如果希望做语料库对比研究,应该注意哪些方面的问题呢?请高手给予指点,或推荐一些相关文章、书籍也行,先谢谢了~~!!!!
 
Back
顶部