求教;多篇超过2000词的文本,在放入语料库时,该如何从各篇中选择2000词

本文由 marquis1082017-01-23 发表於 "语料库语言学入门" 讨论区

  1. 求教各位

    我在学习构建语料库时遇到了一个问题,根据LOB语料库的构成,共500个语料,每个语料约为2000词。

    那么,假如想放入语料库的多篇文章都超过了2000词,比如说5000词,那应该如何选取这2000词呢?
     
  2. armstrong

    armstrong 高级会员

    可随机从不同文本的开始、中间及结束部分抽取2000词,尽量做到具有代表性。