求教;多篇超过2000词的文本,在放入语料库时,该如何从各篇中选择2000词

#1
求教各位

我在学习构建语料库时遇到了一个问题,根据LOB语料库的构成,共500个语料,每个语料约为2000词。

那么,假如想放入语料库的多篇文章都超过了2000词,比如说5000词,那应该如何选取这2000词呢?
 
顶部