求教;多篇超过2000词的文本,在放入语料库时,该如何从各篇中选择2000词

求教各位

我在学习构建语料库时遇到了一个问题,根据LOB语料库的构成,共500个语料,每个语料约为2000词。

那么,假如想放入语料库的多篇文章都超过了2000词,比如说5000词,那应该如何选取这2000词呢?
 
可随机从不同文本的开始、中间及结束部分抽取2000词,尽量做到具有代表性。
 
Back
顶部