请前辈指教,关于采集文本的超级小白问题

我是学计算机的,对语料库一窍不通。导师给了我一个建立文本语料库的任务和书目之后出国了。现在是电话不通,邮件不回。实在没招了,请各位前辈教教我。

具体情况是这样的。我现在已经知道要建语料库的总字数,还有书目。并据此算出每本书要采集的字数。现在问题是如果按我算的字数机械地采集的话,肯定要破坏完整性。也就是说可能一个段落,采集到一半,字数够了,那我是就此收工继续下一本还是把整个段落都要上?抑或应该按篇章采集?

求前辈指教。
 
回复: 请前辈指教,关于采集文本的超级小白问题

当字数接近你的要求时,在最近的句末标点处停止。也就是说你的文本如果每个2000词,你可以大致采取2000+/-50的处理方法。
 
回复: 请前辈指教,关于采集文本的超级小白问题

当字数接近你的要求时,在最近的句末标点处停止。也就是说你的文本如果每个2000词,你可以大致采取2000+/-50的处理方法。

呵呵,这下明白了,多谢指教:)
 
Back
顶部