我是学计算机的,对语料库一窍不通。导师给了我一个建立文本语料库的任务和书目之后出国了。现在是电话不通,邮件不回。实在没招了,请各位前辈教教我。
具体情况是这样的。我现在已经知道要建语料库的总字数,还有书目。并据此算出每本书要采集的字数。现在问题是如果按我算的字数机械地采集的话,肯定要破坏完整性。也就是说可能一个段落,采集到一半,字数够了,那我是就此收工继续下一本还是把整个段落都要上?抑或应该按篇章采集?
求前辈指教。
具体情况是这样的。我现在已经知道要建语料库的总字数,还有书目。并据此算出每本书要采集的字数。现在问题是如果按我算的字数机械地采集的话,肯定要破坏完整性。也就是说可能一个段落,采集到一半,字数够了,那我是就此收工继续下一本还是把整个段落都要上?抑或应该按篇章采集?
求前辈指教。