各位老师,我自建的语料库是以学术论文为对象的,pdf格式。由于数量较多,如何将其批量转化为txt格式呢?有没有什么软件可以使用呢?
此外,我试图检索连接词。可是,连接词数量很多、词性各异。即使赋码后,也还有一些不期望出现的检索行出现。针对这种情况,有批量处理的方法吗?如何提高效率呢?
另,我在用treetagger进行赋码的时候,生成pos文件,但却为0字节。多个文本都是这个状况,这是为什么呢?
谢谢各位老师指点迷津!
此外,我试图检索连接词。可是,连接词数量很多、词性各异。即使赋码后,也还有一些不期望出现的检索行出现。针对这种情况,有批量处理的方法吗?如何提高效率呢?
另,我在用treetagger进行赋码的时候,生成pos文件,但却为0字节。多个文本都是这个状况,这是为什么呢?
谢谢各位老师指点迷津!