我现在想做一个很小的,大概只有十万词的库,已经是文本文件了,可是搜索时总会出现一点问题,我现在知道部分原因是在AntConc的参数设置方面的问题,我想这一部分我可以搞定,另一方面,我自己的库,没有标记,应该可以称为生语料库,本身有一些问题,然后我就去查,查了很久,查到一个预处理,可是我又不确定这个预处理是否是在进行搜索之前对生语料库进行的处理,就想请问各位大大,预处理的定义是什么?还有我到底应该怎样处理一下我的库?还有是否有种软件,我把文本放进去之后,像透视镜一样告诉我,文本本身做了哪些标记,还有哪些字符格式不统一之类的?
谢谢了。
注:我是直接把文本从网上下下来,存入word,然后保存为文本文件的,其中只是把它们整理成语篇,还有,很重要的,是英语的。
谢谢了。
注:我是直接把文本从网上下下来,存入word,然后保存为文本文件的,其中只是把它们整理成语篇,还有,很重要的,是英语的。