实在不行了,只好问一个弱弱的文本处理的问题

我现在想做一个很小的,大概只有十万词的库,已经是文本文件了,可是搜索时总会出现一点问题,我现在知道部分原因是在AntConc的参数设置方面的问题,我想这一部分我可以搞定,另一方面,我自己的库,没有标记,应该可以称为生语料库,本身有一些问题,然后我就去查,查了很久,查到一个预处理,可是我又不确定这个预处理是否是在进行搜索之前对生语料库进行的处理,就想请问各位大大,预处理的定义是什么?还有我到底应该怎样处理一下我的库?还有是否有种软件,我把文本放进去之后,像透视镜一样告诉我,文本本身做了哪些标记,还有哪些字符格式不统一之类的?
谢谢了。
注:我是直接把文本从网上下下来,存入word,然后保存为文本文件的,其中只是把它们整理成语篇,还有,很重要的,是英语的。
 
我现在想做一个很小的,大概只有十万词的库,已经是文本文件了,可是搜索时总会出现一点问题,我现在知道部分原因是在AntConc的参数设置方面的问题,我想这一部分我可以搞定,另一方面,我自己的库,没有标记,应该可以称为生语料库,本身有一些问题,然后我就去查,查了很久,查到一个预处理,可是我又不确定这个预处理是否是在进行搜索之前对生语料库进行的处理,就想请问各位大大,预处理的定义是什么?还有我到底应该怎样处理一下我的库?还有是否有种软件,我把文本放进去之后,像透视镜一样告诉我,文本本身做了哪些标记,还有哪些字符格式不统一之类的?
谢谢了。
注:我是直接把文本从网上下下来,存入word,然后保存为文本文件的,其中只是把它们整理成语篇,还有,很重要的,是英语的。

你的问题提得不够具体明确。1)不明白你要将语料库用来做什么;2)你说的“查”是查什么呢?是索引,还是列词表?还是...... 3)你说语料库本身的问题是什么?
按道理,你如果将语料保存成文本格式(txt),就可以直接用Antconc进行索引等多种处理了。
 
你的问题提得不够具体明确。1)不明白你要将语料库用来做什么;2)你说的“查”是查什么呢?是索引,还是列词表?还是...... 3)你说语料库本身的问题是什么?
按道理,你如果将语料保存成文本格式(txt),就可以直接用Antconc进行索引等多种处理了。

我是想做一点简单的统计,考研英语真题的,我查的是网上的一些信息,语料库本身的问题指的是从网上直接下下来的word文档,本身会不会有一些字符,比如,tab键啊,回车键啊,可是我看不出来,就直接拿AntConc用了,所以出现一些问题之类的,不如,很多单词明明不区分大小写的,但是还是重复了。
 
我是想做一点简单的统计,考研英语真题的,我查的是网上的一些信息,语料库本身的问题指的是从网上直接下下来的word文档,本身会不会有一些字符,比如,tab键啊,回车键啊,可是我看不出来,就直接拿AntConc用了,所以出现一些问题之类的,不如,很多单词明明不区分大小写的,但是还是重复了。

不知你在说什么
 
我是想做一点简单的统计,考研英语真题的,我查的是网上的一些信息,语料库本身的问题指的是从网上直接下下来的word文档,本身会不会有一些字符,比如,tab键啊,回车键啊,可是我看不出来,就直接拿AntConc用了,所以出现一些问题之类的,不如,很多单词明明不区分大小写的,但是还是重复了。

看来你还是没有把你的问题说清楚。“很多单词明明不区分大小写的,但是还是重复了”这些单词是在什么情况下重复的?真没办法。能不能说清楚,具体一点;):p
 
累死我了,终于找到了,就是关于单纯的英语语料库的预处理,也就是纯文本化,和分词处理的问题,有哪些要求呢?
 
Back
顶部