普通的语料检索工具(WordSmith Tools和AntConc)并不负责形容词或动词或名词的“针对词性(词类)的检索”呢。所以,你需要一款词性(词类)的语料标注工具,把语料进行标注,然后再拿到WordSmith和AntConc中进行分析提取计算。
一个简易的词性标注器(2005年日本人开发的),名叫“postagger 1.0”,用法说明和软件本身在这里下载
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/
AntConc(免费的较为强大的足够满足多数人需求的)在这里下载,注意看准Windows版本的下载链接:
http://www.antlab.sci.waseda.ac.jp/antconc_index.html
例如,我们有如下的文本内容需要进行词性标注……
A young girl loves corpus linguistics very much.
而我们用postagger 1.0进行了处理之后,它就变成了……
A/DT young/JJ girl/NN loves/VBZ corpus/NN linguistics/NNS very/RB much/RB ./.
可见,DT代表限定词determiner,JJ表示形容词,VBZ表示一般现在时的动词形式,NN表示普通名词,NNS表示普通名词的复数形式,RB表示副词。
这样的一套“缩略型标注标签”叫做tagset(标注标签集),一般是参照BNC(British National Corpus)的两套tagset而设计或精简化地设计出来的。BNC的两套tagset分别叫做“C5”和“C7”,它俩的完整列表的两处链接如下:
http://www.natcorp.ox.ac.uk/docs/c7spec.html (C7这套有139个标签)
http://www.natcorp.ox.ac.uk/docs/c5spec.html (C5这套有61个标签)
它俩之间的较为详细对比说明在这里:
http://www.natcorp.ox.ac.uk/docs/gramtag.html
标注完成之后的语料在AntConc中就可以进行检索了,例如你需要检索上面例句的girl这个词前面的形容词,你就需要检索“/JJ girl”这个字符串就行了,在AntConc中操作的时候,注意把Start按钮之上的“Words”这个选项前面的小勾勾取消,免得AntConc把“/JJ girl”当作“ /JJ girl ”来检索了,就检索不到了。以此类推,可见我们不仅可以检索的时候指定“关键词的词性”,也可以同时指定“搭配词的词性”呢。同理,当我们需要检索love的一般现在时的动词形式的时候,就只需要输入“loves/VBZ”,把它当作单词(Words)来检索,也就是“这个串”的左右两侧自动加上一个空格而进行检索,就能找到对应的“语料中的实例”了。
上面提到的postagger 1.0的压缩包你下载之后,就会发现有tagger.exe这个文件,它就是主程序,但是它并不能被直接双击而运行而处理你的语料,它是“命令行形式的dos程序”呢,需要你运行它的时候,同时给出“输入文件”和“输出文件”的完整路径。同一个文件夹里面,还有models这个文件夹呢,里面都是它的体积比较大的“一系列的数据库文件”。主程序tagger.exe和models文件夹必须放在同一个文件夹,并且models文件夹不能被更改为其他名称。
你操作tagger.exe的正确而很简单的方法是,你首先把你要处理的txt文件放到C盘根目录,命名为1.txt,同时也把你下载的postagger的整个解压缩之后的文件夹(假设为“postagger-1.0”,这个文件夹一进入就能看到tagger.exe哟),然后在“开始”菜单点“运行”,在弹出的对话框中输入如下的内容,就回车:
c:\postagger-1.0\tagger.exe -i c:\1.txt -o c:\2.txt
这里的“-i”就是减号加上字母i,表示input file path(输入文件或等待处理的语料文件的完整的路径及文件名称);而这里的“-o”就表示output file path(自动产生的输出结果的文件的完整路径及其文件名称)。注意:在-i之前有一个空格或打入两个空格也行;在-o之前也有一个空格或多个空格哟。输好了,就回车,就能看到弹出的“黑底白字的DOS处理窗口”,稍等片刻(处理的语料文本量越多,等待越久哈),当黑色的DOS窗口自动消失了,你就可以到C盘根目录去收获它的自动处理的结果了,也就是双击C盘根目录新产生的2.txt。它在你每次执行了上面的运行效果之后都要自动产生,并且自动删除或自动清空了之前的输出结果哟,所以,要注意及时保存刚刚产生的“词性标注结果(在2.txt中的,拷贝它到其他位置,改变一下现有的名称即可)”