词丛索引

沙漠的百合 · 2011-11-07

请教各位大侠，怎样创建自己的词丛索引文件？比如我想要文件中包括 general, professor, official等并检索他们的形容词应该怎样做？

李亮1975重庆 · 2011-11-14

先用工具来标注词性，再用AntConc来检索

普通的语料检索工具（WordSmith Tools和AntConc）并不负责形容词或动词或名词的“针对词性（词类）的检索”呢。所以，你需要一款词性（词类）的语料标注工具，把语料进行标注，然后再拿到WordSmith和AntConc中进行分析提取计算。

一个简易的词性标注器（2005年日本人开发的），名叫“postagger 1.0”，用法说明和软件本身在这里下载
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/

AntConc（免费的较为强大的足够满足多数人需求的）在这里下载，注意看准Windows版本的下载链接：
http://www.antlab.sci.waseda.ac.jp/antconc_index.html

例如，我们有如下的文本内容需要进行词性标注……

A young girl loves corpus linguistics very much.

而我们用postagger 1.0进行了处理之后，它就变成了……

A/DT young/JJ girl/NN loves/VBZ corpus/NN linguistics/NNS very/RB much/RB ./.

可见，DT代表限定词determiner，JJ表示形容词，VBZ表示一般现在时的动词形式，NN表示普通名词，NNS表示普通名词的复数形式，RB表示副词。

这样的一套“缩略型标注标签”叫做tagset（标注标签集），一般是参照BNC（British National Corpus）的两套tagset而设计或精简化地设计出来的。BNC的两套tagset分别叫做“C5”和“C7”，它俩的完整列表的两处链接如下：
http://www.natcorp.ox.ac.uk/docs/c7spec.html （C7这套有139个标签）
http://www.natcorp.ox.ac.uk/docs/c5spec.html （C5这套有61个标签）
它俩之间的较为详细对比说明在这里：
http://www.natcorp.ox.ac.uk/docs/gramtag.html

标注完成之后的语料在AntConc中就可以进行检索了，例如你需要检索上面例句的girl这个词前面的形容词，你就需要检索“/JJ girl”这个字符串就行了，在AntConc中操作的时候，注意把Start按钮之上的“Words”这个选项前面的小勾勾取消，免得AntConc把“/JJ girl”当作“ /JJ girl ”来检索了，就检索不到了。以此类推，可见我们不仅可以检索的时候指定“关键词的词性”，也可以同时指定“搭配词的词性”呢。同理，当我们需要检索love的一般现在时的动词形式的时候，就只需要输入“loves/VBZ”，把它当作单词（Words）来检索，也就是“这个串”的左右两侧自动加上一个空格而进行检索，就能找到对应的“语料中的实例”了。

上面提到的postagger 1.0的压缩包你下载之后，就会发现有tagger.exe这个文件，它就是主程序，但是它并不能被直接双击而运行而处理你的语料，它是“命令行形式的dos程序”呢，需要你运行它的时候，同时给出“输入文件”和“输出文件”的完整路径。同一个文件夹里面，还有models这个文件夹呢，里面都是它的体积比较大的“一系列的数据库文件”。主程序tagger.exe和models文件夹必须放在同一个文件夹，并且models文件夹不能被更改为其他名称。

你操作tagger.exe的正确而很简单的方法是，你首先把你要处理的txt文件放到C盘根目录，命名为1.txt，同时也把你下载的postagger的整个解压缩之后的文件夹（假设为“postagger-1.0”，这个文件夹一进入就能看到tagger.exe哟），然后在“开始”菜单点“运行”，在弹出的对话框中输入如下的内容，就回车：

c:\postagger-1.0\tagger.exe -i c:\1.txt -o c:\2.txt

这里的“-i”就是减号加上字母i，表示input file path（输入文件或等待处理的语料文件的完整的路径及文件名称）；而这里的“-o”就表示output file path（自动产生的输出结果的文件的完整路径及其文件名称）。注意：在-i之前有一个空格或打入两个空格也行；在-o之前也有一个空格或多个空格哟。输好了，就回车，就能看到弹出的“黑底白字的DOS处理窗口”，稍等片刻（处理的语料文本量越多，等待越久哈），当黑色的DOS窗口自动消失了，你就可以到C盘根目录去收获它的自动处理的结果了，也就是双击C盘根目录新产生的2.txt。它在你每次执行了上面的运行效果之后都要自动产生，并且自动删除或自动清空了之前的输出结果哟，所以，要注意及时保存刚刚产生的“词性标注结果（在2.txt中的，拷贝它到其他位置，改变一下现有的名称即可）”

沙漠的百合 · 2011-11-14

回复: 词丛索引

太感谢李老师了！

李亮1975重庆 · 2011-11-15

一个在线的词性与句法的自动分析工具的初体验

词性标注与句法标注相比，前者的工具与输出结果都要容易得多，前者也是后者的奠基工作，后者的分析结果也必然包括了前者的分析结果。

国外的这两种工具，有些是提供了Windows版本的下载，有些只是提供了Linux之类的非Windows操作系统之上运行的版本的源代码（需要自己使用相应的编程工具进行编译，这简直是高手的活儿），有些是提供了Windows版本的源代码下载（这也需要自己懂得相应的编程开发工具的使用来临时为自己生成一个exe形式的一个或一堆可以运行的程序文件）。

国外的专家们（尤其是自然语言处理工具软件的开发者）往往讨厌微软公司的Windows的霸权和高昂价格，转而使用免费的Linux操作系统的各种版本或商业化的Unix操作系统的各种版本或者苹果操作系统（Mac或[SIZE=-1]Macintosh[/SIZE]）。Linux或Unix操作系统上，最常见的词性与句法分析方面的软件开发的编程语言是Perl和Python，这两兄弟到底孰优孰劣都是两方的粉丝在长期争辩呢，其实这两个编程语言本来都是Unix操作系统上的服务器后台编程语言的，经过多年发展，后者变得更加“大而综合且有更加丰富的功能”，也都出现了Windows版本的“变体”了。所以，国外的语言类的工具开发者往往采用Perl或Python进行语料分析工具的开发，国外读硕读博或香港读硕读博的人往往在导师指定下或指导下开始接触Perl或Python的“自然语言处理编程”。

句法有多种派系或套路，乔姆斯基句法的影响最大，其他套路也有多多少少的追随者和开发者。以下是Link Grammar这种句法的在线分析器的简介页面
http://www.link.cs.cmu.edu/link/index.html

你可以在下面的网址，输入一个句子来品尝“基于Link Grammar的自动句法分析器在线版”的味道。
http://www.link.cs.cmu.edu/link/submit-sentence-4.html

我在上面网址的长条形空白输入框中，输入“People love cats because they are mild.”，然后点“Submit one sentence”这个按钮，瞬间就会看到如下的分析结果：
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
++++Time 0.00 seconds (324.52 total) Found 1 linkage (1 with no P.P. violations) Unique linkage. cost vector = (UNUSED=0 DIS=0 AND=0 LEN=8) +--------------------------Xp--------------------------+ | +-----MVs-----+ | +----Wd---+---Sp--+--Op--+ +--Cs--+-Spx+--Pa--+ | | | | | | | | | |
LEFT-WALL people.p love.v cats.n because they are.v mild.a .
Constituent tree:
(S (NP People)
(VP love (NP cats))
(SBAR because (S (NP they) (VP are (ADJP mild)))) .)
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

你看，mild是个形容词，cats是个名词，都标注出来了，可见，词类也分析了，句法修饰关系也分析了；在大规模的情况下，恐怕就要采用其他的批量自动分析工具了，而不是这个“单个句子的分析器”。

云间紫竹 · 2012-03-22

回复: 先用工具来标注词性，再用AntConc来检索

作者李亮1975重庆:
普通的语料检索工具（WordSmith Tools和AntConc）并不负责形容词或动词或名词的“针对词性（词类）的检索”呢。所以，你需要一款词性（词类）的语料标注工具，把语料进行标注，然后再拿到WordSmith和AntConc中进行分析提取计算。

一个简易的词性标注器（2005年日本人开发的），名叫“postagger 1.0”，用法说明和软件本身在这里下载
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/

AntConc（免费的较为强大的足够满足多数人需求的）在这里下载，注意看准Windows版本的下载链接：
http://www.antlab.sci.waseda.ac.jp/antconc_index.html

例如，我们有如下的文本内容需要进行词性标注……

A young girl loves corpus linguistics very much.

而我们用postagger 1.0进行了处理之后，它就变成了……

A/DT young/JJ girl/NN loves/VBZ corpus/NN linguistics/NNS very/RB much/RB ./.

可见，DT代表限定词determiner，JJ表示形容词，VBZ表示一般现在时的动词形式，NN表示普通名词，NNS表示普通名词的复数形式，RB表示副词。

这样的一套“缩略型标注标签”叫做tagset（标注标签集），一般是参照BNC（British National Corpus）的两套tagset而设计或精简化地设计出来的。BNC的两套tagset分别叫做“C5”和“C7”，它俩的完整列表的两处链接如下：
http://www.natcorp.ox.ac.uk/docs/c7spec.html （C7这套有139个标签）
http://www.natcorp.ox.ac.uk/docs/c5spec.html （C5这套有61个标签）
它俩之间的较为详细对比说明在这里：
http://www.natcorp.ox.ac.uk/docs/gramtag.html

标注完成之后的语料在AntConc中就可以进行检索了，例如你需要检索上面例句的girl这个词前面的形容词，你就需要检索“/JJ girl”这个字符串就行了，在AntConc中操作的时候，注意把Start按钮之上的“Words”这个选项前面的小勾勾取消，免得AntConc把“/JJ girl”当作“ /JJ girl ”来检索了，就检索不到了。以此类推，可见我们不仅可以检索的时候指定“关键词的词性”，也可以同时指定“搭配词的词性”呢。同理，当我们需要检索love的一般现在时的动词形式的时候，就只需要输入“loves/VBZ”，把它当作单词（Words）来检索，也就是“这个串”的左右两侧自动加上一个空格而进行检索，就能找到对应的“语料中的实例”了。

上面提到的postagger 1.0的压缩包你下载之后，就会发现有tagger.exe这个文件，它就是主程序，但是它并不能被直接双击而运行而处理你的语料，它是“命令行形式的dos程序”呢，需要你运行它的时候，同时给出“输入文件”和“输出文件”的完整路径。同一个文件夹里面，还有models这个文件夹呢，里面都是它的体积比较大的“一系列的数据库文件”。主程序tagger.exe和models文件夹必须放在同一个文件夹，并且models文件夹不能被更改为其他名称。

你操作tagger.exe的正确而很简单的方法是，你首先把你要处理的txt文件放到C盘根目录，命名为1.txt，同时也把你下载的postagger的整个解压缩之后的文件夹（假设为“postagger-1.0”，这个文件夹一进入就能看到tagger.exe哟），然后在“开始”菜单点“运行”，在弹出的对话框中输入如下的内容，就回车：

c:\postagger-1.0\tagger.exe -i c:\1.txt -o c:\2.txt

这里的“-i”就是减号加上字母i，表示input file path（输入文件或等待处理的语料文件的完整的路径及文件名称）；而这里的“-o”就表示output file path（自动产生的输出结果的文件的完整路径及其文件名称）。注意：在-i之前有一个空格或打入两个空格也行；在-o之前也有一个空格或多个空格哟。输好了，就回车，就能看到弹出的“黑底白字的DOS处理窗口”，稍等片刻（处理的语料文本量越多，等待越久哈），当黑色的DOS窗口自动消失了，你就可以到C盘根目录去收获它的自动处理的结果了，也就是双击C盘根目录新产生的2.txt。它在你每次执行了上面的运行效果之后都要自动产生，并且自动删除或自动清空了之前的输出结果哟，所以，要注意及时保存刚刚产生的“词性标注结果（在2.txt中的，拷贝它到其他位置，改变一下现有的名称即可）”

太有用了啊

云间紫竹 · 2012-03-22

回复: 先用工具来标注词性，再用AntConc来检索

作者云间紫竹:
太有用了啊

把表情符号看错了，应该是朝上的夸赞拇指啊，老师，千万别别介意，原谅我喔

gaoxiaoli · 2012-03-23

回复: 词丛索引

一个简易的词性标注器（2005年日本人开发的），名叫“postagger 1.0”，用法说明和软件本身在这里下载
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/

找不到这个软件，不存在呀？

李亮1975重庆 · 2012-03-28

回复: 词丛索引

作者 gaoxiaoli:
一个简易的词性标注器（2005年日本人开发的），名叫“postagger 1.0”，用法说明和软件本身在这里下载
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/

找不到这个软件，不存在呀？

我做了个外壳，你且看这篇帖子
http://www.corpus4u.org/forum/showthread.php?t=8229

李亮1975重庆 · 2012-03-28

回复: 先用工具来标注词性，再用AntConc来检索

作者云间紫竹:
太有用了啊

我做了个外壳，你且看这篇帖子
http://www.corpus4u.org/forum/showthread.php?t=8229

gaoxiaoli · 2012-03-28

回复: 词丛索引

感谢李老师，学到很多。

词丛索引

沙漠的百合

李亮1975重庆

语料库快乐军政委

沙漠的百合

李亮1975重庆

语料库快乐军政委

云间紫竹

云间紫竹

gaoxiaoli

李亮1975重庆

语料库快乐军政委

李亮1975重庆

语料库快乐军政委

gaoxiaoli