如何使用TAIParse POS Tagger 和 Vocabulary Profiler

laohong

管理员
Staff member
yinghuang问:“laohong你好。我下载了你推荐的TAIParse Part-of-Speech (POS) Tagger,可不知道如何使用。怎么在dos下用啊。我对dos不大懂。此致。”


答复如下:

1、下载软件包
一个压缩的文件包,大小大约12MB
Download TAIParse 0.7 beta, focusing on POS tagging and shallow parsing at:
http://www.textanalysis.com/free/taiparse_pos.zip

2、把下载的 taiparse_pos.zip 压缩包全部解压到C盘根目录下,在C盘下出现一个名字为taiparse0_7 的新文件夹。

3、把你要标注的文本文件(一定要是纯文本文件),复制到taiparse0_7 文件夹里的 input 文件夹里。为方便下面的说明,这里假设你复制到 Input 文件夹里的文件是mytext.txt。

4、在taiparse0_7 文件夹里,找到 Run.bat 文件 (有些电脑的设置把.bat隐藏了,可能只能看到 Run),用鼠标右键敲这个文件,选择 Edit (编辑),这时候Notepad (记事本)就打开了该文件。

5、在打开的 Run.bat 文件里,把第三行的 set apps=c:\apps\ 改成 set apps=c:\,再把第六行的 bin\TAIParse.exe input.txt 里面的改成 bin\TAIParse.exe c:\taiparse0_7\input\mytext.txt (注意 .exe 和 c:\之间有个空格),然后存好Run.bat文件,退出。

6、打开Output 文件夹,把里面的文件清空。然后,双击 Run.bat 就开始标注了。等那个DOS黑窗口消失后,查看Output 文件夹,里面会出现14个文本文件,标注结果就在 tags.txt里,其它文件各有用途。
 
关于批处理:

一次性处理好多个文件的方法:

1、 把要处理的文件都复制到Input 文件夹,如,mytext1.txt, mytext2.txt, mytext3.txt, .....;

2、 把上面第五步里说到的Run.bat里的第六行改成如下格式并存好:

bin\TAIParse.exe c:\taiparse0_7\input\mytext1.txt
bin\TAIParse.exe c:\taiparse0_7\input\mytext2.txt
bin\TAIParse.exe c:\taiparse0_7\input\mytext3.txt
......

3、双击Run.bat就开始标注了,结果文件就全部被存进了Output文件夹里的tags.txt里。


注意:

如果想要标注的结果也是一个一个的文件,最好在每个原文件的起首行里输入个文本结束标记,如2个百分号:%%。这样做好后再标注。在结果文件tags.txt里就会看到文本中出现了%/% %/%,用它为文本分隔符,使用WordSmith里的TextSplitter自动切分tags.txt文件就得到了一个一个的结果文件。

Good Luck!
 
Lao Hong,谢谢啦!但 可否直接运行taiparse.exe 作tagging? 每次操作都要修改 run.bat,特别是作批处理时,不方便.
 
回复:如何使用TAIParse Part-of-Speech (POS) Tagger

以下是引用 xiaoz2006-5-2 2:40:07 的发言:
Too many words are tagged as "UNKNOWN".

Yes, you are right, but they claim that it achieves a better performance than other taggers.

"The tagger produces an output format almost identical to that of the Penn Treebank Project, including bracketing of noun phrases. The current version achieves 93% accuracy in a blind test that we use to assess progress."
 
回复:如何使用TAIParse Part-of-Speech (POS) Tagger

以下是引用 xusun5752006-5-2 7:52:15 的发言:
Lao Hong,谢谢啦!但 可否直接运行taiparse.exe 作tagging? 每次操作都要修改 run.bat,特别是作批处理时,不方便.

好像不行。最好的办法看来只有修改 Run.bat 了。如果觉得在 run.bat 里写下那些要处理的文本文件的路径和名称很麻烦,可以用 Clipname 来帮你, 你可以到下面的网址了解和下载Clipname:
http://www.cascade.org.uk/software/windows/ClipName/clipname.php
 
在TAIParse Part-of-Speech (POS) Tagger的结果文件夹 Output 里, 有一个 Clause.txt 文件,是对输入文本的句子层次的划分和分类。如下面的4句:

noverb: Clinton Administration Plutonium Policy and North Korea
active: U.S. policy on the use of plutonium has remained essentially the same under the Reagan, Bush, and Clinton administrations
active: the DPRK and South Korea must renounce all plutonium
active: Japan can acquire
.......


这一结果似乎其它Tagger都不提供。其用途之一就是,试用 Systemics 的C友可以用TAIParse的这个Clause结果文件来预处理自己要用 Sytemics 来标注SFG特征的文本。当然,它划分的小句和Systemic Functional Grammar 要求的不一定100%准确。

对于不了解Sytemics的C友, 我们在下面的帖子里讨论过 Systemics :

http://www.corpus4u.org/showthread.php?t=914
 
请问:在本网站好像不能下载Vocabulary Profiler?有哪位大侠可以指点一下吗?
 
A note about Vocabulary Profiler and RANGE:

The Web Vocabulary Profiler tool is available for online use at:
http://www.lextutor.ca/vp/eng/

The RANGE tool mentioned in my post above is actually the offline version of Web Vocabulary Profiler. The Web version of this program lacks some features of the original off-line program, as developed by Batia Laufer and Paul Nation, and in its latest version known as Range. For example, WebVP does not allow you to input several texts at the same time and keep track of which texts are contributing to which parts of the profile. Nor does it handle extremely large texts, and even moderately large texts move fairly slowly through the server-side processing. So, it's adviced to download the offline version for your use: http://www.vuw.ac.nz/lals/staff/paul-nation/range BNC.zip
 
Back
顶部