[求助]除了WS,有甚N程式可以分析collocation?

bonjoe

初级会员
小弟正在英修TESOLn程,想要分析W生的作文之中的collocation,
目前只知道ws可以gcorpusK分析collocation,
但小弟只是FW生,希望有前可以告知有o其他程式可以做到?
感x
 
回复:[求助]除了WS,有甚N程式可以分析collocation?

以下是引用 bonjoe2006-4-19 5:17:07 的发言:
小弟正在英修TESOLn程,想要分析W生的作文之中的collocation,
目前只知道ws可以gcorpusK分析collocation,
但小弟只是FW生,希望有前可以告知有o其他程式可以做到?
感x

try this software.
http://www.corpus4u.org/down_view.asp?id=31






[本贴已被 作者 于 2006年04月19日 09时40分02秒 编辑过]
 
顺便向各位请教:有没有什么软件可以处理ICE-GB(除ICEUP3外),Lund, Lob 和Brown所有语料库呢?太多工具实在让人头疼,难以掌握.ICEUP3让人眼花缭乱,界面太复杂了。要是一种软件可以处理大多数主流语料库那就好了。多谢!

[本贴已被 作者 于 2006年04月20日 21时47分23秒 编辑过]
 
回复:[求助]除了WS,有甚N程式可以分析collocation?

以下是引用 seanxpq2006-4-20 21:44:58 的发言:
顺便向各位请教:有没有什么软件可以处理ICE-GB(除ICEUP3外),Lund, Lob 和Brown所有语料库呢?太多工具实在让人头疼,难以掌握.ICEUP3让人眼花缭乱,界面太复杂了。要是一种软件可以处理大多数主流语料库那就好了。多谢!

ICECUP3专门为ICE-GB而做,而ICE-GB是完全Syntactically Parsed, 也是经过人工检查的。它和其它语料库还是有所区别的。如果要一个能处理所有语料的工具,似乎只有靠大家常提到的几个工具了,Wordsmith, Concordance, AntConc, Xiara等。由于标注好的语料(如ICE-GB、LOB等)所用的tagset可能不同,如果要用到标注信息,tagset的转化对应就是必要的,其工作量应该比你花时间读一读ICECUP的帮助文件要大多了。

另,记得以前曾经读过有人试图做个程序把各种POS Tagset自动转化,一时间找不到了。哪位看到请告知。
 
回复:[求助]除了WS,有甚N程式可以分析collocation?

以下是引用laohong 在2006-4-23 9:57:07 的发言:
另,记得以前曾经读过有人试图做个程序把各种POS Tagset自动转化,一时间找不到了。哪位看到请告知。



期待能够把LOB/TOSCA的标注格式、GoTagger标注格式、BNC的标注格式相互转化的程序。
 
LOB/TOSCA tagger对有的词标出两种附码,即多出一个备用码,而且全部以列显示. 不知是否可用一个程序转化为BNC的标注方式,或者GoTagger的格式,请赐教。
 
虽然The AMALGAM project 可提供几种附码方式,但是老百姓仍然关心的是如何应用简单易于操作的程序,就象Dr.Xiao前面提供的Perl script程序,在自己的计算机上就可以转化附码方式,例如,从_tag到BNC的<lexicon tag>lexicon的方式。麻烦Dr.Xiao再帮我们把用LOB/TOSCA tagger附码的格式转化为_tag格式或BNC格式。
 
回复:[求助]除了WS,有甚N程式可以分析collocation?

以下是引用armstrong 在2006-4-23 14:38:23的发言:
虽然The AMALGAM project 可提供几种附码方式,但是老百姓仍然关心的是如何应用简单易于操作的程序,就象Dr.Xiao前面提供的Perl script程序,在自己的计算机上就可以转化附码方式,例如,从_tag到BNC的<lexicon tag>lexicon的方式。麻烦Dr.Xiao再帮我们把用LOB/TOSCA tagger附码的格式转化为_tag格式或BNC格式。




希望得到Dr.Xiao的帮助,把LOB/TOSCA tagger附码的格式转化为_tag格式或BNC格式。
 
Paste a paragraph tagged using TOSCA/LOB tagger to see what I can do.
 
不同tagset里同样名称的tag的定义范围不一定完全相同,不同名称的tag可能实质上指的是同样的东西,因此,有时候不是简单的 find & replace 就可以的,tagset 间的 map 过程是有必要的。
 
例如有这样一个句子:In the early morning hours, the ship sailed out of the habour.
经LOB/TOSCA tagger标注后如下:
<s>
<w ana='TLB-C-IN TLB-A-RP TLB-A-FW TLB-A-NC TLB-A-NN TLB-A-NNU'>
In
</w>
<w ana='TLB-C-ATI TLB-A-NC'>
the
</w>
<w ana='TLB-C-JJ TLB-A-RB'>
early
</w>
<w ana='TLB-C-NN TLB-A-NC'>
morning
</w>
<w ana='TLB-C-NNS'>
hours
</w>
<w ana='TLB-C-SCOM'>
,
</w>
<w ana='TLB-C-ATI TLB-A-NC'>
the
</w>
<w ana='TLB-C-NN TLB-A-VB'>
ship
</w>
<w ana='TLB-C-VBD TLB-A-VBN'>
sailed
</w>
<w ana='TLB-C-RP TLB-A-IN TLB-A-JJ TLB-A-JJB TLB-A-NC TLB-A-NN TLB-A-VB'>
out
</w>
<w ana='TLB-C-IN'>
of
</w>
<w ana='TLB-C-ATI TLB-A-NC'>
the
</w>
<w ana='TLB-C-NN TLB-A-VB'>
harbour
</w>
<w ana='TLB-C-SPER'>
.
</w>
</s>

请问Dr.Xiao如何使用perl script 转化为如下两种格式:
<s><w IN>In</w><w ATI>the</w><w JJ>early</w><w NN>morning</w><w NNS'>hours</w><SCOM'>,
</w><w ATI>the</w><w NN>ship</w><w VBD>sailed</w><w RP>out</w><w IN'>of</w><w

ATI>the</w><w NN>harbour</w><w SPER'>.</w></s>


<s>In_IN the_ATI early_JJ morning_NN hours_NNs,_SCOM'the_ATI ship_NN sailed_VBD out_RP

of_IN' the_ATI habour_NN._SPER'</s>
谢谢!
 
Back
顶部