词性赋码问题 CLAWS POS (part of speech) tagging

许博士,我在SWECCL网页上下载的词性赋码集冠词类用了AAT1 和AAT2,但书上和google网页上的claws7都用一个A,即AT1和AT2。 到底哪个对啊?
 
回复: 词性赋码问题

你观察和仔细。

如果你用SWECCL1.0,用AAT1 和AAT2,如果你用其他,应该AT1和AT2。

你有相关的语料库的话,可自己再确认一下。
 
回复: 词性赋码问题

好吧,不过对赋码问题还是一头雾水,不知.....不说了,还是先看看书再说
 
回复: 词性赋码问题

问问看你身边有没有相对了解的朋友,我们这里三言两语也说不清楚。
 
回复: 词性赋码问题

请问许博士,怎么下列加下划线的词怎么标注:
1. I've, I'm, I'll
2. are you free? Yes.

在王立非的《计算机辅助第二语言研究方法与应用》中这些词都被标注成了NP,这样不对吧?
 
回复: 词性赋码问题

是错的。词性赋码工具也会出错。

另外,词性赋码工具对于口语语料,出错会更多。

你告诉我们一下,你说的上面被标成NP的问题在书中的页码,我想看看原书是怎么回事,看上去有点怪。
 
回复: 词性赋码问题

不是书上,是随书光盘上的,好像普通名词大写的都列为NP了,还有一些缩写词,英语字母ABC等。
在光盘中的位置:pratice data for wordsmith--writing--tagged writing-CLtagged writing中。

麻烦您改完后告诉我怎么改,比如I've该怎样标注。

多谢了
[FONT=宋体] [/FONT]
 
回复: 词性赋码问题

我手头没有那个光盘,你可以发一个典型的文本上来看看。
 
回复: 词性赋码问题

文本太长了,我发一部分吧,这样能多发几个
[FONT=宋体]1. Tell <VV0> you <PPY> the <AT> truth <NN1> this <RG> little <DA1> boy <NN1> nearly <RR> do <VD0> nt <XX> know <VVI> what <DDQ> this <DD1> sentence <NN1> means <VVZ> : <:> Education <NN1> is <VBZ> a <AT1> lifelong <JJ> process. <NNU> But <CCB> he <PPHS1> often <RR> say <VV0> : <:> One <MC1> day <NNT1> Ill <NP1> get <VV0> old <JJ> . <.> [/FONT]
[FONT=宋体]</s>[/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
[FONT=宋体][/FONT]
2.
[FONT=宋体]Ive <NP1> met <VVD> some <DD> people <NN> who <PNQS> made <VVD> me <PPIO1> feel <VVI> the <AT> great <JJ> difference <NN1> between <II> educated <JJ> people <NN> and <CC> uneducated <JJ> people <NN> . <.> [/FONT]
[FONT=宋体]</s>[/FONT]
[FONT=宋体][/FONT]
3.
[FONT=宋体]<s>[/FONT]
[FONT=宋体]A <AT1> famous <JJ> quote <NN1> goes <VVZ> like <II> this <DD1> , <,> While <CS> Im <NP1> growing <VVG> old <JJ> , <,> Im <VV0> learning. <NNU> I <PPIS1> agree <VV0> with <IW> it <PPH1> very <RG> much <RR> that <DD1> education <NN1> is <VBZ> a <AT1> lifelong <JJ> process <NN1> . <.> [/FONT]
[FONT=宋体]</s>[/FONT]
[FONT=宋体]<s>[/FONT]
4.
[FONT=宋体]Youll <VV0> go <VV0> to <II> a <AT1> class <NN1> and <CC> sharp <RR> your <APPGE> skill <NN1> there <RL> . <.> [/FONT]
[FONT=宋体]</s>[/FONT]
[FONT=宋体]<s>[/FONT]
5.
[FONT=宋体]Surely <RR> , <,> the <AT> answer <NN1> is <VBZ> Yes. <NP1> First <MD> of <IO> all <RR> as <CSA> everyone <PN1> sees <VVZ> the <AT> world <NN1> is <VBZ> changing <JJ> day <NNT1> by <II> day <NNT1> . <.> [/FONT]
[FONT=宋体][/FONT]
[FONT=宋体]您看,3.中,同样是Im的缩写,标注也不一样。还有,1.中的Ill和4. 中的Youll也不一样。[/FONT]
 
回复: 词性赋码问题

你标红的几个赋码基本都有问题。主要是原始原料处理得不好。

这只是practice data,知道如何检索即可。

实际操作中,我们一般不大需要去一个个check每个赋码的正确性。

我们需要尽可能保证我们提供原始文本是符合规范的、干净的,这样才不容易被标错。

CLAWS一般会把I'm和I'll, I've这些先切分成两个词,然后按代词和动词分别标注。上面单词中的apostrophe被去掉后,空格也被去掉了,这是不应该的。

你可通过http://ucrel.lancs.ac.uk/claws/trial.html 网站试验一下。

你现在看到的语料是SWECCL1.0版本的格式(词性码都在尖括号中),这个1.0版本有个修订版,另外,又出了个SWECCL2.0版,好像其中的一些格式上的问题做了修正。
 
回复: 词性赋码问题

刚刚看了SWECCL2.0的tagged file,格式是不一样了,好像这类的错误没有了
 
回复: 词性赋码问题

许博说的对,在演示网站上句子:I'm a boy.将标注成为: I_PPIS1 'm_VBM a_AT1 boy_NN1 ._.
 
回复: 词性赋码问题

我试了一下,按照我上面给的网址,标注结果如下。

I'm a teacher. -->

I_PPIS1 'm_VBM a_AT1 teacher_NN1 ._.
 
回复: 词性赋码问题

我又试了一下,如果是一句话或较短的文本,赋码没问题,但文本长了,就会出现上述问题
 
回复: 词性赋码问题 CLAWS POS (part of speech) tagging

各位大师,请问可不可以告诉我CLAWS4标注以后的这些tag分别代表什么意思啊?非常感谢!
 
Back
顶部