Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

xujiajin

管理员
Staff member
Mike Scott解释得比较清楚。因此贴到这里。

I think there are two different aspects here. One is that as linguistic categories aren't well established, POS categories won't be either since they derive ultimately from linguistic theory. If we take cases like
(1) church tower
(2) tall tower
it is clear that (2) is adjectival, but in the case of (1) some linguistic theories will call church a noun (because that word-form arguably is mainly used for nouns) while others would call it an adjective because it is here premodifying a noun. The former theories seem to act as if word-forms had a primary POS, rather as people have their gender determined before birth, while latter theories allow for the possibility that words may swing both ways, so to speak, depending on the company they keep.

The second aspect concerns the information supplied in the context or inferable from it. In the case of (3) ... chief distribution ...
English simply does not tell us without more context whether we are talking of the way chiefs (e.g. tribal chiefs) are distributed through a population or territory, or whether we are talking of the main patterns of distribution of something. Either way, chief premodifies distribution. In POS tagging for such a case, the context may or may not disambiguate so POS tagging will necessarily, for those linguists who think word-forms have a predetermined POS, be varied.

Cheers -- Mike

Fukun Xing wrote:
Hi everybody,
I am puzzled with the part of speech of "chief" in the phrase "the chief executive officer". In the Penn Treebank "chief" in the phrase sometimes is tagged as "JJ" and sometimes tagged as "NN". Could you tell me how you will tag it and why. And is it safe to say that there are some PoS ambiguities, which can not even be solved by human, in English. I know that it maybe true in Chinese that sometimes it is impossible for human to decide the right pos of some words. For example, "一件 包装/v n 精美 的 礼品" (1. a present with wonderful decoration. 2. a prsent decorated wonderfully)In this sentence "包装"(decorate/decoration) can be tagged as noun or verb, both are right, which cannot affected right understanding of the sentence. If there is such thing in English can you give some examples?
Thanks in advance!

Xing
 
回复: Mike Scott在Corpora List上关于名词修饰语的标注问题的回答

Followed up by Adam Kilgarriff
To add to Mike's response, my particular bugbears are not only noun/adj ambiguities like chief (and many others; male, female, gold silver, ...) but also past-participles/adjectives, and, worst of all, -ing forms, which can float between nouns, verbs and adjectives in a most licentious manner (and if they modify another word, you don't know if the underlying relationship is SUBJ or OBJ, as in Chomsky's "visiting relatives")

They are the cause of a lot of the noise in what we do for English

Adam
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

多谢许老师将词性讨论的邮件放到这里与大家共享。我很希望能够看到国内的同仁关于英语词类问题的见解,更希望能够看到英语与汉语比较中得到的英汉语词类特点。还是讨论中的例子:
一件 包装 精美 的 礼品
作为一名汉语母语者,我们应该如何分析这句话中的“包装”词性,是名词还是动词,为什么,以及如何确定语句结构,进而如何确定语句意义?这里的问题似乎与church tower 和 tall tower 还有不同。
希望各位老师同仁给予赐教!
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

多谢许老师将词性讨论的邮件放到这里与大家共享。我很希望能够看到国内的同仁关于英语词类问题的见解,更希望能够看到英语与汉语比较中得到的英汉语词类特点。还是讨论中的例子:
一件 包装 精美 的 礼品
作为一名汉语母语者,我们应该如何分析这句话中的“包装”词性,是名词还是动词,为什么,以及如何确定语句结构,进而如何确定语句意义?这里的问题似乎与church tower 和 tall tower 还有不同。
希望各位老师同仁给予赐教!
有关"包装精美"等一类词组的问题,可参见胡裕树《现代汉语》第四章语法中有关章节,尤其是“词组和句法分析”一节。
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

感谢xusun575,推荐的汉语语法书我会去找来参考。
但如果单纯看“一件 包装 精美 的 礼品”这个短语,从汉语母语者的理解看,我们可以有两种理解:
(1)礼品的外包装精美。如果如此理解“包装”此处应标为名词,与“精美”形成“主谓结构”;
(2)礼品被“包装”得精美。如果如此理解,“包装”此处应标为动词,与“精美”形成“述补结构”。
无论哪种词性和结构,“包装 精美 的”都作为“礼品”的修饰语。
因此,在此短语中“包装”的词性有两种可能,从工程的角度看,需要做词性排岐,但在此语境下,我们没有任何形式上的依据可以在名词与动词之间做出选择,任何一种标注都是可接受的,都不会影响整个语句意义的理解。这种情况在英语中似乎很少出现。
在“the church tower”这个短语中,church位于名词前,起修饰作用,从语境看其词性可能是形容词,但通过查词典可以判定此处church只能是名词,因为词典中church只有名词与动词两种词性,而动词是不可能以原型的形式出现在名词之前的,因此可以判定其名词词性。我们可以称这种情况为“词性歧义”,这种歧义是可解的。
但“包装”在词典中分列名词与动词两个词项,且此语境中二者皆可接受,这样的情况与“词性歧义”不同,是否可称之为“模糊”,而“模糊”是无解的。
请诸位老师同仁指教
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

如果单纯看“一件 包装 精美 的 礼品”这个短语,从汉语母语者的理解看,我们可以有两种理解:
(1)礼品的外包装精美。如果如此理解“包装”此处应标为名词,与“精美”形成“主谓结构”;
(2)礼品被“包装”得精美。如果如此理解,“包装”此处应标为动词,与“精美”形成“述补结构”。
无论哪种词性和结构,“包装 精美 的”都作为“礼品”的修饰语。
因此,在此短语中“包装”的词性有两种可能,从工程的角度看,需要做词性排岐,但在此语境下,我们没有任何形式上的依据可以在名词与动词之间做出选择,任何一种标注都是可接受的,都不会影响整个语句意义的理解。这种情况在英语中似乎很少出现。

我看不出任何理由在此句中“包装”可以作为动词使用。语法上的可能性不等于正确。
你去查查语料库 “/m /q /n /a 的 /n” 结构的使用频率远远大于 “/m /q /v /a 的 /n” 的使用频率。如果频率不能说明问题,你可以通过句法变换:这本书包装精美,价钱却便宜。这里的包装难道解释成动词也能说明问题。
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

这本书 装帧 精美,但价钱便宜
这本书 编辑 细致,但价钱便宜
这本书 论述 严谨,但价钱便宜
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

我倾向于mandel的分析。

在所有这些例句中,包装、编辑、论述等都是动词活用作名词(词性标注为vn)。

这本书 装帧 精美
这本书 编辑 细致
这本书 论述 严谨

句法分析有两种可能:

1)第一种办法比较传统(用分析英语的办法分析汉语)这本书 为 此类vn的修饰语,这本书 论述etc一起作主语,形容词精美etc作谓语;

2)第二种比较“前卫”的办法是把此类例句分析为top-comment sentence。这本书为topic,论述严谨etc主谓复合结构作comment。
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

以“活用”来解释汉语的词类似乎说服力不强,会导致“词无定类”,这已经被很多学者论述。且“活用”有一个前提假设,即“装帧”这类所谓被“活用”的词存在一个先于活用的类,但这个先验的类是如何确定的呢?
此外,汉语中词类与句法位置没有一一对应关系,主语位置上的词不一定就是名词或是被活用为名词。如:
去 是可以的。
不去 也是可以的。
“去”“不去”也被活用了吗?
再一个例句:
这本书 出版 及时,且价格便宜
“出版”活用了吗?
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

正是因为汉语的词类与句法功能之间对应关系不强,所以才有活用之说,ICTCLAS等tagger才根据上下文给这些词标记为vn。汉语的动词不像英语有非限定形式(可以“活用”为名词的功能;在这种情况下英语不需“活用”,因为动词的非限定形式具有名词的句法功能),如果要词有定类而不顾及词类与句法功能之间的关系,那么简单得很,这类表动作(可以看作为先验的类的基础)的词可以恒定为动词(可以看作为先验的类),而不必考虑上下文。
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

标注器(tagger)是机器在模仿人的思想和行为去工作,它的标注过程其实就是一个拟合人的标注过程,因此标注器标的结果不足以说明任何问题,因此我们才需要从人的认识角度深入探讨词类问题,以便机器能更好地向人学习。
事实上,汉语词类在做的工作就是在“词无定类,类有定职”与“词有定类,类无定职”之间的抉择,无论哪种选择都难以解决汉语词类问题的困惑。其原因何在?此外,汉语的词类知识到底能为汉语教学和信息处理做多大贡献,英语知道句子中每个词的词性后可以基本顺利的parse出句法结构,而汉语行吗?
坚持/v 改革/v 促进/v 持续/v 发展/v
怎么parse?
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

我觉得就汉语而言,目前较为通行的做法是“词无定类,类有定职”。以下例句就可以分析为:

坚持 (v, 述) 改革 (vn, 宾) 促进 (v, 述) 持续 (adj) 发展 (n) (宾)
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

"我觉得就汉语而言,目前较为通行的做法是“词无定类,类有定职”。"
这个观点我实在不敢苟同,当下大多数标注器(包括你提到的中科院的标注器)使用的都是北大的词类体系,这个体系遵循的“词类多功能”的原则,即同一个句法位置上可以出现多个词类,因此
去 是 可以 的 。
此句中“去”仍然是动词,标为v,而非活用为名词或vn

坚持 (v, 述) 改革 (vn, 宾) 促进 (v, 述) 持续 (adj) 发展 (n) (宾)
这个分析也不敢苟同,因为这个分析中的词性标记是根据词的句法角色给出的,但是我们要做的工作是在不知道句法角色的前提下标注词性,而后根据词性标注结果分析出语句结构,你这么做有本末倒置的嫌疑。
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

我认为一刀切为“词无定类,类有定职”或“词有定类,类无定职”是行不通的。“去”的例子当然可以这样标。但如果看一下标注语料,就可以看到,更多的是像我所提到的情况。ICTCLAS等标注器如果真正严格遵循“词类多功能”的原则,就根本没有必要设置vn,an之类的附码。


利用机器词典,根据词所处的上下文信息,包括搭配与可能的句法位置和角色等,必要时利用统计模型计算其概率,这是我所知道的词性标注的一般方法。CLAWS也是这么做的,如果不考虑这些上下文信息,怎么知道present是动词还是形容词,book是名词还是动词?“本末倒置”的说法只是将词类标注与上下文信息认为截然分开的结果。如果遵循“词有定类,类无定职”,那还有必要那么麻烦去作词性标注吗?一本词典就够了。

的确,机器是模仿人的思维。如果做出的词类句法标注器分析结果与人工按照常规语法分析的结果大相径庭,那分析器还有实用价值吗?
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

[FONT=宋体][FONT=宋体]汉语中有很多所谓兼类现象。如“小小理发店何以[/FONT][FONT=宋体]后台[/FONT]’?”; [FONT=宋体]人肉[/FONT][FONT=宋体]搜索[/FONT][FONT=宋体]等等。有一个例子很有意思。大概是在《生活周刊》上,出现了一个中英对应的标题。[/FONT]
[FONT=宋体]Culture industry[/FONT][FONT=宋体], Creative life[/FONT]
文化工业, 创意生活
这里culture和“文化”;creative和“创意”的词类归属都不容易弄明白的。
[/FONT]
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

(1)有关vn an vd ad 这四个标记。这些标记在北大语料标注规范中有详细说明,并且明确指出vn这些标记不是活用,例如vn不是动词活用为名词,其本身仍然是动词v,不过是在特定的一些情况下具有了名词的一些特征,如做“有”的宾语,修饰名词、受名词修饰等;

我所说的“活用”其实就是这个意思。他们的Level-1词类就是附码的第一个字母,后面的字母Level-2附码表示该词在语境中的特征。

(2)英语中词性标注器可以区分present的n与v词性,是因为语境可以判断,且判断结果与人一致,当然我们可以使用不同的模型如隐马尔科夫模型(中科院、claws都以此模型为基础)、基于错误和转换的模型(Eric Brill 被用在宾州树库词性标记)、以及最大熵模型、CRF模型等去模拟人的操作,但这些模型都是基于人对词性问题的良好认识以及标注一致性较强的训练语料(尽管英语语料也有标注不一致的地方)。而汉语缺乏一个人能统一认识的词类体系,例如我们会争论“改革”的词性怎么一会是v,一会是n,甚至争论“去”到底是n还是v。因此尽管汉语也可以做一个词性标注器,但是其拟合的是正确的标注,还是错误的标注,就不得而知了。

的确如此。

(3)但汉语也并非仅需要一本词典即可完成标注工作,因为很多词确实有不同的类别,例如“稳定”在词典中会有两种词性a和v,这需要进行排岐,但是汉语与英语不同在于存在缺乏语境排岐特征的情况。
例如:
社会 很 稳定/a。
要 切实 稳定/v 社会。
以上都有语境特征,可以明确定词性,但是
稳定 压倒 一切。
如何标注呢?汉语中动词、形容词都可以做主语,这里的稳定是什么呢?

其实,你在分析上例中“稳定”的词类时也和我一样用了包括句法角色的语境信息。至于“稳定 压倒 一切。”中的稳定,的确难以确定。这种即使在上下文中也存在歧义的现象汉语中有,英语中也有。只不过因为汉语中词类与句法功能之间缺乏严格的对应关系这种现象更为常见罢了。英语中一个有名的句法/结果歧义句是:Flying planes can be dangerous.

谢谢肖老师的关注和指教,希望能和您把这个问题深入讨论下去,尤其是英汉语在词类这个问题上的差别,您是很有发言权的,如果我有理解不周,言辞不当的地方请您海涵!谢谢!

不客气。这种讨论很有意思的。
 
回复: Mike Scott在Corpora List上关于名词修饰语POS标注问题的回答

[FONT=宋体]不知有用没用,我也记不得是不是现代汉语词典5了,上面说了一些话,不知道和这个话题有没有关联。大致意思如此:每个义项都是都只能出现在特定的交际环境下,形成语义与语境一对一的对应,而具体的词性必然体现在每个义项的功能上。如果一个词具有兼类的功能,那也只能分别体现在不同的义项上。也就是说,义项与词性大致可以做到一对一的对应。[/FONT]
 
Back
顶部