回复: 跪求文本名词化词语正则表达式的检索方法
现有两个标注版本,一个使用tree tagger软件标注的,一个是用在网上用CLAWS7进行标注的。手头现有pattern builder的正则表达式编辑软件,一个适用于tree tagger,另一个则是适用于CLAWS4的(标注表与CLAWS7有些差别,不知道该怎么导入CLAWS7的标注表)。
其实主要的问题还在于名词化。现在可以轻松用正则表达式检索出所有形式的名词,但这其中并非所有的都是名词化现象。名词化嘛,一方面是加词缀构成的,还有零缀派生的,另外还有-ing名词化,to-不定式名词化,that-及Wh-小句名词化。种类繁多,难以用正则表达式界定。看了好几篇自建小型语料库研究名词化的文章,不过都是直接给出了名词化的相关统计数据,没有介绍具体是怎么操作的,很苦恼啊。
有几个结构倒可以借鉴:名词/(行为名词)+介词+名词,介词+名词(行为名词),中性名词+行为名词(+介词短语),行为名词+短语/从句,名词+名词(行为名词);另外关于-ing形式还有:领属语+派生的事件名词(+of补足语),(限定词+)V-ing(+complement),(限定词+)V-ing+of-complement。
求大神指教!