跪求文本名词化词语正则表达式的检索方法

#1
想对一个文本的名词化词语使用情况进行语料库研究,现已进行了对齐与标注,但是不知该如何用正则表达式进行检索,才能不遗漏地将该文本中的所有名词化现象检索出来,望诸位大仙能倾囊相授。
 
#4
回复: 跪求文本名词化词语正则表达式的检索方法

如果你已经标注了所有名词化词语,只要根据你的标注符号进行检索即可。
具体检索正则表达式的编制需要基于你的标注方法。
不妨将部分标注内容展示一下,也好让大家出谋划策。
 
#5
回复: 跪求文本名词化词语正则表达式的检索方法

现有两个标注版本,一个使用tree tagger软件标注的,一个是用在网上用CLAWS7进行标注的。手头现有pattern builder的正则表达式编辑软件,一个适用于tree tagger,另一个则是适用于CLAWS4的(标注表与CLAWS7有些差别,不知道该怎么导入CLAWS7的标注表)。

其实主要的问题还在于名词化。现在可以轻松用正则表达式检索出所有形式的名词,但这其中并非所有的都是名词化现象。名词化嘛,一方面是加词缀构成的,还有零缀派生的,另外还有-ing名词化,to-不定式名词化,that-及Wh-小句名词化。种类繁多,难以用正则表达式界定。看了好几篇自建小型语料库研究名词化的文章,不过都是直接给出了名词化的相关统计数据,没有介绍具体是怎么操作的,很苦恼啊。

有几个结构倒可以借鉴:名词/(行为名词)+介词+名词,介词+名词(行为名词),中性名词+行为名词(+介词短语),行为名词+短语/从句,名词+名词(行为名词);另外关于-ing形式还有:领属语+派生的事件名词(+of补足语),(限定词+)V-ing(+complement),(限定词+)V-ing+of-complement。

求大神指教!
 
#6
回复: 跪求文本名词化词语正则表达式的检索方法

我还以为手工标注出了名词化现象。
你这样的情况恐怕还得自己想办法一个一个解决了。
 
#7
回复: 跪求文本名词化词语正则表达式的检索方法

现在发现,不管怎么着,都是体力活儿啊!
 
#8
回复: 跪求文本名词化词语正则表达式的检索方法

不建议采用一步到位的一个非常复杂的正则表达式去解决,因为你这个问题比较复杂,写正则表达式会更加复杂,非常复杂的正则表达式校验起来非常耗时,如果不小心多打了个符号或少打了个符号或者错打了个符号检查起来非常耗时。
你这个情况看起来可以用多级并列的正则表达式结构,不过就算是你这样写出表达式了,能否好用或者能否达到预期检索目标都很难说,原因就是上面说的,校验非常耗时。
这种情况比较好的解决方式可能是采用批量检索的模式,PowerConc软件有个批量检索的功能,把这个问题的每种情况分别写出一个小的正则表达式,放在PowerConc这个软件的那个批量检索的txt文件里,就可以解决了。而且校验表达式也不用那么长时间。
 
顶部