ilovecorpu
初级会员
有没有比较可行的方法统计一篇或一个小型语料库中间出现的句型及其频率?考虑先用词性标注工具对语料进行词性标注,再用N-gram来做,不过问题是:标注完后,如何清除文本而只保留标注码?恳请哪位赐教!
我在<计算机辅助第二语言研究方法与应用> p36页,看到说为了研究比如should这个词,先把should这个词后的pos去掉,然后保留should这个词,把其他所有的词去掉。
形如:nn1 should vbi at1 jj nn1
去掉所有标记我会,去掉所有词保留标记我也会。但保留这个词,去掉其他所有词,这个方法我不会了。。。。
谁能指点一下。谢谢了。
呵呵,好,xusun575的文本处理能力还是很强的。那我就发一个。就拿咱们论坛下的“大学英语教材语料库”为例子吧。(附件中)
比如:我们要研究the这个词。
1.我要求你先把语料库中the这个词的pos tag去掉!(但其他词的词性标记要求保留)
2.把文本中的所有“词”都去掉,只保留词性标记。
上面2个步骤做完,应该就是本文中只有研究的这个词,和一些词性标记了
3.把带有the的所有“类联接”提取出来:形如 pos+the+pos
其实我的这个例子稍微有点不好,最好拿个“兼语类”现象明显的词做实验。就是一个词有多个词性。
1.所以在做过把语料库中the这个词的pos tag去掉,后如何能在第三步里 WORD查找<w ATI>the</w> 替换成:^&粗体 ??(因为the的词性标记都去掉了。。)
xusun575:the pos tag去掉以后,就不会有后面你那个"<w ATI>the</w>"了.
2.如果一个文本中the的所有词性标记都去掉了,但其它的词的词性标记还在。用那个宏,怎么能把所有词都去掉,但还保留the这个词?!
xusun575:不需要要用“小电扇”(宏),用“嘴”(正则)去吹一下即可。
"(\>)([a-zA-Z0-9]@)(\<)" 替换为“\1\3” (引号不复制,使用“通配符”功能)
而且如果本词是有兼语现象,可能需要正则来提取。我上面有个帖子中提到了。
xusun575:这个连正则都不需要。
ps
步骤如下:
第一步用Word查找替换:“<w ATI>the</w>” -> “*the*”红色粗体(为了醒目)
第二步用Word查找替换:“(\>)([a-zA-Z0-9]@)(\<)” 替换为“\1\3” (使用“通配符”功能)
结果见附件