求教:如何使用语料库搜索句型?

ilovecorpu

初级会员
有没有比较可行的方法统计一篇或一个小型语料库中间出现的句型及其频率?考虑先用词性标注工具对语料进行词性标注,再用N-gram来做,不过问题是:标注完后,如何清除文本而只保留标注码?恳请哪位赐教!
 
要统计句型就得进行句法标注,即parsing.
如果使用词性标注,再用N-gram来做比较麻烦。
标注完后,只保留标注码而隐去文本的软件,比较著名的是Barlow的系列软件。
 
谢谢刘语料!请问哪里有可以进行句法标注的软件,标注后进行检索又要用到什么软件呢?
 
回复:求教:如何使用语料库搜索句型?

如果仅仅是为了写一篇文章,我觉得你做句型标注太昂贵,太费时了。
 
http://www.corpus4u.com/down.asp?action=&c_id=0&s_id=0&taxis=&page=4
检索时需要用regular expression. 不拘泥于某一个软件。
 
目前已有的句法库(树库),规模都不大,正确率也不高。你如果研究汉语的话,清华的树库比较好。哈工大依据依存句法建立的树库也可以参考一下。哈工大的这个网站上有很多有用的东西:http://www.ir-lab.org/phpwebsite/
 
想要保留附码而删除文本?就试试PowerGREP吧, 用正则表达式,很容易就实现了!
 
回复: 求教:如何使用语料库搜索句型?

我在<计算机辅助第二语言研究方法与应用> p36页,看到说为了研究比如should这个词,先把should这个词后的pos去掉,然后保留should这个词,把其他所有的词去掉。

形如:nn1 should vbi at1 jj nn1

去掉所有标记我会,去掉所有词保留标记我也会。但保留这个词(去掉词性标记),去掉其他所有词(保留标记),这个方法我不会了。。。。

谁能指点一下。谢谢了。
 
Last edited:
回复: 求教:如何使用语料库搜索句型?

我在<计算机辅助第二语言研究方法与应用> p36页,看到说为了研究比如should这个词,先把should这个词后的pos去掉,然后保留should这个词,把其他所有的词去掉。

形如:nn1 should vbi at1 jj nn1

去掉所有标记我会,去掉所有词保留标记我也会。但保留这个词,去掉其他所有词,这个方法我不会了。。。。

谁能指点一下。谢谢了。

你发一段文字上来,提出要求,让俺试试?:p
 
回复: 求教:如何使用语料库搜索句型?

呵呵,好,xusun575的文本处理能力还是很强的。那我就发一个。就拿咱们论坛下的“大学英语教材语料库”为例子吧。(附件中)

比如:我们要研究the这个词。
1.我要求你先把语料库中the这个词的pos tag去掉!(但其他词的词性标记要求保留)
2.把文本中的所有“词”都去掉,只保留词性标记。

上面2个步骤做完,应该就是本文中只有研究的这个词,和一些词性标记了

3.把带有the的所有“类联接”提取出来:形如 pos+the+pos

其实我的这个例子稍微有点不好,最好拿个“兼语类”现象明显的词做实验。就是一个词有多个词性。
 

附件

  • 21FA303B.TXT
    7.8 KB · 浏览: 28
回复: 求教:如何使用语料库搜索句型?

查找所有的<w *>their</w>的正则表达式怎么写?

我写的*就是代替了所有可能的标记。可能是2-3个字母。我的意思是我们要检索的这个词可能是有“兼语”现象。
 
咱小电扇能"吹"是多么地重要!

:D
呵呵,好,xusun575的文本处理能力还是很强的。那我就发一个。就拿咱们论坛下的“大学英语教材语料库”为例子吧。(附件中)

比如:我们要研究the这个词。
1.我要求你先把语料库中the这个词的pos tag去掉!(但其他词的词性标记要求保留)
2.把文本中的所有“词”都去掉,只保留词性标记。

上面2个步骤做完,应该就是本文中只有研究的这个词,和一些词性标记了

3.把带有the的所有“类联接”提取出来:形如 pos+the+pos

其实我的这个例子稍微有点不好,最好拿个“兼语类”现象明显的词做实验。就是一个词有多个词性。

a tiny piece of cake:D
比如:我们要研究the这个词。
1.我要求你先把语料库中the这个词的pos tag去掉!(但其他词的词性标记要求保留)
xusun575:WORD两次查找替换.<w ATI>和</w>成” ”​
2.把文本中的所有“词”都去掉,只保留词性标记。
xusun575:用俺的小"电扇"吹一下吧(见附件),解压后导入Word中的"宏"中,比啥都灵:D

3.把带有the的所有“类联接”提取出来:形如 pos+the+pos
xusun575:解决方法两步走:1.WORD查找<w ATI>the</w> 替换成:^&粗体
2.查找?^且非粗体 替换成””
 

附件

  • Alldetagger2.rar
    574 bytes · 浏览: 14
回复: 求教:如何使用语料库搜索句型?

可能是我没说明白,或者我现在没看明白。我说的三个步骤是连续的,不是3个内容。是一个研究内容。所以在做过把语料库中the这个词的pos tag去掉,后如何能在第三步里 WORD查找<w ATI>the</w> 替换成:^&粗体 ??(因为the的词性标记都去掉了。。)
2.如果一个文本中the的所有词性标记都去掉了,但其它的词的词性标记还在。用那个宏,怎么能把所有词都去掉,但还保留the这个词?!我简单看了下hong的代码,好像没发现排除the不删除的命令。
(晚辈我很多不懂,感谢xusun刚才的回复)同时也希望您再次指点。

而且如果本词是有兼语现象,可能需要正则来提取。我上面有个帖子中提到了。

总之,感谢万分。呵呵。
 
回复: 求教:如何使用语料库搜索句型?

把刚才的文本你手工做一下(一点儿,很小很小一小部分),做成希望要的结果,然后传上来给我看看。
 
回复: 求教:如何使用语料库搜索句型?

<w *>their</w>的正则表达式 如果可以写出来,我到是想到一个方法。当然这个*号是代替多个字母。

就是类似:nn1 should vbi at1 jj nn1 这个例子。当然咱们的库可能是<nn1> the <vbi> <at1> <jj> <nn1>
 
回复: 求教:如何使用语料库搜索句型?

1.所以在做过把语料库中the这个词的pos tag去掉,后如何能在第三步里 WORD查找<w ATI>the</w> 替换成:^&粗体 ??(因为the的词性标记都去掉了。。)
xusun575:the pos tag去掉以后,就不会有后面你那个"<w ATI>the</w>"了.
2.如果一个文本中the的所有词性标记都去掉了,但其它的词的词性标记还在。用那个宏,怎么能把所有词都去掉,但还保留the这个词?!
xusun575:不需要要用“小电扇”(宏),用“嘴”(正则)去吹一下即可。:D
"(\>)([a-zA-Z0-9]@)(\<)" 替换为“\1\3” (引号不复制,使用“通配符”功能)


而且如果本词是有兼语现象,可能需要正则来提取。我上面有个帖子中提到了。
xusun575:这个连正则都不需要
ps
步骤如下:
第一步用Word查找替换:“<w ATI>the</w>” -> “*the*”红色粗体(为了醒目)
第二步用Word查找替换:“(\>)([a-zA-Z0-9]@)(\<)” 替换为“\1\3” (使用“通配符”功能)
结果见附件
 

附件

  • html0.doc
    106 KB · 浏览: 10
回复: 求教:如何使用语料库搜索句型?

1.所以在做过把语料库中the这个词的pos tag去掉,后如何能在第三步里 WORD查找<w ATI>the</w> 替换成:^&粗体 ??(因为the的词性标记都去掉了。。)
xusun575:the pos tag去掉以后,就不会有后面你那个"<w ATI>the</w>"了.
2.如果一个文本中the的所有词性标记都去掉了,但其它的词的词性标记还在。用那个宏,怎么能把所有词都去掉,但还保留the这个词?!
xusun575:不需要要用“小电扇”(宏),用“嘴”(正则)去吹一下即可。:D
"(\>)([a-zA-Z0-9]@)(\<)" 替换为“\1\3” (引号不复制,使用“通配符”功能)

而且如果本词是有兼语现象,可能需要正则来提取。我上面有个帖子中提到了。
xusun575:这个连正则都不需要
ps
步骤如下:
第一步用Word查找替换:“<w ATI>the</w>” -> “*the*”红色粗体(为了醒目)
第二步用Word查找替换:“(\>)([a-zA-Z0-9]@)(\<)” 替换为“\1\3” (使用“通配符”功能)
结果见附件

非常感谢答案和回复,已经非常确切了。感谢xusun575的积极帮助和指点。同时也感到您是个非常愿意动脑、动手的人,我实际操作了,很顺利。非常好。

看来我需要学习正则了和一些提取表达式的编写了。总之,非常感谢!
 
Back
顶部