如何同时检索出句子中多个重复单词

oyf001 · 2009-10-07

平时search word，只能检索单个的单词。现在想要对句子中一个重复单词进行检索排序，应该使用怎样的正则表达式。比如，一个句子中可能有很多个“the”，那么如何对那篇文章中的“the”按照单个句子中出现的频率高低进行检索并排列呢？
感觉用wordsmith只能搜索出一个单词并标记上颜色，对同一个句子中其余出现的相同的词视而不见。请教高手，怎么处理？
谢谢！

oscar3 · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

作者 oyf001:
平时search word，只能检索单个的单词。现在想要对句子中一个重复单词进行检索排序，应该使用怎样的正则表达式。比如，一个句子中可能有很多个“the”，那么如何对那篇文章中的“the”按照单个句子中出现的频率高低进行检索并排列呢？
感觉用wordsmith只能搜索出一个单词并标记上颜色，对同一个句子中其余出现的相同的词视而不见。请教高手，怎么处理？
谢谢！

用XML做过句子边界标注的语料库，再用Xaira Client的Query Builder应该可以一个句子中重复的某个词的词数。

mandel · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

自己写个程序是最简单的办法。否则，你可以这样做：
(.*\bthe\b){10} 查出句子中出现10个the的句子。如果有结果，增加到11，12，... 然后再反过来，一直降低到1就可以检索出所有句子而且结果是按照the的频率降序排列的（你要先合并结果）。对于汉语，用(.*的){10} 查出句子中出现10个“的”的句子。http://59.77.17.146/rsearch.html支持这种检索。但是，对于千万词级以上的语料库，这个过程是非常缓慢的。

oyf001 · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

作者 mandel:
自己写个程序是最简单的办法。否则，你可以这样做：
(.*\bthe\b){10} 查出句子中出现10个the的句子。如果有结果，增加到11，12，... 然后再反过来，一直降低到1就可以检索出所有句子而且结果是按照the的频率降序排列的（你要先合并结果）。对于汉语，用(.*的){10} 查出句子中出现10个“的”的句子。http://59.77.17.146/rsearch.html支持这种检索。但是，对于千万词级以上的语料库，这个过程是非常缓慢的。

很感谢，我用你的方法，在那个网站上搜索汉语的是可以，但是在wordsmith中总是搜不到任何匹配结果，不知道为什么。

mandel · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

作者 oyf001:
很感谢，我用你的方法，在那个网站上搜索汉语的是可以，但是在wordsmith中总是搜不到任何匹配结果，不知道为什么。

是不是wordsmith的功能不够强大，老掉牙了的软件？不能换别的吗。

oyf001 · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

作者 mandel:
是不是wordsmith的功能不够强大，老掉牙了的软件？不能换别的吗。

用了antconc和monoconc都不行，现在在下xaira.

armstrong · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

作者 oyf001:
很感谢，我用你的方法，在那个网站上搜索汉语的是可以，但是在wordsmith中总是搜不到任何匹配结果，不知道为什么。

WST不支持正则表达式。

xiaoz · 2009-10-08

回复: 如何同时检索出句子中多个重复单词

The same can be done in Wordsmith. wordsmith only support wildcard search, but regexp. But you can use Contextual search for such patterns.

作者 oyf001:
很感谢，我用你的方法，在那个网站上搜索汉语的是可以，但是在wordsmith中总是搜不到任何匹配结果，不知道为什么。

如何同时检索出句子中多个重复单词

oyf001

oscar3

高级会员

mandel

oyf001

mandel

oyf001

armstrong

高级会员

xiaoz

永远的超级管理员