如何同时检索出句子中多个重复单词

平时search word,只能检索单个的单词。现在想要对句子中一个重复单词进行检索排序,应该使用怎样的正则表达式。比如,一个句子中可能有很多个“the”,那么如何对那篇文章中的“the”按照单个句子中出现的频率高低进行检索并排列呢?
感觉用wordsmith只能搜索出一个单词并标记上颜色,对同一个句子中其余出现的相同的词视而不见。请教高手,怎么处理?
谢谢!
 
回复: 如何同时检索出句子中多个重复单词

平时search word,只能检索单个的单词。现在想要对句子中一个重复单词进行检索排序,应该使用怎样的正则表达式。比如,一个句子中可能有很多个“the”,那么如何对那篇文章中的“the”按照单个句子中出现的频率高低进行检索并排列呢?
感觉用wordsmith只能搜索出一个单词并标记上颜色,对同一个句子中其余出现的相同的词视而不见。请教高手,怎么处理?
谢谢!

用XML做过句子边界标注的语料库,再用Xaira Client的Query Builder应该可以一个句子中重复的某个词的词数。
 
回复: 如何同时检索出句子中多个重复单词

自己写个程序是最简单的办法。否则,你可以这样做:
(.*\bthe\b){10} 查出句子中出现10个the的句子。如果有结果,增加到11,12,... 然后再反过来,一直降低到1就可以检索出所有句子而且结果是按照the的频率降序排列的(你要先合并结果)。对于汉语,用(.*的){10} 查出句子中出现10个“的”的句子。http://59.77.17.146/rsearch.html支持这种检索。但是,对于千万词级以上的语料库,这个过程是非常缓慢的。
 
回复: 如何同时检索出句子中多个重复单词

自己写个程序是最简单的办法。否则,你可以这样做:
(.*\bthe\b){10} 查出句子中出现10个the的句子。如果有结果,增加到11,12,... 然后再反过来,一直降低到1就可以检索出所有句子而且结果是按照the的频率降序排列的(你要先合并结果)。对于汉语,用(.*的){10} 查出句子中出现10个“的”的句子。http://59.77.17.146/rsearch.html支持这种检索。但是,对于千万词级以上的语料库,这个过程是非常缓慢的。
很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。
 
回复: 如何同时检索出句子中多个重复单词

很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。

是不是wordsmith的功能不够强大,老掉牙了的软件?不能换别的吗。
 
回复: 如何同时检索出句子中多个重复单词

很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。

WST不支持正则表达式。
 
回复: 如何同时检索出句子中多个重复单词

The same can be done in Wordsmith. wordsmith only support wildcard search, but regexp. But you can use Contextual search for such patterns.

很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。
 
Back
顶部