平时search word,只能检索单个的单词。现在想要对句子中一个重复单词进行检索排序,应该使用怎样的正则表达式。比如,一个句子中可能有很多个“the”,那么如何对那篇文章中的“the”按照单个句子中出现的频率高低进行检索并排列呢?
感觉用wordsmith只能搜索出一个单词并标记上颜色,对同一个句子中其余出现的相同的词视而不见。请教高手,怎么处理?
谢谢!
很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。自己写个程序是最简单的办法。否则,你可以这样做:
(.*\bthe\b){10} 查出句子中出现10个the的句子。如果有结果,增加到11,12,... 然后再反过来,一直降低到1就可以检索出所有句子而且结果是按照the的频率降序排列的(你要先合并结果)。对于汉语,用(.*的){10} 查出句子中出现10个“的”的句子。http://59.77.17.146/rsearch.html支持这种检索。但是,对于千万词级以上的语料库,这个过程是非常缓慢的。
很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。
用了antconc和monoconc都不行,现在在下xaira.是不是wordsmith的功能不够强大,老掉牙了的软件?不能换别的吗。
很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。
很感谢,我用你的方法,在那个网站上搜索汉语的是可以,但是在wordsmith中总是搜不到任何匹配结果,不知道为什么。