williamJia
开放语料库项目
贾老师您好:请问要检索语料库里出现一个单词(如and)最多的句子,如何写正则表达式?谢谢!
作者 williamJia:正则表达式本身不能代替编程语言,这个需要和程序语言结合才能做到,我稍后给你写个小程序。
现在程序已经写完,可以使用,还加了一个统计功能!
支持正则表达式和Unicode
BUG修正记录:
1)程序的重复显示统计结果BUG已经修正(2011-4-13)
附件
Last edited:
贾老师您好:请问要检索语料库里出现一个单词(如and)最多的句子,如何写正则表达式?谢谢!
作者 williamJia:正则表达式本身不能代替编程语言,这个需要和程序语言结合才能做到,我稍后给你写个小程序。
程序以行为单位进行计算,一行可以是一句话,也可以是一段。贾老师,程序产生的结果是以每段为单位的吧?
程序以行为单位进行计算,一行可以是一句话,也可以是一段。
如果要以句子为单位需要先把语料切分成句子,您可以使用许家金老师和我做的:BFSU English Sentence Segmenter 1.0 Freeware 英文自动分句工具进行分句:
http://www.corpus4u.org/forum/showthread.php?t=5671
今天试了一下,支持中文了。不知道是William新加的还是原来就支持中文检索,只不过我没有掌握方法。总之,要谢谢William!!!
文本经过比较复杂的转换后也可以做成英汉语分开显示的形式.
呵呵,也捣鼓出来了英汉分行显示,谢谢!
呵呵,谢谢armstrong!恭喜!我也是乱捣鼓出来,还没有总结,因为尝试了许多许多方法,都不知道是哪一个起作用了。
今天试了一下,支持中文了。不知道是William新加的还是原来就支持中文检索,只不过我没有掌握方法。总之,要谢谢William!!!
呵呵,谢谢armstrong!
那可能我的方法比较简单,只要在中文前面加上“<br>”(不含引号),需要几个空行就加几个“<br>”
嗯,是的。不知有没有办法只让“被检索词”(而不是整个单元格中的所有词)居中显示?这是运用了html的段落显示标记符号,其余象<p>和<hr>也有同样的功效。