BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

williamJia

开放语料库项目
贾老师您好:请问要检索语料库里出现一个单词(如and)最多的句子,如何写正则表达式?谢谢!
作者 williamJia:
正则表达式本身不能代替编程语言,这个需要和程序语言结合才能做到,我稍后给你写个小程序。

现在程序已经写完,可以使用,还加了一个统计功能!

支持正则表达式和Unicode


BUG修正记录:
1)程序的重复显示统计结果BUG已经修正(2011-4-13)
 

附件

  • 检索结果demo.rar
    8.8 KB · 浏览: 109
  • BFSU SentCounter 1.0(支持正则).rar
    519.3 KB · 浏览: 429
Last edited:
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

:(程序有一个BUG,连续多次查询时,每次的统计信息没有清空,会累加显示。

晚上我会修改一下,再上传。

BUG修正记录:
1)程序的重复显示统计结果BUG已经修正(2011-4-13)
 
Last edited:
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

很有意思的一个小应用。CSS呈现的结果效果也很好。
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

贾老师,程序产生的结果是以每段为单位的吧?
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

贾老师,程序产生的结果是以每段为单位的吧?
程序以行为单位进行计算,一行可以是一句话,也可以是一段。
如果要以句子为单位需要先把语料切分成句子,您可以使用许家金老师和我做的:BFSU English Sentence Segmenter 1.0 Freeware 英文自动分句工具进行分句:

http://www.corpus4u.org/forum/showthread.php?t=5671

:)
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

程序以行为单位进行计算,一行可以是一句话,也可以是一段。
如果要以句子为单位需要先把语料切分成句子,您可以使用许家金老师和我做的:BFSU English Sentence Segmenter 1.0 Freeware 英文自动分句工具进行分句:

http://www.corpus4u.org/forum/showthread.php?t=5671

:)

好的,谢谢!
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

很实用的一个工具,要是能支持中文检索就好了,谢谢!
 
Last edited:
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

今天试了一下,支持中文了。不知道是William新加的还是原来就支持中文检索,只不过我没有掌握方法。总之,要谢谢William!!!
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

今天试了一下,支持中文了。不知道是William新加的还是原来就支持中文检索,只不过我没有掌握方法。总之,要谢谢William!!!


oscar3,检索中文时,请问你是怎么设置的,我尝试了好几种办法都不行,包括将中文文本存成unicode以及词性标注等等?
谢谢!
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

又试了一下,原来将默认的去掉就可以检索汉语了. 真是个实用的工具,谢谢williamJia.看来还得好好学习点编程.
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

利用BFSU SentCounter 1.0检索平行语料库

一般,我们利用Dr.Barlow开发的Paraconc的检索平行语料库,开展相关的研究,功能强大,处理速度快,但毕竟是商业软件.

这里我们尝试利用贾老师开发的BFSU SentCounter 1.0检索平行语料库,下图分别是对汉语和英文的检索,本人觉得这种方法特别适合课堂教学.简单易行.
 

附件

  • 1.jpg
    1.jpg
    89.6 KB · 浏览: 58
  • 2.jpg
    2.jpg
    32.8 KB · 浏览: 37
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

哈哈,创造性的使用。很有意思。汉语不用分词也可以。
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

文本经过比较复杂的转换后也可以做成英汉语分开显示的形式. 如下图:
 

附件

  • 12.jpg
    12.jpg
    80.2 KB · 浏览: 44
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

文本经过比较复杂的转换后也可以做成英汉语分开显示的形式.

能告诉我们具体怎样转换的吗?谢谢!
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

呵呵,也捣鼓出来了英汉分行显示,谢谢!
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

呵呵,也捣鼓出来了英汉分行显示,谢谢!


恭喜!我也是乱捣鼓出来,还没有总结,因为尝试了许多许多方法,都不知道是哪一个起作用了。
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

恭喜!我也是乱捣鼓出来,还没有总结,因为尝试了许多许多方法,都不知道是哪一个起作用了。
呵呵,谢谢armstrong!
那可能我的方法比较简单,只要在中文前面加上“<br>”(不含引号),需要几个空行就加几个“<br>”
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

今天试了一下,支持中文了。不知道是William新加的还是原来就支持中文检索,只不过我没有掌握方法。总之,要谢谢William!!!

软件写的时候就支持Unicode,不但支持中文还支持法语、德语、日语、韩语等语言,大家可以试一下,O(∩_∩)O哈哈~

另外,可以利用正则表达式同时检索中英文,如:railway|高铁
这样一定程度上就可找到中英匹配的节点,还可以写得更复杂些,如:

(high?)(.*?)(railway)|高铁
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

呵呵,谢谢armstrong!
那可能我的方法比较简单,只要在中文前面加上“<br>”(不含引号),需要几个空行就加几个“<br>”

这是运用了html的段落显示标记符号,其余象<p>和<hr>也有同样的功效。
 
回复: BFSU SentCounter 1.0(支持正则)——可以检索语料库里出现一个单词(如and)最多的句子

这是运用了html的段落显示标记符号,其余象<p>和<hr>也有同样的功效。
嗯,是的。不知有没有办法只让“被检索词”(而不是整个单元格中的所有词)居中显示?
 
Back
顶部