中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

真是展示与共享语料的好方法~
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

不但共享语料库还分享制作技术,谢谢贾博士和许博士!!
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

赞一个,顶一下!
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

服务器程序今天已经更新,修正了关于标点符号的BUG。
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

语料在线系统开发的一得之见:

1)现场计算是灾难性的,使用索引是必须的。在此之前我写了一个实现了单机版colligator全部功能的web版(case, sort, count,span等功能都有),可是无论如何优化速度都没法提高,对于web程序,让用户等待10秒以上是不可忍受的。因为有大量数据只有通过现场计算才能获得,对于处理百万词级的语料库几乎是不可行的。必须使用索引才可以,可是目前无论如何索引,都只能满足确定性的搜索,如:单词、词组。这些可以提前检索好,并以索引形式保存起来。杨伯翰大学的BNC在线应该就是这样做的。可是对于非确定的检索,如:正则表达式,目前的索引技术就无能为力了。即使是确定性的检索,如果加入span,case,sort,count等信息,对同一输入值(如look)的索引将爆炸式地增长,几乎也是不可行的,这也是为什么大多数在线语料库不能提供这些功能的原因,即使单独提供case都很困难。如果把Look, LOOK, LOok, LOOk, lOok...当做不同的单词,索引数将是原来的2的n次方倍(n是单词的长度)

2)目前的索引和引擎技术都不太适合语料库研究,只能满足某一方面的需求,因为他们是为信息检索服务,而不是语言检索,很多我们关注的语言细节被忽略掉了。要对大规模语料库进行各类复杂的检索,需要定制引擎及索引格式。

杨伯翰大学语料库(BYU-BNC BRITISH NATIONAL CORPUS)http://corpus.byu.edu/bnc/
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

服务器程序今天已经更新,修正了关于标点符号的BUG。

非常感谢William的更新!检索运行很好,只是没有下划线和高亮显示带标点的检索结果,可能是个bug吧。
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

非常感谢William的更新!检索运行很好,只是没有下划线和高亮显示带标点的检索结果,可能是个bug吧。

加了标点后还没来得及修改正则表达式,请laohong先忍忍,等我忙完了手头的事一定修改好。
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

Sphinx is really powerful. Thanks for your demo.
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

好消息!赞!
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

engine error? Did you use SphinxSE or the standalone version?
I just installed Sphinx on my laptop and managed to get it running with a similar user interface to yours(two days of hard work). Thanks for your inspiration!
 
Last edited:
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

Many thanks for your error report.

Yes. Sphinx was on strike, and I restarted it. It's working now.

http://www.fleric.org.cn/corpora/
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

jiajin, jia兄,frankliang,以上三位真是好人,开发了不少工具,都拿出来和大家分享。有文章、有实体软件,强烈支持。。。。
 
Back
顶部