中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

xujiajin

管理员
Staff member
中国外语教育研究中心 学习者语料库在线检索系统 Web Colligator
测试通告

该系统由WilliamJia编写。

欢迎试用,欢迎提出宝贵意见。

检索界面
http://www.fleric.org.cn/corpora/

目前上线的主要是SWECCL的两个版本。将来如有其他语料库也会上载,供大家检索。

可检索词或码,或词码同时检索,详见Help

考虑到服务器的负担,不支持正则表达式或通配符检索。

目前Collocator还不能用。等有时间的时候再加上。

我从校外不同地方尝试过连接和检索,如果是教育网的话,访问速度还比较快。其他的可能稍慢一些。

本身语料库检索运算是很快的,速度慢应该跟网络有一定关系。

 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

非常感谢共享!
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

谢谢Jiajin。速度很快,界面清爽。祝贺!
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

界面简洁,响应速度快,检索方便.赞一个!
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

似乎也不支持标点符号的检索,本来想找几个already用在句末的例子,结果发现好像检索"already."或"already ."与"already"没任何区别。
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

速度不慢。界面设计不错。祝贺祝贺!
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

search mode: 支持3种不同搜索格式
Literal: 搜索单词或短语,如:look, looks, look at, look for, have a good look ...
POS: 搜索POS码,如:JJ NN2,
BOTH: 搜索单词同时限定POS码,如: look_NN1, look_VV0,

display mode: 支持3种不同的显示形式
WORD:只显示单词
POS:只显示POS码
BOTH:同时显示单词及POS码

search mode和display mode 结合使用,可以产生不同的搜索效果,如:

搜索PPHS1 VVD PPHO1, search mode选POS, display mode选word
将会看到符合PPHS1 VVD PPHO1的单词组合,如:
he loved her
she gave him
she lapped him
she wished him
......

目前结果超过4万条将不显示具体的数据,只给出统计数据。

---------------------------------------------
技术信息:

开发语言:PHP 5
数据库:MYSQL 5.1
引擎: Sphinx 0.9.9
界面:xhtml+CSS
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

界面简洁,速度很快,赞一下!顶一个!

能否将这些成熟的技术编写一本书,如语料库与语言编程之类的。
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

很好的在线资源,多谢!
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

似乎也不支持标点符号的检索,本来想找几个already用在句末的例子,结果发现好像检索"already."或"already ."与"already"没任何区别。

没错,确实不支持标点符号,我在写索引的时候把标点滤掉了!另外一个小BUG就是把连字符-也滤掉了,这样搜索good会把good-bye也搜索出来。稍后的版本会解决这些问题。
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

很好.但建议三点:
1.POS检索,可否有wildcard功能,类似Mark Davies, 如V*, N*等?
2. 为便于使用者,Display Mode有三种选择,但Search Mode可否由系统自行去判断识别而不作规定?
3.可否考虑"非连续检索"?
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

1.POS检索,可否有wildcard功能,类似Mark Davies, 如V*, N*等?
直接处理这个功能会使检索速度大大降低,为了效率一般在底层把N*,转成NN1,NN,NN0等可能的组合形式,进行“或”查询,这和直接输入没有太大的区别,这个版本暂时还没有提供这个功能。Lucene引擎可以进行wildcard,sphinx引擎不提供wildcard。我们用的是sphinx。
2. 为便于使用者,Display Mode有三种选择,但Search Mode可否由系统自行去判断识别而不作规定?
Display Mode+Search Mode可以产生不同的检索效果,如通过POS查询word,没有必要自行判断,请仔细阅读说明。
3.可否考虑"非连续检索"? (参见对问题1的回答

如果要支持更复杂的检索形式,可以使用单机版的colligator 2.0和collocator 1.0它们都支持正则表达式。

在线检索受网络环境和数据量的影响很难以支持非确定性的复杂检索。即使目前最大的搜索引擎也无法支持正则表达式查询。
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

谢谢大家的反馈。系统主要是williamJia写的,大家应该把掌声给他。

williamJia主要也是利用工作之余的点滴时间做的。不完善之处,大家提出,我们慢慢改。

另外,我们不希望把Web Colligator功能做得特别复杂,主要希望它满足一般用户的检索,找些例句之类的。
事实上,复杂检索的功能我们也尝试过,发现响应速度会大大降低。
如要做研究,我们还是建议用Colligator2.0在本机上进行。

Collocator和Colligator软件beta版
http://www.corpus4u.org/showthread.php?t=4873
 
回复: 中国外语教育研究中心 学习者语料库在线检索系统--测试FLERIC Learner Corpus Portal

谢谢williamJia的答复,能有今天的web-based colligator 和collocation 已经很不容易,很不错了.再次祝贺和感激!
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

连字符的BUG修正,加入了对标点的支持(还在进一步调试中),可以检索“ok ?”这类表达式了。服务器上程序还没更新,稍后会更新。谢谢laohong的建议。

现在检索“already .” 就只有28个hits了。而already 909个hits.
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

WilliamJia mentioned that MySQL has been used for corpora storage and retrieval. Can you give a little bit more information on how you design the database tables in storing the texts. Are you using one word one row, or one text one row, or one sentence one row? And what role does sphinx play in retrieving? It seems to me that MySQL's built-in searching and indexing functionality were not extensively used (as in Mark Davies implementation).
 
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

mysql只用来做存储,它的内置的全文搜索效率并不高,我没有使用,我使用sphinx对MySQL进行全文索引。sphinx是个不错的检索工具,功能不多,但是速度快到到让人无法想象,这又是俄国佬的贡献。

我的数据库格式如下(以SECCL1为例,使用文字描述,并非真实字段名): 每句话一条记录,

id:用来做主键
行号:该句在文章中的行数
考试类型:
年级:
入学年份:
分组号:
任务类型:
性别:
得分级别:
句子的POS码:
句子的文字(literal):
POS码和文字(WORD_POS):

型附数(文章长度):
类附数(未屈折还原):
类附数(屈折还原后):
文章名称:

以句为单位,可以有效地保证效率。使用sphinx对“句子的POS码”、“句子的文字”、“POS码和文字”三个字段全文进行索引。这样根据输入,sphinx可以快速检索到文中包含关键字的记录的id值, 并返回一个id数组,根据返回的id数组,查询mysql就可以得到其他的字段,为了保证效率,采用现场查询,每次只查询50条。 这就是我的整体设计思路。
 
Last edited:
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

语料在线系统开发的一得之见:

1)现场计算是灾难性的,使用索引是必须的。在此之前我写了一个实现了单机版colligator全部功能的web版(case, sort, count,span等功能都有),可是无论如何优化速度都没法提高,对于web程序,让用户等待10秒以上是不可忍受的。因为有大量数据只有通过现场计算才能获得,对于处理百万词级的语料库几乎是不可行的。必须使用索引才可以,可是目前无论如何索引,都只能满足确定性的搜索,如:单词、词组。这些可以提前检索好,并以索引形式保存起来。伯明翰YOUNG大学的BNC在线应该就是这样做的。可是对于非确定的检索,如:正则表达式,目前的索引技术就无能为力了。即使是确定性的检索,如果加入span,case,sort,count等信息,对同一输入值(如look)的索引将爆炸式地增长,几乎也是不可行的,这也是为什么大多数在线语料库不能提供这些功能的原因,即使单独提供case都很困难。如果把Look, LOOK, LOok, LOOk, lOok...当做不同的单词,索引数将是原来的2的n次方倍(n是单词的长度)

2)目前的索引和引擎技术都不太适合语料库研究,只能满足某一方面的需求,因为他们是为信息检索服务,而不是语言检索,很多我们关注的语言细节被忽略掉了。要对大规模语料库进行各类复杂的检索,需要定制引擎及索引格式。
 
Last edited:
回复: 中国外语教育研究中心“学习者语料库在线检索系统”(测试)FLERIC Learner Corpus Portal

谢谢贾博士的经验之谈。
 
Back
顶部