菜鸟问题:为什么 E-C Concord 每次检索最多只可查500条,那从501以后的平行语料怎么看呢?

开发者有些吝啬,手工修改一下网页代码即可获得更大自由

开发者有些吝啬,手工修改一下网页代码即可获得更大自由

网站开发者显然比较吝啬,吝啬的原因应该有两个:(1)真的不想你查询更多而太免费了;(2)害怕网站的带宽消耗太大而导致网站的服务能力下降。

我们普通用户要凭借自己的努力而突破500个的限制是很容易的,只需要三步:

(第1步)把你面对检索界面的页面,另存为一个网页HTM,“全部保存”或“仅仅是一个HTM页面”都可以,全部保存就是增加一个配套的文件夹而已;

(第2步)对着你单独保存出来的HTM文件,点右键,选择“打开方式”的“记事本”,从而用“记事本”修改下面的“两个片段”为“两个新的片段”,保存,退出;

第一处的修改前:
<form action="/scripts/cgi-bin/Paraconc2.exe"

第一处的修改后:
<form action="http://ec-concord.ied.edu.hk/scripts/cgi-bin/Paraconc2.exe"

第二处的修改前:
<select name="Maximum" size="1">
<option>500</option>
<option>300</option>
<option>100</option>
<option>50</option>
</select>

第二处的修改后:
<select name="Maximum" size="1">
<option>500000</option>
<option>50000</option>
<option>10000</option>
<option>5500</option>
<option>1500</option>
<option>1000</option>
<option>500</option>
<option>300</option>
<option>100</option>
<option>50</option>
</select>

(第3步)双击你修改之后的“新网页”,即可进行“更大自由的检索”了。

当然,这个帖子的附件也提供了我修改之后的“新网页”,供体验,是在ZIP压缩格式中的,下载之后,解压缩,即可看到“何必吝啬.htm”,这是包含在“何必吝啬.zip”中的文件,
“何必吝啬.zip”就是本帖的附件名称

从这次实战,可以意识到:(1)网站的数据库的权限限制最好基于后台,而不是前台的HTML源代码;(2)HTML语言的基本了解是很重要的互联网技能;(3)成为黑客或“准黑客”并不是一件神秘莫测的事情,不一定偏要掌握编程,但是,编程是一种获得更大自由的捷径;(4)相对地址和绝对地址不仅是本地问题,也是网络问题;(5)经常上Corpus4u的朋友能获得一些“密技”,所以上Corpus4u的发帖和回帖是很有收获的一件事情。
 

附件

  • 何必吝啬.zip
    2.2 KB · 浏览: 19
回复: 菜鸟问题:为什么 E-C Concord 每次检索最多只可查500条,那从501以后的平行语料怎么看呢?

牛啊。看来作者还得加个 selected = 500 if selected > 500.

请问这样能不被“黑”吗?:)
 
其实不用界面,只用地址,修改一下,回车就能检索的啦!

其实不用界面,只用地址,修改一下,回车就能检索的啦!

http://ec-concord.ied.edu.hk/scripts/cgi-bin/concord.exe?SearchStr=said&Corpus=alice.en

你把上面的地址复制到IE或Firefox的地址栏,然后把said改为任何一个单词,你点“转到”或直接回车,就能看到检索结果了,当然“Corpus=”这里是专门特指一个库,我们动动脑,发掘出其他的库名称就能大放异彩了!而其他的语料库的“内部名称”也在源代码中泄露了……


<select name="Corpus" size="1">

<option>Select corpus</option>
<option selected value="alice.en">Alice in Wonderland (Lewis Carroll)</option>
<option value="dream.en">I have a dream (Martin Luther King)</option>
<option value="basic.en">Hong Kong Basic Law</option>
<option value="comord.en">Review of Hong Kong Companies Ordinance
<option value="mimosa.en">Mimosa (Zhang Xianliang)</option>
<option value="odl.en">Academic articles on Open and Distance Learning</option>
<option value="wildgrs.en">Wild Grass (Lu Xun)</option>
<option value="furongzhen.en">Fu Rong Zhen (Gu Hua)</option>
<option value="lx_large.en">Lu Xun's novels and essays</option>
<option value="fable.en">Chinese Fables</option>
<option value="Taleof2cities.en">A Tale of Two Cities (Charles Dickens)</option>
<option value="DavidCopperfield.en">David Copperfield (Charles Dickens)</option>
<option value="oliver.en">Oliver Twist (Charles Dickens)</option>
<option value="greatExpectation.en">Great Expectation (Charles Dickens)</option>
<option value="pride.en">Pride and Prejudice (Jane Austin)</option>
<option value="sense.en">Sense and Sensitivity (Jane Austin)</option>
<option value="austen.en">Jane Austen's novels (collection) </option>
<option value="sa.en">Swallows and Amazons (Arthur Ransome)</option>
<option value="tom_sawyer.en">Adventures of Tom Sawyer (Mark Twain)</option>
<option value="huck_finn.en">Adventures of Huckleberry Finn (Mark Twain)</option>
<option value="dog_tale.en">Dog Tale (Mark Twain)</option>
<option value="30000bequest.en">THE $30,000 BEQUEST (Mark Twain)</option>
<option value="andersen.en">Andersen's Fairy Tales</option>
<option value="weicheng.en">Wei Cheng (Qian ZhongShu)</option>
<option value="leglarge.en">Hong Kong Legal Documents (large corpus, 70,000 words)</option>
<option value="enovels.en">English novels (large corpus, 0.807 million words)</option>
<option value="cnovels.en">Chinese novels and essays (large corpus, 0.181 million words)</option>
</select>

怎么样,找到对应关系了吧?
 
回复: 菜鸟问题:为什么 E-C Concord 每次检索最多只可查500条,那从501以后的平行语料怎么看呢?

高,实在是高!
 
不是黑,是绕过,谢谢香港教育学院的有关人员!

牛啊。看来作者还得加个 selected = 500 if selected > 500.

请问这样能不被“黑”吗?:)

“黑”是“破坏”或“严重修改”或“侮辱式修改”或“阻止正常运行”。

本帖只是“绕过”,并不是破坏,如果要叫做“严重修改”也只是“修改了自己的网页”而不是服务器那边的设置;当然,更谈不上“侮辱式修改”,因为没有人发现网站的页面有何异常;当然,最后一条,本帖的方法有点点违反,但是前提是要在用户访问的高峰期且造成了访问的拥堵,不过,拥堵是双向的,自己堵了自己,也就是堵了别人,也就是服务器堵了网民。但是,服务器到底在多大程度上提供了“并发访问能力”呢,我们还是应该有充足信心的吧,毕竟都是一些不算大的库,只能逐个查询,当然我们普通的老百姓很感谢能无偿提供在线全文检索的个人或单位了。我代表有志青年们向“香港教育学院”的该语料库的制作发行方表示深深谢意!!!

啊,“selected = 500 if selected > 500”,这样的提法是不符合服务器编程的规范的,应该把selected改为Maximum,因为我们从下面的HTML源代码就可以看到“真正的变量名称”是Maximum呢,select只是一个标签,selected更不是一个变量名称。

<select name="Maximum" size="1">
<option>500000</option>
<option>50000</option>
<option>10000</option>
<option>5500</option>
<option>1500</option>
<option>1000</option>
<option>500</option>
<option>300</option>
<option>100</option>
<option>50</option>
</select>

再则,从网址上判断,香港教育学院的这个在线语料库是CGI编程,应该是Perl或Python是服务器端的编程语言了,更大的可能性是Perl了,Python的可能性紧随其后,其他的什么C或D编程语言也不是不可能的,反正CGI编程就是古老的互联网的DOS上网时代的产物了,今天主要是ASP和PHP和JSP了。关于学术性网站的创建技术的概括,可以阅读我的QQ日志“原创《心理语言学的垂直型网站:创建与发展》”,网址如下

http://user.qzone.qq.com/492130980/blog/1293583152
 
回复: 菜鸟问题:为什么 E-C Concord 每次检索最多只可查500条,那从501以后的平行语料怎么看呢?

"再则,从网址上判断,香港教育学院的这个在线语料库是CGI编程,应该是Perl或Python是服务器端的编程语言了,更大的可能性是Perl 了,Python的可能性紧随其后,其他的什么C或D编程语言也不是不可能的,反正CGI编程就是古老的互联网的DOS上网时代的产物了,"

应该是C吧,.exe文件。不认为CGI那么古老,好多开源的框架在更新。Perl的最新网络架构是Catalyst:

http://www.catalystframework.org/
 
“老”是time-honored或time-tested,不是衰老,嘻嘻

"再则,从网址上判断,香港教育学院的这个在线语料库是CGI编程,应该是Perl或Python是服务器端的编程语言了,更大的可能性是Perl 了,Python的可能性紧随其后,其他的什么C或D编程语言也不是不可能的,反正CGI编程就是古老的互联网的DOS上网时代的产物了,"

应该是C吧,.exe文件。不认为CGI那么古老,好多开源的框架在更新。Perl的最新网络架构是Catalyst:

http://www.catalystframework.org/

“老”是time-honored或time-tested,不是衰老,嘻嘻;我仰视C语言,毕竟是天下的高级语言的命根子。
 
回复: 菜鸟问题:为什么 E-C Concord 每次检索最多只可查500条,那从501以后的平行语料怎么看呢?

感谢回答啊~ 太给力了!

各种方法我都试过了,知其然,知其所以然,才可以无敌啊~

附件是我按照回复的第一种模式弄的,但是有点儿乱码,是不是和代码对齐有关系?呵呵
 

附件

  • Web Concordancer (English).rar
    2.2 KB · 浏览: 11
《地址栏语法:大库测试,单语检索或平行检索,多词检索,先后顺序,匹配规则》

《地址栏语法:大库测试,单语检索或平行检索,多词检索,先后顺序,匹配规则》

我整理了全部的库的变量名与完整名的对应关系,如下……
1 语料库名称的变量名"alice.en" = Alice in Wonderland (Lewis Carroll)
2 语料库名称的变量名"dream.en" = I have a dream (Martin Luther King)
3 语料库名称的变量名"basic.en" = Hong Kong Basic Law
4 语料库名称的变量名"comord.en" = Review of Hong Kong Companies Ordinance
5 语料库名称的变量名"mimosa.en" = Mimosa (Zhang Xianliang)
6 语料库名称的变量名"odl.en" = Academic articles on Open and Distance Learning
7 语料库名称的变量名"wildgrs.en" = Wild Grass (Lu Xun)
8 语料库名称的变量名"furongzhen.en" = Fu Rong Zhen (Gu Hua)
9 语料库名称的变量名"lx_large.en" = Lu Xun's novels and essays
10 语料库名称的变量名"fable.en" = Chinese Fables
11 语料库名称的变量名"Taleof2cities.en" = A Tale of Two Cities (Charles Dickens)
12 语料库名称的变量名"DavidCopperfield.en" = David Copperfield (Charles Dickens)
13 语料库名称的变量名"oliver.en" = Oliver Twist (Charles Dickens)
14 语料库名称的变量名"greatExpectation.en" = Great Expectation (Charles Dickens)
15 语料库名称的变量名"pride.en" = Pride and Prejudice (Jane Austin)
16 语料库名称的变量名"sense.en" = Sense and Sensitivity (Jane Austin)
17 语料库名称的变量名"austen.en" = Jane Austen's novels (collection)
18 语料库名称的变量名"sa.en" = Swallows and Amazons (Arthur Ransome)
19 语料库名称的变量名"tom_sawyer.en" = Adventures of Tom Sawyer (Mark Twain)
20 语料库名称的变量名"huck_finn.en" = Adventures of Huckleberry Finn (Mark Twain)
21 语料库名称的变量名"dog_tale.en" = Dog Tale (Mark Twain)
22 语料库名称的变量名"30000bequest.en" = THE $30,000 BEQUEST (Mark Twain)
23 语料库名称的变量名"andersen.en" = Andersen's Fairy Tales
24 语料库名称的变量名"weicheng.en" = Wei Cheng (Qian ZhongShu)
25 语料库名称的变量名"leglarge.en" = Hong Kong Legal Documents (large corpus, 70,000 words)
26 语料库名称的变量名"enovels.en" = English novels (large corpus, 0.807 million words)
27 语料库名称的变量名"cnovels.en" = Chinese novels and essays (large corpus, 0.181 million words)


提醒大家注意的是26号和27号这两个库,它俩可能是最大容量的,即"enovels.en"(80万词)和"cnovels.en"(18万词),所以,要针对本次实战进行能力提升就最好针对这两个库,我称之“大库测试”,有利于观察不同检索动作的查询结果的显著差异性和丰富性。

单语检索(纯英语语料检索或仅英语语料检索)在这个地址基础上进行变换(下面的88表示最多返回88个检索行,此值可以任你设置大小)
http://ec-concord.ied.edu.hk/script...earchStr=is+very&Corpus=enovels.en&Maximum=88

平行检索(英汉对照检索)在这个地址基础上进行变换(下面的88表示最多返回88个检索行,此值可以任你设置大小)
http://ec-concord.ied.edu.hk/script...e?SearchStr=in+a&Corpus=enovels.en&Maximum=88

如果你需要进行“多词检索(即,词组检索)”,地址栏语法就是“关键词之间用加号连接”或“词1+词2”,例如,我们要检索“is very”
单语检索则为 http://ec-concord.ied.edu.hk/script...earchStr=is+very&Corpus=enovels.en&Maximum=88
平行检索则为 http://ec-concord.ied.edu.hk/script...earchStr=is+very&Corpus=enovels.en&Maximum=88

地址栏语法是由“固定头”和“可以颠倒先后顺序多个躯体器官”组成的哟!
单语检索的“固定头”是 http://ec-concord.ied.edu.hk/scripts/cgi-bin/concord.exe?
平行检索的“固定头”是 http://ec-concord.ied.edu.hk/scripts/cgi-bin/ParaConc2.exe?
“可以颠倒先后顺序的3个躯体器官”是 SearchStr= 与 Corpus=enovels.en= 与 Maximum= 这3个“器官”皆有某值且用&进行“器官连接”
三个器官的出现顺序是可以任意颠倒的,可以是321的顺序,可以是132的顺序,可以是213。例如,下面就是321的顺序……
http://ec-concord.ied.edu.hk/script...aximum=88&Corpus=enovels.en&SearchStr=is+very

这里提醒一下:总体上,地址栏语法是不分大小写的,case-insensitive哟,但是本帖所指向的在线语料库的变量名称是大小写敏感的哟!

例如,http://ec-concord.ied.edu.hk/scripts/cgi-bin/concord.exe?maximum=88&Corpus=enovels.en&SearchStr=is+very 这里的maximum被弄成了首字母小写了,对于服务器来说就等于没有传送这个参数了,就变成了“没有最大值”,也就是“最大值无穷大了”。而这里的“SearchStr=is+very”被错误地小写了首字母而变成了“searchStr=is+very”,就等于没有向服务器输送任何的SearchStr变量的值了,就变成了检索个空格了哟。

在这个检索主界面上(http://ec-concord.ied.edu.hk/paraconc/paraconcEC-GB.htm),我们注意到“Search string”这个选择是可以从其右侧的下拉菜单中进行四选一的,也就是“equal to”或“starts with”或“ends with”或“contains”,这四个东西就是该语料库的字符串的匹配规则
“equal to”的翻译为“单词检索”或“词组检索”或“自动添加前后空格的1到n个词的检索”,例如检索“a lot of”
“starts with”的翻译为“前缀检索”或“自动添加前面空格但不添加后面空格的单词前缀检索”,例如检索“un”或“non”或“re”
“ends with”的翻译为“后缀检索”或“自动添加后面空格但不添加前面空格的单词后缀检索”,例如检索“less”
“contains”的翻译为“字符串检索”或“不自动添加前后空格的字母串检索”,适合进行一个单词内部或前部或尾部所含的“oo”或“ee”或“tion”这样的字母连续片段的检索

上述部分的对应的HTML源代码如下:
<b>String:</b>
<select name="SearchType" size="1">
<option>equal to</option>
<option>starts with</option>
<option>ends with</option>
<option>contains</option>
</select>

由此判断,“SearchType”就是“Search string”的“地址栏语法”的变量名,它可以有4个取值,取值是两个单词所组成的情况下,需要在地址栏语法中的这两个单词之间用“+”进行连接,就构成了“正确的地址栏语法”。例如,我们检索“un”前缀的“地址栏表达式”,就是……
http://ec-concord.ied.edu.hk/script...novels.en&SearchStr=un&SearchType=starts+with
同理,我们检索“less”后缀的“地址栏表达式”,就是……
http://ec-concord.ied.edu.hk/script...novels.en&SearchStr=less&SearchType=ends+with
我们检索“lots of”这样的词组的“地址栏表达式”,就是……
http://ec-concord.ied.edu.hk/script...vels.en&SearchStr=lots+of&SearchType=equal+to
检索“important”这个单词,就是……
http://ec-concord.ied.edu.hk/script...ls.en&SearchStr=important&SearchType=equal+to
检索“oo”这个字符串或“中缀”或前缀或后缀的地址栏表达式,就是……
http://ec-concord.ied.edu.hk/script...s=enovels.en&SearchStr=oo&SearchType=contains
而检索一个单词的中部或尾部的“tion”的表达式,就是……
http://ec-concord.ied.edu.hk/script...enovels.en&SearchStr=tion&SearchType=contains

[FONT=新細明體]哎哟,这么一琢磨,我收获怎么这么大呢!
查了下,香港教育学院的该语料检索平台并没有提供任何“用户指南”,我的琢磨应该可以算作了一个用户入门与提高的指南了,嘻嘻
[/FONT]
 
Last edited:
那点乱码,其实是“第二处的修改后:”,虽然看起来是“?????????????ó?? ”

感谢回答啊~ 太给力了!

各种方法我都试过了,知其然,知其所以然,才可以无敌啊~

附件是我按照回复的第一种模式弄的,但是有点儿乱码,是不是和代码对齐有关系?呵呵

你提供的文件的页面的HTML文件头是如下:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

所以,默认是西方英文字符的文字编码,但是,被你无意中操作把一些汉字复制过来了。

在网页浏览器中显示的时候,硬把这些汉字按照英语来显示的,所以乱码了。

因此,你把网页浏览器的“文字编码”重新选择为“简体中文”或“繁体中文”就能显示出“第二处的修改后:”这样的文字串了。


在Firefox中,你点菜单“查看”的“字符编码”的“简体中文(GB18030)”。


在Internet Explorer中,你点菜单“查看”的“编码”的“简体中文(GB2312)”。


其实在任何的网页浏览器中,手工选择一下文字编码,最好取消“自动选择”,因为默认的编码是英语的,就能看到你的那点点乱码了。


最后,我估计你的乱码是你直接复制Corpus4u的页面而导致的。
 
回复: 那点乱码,其实是“第二处的修改后:”,虽然看起来是“?????????????ó?? ”

高人啊,我确实是直接复制的....

你提供的文件的页面的HTML文件头是如下:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

所以,默认是西方英文字符的文字编码,但是,被你无意中操作把一些汉字复制过来了。

在网页浏览器中显示的时候,硬把这些汉字按照英语来显示的,所以乱码了。

因此,你把网页浏览器的“文字编码”重新选择为“简体中文”或“繁体中文”就能显示出“第二处的修改后:”这样的文字串了。


在Firefox中,你点菜单“查看”的“字符编码”的“简体中文(GB18030)”。


在Internet Explorer中,你点菜单“查看”的“编码”的“简体中文(GB2312)”。


其实在任何的网页浏览器中,手工选择一下文字编码,最好取消“自动选择”,因为默认的编码是英语的,就能看到你的那点点乱码了。


最后,我估计你的乱码是你直接复制Corpus4u的页面而导致的。
 
Back
顶部