[砖头] COLEN 及其搜索工具下载（更新）

ineedgerf · 2005-11-07

COLEN 语料库是我在2003年前后建立的一个“教材文本”库。当时主要用于网站浏览，后来就把它标注，自己在课堂上使用。

COLEN 收集了我国大学英语教材中的阅读文章，共930篇。

COLEN 的结构为 xml 结构，头部信息大都没有提供，但正文部分使用 TOSCA/LOB 标注，它的准确率大概有 95% 左右。

COLEN 从标注的角度来讲应该是一个标准的 POS-TAGGED CORPUS，它的词性码结构如下：

<w ATI>The</w> <w NN>idea</w> <w IN>of</w> <w VBG>becoming</w> <w AT>a</w> <w NN>writer</w> <w HVD>had</w> <w VBN>come</w> <w IN>to</w> <w PP1O>me</w> <w IN>off</w> <w CC>and</w> <w RP>on</w> <w IN>since</w> <w PPG>my</w> <w NN>childhood</w> <w IN>in</w> <w NP>Belleville</w><c SCOM>,</c> <w CC>but</w> <w PP3>it</w> <w BEDZX>wasn't</w> <w IN>until</w> <w PPG>my</w> <w OD>third</w> <w NN>year</w> <w IN>in</w> <w JJ>high</w> <w NN>school</w> <w CS>that</w> <w ATI>the</w> <w NN>possibility</w> <w VBD>took</w> <w NN>hold</w><c SPER>.</c>

为了查询的方便，该库以“行/句”为单位，即每行一句，借鉴了 BNC 的格式。

搜索工具和 http://english.htu.edu.cn/lingualsoft/index.htm 页面介绍的 CorpusEngine 还不大一样，后者正在测试中。

该工具仅对 html 文档进行查询，即仅支持 html 文档，包括其后缀名，查询支持多目录，结果显示在浏览器中，结果句后有链接，点击可以链接到结果句出现的篇章。该搜索工具支持 Regex，可以完成许多查询任务。上课使用尤其方便。

该工具不需要安装，使用条件是用户机必须有 .net framework:

http://corpus.htu.cn/dotnetfx.exe

语言包：
http://corpus.htu.cn/langpack.exe

压缩包中有 tagged COLEN 语料库。

下载 COLEN 及其搜索工具地址：http://corpus.htu.cn/COLEN_and_search_tool.rar
下载 COLEN 地址：http://english.htu.edu.cn/lingualsoft/index.htm。
有需要plain texts 请直接和ineedgerf@gmail.com联系。
相关文章：http://www.corpus4u.org/upload/forum/2005110714265779.pdf
屡投屡败的相关文章：http://www.corpus4u.org/upload/forum/2005110714544031.pdf

xujiajin · 2005-11-07

谢谢分享。是河师大的吧？
有raw text的吗？

ineedgerf · 2005-11-07

有raw text。

laohong · 2005-11-07

能贴上Raw Text 吗？

laohong · 2005-11-07

回复：[砖头]“教材文本”库 COLEN 下载

不了解李博士批评的具体内容。不过，由课文内容编建的语料库也不乏见，即使非Balance Corpus，如Biber的 TOEFL 2000 corpus里课本内容比例也不小（见下图Composition of the T2K-SWAL Corpus）。

至于课文内容是否＂加工的＂的自然语料却是个有争议的话题，比如说经过编辑修改后的媒体上的内容都是自然语料吗？这种经过少数人修改了的语料能够代表记者、创作者、或者普通言语使用者的真实语言运用情况吗？

通常的建库都有特定的研究目的的，不能是盲目的，也不能是万金油，什么问题都可以解决。用课文内容建的语料库来做课本编撰、课程开发等方面的研究是适当的，但是用修改过的篇章来研究原作者的文体风格当然就难免会挨砖头。

xiaoz · 2005-11-07

In my view, the language used in textbooks/coursebooks is a type of natural language and a distinctive genre that merits inclusion in a corpus. There are some such corpora (e.g. the HKUST Computer Science Corpus is a one-million-word corpus of written English sampled from undergraduate textbooks in computer science) and many people are studying this genre (e.g. Hyland, Biber).

laohong · 2005-11-08

回复：[砖头]“教材文本”库 COLEN 下载

Agree. How natural is natural enough? It's very controversial. As far as the pedagogic corpus is concerned, Biber's T2K-SWAL Corpus is a good example. Here is the breakdown of its components in disciplines:

007 · 2005-11-09

搜索工具还好用，解开使用没有问题，而且能解决上课找例句的烦心事儿……

虽然简单，但别具一格。有创意……

dzhigner · 2005-11-11

930篇...TAGGED...晚生实在佩服...居然分文不取地拿出来了...
楼主的东西是精华, 非常，非常，非常有价值 ... 应予以重视...
楼主贴子前[砖头]二字中的意味 ...

楼主是个实力雄厚而且十分务实的人 ... 从他那"屡投屡败"的论文就能看出来 ... 技术 ... 所谓"要克服技术恐惧症" ... 但若是我这样的小东西 ... 本来论文就发不动, 是绝对不敢说技术的, 我只敢多说理论, 少谈技术, 多少整点数据美美容...
感谢楼主！祝福楼主！

dzhigner · 2005-11-11

在DDL与语料库与课堂教学方面，楼主提供的是一笔非常有价值的资源。晚生曾在课堂上即时试用过Brown等语料库，效果Extremely不理想，后来考虑到是语料和检索工具方面的问题：若对语料不加控制，不考虑学习者的理解能力，“输入”的效果难以保证。在检索工具提供的上下文方面，如果不以句或句群的模式呈现出KWIC，不可预知是否前后文能提供足够的信息来实施进一步的教学活动。所以，从这两方面来看，选用与学习者理解能力相符的课本中的课文，并采用行/句为单位（因为使用一些Concordancer提供的切句功能也难以保证效果），并以此模式显示KWIC是课堂教学语料库应用或最佳的解决方法，楼主的语料库甚至已经过符码深加工，岂不是能提供更强大的开发潜能。此外，若果能接合一部词典，又能成为DDL应用中的强大工具。

也许在以语言学研究为轴心的语料库研究阵营，楼主的语料库多少会遭遇一些质疑。但在教学与DDL的角度，这笔资源与工具是非常难得与珍贵的...不才一直在收集资料，打算制作类似的语料库与检索工具，但忙于活命，没有充足的时间。

zhangbc · 2005-11-11

回复：[砖头] COLEN 及其搜索工具下载（更新）

请问：什么是“.net framework”？（下载了里面的搜索工具，不能用。）

tiger · 2005-11-11

为什么打开检索工具itp时显示“初始化失败”？

清风出袖 · 2005-11-11

microsoft net framework 1.0, a couple of months ago a software named as nooj requires this as well. go to google to get one! it is free!

dzhigner · 2005-11-12

这里可以找到 .net framework：
http://www.microsoft.com/downloads/search.aspx?displaylang=zh-cn&categoryid=10

ineedgerf · 2005-11-12

感谢 9/10 楼 dzhigner 对我的评论！

所有我语料库语言学方面的成绩都归功于李文中博士！

虽然没有坐在他的教室做他的学生，但是两个人的交谈、讨论、争论使我学到了很多的东西。

15 年的计算机使用经验＋ 28 年的英语教学学习经验 = 现在的我和一个讲师title。

因为这些吧，所以屡败……

所以，在这里发布自己的东西虽然没有得到稿费，但是，自己的东西拿出来和大家分享也算是对我国语料库语言学研究的一种贡献吧（大言不惭）！

xujiajin 发现我的一篇（未发表）论文，贴在这里：

http://www.corpus4u.org/showthread.php?t=1185

感兴趣的可以浏览一下！

.net framework 和一个语言包已经发布到这里了。

xiaoz · 2005-11-12

现在写文章很少有稿费哦，最多是20-30份抽印本加一本当期刊物。

但我知道有一家国际刊物给稿酬，1000美金一篇。是韩国出版的Journal of Universal Language。

zhangbc · 2005-11-12

To 清风出袖,dzhigner & ineedgerf : I've got .net frame work. Thanks a lot!

[本贴已被作者于 2005年11月12日 10时45分36秒编辑过]

zhangbc · 2005-11-12

回复：[砖头] COLEN 及其搜索工具下载（更新）

这么高的稿酬，对文章质量的要求自然就非常高甚至是苛刻了吧。

laohong · 2005-11-12

回复：[砖头] COLEN 及其搜索工具下载（更新）

以下是引用 ineedgerf 在 2005-11-12 10:27:34 的发言：
……在这里发布自己的东西虽然没有得到稿费，但是，自己的东西拿出来和大家分享也算是对我国语料库语言学研究的一种贡献吧（大言不惭）！

相信能在这里“顽强”地贴帖子的人，都有着一颗红亮的心！

xiaoz · 2005-11-12

毛主席喜欢这种话。感觉又回到那个年代了。
相信能在这里“顽强”地贴帖子的人，都有着一颗红亮的心！

[砖头] COLEN 及其搜索工具下载（更新）

ineedgerf

普通会员

xujiajin

管理员

ineedgerf

普通会员

laohong

管理员

laohong

管理员

xiaoz

永远的超级管理员

laohong

管理员

007

初级会员

dzhigner

Moderator

dzhigner

Moderator

zhangbc

tiger

高级会员

清风出袖

高级会员

dzhigner

Moderator

ineedgerf

普通会员

xiaoz

永远的超级管理员

zhangbc

zhangbc

laohong

管理员

xiaoz

永远的超级管理员