ineedgerf
普通会员
COLEN 语料库是我在2003年前后建立的一个“教材文本”库。当时主要用于网站浏览,后来就把它标注,自己在课堂上使用。
COLEN 收集了我国大学英语教材中的阅读文章,共930篇。
COLEN 的结构为 xml 结构,头部信息大都没有提供,但正文部分使用 TOSCA/LOB 标注,它的准确率大概有 95% 左右。
COLEN 从标注的角度来讲应该是一个标准的 POS-TAGGED CORPUS,它的词性码结构如下:
<!--s--><w ATI>The</w> <w NN>idea</w> <w IN>of</w> <w VBG>becoming</w> <w AT>a</w> <w NN>writer</w> <w HVD>had</w> <w VBN>come</w> <w IN>to</w> <w PP1O>me</w> <w IN>off</w> <w CC>and</w> <w RP>on</w> <w IN>since</w> <w PPG>my</w> <w NN>childhood</w> <w IN>in</w> <w NP>Belleville</w><c SCOM>,</c> <w CC>but</w> <w PP3>it</w> <w BEDZX>wasn't</w> <w IN>until</w> <w PPG>my</w> <w OD>third</w> <w NN>year</w> <w IN>in</w> <w JJ>high</w> <w NN>school</w> <w CS>that</w> <w ATI>the</w> <w NN>possibility</w> <w VBD>took</w> <w NN>hold</w><c SPER>.</c><!--/s-->
为了查询的方便,该库以“行/句”为单位,即每行一句,借鉴了 BNC 的格式。
搜索工具和 http://english.htu.edu.cn/lingualsoft/index.htm 页面介绍的 CorpusEngine 还不大一样,后者正在测试中。
该工具仅对 html 文档进行查询,即仅支持 html 文档,包括其后缀名,查询支持多目录,结果显示在浏览器中,结果句后有链接,点击可以链接到结果句出现的篇章。该搜索工具支持 Regex,可以完成许多查询任务。上课使用尤其方便。
该工具不需要安装,使用条件是用户机必须有 .net framework:
http://corpus.htu.cn/dotnetfx.exe
语言包:
http://corpus.htu.cn/langpack.exe
压缩包中有 tagged COLEN 语料库。
下载 COLEN 及其搜索工具地址:http://corpus.htu.cn/COLEN_and_search_tool.rar
下载 COLEN 地址:http://english.htu.edu.cn/lingualsoft/index.htm。
有需要plain texts 请直接和ineedgerf@gmail.com联系。
相关文章:http://www.corpus4u.org/upload/forum/2005110714265779.pdf
屡投屡败的相关文章:http://www.corpus4u.org/upload/forum/2005110714544031.pdf
COLEN 收集了我国大学英语教材中的阅读文章,共930篇。
COLEN 的结构为 xml 结构,头部信息大都没有提供,但正文部分使用 TOSCA/LOB 标注,它的准确率大概有 95% 左右。
COLEN 从标注的角度来讲应该是一个标准的 POS-TAGGED CORPUS,它的词性码结构如下:
<!--s--><w ATI>The</w> <w NN>idea</w> <w IN>of</w> <w VBG>becoming</w> <w AT>a</w> <w NN>writer</w> <w HVD>had</w> <w VBN>come</w> <w IN>to</w> <w PP1O>me</w> <w IN>off</w> <w CC>and</w> <w RP>on</w> <w IN>since</w> <w PPG>my</w> <w NN>childhood</w> <w IN>in</w> <w NP>Belleville</w><c SCOM>,</c> <w CC>but</w> <w PP3>it</w> <w BEDZX>wasn't</w> <w IN>until</w> <w PPG>my</w> <w OD>third</w> <w NN>year</w> <w IN>in</w> <w JJ>high</w> <w NN>school</w> <w CS>that</w> <w ATI>the</w> <w NN>possibility</w> <w VBD>took</w> <w NN>hold</w><c SPER>.</c><!--/s-->
为了查询的方便,该库以“行/句”为单位,即每行一句,借鉴了 BNC 的格式。
搜索工具和 http://english.htu.edu.cn/lingualsoft/index.htm 页面介绍的 CorpusEngine 还不大一样,后者正在测试中。
该工具仅对 html 文档进行查询,即仅支持 html 文档,包括其后缀名,查询支持多目录,结果显示在浏览器中,结果句后有链接,点击可以链接到结果句出现的篇章。该搜索工具支持 Regex,可以完成许多查询任务。上课使用尤其方便。
该工具不需要安装,使用条件是用户机必须有 .net framework:
http://corpus.htu.cn/dotnetfx.exe
语言包:
http://corpus.htu.cn/langpack.exe
压缩包中有 tagged COLEN 语料库。
下载 COLEN 及其搜索工具地址:http://corpus.htu.cn/COLEN_and_search_tool.rar
下载 COLEN 地址:http://english.htu.edu.cn/lingualsoft/index.htm。
有需要plain texts 请直接和ineedgerf@gmail.com联系。
相关文章:http://www.corpus4u.org/upload/forum/2005110714265779.pdf
屡投屡败的相关文章:http://www.corpus4u.org/upload/forum/2005110714544031.pdf