问“中国英语(China English)语料库(河南师范大学)”的详细情况?

一江春水

高级会员
我在“国内语料库建设一览表”里发现下面这个
中国英语(China English)语料库(河南师范大学)
估计是李文中建立的吧。

谁知道这个语料库的详细信息,以及跟谁联系使用问题?



[本贴已被 xujiajin 于 2005年12月12日 20时01分36秒 编辑过]
 
I think this corpus is still under construction. It is a corpus of English about China, probably also published in China.
 
估计老李这几天在忙着陪来自伯明翰大学的 Wolfgang Teubert 教授。
 
回复:问“中国英语(China English)语料库(河南师范大学)”的详细情况?

以下是引用 laohong2005-12-15 21:38:29 的发言:
估计老李这几天在忙着陪来自伯明翰大学的 Wolfgang Teubert 教授。

赫赫,Wolfgang Teubert今天来燕山大学了。讲了些语料库和翻译的东东。
 
本来顾曰国教授答应一起去燕大开讲的,时间不凑巧,结果就冯志伟教授陪同 Wolfgang 去了。Wolfgang 今天该启程去天津,然后去河南师大,这一行也算舟车劳顿,不过估计双方收获也应不小。
 
今晚他又到PLA University of Foreign Languages讲座了,还真抢手呢,他要在2007年出一本六卷的CL合集,是IJOCL文章的大杂烩,据说可以当Handbook用。
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

中国英语(China English)语料库正在建设中.
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

中国英语(China English)语料库正在建设中.
还在建设中吗? 有关该语料库建设的情况,能有更多的信息透露一下吗?谢谢!
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

我也好想知道啊~~~
以前找到过一篇关于CEC标注的文章,希望对大家有用。见下面附件
 

附件

  • 现代大型语料库标注方法--以CEC政府文件语料库标注为例.pdf
    311.6 KB · 浏览: 78
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

我也好想知道啊~~~
以前找到过一篇关于CEC标注的文章,希望对大家有用。见下面附件

谢谢fionale提供CEC标注方法的文章,对语料库建设很有借鉴参考意义。
若理解无误,该文的CEC建库的思路可总结为:
1.文本收集;2.文本分类;
3.Head info标注(头部信息,包括"元元信息"和"文献信息";XML标准、TEI 标注模式附码);
4.Body info标注(三维“词坐标标注”和库建成后的“词性标注”)

请教两点:
一、什么是“点对点的直接搜索”,在什么情况下需要进行“点对点的直接搜索”?有什么替代方式吗?
二、“三维”词坐标标注在单语和双语CEC语料库的意义。

引文如下:
“三维词坐标标注模式③
为了对语料库中单个文本以及文本中每个词、句子以及段落实现实时有效定位,CEC 政府文件子语料库和整个大语料库一样,在语料库建设的后期对每个词、句子和段落进行三维坐标标注。三维词坐标标注方案是一项基于Java 算法的语料标注方案。在标注中对文本中的每一个词都以数学坐标的方式赋予特定标签,标签由数位阿拉伯数字组成。(刘国兵,2008) 如我们把段落值标记为X,句子标记为Y,而词标记为Z ,所以一个词在语料库中的标记就可以写为XXX2YYY2ZZZZ 的形式。我们把所有词的三维坐标值都记录到语料库的附件中,那么当我们在搜索某一个词的时候,计算机就打破了以往传统的搜索模式,有效地实现了点对点的直接搜索,大大提高了其工作效率。”​

此外,由于目前我们正在建库,希望见到一份直观的标注样本供我们学习借鉴。谢谢!
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

...sounds like indexing which speeds up the searching. This can be useful for large corpora.
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

...sounds like indexing which speeds up the searching. This can be useful for large corpora.

thank u, xiaoz, but what puzzled me most is, as it is claimed in the paper that they "打破了以往传统的搜索模式" , that the indexing of this type was something new and had not be used in the previous or the so called traditional info searching design.
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

Some large online corpora like the BYU corpora rely on indexing for speed. Offline corpus exloration tools like Xaira also index corpora before they can be searched.

The files on your computer are also indexed constantly to expedite searching (but you can choose to turn off the indexing service). So indexing is not a new technology in information retrieval.
 
回复: 问“中国英语(China English)语料库(河南师范大学)”的详细情况?

Some large online corpora like the BYU corpora rely on indexing for speed. Offline corpus exloration tools like Xaira also index corpora before they can be searched.

The files on your computer are also indexed constantly to expedite searching (but you can choose to turn of the indexing service). So indexing is not a new technology in information retrieval.

Thank you for your kind reply.You have always been so helpful to all of the C'ers:)
 
Back
顶部