COLSEC"中国学习者英语口语语料库"分论坛开坛

<Transcription id=0106 disno=00021122030106>
<participant interlodutor=1 speaker=3> </participant>
<speaker sp1=female sp2=female sp3=male> </speaker>
<interlocutor interlocutor=female> </interlocutor>
<interlocutor> Good morning, everybody. </interlocutor>
<spall> Good morning. </spall>

这个是决定出版的最终版本。


[本贴已被 作者 于 2005年12月06日 13时55分05秒 编辑过]
 
COLSEC的前期都是研究生和博士生做的工作,他们非常辛苦。在劳动强度比较大的情况下,有错误是可以理解的,包括我批评过的其它语料库。

[本贴已被 作者 于 2005年12月06日 13时56分10秒 编辑过]
 
What a pity that only an untagged version is finally published. I will tag the corpus using CLAWS and convert the markup to XML soon.

[本贴已被 xujiajin 于 2005年12月06日 08时26分00秒 编辑过]
 
回复:COLSEC"中国学习者英语口语语料库"分论坛开坛

以下是引用 xiaoz2005-12-5 23:41:23 的发言:
What a pity that only an untagged version is finally published. I will tag the corpus using CLAWS and convert the markup to XML soon.

[本贴已被 xujiajin 于 2005年12月06日 08时26分00秒 编辑过]

Looking forward to it.
 
我原来以为出版的版本应该是POS标注以后的版本,所以就参与了上述的讨论。
POS标注是04年第4季度进行的。
在出版的时候,主编决定出版大家现在看到的版本,而不是我说的POS标注版本。
很抱歉在没有知情的情况下引出了“两个版本”的概念。
期待xiaoz的版本。
 
It's terrific to have this pick'n poke. That helps a lot for further improvement of COLSEC. Please find more inconsistencies so that we can update the corpus accordingly.

Dr Xiao, be careful when you try to tag COLSEC, because it has so many non-words. Maybe one needs to check manually for higher accuracy. It's a headache.
 
《大学英语学习者口语英语语料库》COLSEC已经出版了吗?请问是什么出版社?谢谢!
 
Re: COLSEC"中国学习者英语口语语料库"分论坛开坛

XML标记过程中如果使用软件和人工结合的办法,相信很多失误是可以避免的。
 
回复: COLSEC"中国学习者英语口语语料库"分论坛开坛

很遗憾,所见到的CLEC和COLSEC似乎都是雇佣廉价的学生手工完成的,项目负责人估计也只是顾问而已....如果不是的话,那就是程序写得太“智能”了......
 
我也同意有声音文件当然好。可是,我认为交大的做法是非常正确的。因为,转写文本中的匿名处理是比较容易的,声音则基本上做不到。

国际上,口语语料的一个算是“行规”吧,就是一定不能公开声音文件的,除非获得所有说话人的书面许可。口语语料的保密(confidentiality)处理,包括好几层。大家可以到Talkbank上去找一下。我记得我在上面看到过。
可以求一个光盘里面的文件吗2542638897@qq.com 我急需colsec语料库作为论文的数据
 
可到孔夫子旧书网(https://www.kongfz.com)搜索:
(1)《中国学习者英语口语语料库建设与研究》
(2)《中国学生英语口笔语语料库》
这两本书都配有语料库光盘。最便宜的都是30块钱。
如果不愿花30块钱,可到学校图书馆搜索这两本书。
 
Back
顶部