COLSEC"中国学习者英语口语语料库"分论坛开坛

<Transcription id=0106 disno=00021122030106>
<participant interlodutor=1 speaker=3> </participant>
<speaker sp1=female sp2=female sp3=male> </speaker>
<interlocutor interlocutor=female> </interlocutor>
<interlocutor> Good morning, everybody. </interlocutor>
<spall> Good morning. </spall>

这个是决定出版的最终版本。


[本贴已被 作者 于 2005年12月06日 13时55分05秒 编辑过]
 
COLSEC的前期都是研究生和博士生做的工作,他们非常辛苦。在劳动强度比较大的情况下,有错误是可以理解的,包括我批评过的其它语料库。

[本贴已被 作者 于 2005年12月06日 13时56分10秒 编辑过]
 
What a pity that only an untagged version is finally published. I will tag the corpus using CLAWS and convert the markup to XML soon.

[本贴已被 xujiajin 于 2005年12月06日 08时26分00秒 编辑过]
 
回复:COLSEC"中国学习者英语口语语料库"分论坛开坛

以下是引用 xiaoz2005-12-5 23:41:23 的发言:
What a pity that only an untagged version is finally published. I will tag the corpus using CLAWS and convert the markup to XML soon.

[本贴已被 xujiajin 于 2005年12月06日 08时26分00秒 编辑过]

Looking forward to it.
 
我原来以为出版的版本应该是POS标注以后的版本,所以就参与了上述的讨论。
POS标注是04年第4季度进行的。
在出版的时候,主编决定出版大家现在看到的版本,而不是我说的POS标注版本。
很抱歉在没有知情的情况下引出了“两个版本”的概念。
期待xiaoz的版本。
 
It's terrific to have this pick'n poke. That helps a lot for further improvement of COLSEC. Please find more inconsistencies so that we can update the corpus accordingly.

Dr Xiao, be careful when you try to tag COLSEC, because it has so many non-words. Maybe one needs to check manually for higher accuracy. It's a headache.
 
《大学英语学习者口语英语语料库》COLSEC已经出版了吗?请问是什么出版社?谢谢!
 
Re: COLSEC"中国学习者英语口语语料库"分论坛开坛

XML标记过程中如果使用软件和人工结合的办法,相信很多失误是可以避免的。
 
回复: COLSEC"中国学习者英语口语语料库"分论坛开坛

很遗憾,所见到的CLEC和COLSEC似乎都是雇佣廉价的学生手工完成的,项目负责人估计也只是顾问而已....如果不是的话,那就是程序写得太“智能”了......
 
Back
顶部