COLSEC"中国学习者英语口语语料库"分论坛开坛

xujiajin

管理员
Staff member
中国学习者英语口语语料库建设与研究所附光盘包含以下两个文件夹

COLSECfinal1:为语料转写文本
MicroConcord:为附送的检索软件
 

seanxpq

corpus explorer
许博士,你已经买到那本36块的书了?其中的文本可否用其他软件检索?谢谢!
 

xujiajin

管理员
Staff member
今晚刚买到的。
plain text当然可以其他concordancer了。

更正一下,36块钱的是文秋芳老师他们的英语专业的口语库SWECCL。

COLSEC是上海交大(杨惠中、卫乃兴等)开发的,只卖27块钱。
而且我认为随盘的书中包含基于COLSEC的前期研究成果,值得一看。
 

xujiajin

管理员
Staff member
But they claimed that they tagged the corpus in the XML format (at Page 5 of the book).
 

xujiajin

管理员
Staff member
Someone has already spotted the inconsisitencies in the tags used in COLSEC.

You are also welcome to look for and post inapropriateness you see in COLSEC.
 

xiaoz

永远的超级管理员
Staff member
Some potential problems with metadata tags:

< /interlocutor>
< /sp1>
< /sp2>
< /sp3>
< interlocutor>
< interrupted>
< sp1>
< sp2>
< sp3>
<,/sp1>
<.interlocutor>
</ interlocutor>
</ sp1>
</ sp2>
</inerlocutor>
</inetlocutor>
</intelocutor>
</interloctor>
</interloctutor>
</interlocuotor>
</interlocurtor>
</interlocuter>
</interlocuto1>
</interlocutor >
</interlocutor1>
</interlocutor2>
</interlocutor>
</interlolvutor>
</interlouctor>
</interocutor>
</interrputed>
</interruped>
</interrupt>
</interruptd>
</interrupted>
</interupted>
</paricipant>
</sp1, sp2>
</sp1, sp3>
</sp2&3>
</sp2.>
</sp3 >
</sp3, 4>
</sp3.>
</sp4 >
</sp4r>
</spalll>
</transcript>
</transcription >
</transcription>
<?interlocutor>
<inerlocutor>
<inrerlocutor>
<interlocotor>
<interloctor>
<interloctutor>
<interlocuor>
<interlocuotor>
<interlocuter>
<interlocutor 1>
<interlocutor >
<interlocutor and yours? </interlocutor>
<interlocutor gender=2>
<interlocutor gender=?>
<interlocutor gender=???>
<interlocutor gender=female>
<interlocutor gender=male>
<interlocutor interlocutor =female>
<interlocutor interlocutor= female>
<interlocutor interlocutor=>
<interlocutor interlocutor=?>
<interlocutor interlocutor=female>
<interlocutor interlocutor=male>
<interlocutor interloucor=female>
<interlocutor. ok. ** </interlocutor>
<interlocutor1 interlocutor=male>
<interlocutor2>
<interlocutor>
<interlofutor>
<interlucutor>
<interocutor>
<interolcutor>
<interrupt>
<interrupted>
<intrlocutor>
<sp1 >
<sp1, sp2>
<sp1, sp3>
<sp2 >
<sp2&3>
<sp3, 4>
 

xujiajin

管理员
Staff member
回复:COLSEC"中国学习者英语口语语料库"分论坛开坛

以下是引用 xiaoz2005-12-3 22:25:20 的发言:
The corpus is marked up in SGML instead of XML.

Does anyone know what these tags mean?

http://www.corpus4u.org/upload/forum/2005120322251575.txt
书中第48-58页介绍说这叫“错音标记”,即发音错误描写标记。共4大类,近200个子类。

[m1c]
[m1d]
[m1e]
[m1en]
[m1g]
[m1i-i:]
[m1i]
[m1l]
[m1n,i]
[m1n]
[m1o-er]
[m1o]
[m1p]
[m1r]
[m1s]
[m1st]
[m1t]
[m1ter]
[m1ti]
[m1u]
....
[wves-elf]
[wves-f]
[wvier-rer]
[wvw]
[ww-da:bulju:]
[ww-l]
[ww-m]
[ww-r]
 

xujiajin

管理员
Staff member
刚才随手翻了一下,发现一些个错误,顺便贴出来:
Page 5:
COLSEC (College Learners' Spoken English Corpus)

Page 82
COLSEC (College Learner Spoken English Corpus)

不知该依哪一个?

Page 7:
Canale被写成canale,首字母没大写。
倒霉的Lyle Bachman一次被写成Backmar,在同一行里又被写成Backman
 

xujiajin

管理员
Staff member
说实话,我也对COLSEC项目的所有人员由衷的敬佩。我也是做口语语料库的,我自然知道其中的艰辛。

这也就是我为什么想起来在首页滚动信息部分写From JDEST to COLSEC的道理。
不过,我们还是将发现的问题贴了出来。我想我们应当还有改进的空间。同时我们也应当告诉“消费者”,“商品”中存在的质量问题。
 

xiaoz

永远的超级管理员
Staff member
<Transcription id=0002 discno=1201010105>
....
</transcription>

is clearly not XML-compliant, for firstly the attribute values must be in quotations and secondly XML is case-sensitive (Transcription will not pair with transcription in the above example). But it can be claimed COLSEC is SGML-compliant (barring the many inconsistent misspellings in tag names for XML elements).
 

xiaoz

永远的超级管理员
Staff member
Shouldn't the corpus header be kept separate from the textual data?
 

ineedgerf

普通会员
COLSEC是学习者语料库,本来没有打算进行POS标注。这次出版的就是原计划的最终版本了。

所以,就象BNC的冠词的标注错误有1%、<w VVZ>zips</w>的错误有5/14一样,COLSEC的错误肯定有的,有广阔的“改进的空间”。

[本贴已被 作者 于 2005年12月06日 13时53分09秒 编辑过]
 

一江春水

高级会员
我觉得如果能把原始声音做成MP3格式放在光盘上就更好了,一张光盘只用了40多兆空间,太浪费了。文老师的那套就很好(当时声音格式不是MP3的比较遗憾)。附上原始声音后,研究者觉得转写信息不准或不够的时侯可以去调原始声音。
 

xujiajin

管理员
Staff member
我也同意有声音文件当然好。可是,我认为交大的做法是非常正确的。因为,转写文本中的匿名处理是比较容易的,声音则基本上做不到。

国际上,口语语料的一个算是“行规”吧,就是一定不能公开声音文件的,除非获得所有说话人的书面许可。口语语料的保密(confidentiality)处理,包括好几层。大家可以到Talkbank上去找一下。我记得我在上面看到过。
 
顶部