COLSEC"中国学习者英语口语语料库"分论坛开坛

本文由 xujiajin2005-12-03 发表於 "中国学习者英语口语语料库" 讨论区

  1. xujiajin

    xujiajin 管理员 Staff Member

    中国学习者英语口语语料库建设与研究所附光盘包含以下两个文件夹

    COLSECfinal1:为语料转写文本
    MicroConcord:为附送的检索软件
     
  2. seanxpq

    seanxpq corpus explorer

    许博士,你已经买到那本36块的书了?其中的文本可否用其他软件检索?谢谢!
     
  3. xujiajin

    xujiajin 管理员 Staff Member

    今晚刚买到的。
    plain text当然可以其他concordancer了。

    更正一下,36块钱的是文秋芳老师他们的英语专业的口语库SWECCL。

    COLSEC是上海交大(杨惠中、卫乃兴等)开发的,只卖27块钱。
    而且我认为随盘的书中包含基于COLSEC的前期研究成果,值得一看。
     
  4. xiaoz

    xiaoz 永远的超级管理员 Staff Member

  5. xujiajin

    xujiajin 管理员 Staff Member

    But they claimed that they tagged the corpus in the XML format (at Page 5 of the book).
     
  6. xujiajin

    xujiajin 管理员 Staff Member

    Someone has already spotted the inconsisitencies in the tags used in COLSEC.

    You are also welcome to look for and post inapropriateness you see in COLSEC.
     
  7. xiaoz

    xiaoz 永远的超级管理员 Staff Member

    Some potential problems with metadata tags:

    < /interlocutor>
    < /sp1>
    < /sp2>
    < /sp3>
    < interlocutor>
    < interrupted>
    < sp1>
    < sp2>
    < sp3>
    <,/sp1>
    <.interlocutor>
    </ interlocutor>
    </ sp1>
    </ sp2>
    </inerlocutor>
    </inetlocutor>
    </intelocutor>
    </interloctor>
    </interloctutor>
    </interlocuotor>
    </interlocurtor>
    </interlocuter>
    </interlocuto1>
    </interlocutor >
    </interlocutor1>
    </interlocutor2>
    </interlocutor>
    </interlolvutor>
    </interlouctor>
    </interocutor>
    </interrputed>
    </interruped>
    </interrupt>
    </interruptd>
    </interrupted>
    </interupted>
    </paricipant>
    </sp1, sp2>
    </sp1, sp3>
    </sp2&3>
    </sp2.>
    </sp3 >
    </sp3, 4>
    </sp3.>
    </sp4 >
    </sp4r>
    </spalll>
    </transcript>
    </transcription >
    </transcription>
    <?interlocutor>
    <inerlocutor>
    <inrerlocutor>
    <interlocotor>
    <interloctor>
    <interloctutor>
    <interlocuor>
    <interlocuotor>
    <interlocuter>
    <interlocutor 1>
    <interlocutor >
    <interlocutor and yours? </interlocutor>
    <interlocutor gender=2>
    <interlocutor gender=?>
    <interlocutor gender=???>
    <interlocutor gender=female>
    <interlocutor gender=male>
    <interlocutor interlocutor =female>
    <interlocutor interlocutor= female>
    <interlocutor interlocutor=>
    <interlocutor interlocutor=?>
    <interlocutor interlocutor=female>
    <interlocutor interlocutor=male>
    <interlocutor interloucor=female>
    <interlocutor. ok. ** </interlocutor>
    <interlocutor1 interlocutor=male>
    <interlocutor2>
    <interlocutor>
    <interlofutor>
    <interlucutor>
    <interocutor>
    <interolcutor>
    <interrupt>
    <interrupted>
    <intrlocutor>
    <sp1 >
    <sp1, sp2>
    <sp1, sp3>
    <sp2 >
    <sp2&3>
    <sp3, 4>
     
  8. xujiajin

    xujiajin 管理员 Staff Member

    My goodness! How can this be?
    A version 2 of the corpus is in bad need.
     
  9. xujiajin

    xujiajin 管理员 Staff Member

    回复:COLSEC"中国学习者英语口语语料库"分论坛开坛

    书中第48-58页介绍说这叫“错音标记”,即发音错误描写标记。共4大类,近200个子类。

    [m1c]
    [m1d]
    [m1e]
    [m1en]
    [m1g]
    [m1i-i:]
    [m1i]
    [m1l]
    [m1n,i]
    [m1n]
    [m1o-er]
    [m1o]
    [m1p]
    [m1r]
    [m1s]
    [m1st]
    [m1t]
    [m1ter]
    [m1ti]
    [m1u]
    ....
    [wves-elf]
    [wves-f]
    [wvier-rer]
    [wvw]
    [ww-da:bulju:]
    [ww-l]
    [ww-m]
    [ww-r]
     
  10. xujiajin

    xujiajin 管理员 Staff Member

    刚才随手翻了一下,发现一些个错误,顺便贴出来:
    Page 5:
    COLSEC (College Learners' Spoken English Corpus)

    Page 82
    COLSEC (College Learner Spoken English Corpus)

    不知该依哪一个?

    Page 7:
    Canale被写成canale,首字母没大写。
    倒霉的Lyle Bachman一次被写成Backmar,在同一行里又被写成Backman
     
  11. ineedgerf

    ineedgerf 普通会员

    向转写者致敬!

    [本贴已被 作者 于 2005年12月06日 13时49分55秒 编辑过]
     
  12. xujiajin

    xujiajin 管理员 Staff Member

    说实话,我也对COLSEC项目的所有人员由衷的敬佩。我也是做口语语料库的,我自然知道其中的艰辛。

    这也就是我为什么想起来在首页滚动信息部分写From JDEST to COLSEC的道理。
    不过,我们还是将发现的问题贴了出来。我想我们应当还有改进的空间。同时我们也应当告诉“消费者”,“商品”中存在的质量问题。
     
  13. xiaoz

    xiaoz 永远的超级管理员 Staff Member

    <Transcription id=0002 discno=1201010105>
    ....
    </transcription>

    is clearly not XML-compliant, for firstly the attribute values must be in quotations and secondly XML is case-sensitive (Transcription will not pair with transcription in the above example). But it can be claimed COLSEC is SGML-compliant (barring the many inconsistent misspellings in tag names for XML elements).
     
  14. xiaoz

    xiaoz 永远的超级管理员 Staff Member

    Shouldn't the corpus header be kept separate from the textual data?
     
  15. ineedgerf

    ineedgerf 普通会员

    COLSEC是学习者语料库,本来没有打算进行POS标注。这次出版的就是原计划的最终版本了。

    所以,就象BNC的冠词的标注错误有1%、<w VVZ>zips</w>的错误有5/14一样,COLSEC的错误肯定有的,有广阔的“改进的空间”。

    [本贴已被 作者 于 2005年12月06日 13时53分09秒 编辑过]
     
  16. ineedgerf

    ineedgerf 普通会员

    有光盘的能不能传给我一个文本,用邮件。谢谢。
    ineedgerf@gmail.com
     
  17. laohong

    laohong 管理员 Staff Member

    Send me a copy too if you can.
     
  18. xiaoz

    xiaoz 永远的超级管理员 Staff Member

    what is published is definitely not your version.
     
  19. 一江春水

    一江春水 高级会员

    我觉得如果能把原始声音做成MP3格式放在光盘上就更好了,一张光盘只用了40多兆空间,太浪费了。文老师的那套就很好(当时声音格式不是MP3的比较遗憾)。附上原始声音后,研究者觉得转写信息不准或不够的时侯可以去调原始声音。
     
  20. xujiajin

    xujiajin 管理员 Staff Member

    我也同意有声音文件当然好。可是,我认为交大的做法是非常正确的。因为,转写文本中的匿名处理是比较容易的,声音则基本上做不到。

    国际上,口语语料的一个算是“行规”吧,就是一定不能公开声音文件的,除非获得所有说话人的书面许可。口语语料的保密(confidentiality)处理,包括好几层。大家可以到Talkbank上去找一下。我记得我在上面看到过。