CLEC 去标注问题讨论

本文由 xusun5752009-11-10 发表於 "中国英语学习者语料库" 讨论区

  1. xusun575

    xusun575 高级会员

    CLEC detagged 上传,仅供C友研究参考.使用中若发现detagging问题,请告知,以便改进个人在WS WORD中自用的全能detagger.
    另外,若下载,敬请留名留言,否则以盗窃论处,扭送公安法办.:D
     
    Last edited by a moderator: 2009-11-10
  2. 回复: CLEC 去标注上传

    谢谢!
     
  3. 回复: CLEC 去标注上传

    谢谢分享!
     
  4. laohong

    laohong 管理员 Staff Member

    回复: CLEC 去标注上传

    CLEC是有版权保护的语料资源,请大家通过别的渠道获取吧。
    to 老孙:感谢你的热忱和奉献,不过这里见谅了,我得去掉你的附件。
     
  5. xusun575

    xusun575 高级会员

    回复: CLEC 去标注上传

    laohong你就下手吧:D
     
  6. laohong

    laohong 管理员 Staff Member

    回复: CLEC 去标注上传

    谢谢理解!
     
  7. 回复: CLEC 去标注上传

    有心人呀已经为后来者做的这么多了,向你致敬!
     
  8. 回复: CLEC 去标注上传

    我买了CLEC的光盘,但是我需要原来没有标注的纯文本,请教各位,如何去掉CLEC中的这些赋码?使用什么软件?在哪下载?多谢!
     
  9. Re: 回复: CLEC 去标注上传

    可以使用Editpad Pro的查找替换功能(之前最好用文本合并工具将五个CLEC文本整合在一块,省去一个个整合的麻烦。), 用简单的正则表达式可以去除,但不要期望一次性就能完全消除非文本内容。有的附加信息在尖括号之中(表达式可为\[[ \w,\-]+\]),有的又在方括号内(表达式可以是\<[ \w\?\-]+\>),还有较少的在圆括号中(\(t[\S\-]+\))。消除之后使用表达式\]和\>查找包含有]或>的高亮文字,手动消除。另外:在一般的学校图书馆里面可以借到《中国学习者英语口语语料库建设与研究》这本书,该书附有光盘,包含CLEC文本。
     
  10. 回复: Re: 回复: CLEC 去标注上传

    多谢,可以用这个方法来处理ICE吗
     
  11. Re: 回复: Re: 回复: CLEC 去标注上传

    得先分析ICE码的特点才可对症下药。如果ICE太大,不知Editpad Pro打开时会不会像word一样卡死,何不试试看?
     
  12. 回复: Re: 回复: Re: 回复: CLEC 去标注上传

    ICE 标注复杂,试过用detagger,卡了,用文本编辑器,替换不了,你的那个什么东东?介绍下嘞
     
  13. 回复: Re: 回复: CLEC 去标注上传

    多谢Brainstorm, 我也尝试了用Editpad的替换功能,就是去不干净。我来找找你说的这本书吧,再次感谢!
     
  14. Re: 回复: Re: 回复: CLEC 去标注上传

    更正一下:包含CLEC光盘的是《中国英语学习者语料库》,不是《中国学习者英语口语语料库建设与研究》。后者包含的是COLSEC语料库。不好意思。
     
  15. tonychan

    tonychan 初级会员

    回覆: CLEC 去标注上传


    谢谢
     
  16. 回复: CLEC 去标注问题讨论

    我想知道这个语料库里是否有关联词标注,是怎么标注的
     
  17. 回复: CLEC 去标注上传

    您好!请问您时在哪里买到clec的光盘的?提前谢谢咯!
     
  18. chrisyang

    chrisyang 普通会员

  19. 回复: CLEC 去标注上传

    谢谢!
     
  20. 回复: CLEC 去标注问题讨论

    您好,请问在CLEC中,怎么检索出宾语从句呢?谢谢,不甚感激!