严重问题!!

本文由 zzjjyy97212010-07-13 发表於 "中国学习者英语口语语料库" 讨论区

  1. 最近在用SWECLL2.0的WECLL的预料做检索,发现了很多文件的内容是一模一样的,不知道是我买的光盘的原因,还是这个语料库本身的错误?请问有人跟我一样么?举几个例子
    WARG0475和WARG0865完全重复
    WARG4139和WARG3749完全重复
    WARG0008和WARG0398完全重复
    。。。。。。。。。。。
    好像还有很多。。。。
    这样子检索结果数据怎么可靠啊
     
  2. xusun575

    xusun575 高级会员

    回复: 严重问题!!

    这很正常.如果没有"严重问题"那问题可就严重了.戏言,但国内此类工作,急功近利者为多,粗制在所难免了(顺便自我批评一下,俺们的库不属"粗制"但难脱"滥造":D).
    你既然买了,就择善而用之吧.
     
  3. 回复: 严重问题!!

    怎么办呢?还得写程序给合并掉。。真是麻烦啊,什么时候出个2.0的修订版啊
     
  4. 回复: 严重问题!!

    我从买到的SWECCL2.0 中检查了一下,确实如楼主所说,有少数文件内容雷同。个人以为如果研究所用的语料库够大够有代表性,这些雷同文本所占的比率非常小,甚至可以忽略不计。不知各位认为如何?
    这些年来国内学者急起直追建成了一系列学习者语料库,改变了十年前无中国英语学习者语料库可用的局面,已经是功德无量了,有些瑕疵在所难免吧。
    顺便请教楼主,是否已经找到简单高效的合并雷同内容的方法?