严重问题!!

最近在用SWECLL2.0的WECLL的预料做检索,发现了很多文件的内容是一模一样的,不知道是我买的光盘的原因,还是这个语料库本身的错误?请问有人跟我一样么?举几个例子
WARG0475和WARG0865完全重复
WARG4139和WARG3749完全重复
WARG0008和WARG0398完全重复
。。。。。。。。。。。
好像还有很多。。。。
这样子检索结果数据怎么可靠啊
 
回复: 严重问题!!

最近在用SWECLL2.0的WECLL的预料做检索,发现了很多文件的内容是一模一样的,不知道是我买的光盘的原因,还是这个语料库本身的错误?请问有人跟我一样么?举几个例子
WARG0475和WARG0865完全重复
WARG4139和WARG3749完全重复
WARG0008和WARG0398完全重复
。。。。。。。。。。。
好像还有很多。。。。
这样子检索结果数据怎么可靠啊

这很正常.如果没有"严重问题"那问题可就严重了.戏言,但国内此类工作,急功近利者为多,粗制在所难免了(顺便自我批评一下,俺们的库不属"粗制"但难脱"滥造":D).
你既然买了,就择善而用之吧.
 
回复: 严重问题!!

怎么办呢?还得写程序给合并掉。。真是麻烦啊,什么时候出个2.0的修订版啊
这很正常.如果没有"严重问题"那问题可就严重了.戏言,但国内此类工作,急功近利者为多,粗制在所难免了(顺便自我批评一下,俺们的库不属"粗制"但难脱"滥造":D).
你既然买了,就择善而用之吧.
 
回复: 严重问题!!

我从买到的SWECCL2.0 中检查了一下,确实如楼主所说,有少数文件内容雷同。个人以为如果研究所用的语料库够大够有代表性,这些雷同文本所占的比率非常小,甚至可以忽略不计。不知各位认为如何?
这些年来国内学者急起直追建成了一系列学习者语料库,改变了十年前无中国英语学习者语料库可用的局面,已经是功德无量了,有些瑕疵在所难免吧。
顺便请教楼主,是否已经找到简单高效的合并雷同内容的方法?
 
Back
顶部