RANGE 使用问题,以TEM4和8为底表,为什么出错?

各位老师
我按《语料库应用教程》P137页试了一下,把baseword1和baseword2换成了论坛里许老师等做的TEM4 和8的底表,保留baseword3,然后随便选了一篇weccl里的作文,process, 结果如下:


ERROR The word HAS at 6479 has already been used in basewrd1

ERROR The headword POPULAR at 10432 has already been used in basewrd1

ERROR The word TIMES at 13644 has already been used in basewrd1

Reading: C:\Documents and Settings\Think\桌面\语料库应用教程\TOOLS\Range_GSL_AWL\BASEWRD3.txt

Number of BASEWRD1.txt types: 29052 Number of BASEWRD1.txt families: 6333
Number of BASEWRD2.txt types: 14782 Number of BASEWRD2.txt families: 4010
Number of BASEWRD3.txt types: 3107 Number of BASEWRD3.txt families: 570
time taken was : 1 Seconds


...Finished

请教是怎么回事?
谢谢
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

我说过,我提供的词表需要大家帮忙进一步测试验证。

主要可能存在的问题就是有些词在两个词表里出现,修改办法就是找到这个词has或者popular,根据自己的判断,在某一个词表中将其删除。

这样的验证需要利用不同的语料反复试,我至少已经用十几组语料试过了,但仍然不够,所以需要大家帮忙。


**********
http://www.corpus4u.org/showthread.php?t=5791
许家金、王正胜,2008,高等学校英语专业英语教学大纲四、八级词汇表Range词族表。
请大家帮忙测试。

http://www.corpus4u.org/showthread.php?t=6060
TEM4 TEM8
很久以前整理的,一般教学之用没有问题。如要做研究之用,请核对最新大纲。
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

谢谢许老师
我记得的,所以才把问题贴上来,如果是那样的话,我今天把重复的核对一下,是否改到不出现这种情况后就为可以?另外,方便在论坛上update 一下已经修改了的版本,然后大家可以一点一点的做上去吗?谢谢。
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

对的。谢谢你帮忙测试核对。
如果你能把修改后的版本上传上来,那最好了。

上传时请帮忙注明一下修改日期以及哪些词被从TEM4或TEM8去除了。
谢谢。
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

我觉得要想排除TEM-4和TEM-8重合词可以这样操作。第一步,把两个词表制分别作成BASEWRD1.txt和BASEWRD2.txt;第二步,把两个制作好的基础词表以及RANGE 主程序复制到同一个文件夹下面;第三步,打开RANGE,Number of Baseword files,填写为1, 然后打开TEM8_Range_20100428.txt这个文件,当然不要忘记选择保存文件的名称,process files,这样会生成一个文件,这个文件中会告诉我们有哪些单词TEM-4和TEM-8两个词表是重合的,同时,也会告诉我们,那些单词是是TEM-8词表独有的。第四步,对独有的单词进行编辑,只需找出哪些词属于一个词族,找出headword就行了,这个要靠人工,需要花点功夫,但是很简单。
这是我做硕士论文时候,自己制作基础词表时候排除重合词用的方法。欢迎大家讨论。
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

我今天也做了一下,因为WECCLE2.0 是4级的,所以我没用8级词表,留了BASEWORD3(AWL)和TEM4 两个词表。
步骤:
1。把TEM4 底表贴到exel文档,把词族那列删掉,剩下的headword排序,待用
2。同理把AWL处理,待用
3。把上述两个文档内容合并,拷成tex文本,命名
4。用Antcon的wordlist功能提取
5。出现两种frequency,2次的和1次的,两次的就是重合的
6。另我惊讶的是,重合的有526个,因为AWL共570个,所以从它那里去掉不实际,所以我决定从TEM4 底表去掉(正在去掉ing...,很tedious,因为要打开原始的TEM4底表,把family 一同去掉,有没有聪明人可以告诉我快一点的方法呢?)
7。请指教,谢谢。
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

忘记了小tips
在步骤1和2后,要先用文本整理器里的全部替换功能,把 0 替换成空格
 
回复: RANGE 使用问题,以TEM4和8为底表,为什么出错?

TEM4 baseword 已做好,我自己测试了一下,好像没问题的样子,请大家看看,哦,不,我找不到贴附件的地方,help...
o 找到了
 

附件

  • BASEWRD1.txt
    319.6 KB · 浏览: 72
  • 从原TEM4删掉的词.txt
    4.7 KB · 浏览: 24
Back
顶部