邀请大家共同完成一个较全的stoplist [3月23日更新]

本文由 xujiajin2011-02-20 发表於 "语料库研究习作" 讨论区

  1. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    对,基本思路是虚词。
     
  2. 回复: 邀请大家共同完成一个较全的stoplist

    这两天一直在抓狂,同时勾上lemma和stoplist,结果总是不好,比如,结果出现五百多次的conjurer,点concordance 显示是0,然后回到文本用查找功能找也是0,但是wordlist 里就有,奇怪。好了,如果我stoplist 和lemma 分开做,应该怎样操作〉?谢谢。
     
  3. 回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    第一张是未lemmatized
     
  4. 回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    更正,第二张是未lemmatized的,注意第一张的第15行
     
  5. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    哈哈,谢谢你的发现。看来是大家用的lemma list有问题。

    我查了一下lemma list里头有
    conjurer -> conjurers,also,spelled
    所以also就被还原成conjurer了

    这一行大家找到以后,应改为:
    conjurer -> conjurers,conjuror,conjurors
     
  6. 回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    又恍然大悟,唉,只想到查文本,没想到lemma。现在已经改好了,请问,许老师,教程里的e_lemma_no_hypen 跟wordsmith里的lemma有什么区别?no_hypen 是什么讲究?
    e_lemma_no_hypen 里也有conjurer,大家都记得改改吧
    继续测试中。。。
     
  7. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    目前还没有仔细校订lemma list,lemma list里也有不少问题。我过一段时间有计划修订lemma list。至少hyphenated的词目前用lemma list还处理不好。

    这个帖子里主要讨论的是stop list。
     
  8. armstrong

    armstrong 高级会员

    回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    这样做比较清楚。
     
  9. 回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    太棒了!顶!