邀请大家共同完成一个较全的stoplist [3月23日更新]

回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

对,基本思路是虚词。
 
回复: 邀请大家共同完成一个较全的stoplist

我想你用了stoplist的同时还用了lemma list。
stoplist停用的词,lemmatization操作时,好像有找回来了,很有意思。
所以stoplist和lemma list看来分别操作比较好。
这两天一直在抓狂,同时勾上lemma和stoplist,结果总是不好,比如,结果出现五百多次的conjurer,点concordance 显示是0,然后回到文本用查找功能找也是0,但是wordlist 里就有,奇怪。好了,如果我stoplist 和lemma 分开做,应该怎样操作〉?谢谢。
 
回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

更正,第二张是未lemmatized的,注意第一张的第15行
 
回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

更正,第二张是未lemmatized的,注意第一张的第15行

哈哈,谢谢你的发现。看来是大家用的lemma list有问题。

我查了一下lemma list里头有
conjurer -> conjurers,also,spelled
所以also就被还原成conjurer了

这一行大家找到以后,应改为:
conjurer -> conjurers,conjuror,conjurors
 
回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

哈哈,谢谢你的发现。看来是大家用的lemma list有问题。

我查了一下lemma list里头有
conjurer -> conjurers,also,spelled
所以also就被还原成conjurer了

这一行大家找到以后,应改为:
conjurer -> conjurers,conjuror,conjurors
又恍然大悟,唉,只想到查文本,没想到lemma。现在已经改好了,请问,许老师,教程里的e_lemma_no_hypen 跟wordsmith里的lemma有什么区别?no_hypen 是什么讲究?
e_lemma_no_hypen 里也有conjurer,大家都记得改改吧
继续测试中。。。
 
回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

目前还没有仔细校订lemma list,lemma list里也有不少问题。我过一段时间有计划修订lemma list。至少hyphenated的词目前用lemma list还处理不好。

这个帖子里主要讨论的是stop list。
 
Back
顶部