邀请大家共同完成一个较全的stoplist [3月23日更新]

xujiajin

管理员
Staff member
#1
一直希望能编一个相对较全的stoplist里,主要是英语中的虚词。
最近基于BNC词表做了一个,发在这里,请大家批评,并帮忙完善。

目前我是分成若干个类别来处理的,将来定稿后再合并成一个文件。
 

附件

#2
回复: 邀请大家共同完成一个较全的stoplist

谢谢许博士提供的资料。能问下AntConc中,怎样不让一个词的各种词性分别出现,而是一个词的各种词性当作一个词出现,计算频率,如colony,colonism,colonist,和colonized,book 和books等当作同一个词,计算频率。谢谢!
 

xujiajin

管理员
Staff member
#3
回复: 邀请大家共同完成一个较全的stoplist

我给的lists并不是最终版,我是希望大家帮着完善的。

你的问题可以解决,你说的基本上就是lemmatization,相关的你可以在论坛里搜一下。
具体到你的问题,你可以编制一个list
colony>colonism,colonist,colonized用lemmatization功能,就可以实现你要的结果。
 
#5
回复: 邀请大家共同完成一个较全的stoplist

一直希望能编一个相对较全的stoplist里,主要是英语中的虚词。
最近基于BNC词表做了一个,发在这里,请大家批评,并帮忙完善。

目前我是分成若干个类别来处理的,将来定稿后再合并成一个文件。
谢谢,测试中。。。
 
#6
回复: 邀请大家共同完成一个较全的stoplist

谢谢许博的分享:)
仔细看了Range及许博的functionlist ,就我个人而言,觉得有以下几个问题是很难克服的
1.数词问题,停用词表不能穷尽所有数词。
2.多词形词问题,比如second 这个词显然可以做实词及虚词。还有例如nevertheless,otherewise既可做副词也可作连词,怎么算?
3.缩写问题,虽然这个在RangeBNC中我发现相比Range29提供的停用词表已大大改善,比如在could词族加入couldn词形,not 词族加入t 与nt,能有效提高缩写形式功能词的检索,但是有缩写形式 's,比如he's coming 与Mary's book 中's 均被当作一个功能词对待,显然后者Mary's 整体上才能被算作一个功能词。那么还有其他缩写形式呢?

目前就发现以上这几个问题,希望和大家一起探讨,找到解决方法^0^
 

xujiajin

管理员
Staff member
#7
回复: 邀请大家共同完成一个较全的stoplist

谢谢许博的分享:)
仔细看了Range及许博的functionlist ,就我个人而言,觉得有以下几个问题是很难克服的
1.数词问题,停用词表不能穷尽所有数词。
2.多词形词问题,比如second 这个词显然可以做实词及虚词。还有例如nevertheless,otherewise既可做副词也可作连词,怎么算?
3.缩写问题,虽然这个在RangeBNC中我发现相比Range29提供的停用词表已大大改善,比如在could词族加入couldn词形,not 词族加入t 与nt,能有效提高缩写形式功能词的检索,但是有缩写形式 's,比如he's coming 与Mary's book 中's 均被当作一个功能词对待,显然后者Mary's 整体上才能被算作一个功能词。那么还有其他缩写形式呢?


目前就发现以上这几个问题,希望和大家一起探讨,找到解决方法^0^

谢谢你的反馈。

你说的兼类词问题,在处理生语料的情况下,不容易解决。只能研究者自己做一个取舍。

couldn't he's这种情况可以在处理文本之前加一步tokenization,就都解决了。没必要将couldn列在stop list中。
 
#9
回复: 邀请大家共同完成一个较全的stoplist

比如,people 没有进去,是什么标准?谢谢。我不是对people 有意见,只是好奇:D,我很希望有个好的stoplist 用,期待中。。。
 

xujiajin

管理员
Staff member
#10
回复: 邀请大家共同完成一个较全的stoplist

制作的标准是英语虚词。
people不是虚词,因此未收录。
 
#11
回复: 邀请大家共同完成一个较全的stoplist

我用filejoin合并了,然后用AntConc 检索 LOCNESS 里的argumentation,setting用了这个stoplist, have 还是出现了,怎么回事?
 

xujiajin

管理员
Staff member
#13
回复: 邀请大家共同完成一个较全的stoplist

我想你用了stoplist的同时还用了lemma list。
stoplist停用的词,lemmatization操作时,好像又找回来了,很有意思。
所以stoplist和lemma list看来分别操作比较好。
 
#14
顺便写几个,有些可能有别的词性

代词词性
all
another
any
both
certain
each
either
enough
few
half
him
last
least
less
little
many
moi
more
most
much
neither
next
no one
nowt
other
own
owt
plenty
same
several
some
such
suchlike
summat
that
thee
them
thine
thou
thyself
umpteen
us
what
whatever
when
which
whichever
whomever
whose
whosoever
wot
y'all
ye
each other
one another
no one
 
Last edited:

xujiajin

管理员
Staff member
#15
回复: 邀请大家共同完成一个较全的stoplist

我想你用了stoplist的同时还用了lemma list。
stoplist停用的词,lemmatization操作时,好像有找回来了,很有意思。
所以stoplist和lemma list看来分别操作比较好。
更正一下上面的说法,应该had,has,having,ve补充到stoplist里,就可以同时用stoplist和lemma list了。
 

xujiajin

管理员
Staff member
#16
回复: 顺便写几个,有些可能有别的词性

代词词性
all
another
any
both
certain
each
either
enough
few
half
him
last
least
less
little
many
moi
more
most
much
neither
next
no one
nowt
other
own
owt
plenty
same
several
some
such
suchlike
summat
that
thee
them
thine
thou
thyself
umpteen
us
what
whatever
when
which
whichever
whomever
whose
whosoever
wot
y'all
ye
each other
one another
no one
谢谢补充,我的想法是:一般有实词用法的不收,短语不收。
 

xujiajin

管理员
Staff member
#17
回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

stoplist_aux_verb.txt中,补充了
has
had
having
ve
does
did
done
doing
 
#18
回复: 邀请大家共同完成一个较全的stoplist

更正一下上面的说法,应该had,has,having,ve补充到stoplist里,就可以同时用stoplist和lemma list了。
哦,恍然大悟。谢谢。
继续前面的问题,我的意思是,虚词出现频率高于多少会收入stoplist,谢谢。
 
顶部