邀请大家共同完成一个较全的stoplist [3月23日更新]

本文由 xujiajin2011-02-20 发表於 "语料库研究习作" 讨论区

  1. xujiajin

    xujiajin 管理员 Staff Member

    一直希望能编一个相对较全的stoplist里,主要是英语中的虚词。
    最近基于BNC词表做了一个,发在这里,请大家批评,并帮忙完善。

    目前我是分成若干个类别来处理的,将来定稿后再合并成一个文件。
     

    附件文件:

  2. 回复: 邀请大家共同完成一个较全的stoplist

    谢谢许博士提供的资料。能问下AntConc中,怎样不让一个词的各种词性分别出现,而是一个词的各种词性当作一个词出现,计算频率,如colony,colonism,colonist,和colonized,book 和books等当作同一个词,计算频率。谢谢!
     
  3. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist

    我给的lists并不是最终版,我是希望大家帮着完善的。

    你的问题可以解决,你说的基本上就是lemmatization,相关的你可以在论坛里搜一下。
    具体到你的问题,你可以编制一个list
    colony>colonism,colonist,colonized用lemmatization功能,就可以实现你要的结果。
     
  4. 回复: 邀请大家共同完成一个较全的stoplist

    谢谢许博士的解答,找到了一个lemma list.
     
  5. 回复: 邀请大家共同完成一个较全的stoplist

    谢谢,测试中。。。
     
  6. 回复: 邀请大家共同完成一个较全的stoplist

    谢谢许博的分享:)
    仔细看了Range及许博的functionlist ,就我个人而言,觉得有以下几个问题是很难克服的
    1.数词问题,停用词表不能穷尽所有数词。
    2.多词形词问题,比如second 这个词显然可以做实词及虚词。还有例如nevertheless,otherewise既可做副词也可作连词,怎么算?
    3.缩写问题,虽然这个在RangeBNC中我发现相比Range29提供的停用词表已大大改善,比如在could词族加入couldn词形,not 词族加入t 与nt,能有效提高缩写形式功能词的检索,但是有缩写形式 's,比如he's coming 与Mary's book 中's 均被当作一个功能词对待,显然后者Mary's 整体上才能被算作一个功能词。那么还有其他缩写形式呢?

    目前就发现以上这几个问题,希望和大家一起探讨,找到解决方法^0^
     
  7. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist


    谢谢你的反馈。

    你说的兼类词问题,在处理生语料的情况下,不容易解决。只能研究者自己做一个取舍。

    couldn't he's这种情况可以在处理文本之前加一步tokenization,就都解决了。没必要将couldn列在stop list中。
     
  8. 回复: 邀请大家共同完成一个较全的stoplist

    请问制作的criteria 是。。?谢谢
     
  9. 回复: 邀请大家共同完成一个较全的stoplist

    比如,people 没有进去,是什么标准?谢谢。我不是对people 有意见,只是好奇:D,我很希望有个好的stoplist 用,期待中。。。
     
  10. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist

    制作的标准是英语虚词。
    people不是虚词,因此未收录。
     
  11. 回复: 邀请大家共同完成一个较全的stoplist

    我用filejoin合并了,然后用AntConc 检索 LOCNESS 里的argumentation,setting用了这个stoplist, have 还是出现了,怎么回事?
     
  12. 回复: 邀请大家共同完成一个较全的stoplist

    我的技术糟糕,不会传截图,对不起
     
  13. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist

    我想你用了stoplist的同时还用了lemma list。
    stoplist停用的词,lemmatization操作时,好像又找回来了,很有意思。
    所以stoplist和lemma list看来分别操作比较好。
     
  14. 顺便写几个,有些可能有别的词性

    代词词性
    all
    another
    any
    both
    certain
    each
    either
    enough
    few
    half
    him
    last
    least
    less
    little
    many
    moi
    more
    most
    much
    neither
    next
    no one
    nowt
    other
    own
    owt
    plenty
    same
    several
    some
    such
    suchlike
    summat
    that
    thee
    them
    thine
    thou
    thyself
    umpteen
    us
    what
    whatever
    when
    which
    whichever
    whomever
    whose
    whosoever
    wot
    y'all
    ye
    each other
    one another
    no one
     
    Last edited: 2011-03-23
  15. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist

    更正一下上面的说法,应该had,has,having,ve补充到stoplist里,就可以同时用stoplist和lemma list了。
     
  16. xujiajin

    xujiajin 管理员 Staff Member

    回复: 顺便写几个,有些可能有别的词性

    谢谢补充,我的想法是:一般有实词用法的不收,短语不收。
     
  17. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist [3月23日更新]

    stoplist_aux_verb.txt中,补充了
    has
    had
    having
    ve
    does
    did
    done
    doing
     
  18. 回复: 邀请大家共同完成一个较全的stoplist

    哦,恍然大悟。谢谢。
    继续前面的问题,我的意思是,虚词出现频率高于多少会收入stoplist,谢谢。
     
  19. xujiajin

    xujiajin 管理员 Staff Member

    回复: 邀请大家共同完成一个较全的stoplist

    这个跟频率高低无关。
     
  20. 回复: 邀请大家共同完成一个较全的stoplist

    那么这些词到底为什么会被收入呢?只要它们词性是虚词?谢谢。