诚恳请求帮助

本文由 apple_edu2011-11-06 发表於 "语料库研究习作" 讨论区

  1. 各位老师好,作为初学者,我纠结了很久,终于鼓起勇气将自己的问题贴出来,希望得到老师们的帮助和指点。

    研究英语报章(语料来源主要是China Daily,我已经收集了China Daily2011年7、8、9三个月的文本,分为6个主题,一共972,796 tokens和26,955 types)的高频动词。之前我理解的高频动词就是China daily中按词频由大及小排列最靠前的前五十个,或者前二十个。现在我想定义为与COCA的新闻语料库中动词词表相比,出现频率异常高,或者相比较而言过度使用的动词。我现在的第一步是要将这些动词找出来。自建的微型语料库定义为MCCD。
    我的方法如下:
    1. 产生MCCD的动词词表。
    2. 从网上(http://www.wordfrequency.info/)下载了Word lists + genre frequency,筛选出新闻类别的动词词表,截图见附件coca.jpg。
    3. 生成主题词表。(观察文本是MCCD生文本,因为没有COCA新闻语料,我在AntConc的tool preferences中的reference corpus options中选择第二个项use word list)。
    我的问题如下:
    对于步骤1:利用MCCD生文本得到wordlist(使用了stoplist词表),在excel中人工筛选出动词词表a,截图见附件mccd_a,也可以打开赋码后的文本,利用Cluster选项卡(从该论坛看到的),得到动词词表b,截图见附件mccd_b。问题是:我该使用哪一个呢?词表b如何得到原形词构成的词表?
    对于步骤2:网上下载的新闻类词表为什么没有期望的say,report等词呢?
    对于步骤3:通过生成主题词表的方法来得到China Daily中频率异常高的词可行吗?感觉不靠谱,想用书上(《语料库应用教程》P94)的Chi-Square Calculator,直接挑选出最后一列标记为+号的动词,可是最左边一列的动词选用哪个呢?它们在COCA新闻语料(相当于corpus 2)中的频率怎么得到呢?

    将问题写完,我有点晕了,希望各位老师在有空的时候能够指点迷津。非常感谢!
     

    附件文件:

  2. 回复: 诚恳请求帮助

    谢谢你分享自己的研究。

    步骤1. 没看懂这一步。你要得到MCCD的所有动词的lemma词表对吧?那应该把所有动词提取出来,lemmatize, 然后再计算频率。当然你人工做了也行,用表A就可以吧。

    步骤2. 新闻语体也分好几类的,如报道、社论、评论什么的,直觉上也不是所有类型都是用很多say/report吧。所以要搞清楚对比的语料库是否语体一致。

    步骤3. 你下的COCA词表里不都是频率吗?

    个人愚见,仅供参考。

    如果不介意的话把你赋码后的MCCD样本传上来大家研究一下。
     
  3. 回复: 诚恳请求帮助

    非常感谢楼上老师的回复。
    对于步骤1,我是从MCCD的wordlist中人工挑选出动词的,觉得主观性比较大。
    对于步骤2,下载的词表其中有一个项是newspaper(我用的就是这一项),后面还有具体分类的,就像您说的报道、社评等。见截图coca1。
    对于步骤3,下载的coca词表的确都是频率。我不知道怎样才能得到想要的动词词表?

    我是用treetagger赋码的,截图见sample。
     

    附件文件:

    Last edited: 2011-11-06
  4. 回复: 诚恳请求帮助

    你的问题是无法提取数据是吧?

    1. 提取动词lemma的步骤

    用正则表达式找到所有动词 ---> 用《语料库应用教程》光盘中的Lemmatizer词形还原---> 用antconc统计还原后的词频

    2. coca中新闻语体中的动词词频

    很多方法可以提取,google一下excel的分类、排序的使用方法。

    3. 我用perl写了两个脚本,一个是用正则表达式找到所有动词,一个是提取coca中的动词,你可以看一下。

    当然有很多方法可以实现你的要求,你可以再找找看适合你的。
     

    附件文件:

  5. 回复: 诚恳请求帮助

    非常感谢qhdjason老师的耐心和帮助。
    我刚才下载了您上传的附件,准备按照您说的方法做一下。至于coca中的新闻语体动词词频已经利用excel的筛选提取出来了。等到有问题再贴出来。
    再次感谢您!
     
    Last edited: 2011-11-06
  6. 回复: 诚恳请求帮助

    可能我没有表达清楚,第一个帖子写得有点乱,有点多,我自己有点晕了。我的困惑是:怎

    么通过自建的MCCD得出的动词词表a和下载的COCA新闻类动词词频表b得到自己想要的CCD

    中高频动词词表c(与COCA新闻类动词词频表比较频率异常高)?前两个词表a和b在

    qhdjason老师的帮助下已经完成。我想要词表c,步骤3中我说出了自己的想法,但也写出了

    自己遇到的问题。求助解决办法。非常感谢!
     
  7. 回复: 诚恳请求帮助

    如果你已经得到两个词表,按《教程》94页那样把两个词表合并(当然不能手动了,想想办法),然后把卡方值按降序排列,就得到MCCD中使用过于频繁的词了。

    如果不介意得话把你的词表传上来看看。:)
     
    Last edited: 2011-11-06
  8. 回复: 诚恳请求帮助

    还是首先感谢老师的回复。

    两个词表见附件。合并的两个词表大小究竟选多少呢?

    按照《教程》P94页所说似乎可以,但我怎么得到COCA的新闻语料库的总字数?

    关于词表合并,我看到论坛上有介绍的。(http://www.corpus4u.org/forum/showthread.php?t=7370)
     

    附件文件: