诚恳请求帮助

apple_edu · 2011-11-06

各位老师好，作为初学者，我纠结了很久，终于鼓起勇气将自己的问题贴出来，希望得到老师们的帮助和指点。

研究英语报章（语料来源主要是China Daily，我已经收集了China Daily2011年7、8、9三个月的文本，分为6个主题，一共972,796 tokens和26,955 types）的高频动词。之前我理解的高频动词就是China daily中按词频由大及小排列最靠前的前五十个，或者前二十个。现在我想定义为与COCA的新闻语料库中动词词表相比，出现频率异常高，或者相比较而言过度使用的动词。我现在的第一步是要将这些动词找出来。自建的微型语料库定义为MCCD。
我的方法如下：
1. 产生MCCD的动词词表。
2. 从网上（http://www.wordfrequency.info/）下载了 Word lists + genre frequency，筛选出新闻类别的动词词表，截图见附件coca.jpg。
3. 生成主题词表。（观察文本是MCCD生文本，因为没有COCA新闻语料，我在AntConc的tool preferences中的reference corpus options中选择第二个项use word list）。
我的问题如下：
对于步骤1：利用MCCD生文本得到wordlist（使用了stoplist词表），在excel中人工筛选出动词词表a，截图见附件mccd_a，也可以打开赋码后的文本，利用Cluster选项卡（从该论坛看到的），得到动词词表b，截图见附件mccd_b。问题是：我该使用哪一个呢？词表b如何得到原形词构成的词表？
对于步骤2：网上下载的新闻类词表为什么没有期望的say，report等词呢？
对于步骤3：通过生成主题词表的方法来得到China Daily中频率异常高的词可行吗？感觉不靠谱，想用书上（《语料库应用教程》P94）的Chi-Square Calculator，直接挑选出最后一列标记为+号的动词，可是最左边一列的动词选用哪个呢？它们在COCA新闻语料（相当于corpus 2）中的频率怎么得到呢？

将问题写完，我有点晕了，希望各位老师在有空的时候能够指点迷津。非常感谢！

qhdjason · 2011-11-06

回复: 诚恳请求帮助

谢谢你分享自己的研究。

步骤1. 没看懂这一步。你要得到MCCD的所有动词的lemma词表对吧？那应该把所有动词提取出来，lemmatize, 然后再计算频率。当然你人工做了也行，用表A就可以吧。

步骤2. 新闻语体也分好几类的，如报道、社论、评论什么的，直觉上也不是所有类型都是用很多say/report吧。所以要搞清楚对比的语料库是否语体一致。

步骤3. 你下的COCA词表里不都是频率吗？

个人愚见，仅供参考。

如果不介意的话把你赋码后的MCCD样本传上来大家研究一下。

apple_edu · 2011-11-06

回复: 诚恳请求帮助

非常感谢楼上老师的回复。
对于步骤1，我是从MCCD的wordlist中人工挑选出动词的，觉得主观性比较大。
对于步骤2，下载的词表其中有一个项是newspaper（我用的就是这一项），后面还有具体分类的，就像您说的报道、社评等。见截图coca1。
对于步骤3，下载的coca词表的确都是频率。我不知道怎样才能得到想要的动词词表？

我是用treetagger赋码的，截图见sample。

qhdjason · 2011-11-06

回复: 诚恳请求帮助

你的问题是无法提取数据是吧？

1. 提取动词lemma的步骤

用正则表达式找到所有动词 ---> 用《语料库应用教程》光盘中的Lemmatizer词形还原---> 用antconc统计还原后的词频

2. coca中新闻语体中的动词词频

很多方法可以提取，google一下excel的分类、排序的使用方法。

3. 我用perl写了两个脚本，一个是用正则表达式找到所有动词，一个是提取coca中的动词，你可以看一下。

当然有很多方法可以实现你的要求，你可以再找找看适合你的。

apple_edu · 2011-11-06

回复: 诚恳请求帮助

非常感谢qhdjason老师的耐心和帮助。
我刚才下载了您上传的附件，准备按照您说的方法做一下。至于coca中的新闻语体动词词频已经利用excel的筛选提取出来了。等到有问题再贴出来。
再次感谢您！

apple_edu · 2011-11-06

回复: 诚恳请求帮助

可能我没有表达清楚，第一个帖子写得有点乱，有点多，我自己有点晕了。我的困惑是：怎

么通过自建的MCCD得出的动词词表a和下载的COCA新闻类动词词频表b得到自己想要的CCD

中高频动词词表c（与COCA新闻类动词词频表比较频率异常高）？前两个词表a和b在

qhdjason老师的帮助下已经完成。我想要词表c，步骤3中我说出了自己的想法，但也写出了

自己遇到的问题。求助解决办法。非常感谢！

qhdjason · 2011-11-06

回复: 诚恳请求帮助

如果你已经得到两个词表，按《教程》94页那样把两个词表合并（当然不能手动了，想想办法），然后把卡方值按降序排列，就得到MCCD中使用过于频繁的词了。

如果不介意得话把你的词表传上来看看。

apple_edu · 2011-11-06

回复: 诚恳请求帮助

还是首先感谢老师的回复。

两个词表见附件。合并的两个词表大小究竟选多少呢？

按照《教程》P94页所说似乎可以，但我怎么得到COCA的新闻语料库的总字数？

关于词表合并，我看到论坛上有介绍的。（http://www.corpus4u.org/forum/showthread.php?t=7370）