诚恳请求帮助

各位老师好,作为初学者,我纠结了很久,终于鼓起勇气将自己的问题贴出来,希望得到老师们的帮助和指点。

研究英语报章(语料来源主要是China Daily,我已经收集了China Daily2011年7、8、9三个月的文本,分为6个主题,一共972,796 tokens和26,955 types)的高频动词。之前我理解的高频动词就是China daily中按词频由大及小排列最靠前的前五十个,或者前二十个。现在我想定义为与COCA的新闻语料库中动词词表相比,出现频率异常高,或者相比较而言过度使用的动词。我现在的第一步是要将这些动词找出来。自建的微型语料库定义为MCCD。
我的方法如下:
1. 产生MCCD的动词词表。
2. 从网上(http://www.wordfrequency.info/)下载了Word lists + genre frequency,筛选出新闻类别的动词词表,截图见附件coca.jpg。
3. 生成主题词表。(观察文本是MCCD生文本,因为没有COCA新闻语料,我在AntConc的tool preferences中的reference corpus options中选择第二个项use word list)。
我的问题如下:
对于步骤1:利用MCCD生文本得到wordlist(使用了stoplist词表),在excel中人工筛选出动词词表a,截图见附件mccd_a,也可以打开赋码后的文本,利用Cluster选项卡(从该论坛看到的),得到动词词表b,截图见附件mccd_b。问题是:我该使用哪一个呢?词表b如何得到原形词构成的词表?
对于步骤2:网上下载的新闻类词表为什么没有期望的say,report等词呢?
对于步骤3:通过生成主题词表的方法来得到China Daily中频率异常高的词可行吗?感觉不靠谱,想用书上(《语料库应用教程》P94)的Chi-Square Calculator,直接挑选出最后一列标记为+号的动词,可是最左边一列的动词选用哪个呢?它们在COCA新闻语料(相当于corpus 2)中的频率怎么得到呢?

将问题写完,我有点晕了,希望各位老师在有空的时候能够指点迷津。非常感谢!
 

附件

  • coca.jpg
    coca.jpg
    38.1 KB · 浏览: 90
  • mccd_a.jpg
    mccd_a.jpg
    33.1 KB · 浏览: 2
  • mccd_b.jpg
    mccd_b.jpg
    12.3 KB · 浏览: 88
回复: 诚恳请求帮助

谢谢你分享自己的研究。

步骤1. 没看懂这一步。你要得到MCCD的所有动词的lemma词表对吧?那应该把所有动词提取出来,lemmatize, 然后再计算频率。当然你人工做了也行,用表A就可以吧。

步骤2. 新闻语体也分好几类的,如报道、社论、评论什么的,直觉上也不是所有类型都是用很多say/report吧。所以要搞清楚对比的语料库是否语体一致。

步骤3. 你下的COCA词表里不都是频率吗?

个人愚见,仅供参考。

如果不介意的话把你赋码后的MCCD样本传上来大家研究一下。
 
回复: 诚恳请求帮助

非常感谢楼上老师的回复。
对于步骤1,我是从MCCD的wordlist中人工挑选出动词的,觉得主观性比较大。
对于步骤2,下载的词表其中有一个项是newspaper(我用的就是这一项),后面还有具体分类的,就像您说的报道、社评等。见截图coca1。
对于步骤3,下载的coca词表的确都是频率。我不知道怎样才能得到想要的动词词表?

我是用treetagger赋码的,截图见sample。
 

附件

  • coca1.jpg
    coca1.jpg
    85.9 KB · 浏览: 1
  • sample.jpg
    sample.jpg
    65.8 KB · 浏览: 2
Last edited:
回复: 诚恳请求帮助

你的问题是无法提取数据是吧?

1. 提取动词lemma的步骤

用正则表达式找到所有动词 ---> 用《语料库应用教程》光盘中的Lemmatizer词形还原---> 用antconc统计还原后的词频

2. coca中新闻语体中的动词词频

很多方法可以提取,google一下excel的分类、排序的使用方法。

3. 我用perl写了两个脚本,一个是用正则表达式找到所有动词,一个是提取coca中的动词,你可以看一下。

当然有很多方法可以实现你的要求,你可以再找找看适合你的。
 

附件

  • perl_script.zip
    641 bytes · 浏览: 14
  • genre_news_output.xls
    35.5 KB · 浏览: 13
回复: 诚恳请求帮助

非常感谢qhdjason老师的耐心和帮助。
我刚才下载了您上传的附件,准备按照您说的方法做一下。至于coca中的新闻语体动词词频已经利用excel的筛选提取出来了。等到有问题再贴出来。
再次感谢您!
 
Last edited:
回复: 诚恳请求帮助

可能我没有表达清楚,第一个帖子写得有点乱,有点多,我自己有点晕了。我的困惑是:怎

么通过自建的MCCD得出的动词词表a和下载的COCA新闻类动词词频表b得到自己想要的CCD

中高频动词词表c(与COCA新闻类动词词频表比较频率异常高)?前两个词表a和b在

qhdjason老师的帮助下已经完成。我想要词表c,步骤3中我说出了自己的想法,但也写出了

自己遇到的问题。求助解决办法。非常感谢!
 
回复: 诚恳请求帮助

如果你已经得到两个词表,按《教程》94页那样把两个词表合并(当然不能手动了,想想办法),然后把卡方值按降序排列,就得到MCCD中使用过于频繁的词了。

如果不介意得话把你的词表传上来看看。:)
 
Last edited:
回复: 诚恳请求帮助

还是首先感谢老师的回复。

两个词表见附件。合并的两个词表大小究竟选多少呢?

按照《教程》P94页所说似乎可以,但我怎么得到COCA的新闻语料库的总字数?

关于词表合并,我看到论坛上有介绍的。(http://www.corpus4u.org/forum/showthread.php?t=7370)
 

附件

  • wordlist.rar
    886.1 KB · 浏览: 73
Back
顶部