我已经建立了一个1 million words的一个商业新闻语料库,打算看库里面隐喻的用法,然后把商业新闻库里面隐喻的频率和一个general reference corpus里面隐喻的频率作比较,我是想选COCA做general reference corpus,但是COCA包含了450 million words,里面的体裁文体众多,我想问一下是应该选取COCA所有的data作为general corpus,还是基于里面newspaper genre的sub-corpus作为一个general corpus? 谢谢。