求助:如何选择合适的general reference corpus

我已经建立了一个1 million words的一个商业新闻语料库,打算看库里面隐喻的用法,然后把商业新闻库里面隐喻的频率和一个general reference corpus里面隐喻的频率作比较,我是想选COCA做general reference corpus,但是COCA包含了450 million words,里面的体裁文体众多,我想问一下是应该选取COCA所有的data作为general corpus,还是基于里面newspaper genre的sub-corpus作为一个general corpus? 谢谢。
 

oscar3

高级会员
回复: 求助:如何选择合适的general reference corpus

我已经建立了一个1 million words的一个商业新闻语料库,打算看库里面隐喻的用法,然后把商业新闻库里面隐喻的频率和一个general reference corpus里面隐喻的频率作比较,我是想选COCA做general reference corpus,但是COCA包含了450 million words,里面的体裁文体众多,我想问一下是应该选取COCA所有的data作为general corpus,还是基于里面newspaper genre的sub-corpus作为一个general corpus? 谢谢。
用语料库来研究隐喻首先会遇到一个隐喻识别的问题。人工干预不可避免,这么大的语料库怎么操作的确不是一个小问题。如果研究的目的是想要比较专用语料库和通用语料库中隐喻使用上的差异,你的选择是对的。
 
顶部