如何使用语料库进行英汉连接语对比研究

我最近要写英汉逻辑连接语的对比研究,是篇硕士论文,觉得需要搜集大量的语料。人工处理起来感觉会费时费力,所以希望能通过语料库。但我对语料库几乎一无所知。我该如何着手。需要什么样的工具。有没有参考书或资料指点一二。
 
回复: 如何使用语料库进行英汉连接语对比研究

Then you'll need to used comparable corpora of English and Chinese. The Lancaster Corpus of Mandarin Chinese LCMC (which is freely available from the Oxford Text Archive) and the British English FLOB / the American English FROWN are ideal for your purpose.
 
回复: 如何使用语料库进行英汉连接语对比研究

嗯。谢谢老师推荐的这两个语料库,我会好好看一下的。不过我还想问一下有没有英汉翻译的语料库,这样的语料可能更适合对比研究。
 
回复: 如何使用语料库进行英汉连接语对比研究

老师,谢谢您推荐的几个语料库。我开始用起来了。只是我有些地方不懂。仍需请教:

首先是关于标注的问题。在英文语料库中连词和副词是用什么标注的?我看到有CS,CC,RR,RT等。有什么区别呢?

然后是query report的问题。其中frequency和raw frequency一样吗?代表什么?能说明什么问题?和Frequency per 10K words有什么差别?

另外,您推荐的三个语料库我目前能使用的是LCMC和Babel的平行语料库,还有一个我不知道怎么能进去。
 
Re: 回复: 如何使用语料库进行英汉连接语对比研究

See the following link for the part of speech tagset for the English text in the Babel corpus:

http://ucrel.lancs.ac.uk/claws7tags.html

"Raw frequency" in the LCMC query report is the same as "Frequency" in Babel, both referring to the actual number of occurrences in the corpus. "Frequency per 10K words" in the LCMC report refers to the "normalized frequency" in each 10,000 words so that different genres can be be compared with each (as different genres are of varying sizes).


老师,谢谢您推荐的几个语料库。我开始用起来了。只是我有些地方不懂。仍需请教:

首先是关于标注的问题。在英文语料库中连词和副词是用什么标注的?我看到有CS,CC,RR,RT等。有什么区别呢?

然后是query report的问题。其中frequency和raw frequency一样吗?代表什么?能说明什么问题?和Frequency per 10K words有什么差别?

另外,您推荐的三个语料库我目前能使用的是LCMC和Babel的平行语料库,还有一个我不知道怎么能进去。
 
Back
顶部