请教汉语表达自建语料库来源的选择

请问大家一下,我想自建一个汉语“身体”词汇表达的语料库。初步想从一些电子期刊上下载文本进行语料库建立。希望选择的语料库来源能反映汉语当前的使用情况。有几个问题请教大家:
1.大家觉得什么来源比较好啊?我想到用《读者》,还有个光明日报出版的《书摘》。我不知道这两个哪一个更加合适呢?它们的体裁都挺广的。
2.《读者》之类的杂志里面许多翻译的文章,是不是用来分析汉语用法不太合适啊?我是不是应该只选择里面的国内作者写的文章?
3.自建语料库大概多少字比较合理?另外,大概多少个“身体”词汇表达能具有科学性啊?

谢谢大家了,我没有接触过语料库语言学,问的问题可能比较肤浅。呵呵。谢谢啊
 
回复: 请教汉语表达自建语料库来源的选择

我想对具体关键词出现频率什么进行统计,如果直接用已建的语料库,我没法控制总量和构成,而且一般的语料库都非常之大,很难完全分析。虽然我自己建的过程也觉得很晕乎。
 
Back
顶部