求教: 关于语料库抽样问题

各位高手,我在做一个200万字文学的语料库,在选择文章题材方面,有话剧和小说,话剧一般是有几幕的,数量少,小说一般都有三十左右章节,还有一篇小说没有章节,就整一篇文章,每个章节的大小会有一定的区别,我想抽取约10万字的语料作为研究对象,那我在抽样的时候是否能够采用分层抽样的方法来实现语料的代表性呢?谢谢!:)
 

laohong

管理员
Staff member
回复: 求教: 关于语料库抽样问题

不清楚你的语料库是来干啥的,也不清楚你要抽样做什么,很难回答你的问题。建语料库通常跟写文章一样,不能盲目的。要是把下边的问题及其子问题依次想清楚了,也就知道问题的答案了。

Research Objectives/Questions
Rationale/Framework
Methdology
Data Collection
Data Analysis
Findings/Results
Discussion
Conclusion
...
 
回复: 求教: 关于语料库抽样问题

我建的是一个小型的文学语料库,收录的20世纪以来的书面文学作品,考察动态助词"着"的英译以及汉语的时体问题,现在语料库约250万字,想从中抽取10万字,语料库包括三本中文小说及其英文译文,和4本英文小说及其汉语译文,研究以汉语为基础的,英语作为目标语,因为每本小说里面的章节数不一样,有的60章,有的14章,每一章节里的字数也不一样,多的1万多点,少的才1000,想请问怎样抽样比较合理?谢谢:)
 
顶部