关于自建语料库的求助和求合作!

seanxpq

corpus explorer
#1
各位专家和C友:
由于写论文缺乏参照语料库,我想用美国大学生作文自己建个本族语者的learner corpus(或叫developmental corpus。我打算使用外研社出版的WECCL作为研究对象,因为里面的作文全部是英语专业的课堂内外的作文,不是考试作文,个人觉得比较适合做毕业论文。在缺乏参照语料库的情况下,在国内硕士论文中也曾见到自建参照语料库的做法。但我仍然有一些忧虑,
1)不知道自建语料库是否具有其他知名语料库那样的效力或权威?是否有说服力?
2)如果可行,那么建库材料应该包含哪些体裁和类别?
3)或只是与WECCL的体裁和类别相近即可?
4)建库规模为100万字是否足够?或太大?
5)建库时收录的美国大学生作文应该通篇收入还是只收入片段?
请大家不吝赐教!如果有朋友感兴趣可以一起合作,请和我联系!谢谢!http://blog.163.com/seanxpq/
QQ:553575272
 
Last edited:

wangdw

初级会员
#4
回复: 关于自建语料库的求助和求合作!

去年的贴子了,很久远了.

自建语料库是个很好的想法.根据自己的需要,在某些方面可以做得比大型语料库更为细致精道.

不知你的语料库现在做到何种程度了.我的信箱mybb2008@sohu.com
 

xujiajin

管理员
Staff member
#5
回复: 关于自建语料库的求助和求合作!

Serious corpus building is going to be very time-consuming. It is not simply the accumulation of electronic texts. You've got to consider seriously the size (overall size and individual sample size), representativeness (text styles, registers, time range etc); Annnnnnnnnd, it requires proofreading work, cos e-texts acquired on the web are not always reliable.
 
顶部