菜鸟的问题:SECCL里面的task3总共有多少词?

文秋芳的这本书上,列出了每年各个部分即task1 task2 task3的形符数,这个形符数到底是指的什么呢?是单词words还是字符数?我所作研究需要他task3里面的16万左右的单词,如果获取呢?跪求各位高手。
 
回复: 菜鸟的问题:SECCL里面的task3总共有多少词?

问题一:
形符数应该指的就是token, 即running words,也就是通常所说的“这篇文章写了300 words”里的words。字符数指的是characrter数,在汉、英文本中的个数是不同的。

问题二:
购买 SECCL 语料库就可以解决你的问题了。
 
回复: 菜鸟的问题:SECCL里面的task3总共有多少词?

问题一:
形符数应该指的就是token, 即running words,也就是通常所说的“这篇文章写了300 words”里的words。字符数指的是characrter数,在汉、英文本中的个数是不同的。

问题二:
购买 SECCL 语料库就可以解决你的问题了。
首先非常感谢laogong,SECCL简介中说:“SECCL的设计容量为100万词左右”,后面的“规模与结构”中提供了SECCL是文本总容量以及三类任务语料的规模大小表格,表格中显示的总形符数为1460042,是不是可以这样理解:SECCL总共含有1460042个词呢?
我的对比语料即本族语语料大约为16万词,所以我要从task3提取大约16万词的语料,上述表格中给除了每年task3中的形符数,其中2002年为156123接近于16万,我可以直接用2002年的语料吗?
期待着您的回复,万分感谢!
 
回复: 菜鸟的问题:SECCL里面的task3总共有多少词?

...表格中显示的总形符数为1460042,是不是可以这样理解:SECCL总共含有1460042个词呢?...

应该可以这样理解。

...我的对比语料即本族语语料大约为16万词,所以我要从task3提取大约16万词的语料,上述表格中给除了每年task3中的形符数,其中2002年为156123接近于16万,我可以直接用2002年的语料吗?

如果想省事,只取2002年一年的task3就行了。但是要考虑周全的话,最好从历年的task3里各取一些合并成一个16万的新sub-corpus。这两种做法还是有区别的。
 
回复: 菜鸟的问题:SECCL里面的task3总共有多少词?

谢谢laohong, 非常感谢您耐心细致的讲解,使我受益匪浅。
 
回复: 菜鸟的问题:SECCL里面的task3总共有多少词?

请问在Antconc中统计英文语料(语料中有it's,re-creating等词)的形符数时,需要对英文语料进行分词处理吗?还是在Token Definition中的哪个子项里设置下?
期待回复,万分感谢!!
 
Back
顶部