首先非常感谢laogong,SECCL简介中说:“SECCL的设计容量为100万词左右”,后面的“规模与结构”中提供了SECCL是文本总容量以及三类任务语料的规模大小表格,表格中显示的总形符数为1460042,是不是可以这样理解:SECCL总共含有1460042个词呢?问题一:
形符数应该指的就是token, 即running words,也就是通常所说的“这篇文章写了300 words”里的words。字符数指的是characrter数,在汉、英文本中的个数是不同的。
问题二:
购买 SECCL 语料库就可以解决你的问题了。
...表格中显示的总形符数为1460042,是不是可以这样理解:SECCL总共含有1460042个词呢?...
...我的对比语料即本族语语料大约为16万词,所以我要从task3提取大约16万词的语料,上述表格中给除了每年task3中的形符数,其中2002年为156123接近于16万,我可以直接用2002年的语料吗?