菜鸟的问题：SECCL里面的task3总共有多少词？

yhwt_8365 · 2008-04-07

文秋芳的这本书上，列出了每年各个部分即task1 task2 task3的形符数，这个形符数到底是指的什么呢？是单词words还是字符数？我所作研究需要他task3里面的16万左右的单词，如果获取呢？跪求各位高手。

laohong · 2008-04-07

回复: 菜鸟的问题：SECCL里面的task3总共有多少词？

问题一：
形符数应该指的就是token，即running words，也就是通常所说的“这篇文章写了300 words”里的words。字符数指的是characrter数，在汉、英文本中的个数是不同的。

问题二：
购买 SECCL 语料库就可以解决你的问题了。

yhwt_8365 · 2008-04-07

回复: 菜鸟的问题：SECCL里面的task3总共有多少词？

作者 laohong:
问题一：
形符数应该指的就是token，即running words，也就是通常所说的“这篇文章写了300 words”里的words。字符数指的是characrter数，在汉、英文本中的个数是不同的。

问题二：
购买 SECCL 语料库就可以解决你的问题了。

首先非常感谢laogong，SECCL简介中说：“SECCL的设计容量为100万词左右”，后面的“规模与结构”中提供了SECCL是文本总容量以及三类任务语料的规模大小表格，表格中显示的总形符数为1460042，是不是可以这样理解：SECCL总共含有1460042个词呢？
我的对比语料即本族语语料大约为16万词，所以我要从task3提取大约16万词的语料，上述表格中给除了每年task3中的形符数，其中2002年为156123接近于16万，我可以直接用2002年的语料吗？
期待着您的回复，万分感谢！

laohong · 2008-04-07

回复: 菜鸟的问题：SECCL里面的task3总共有多少词？

作者 yhwt_8365:
...表格中显示的总形符数为1460042，是不是可以这样理解：SECCL总共含有1460042个词呢？...

应该可以这样理解。

作者 yhwt_8365:
...我的对比语料即本族语语料大约为16万词，所以我要从task3提取大约16万词的语料，上述表格中给除了每年task3中的形符数，其中2002年为156123接近于16万，我可以直接用2002年的语料吗？

如果想省事，只取2002年一年的task3就行了。但是要考虑周全的话，最好从历年的task3里各取一些合并成一个16万的新sub-corpus。这两种做法还是有区别的。

yhwt_8365 · 2008-04-08

回复: 菜鸟的问题：SECCL里面的task3总共有多少词？

谢谢laohong, 非常感谢您耐心细致的讲解，使我受益匪浅。

Miggie · 2014-01-12

回复: 菜鸟的问题：SECCL里面的task3总共有多少词？

请问在Antconc中统计英文语料（语料中有it's，re-creating等词）的形符数时，需要对英文语料进行分词处理吗？还是在Token Definition中的哪个子项里设置下？
期待回复，万分感谢！！

菜鸟的问题：SECCL里面的task3总共有多少词？

yhwt_8365

laohong

管理员

yhwt_8365

laohong

管理员

yhwt_8365

Miggie