近日在从clec st 3和st 4子库中抽取更小子库时,发现了一些小的格式纰漏:
1、st 3和st 4中有些text不是另行开头,而是紧接上一个text出现。
2、有些text的annotation marks不是全部出现在开头,而是分两部分在开头和结尾出现。
3、各类标注的排列顺序在不同子库、不同text中有些不同。
4、st 4中有些text的开头没有标注<st 4>.
5、有些text之间不空行,有的空一行,有的空几行。
6、st 4中有些text的有些标注在开头出现两次。
这些纰漏都很小,但在用不同的检索软件时,就会影响结果。
欢迎大家共同努力,发现更多的可改进之处。
最后要申明一点,本人决不是要否定这一语料库在中国的里程碑意义,而是希望它更加完美,成为learner corpora中的经典。
1、st 3和st 4中有些text不是另行开头,而是紧接上一个text出现。
2、有些text的annotation marks不是全部出现在开头,而是分两部分在开头和结尾出现。
3、各类标注的排列顺序在不同子库、不同text中有些不同。
4、st 4中有些text的开头没有标注<st 4>.
5、有些text之间不空行,有的空一行,有的空几行。
6、st 4中有些text的有些标注在开头出现两次。
这些纰漏都很小,但在用不同的检索软件时,就会影响结果。
欢迎大家共同努力,发现更多的可改进之处。
最后要申明一点,本人决不是要否定这一语料库在中国的里程碑意义,而是希望它更加完美,成为learner corpora中的经典。
[本贴已被 作者 于 2005年07月10日 08时05分48秒 编辑过]