[纠错]CLEC在转写、标注方面的一些问题

tiger

高级会员
近日在从clec st 3和st 4子库中抽取更小子库时,发现了一些小的格式纰漏:
1、st 3和st 4中有些text不是另行开头,而是紧接上一个text出现。
2、有些text的annotation marks不是全部出现在开头,而是分两部分在开头和结尾出现。
3、各类标注的排列顺序在不同子库、不同text中有些不同。
4、st 4中有些text的开头没有标注<st 4>.
5、有些text之间不空行,有的空一行,有的空几行。
6、st 4中有些text的有些标注在开头出现两次。

这些纰漏都很小,但在用不同的检索软件时,就会影响结果。

欢迎大家共同努力,发现更多的可改进之处。

最后要申明一点,本人决不是要否定这一语料库在中国的里程碑意义,而是希望它更加完美,成为learner corpora中的经典。

[本贴已被 作者 于 2005年07月10日 08时05分48秒 编辑过]
 
首先应当感谢tiger将发现的问题告诉大家。

另外,我个人经验是语料校对是一项非常重要但十分辛劳的工作。说得严重点真是个“无底洞”,每校一次都会发现新的错漏。所以我上面tiger提到的问题颇为感同身受。

总之,我们仍然应当在校对上多下功夫。据说英国的LLC口语语料库至少进行了四次校对。
 
回复:[原创]CLEC st 3和st 4子库一些格式上的纰漏

其实CLEC的真正问题倒真的不是tiger所发现的这些格式、标注上的错漏,而是它取样上的问题。

CLEC中所选取的语料库主要广外、上海交大和李文中所在的河南师大,所以这种情形下说它能代表中国学生的英语写作水平当然是不合适的。

本论坛上有好些帖子是讨论语料取样的representativeness问题的,大家可以去看一看。
 
回复:[原创]近日发现了CLEC st 3和st 4子库一些格式上的小纰漏

这是我在抽取子库时发现的一些问题,相信还有其他的,如果能互通有无,就会更加全面。
校对的过程真是辛苦,头晕眼花,还得返工多次,真得向语料库建设者们致敬。
 
回复:[原创]CLEC st 3和st 4子库一些格式上的纰漏

st3子库共有1321text,我用wordsmith的concord工具检索了一下<sch标记,发现有<sch>标记的text共有878篇,
各学校的分布如下:
<sch 2279> 92
<sch 2303> 99
<sch 2341> 100
<sch 2403> 95
<sch 2541> 69
<sch 2703> 46
<sch 2704> 4
<sch 2707> 61
<sch 2802> 99
<sch 2841> 91
<sch Henan medical university> 29
<sch zhengzhou university> 8
<sch zzdx> 85

representativeness和balance的问题似乎不是楼上所说那么严重啊。由此至少可以说,st3子库的代表性还是可以信赖的。
 
回复:[原创]CLEC st 3和st 4子库一些格式上的纰漏

以下是引用 tiger2005-7-8 23:41:48 的发言:
st3子库共有1321text,我用wordsmith的concord工具检索了一下<sch标记,发现有<sch>标记的text共有878篇,
各学校的分布如下:
<sch 2279> 92
<sch 2303> 99
<sch 2341> 100
<sch 2403> 95
<sch 2541> 69
<sch 2703> 46
<sch 2704> 4
<sch 2707> 61
<sch 2802> 99
<sch 2841> 91
<sch Henan medical university> 29
<sch zhengzhou university> 8
<sch zzdx> 85

representativeness和balance的问题似乎不是楼上所说那么严重啊。由此至少可以说,st3子库的代表性还是可以信赖的。

谢谢更正。非常欢迎这种帖子。
鼓励这种以事实说话的做法。再谢。
 
回复:[原创]CLEC st 3和st 4子库一些格式上的纰漏

以下是引用 tiger2005-7-8 23:41:48 的发言:
st3子库共有1321text,我用wordsmith的concord工具检索了一下<sch标记,发现有<sch>标记的text共有878篇,
各学校的分布如下:
<sch 2279> 92
<sch 2303> 99
<sch 2341> 100
<sch 2403> 95
<sch 2541> 69
<sch 2703> 46
<sch 2704> 4
<sch 2707> 61
<sch 2802> 99
<sch 2841> 91
<sch Henan medical university> 29
<sch zhengzhou university> 8
<sch zzdx> 85

representativeness和balance的问题似乎不是楼上所说那么严重啊。由此至少可以说,st3子库的代表性还是可以信赖的。


can you tell me how to carry out such a search. i set the searchword <sch>but failed.
how to search those marked-up items? please!
 
would you please offer some picture dumps? it will save much time and trouble. i will practise as the pictures direct.
 
You failed to find any occurence of <sch ...> probably because:
1. you might have activated the default "tags to ignore": "tools" on the main controller--"concord"--"settings"--"tags to ignore". Uncheck "activated". If this is checked, then everything in "<>" will be ignored by wordsmith, thus nothing can be found with the search word "<sch."
2. The school marker takes the form of "<sch ...>." If you set "<sch>" as the search word, of course nothing can be found. I suggest you set "<sch" as the search word, and have another try.
 
回复:[原创]CLEC st 3和st 4子库一些格式上的纰漏

以下是引用 tiger2005-7-9 19:08:40 的发言:
You failed to find any occurence of <sch ...> probably because:
1. you might have activated the default "tags to ignore": "tools" on the main controller--"concord"--"settings"--"tags to ignore". Uncheck "activated". If this is checked, then everything in "<>" will be ignored by wordsmith, thus nothing can be found with the search word "<sch."
2. The school marker takes the form of "<sch ...>." If you set "<sch>" as the search word, of course nothing can be found. I suggest you set "<sch" as the search word, and have another try.



i made the first mistake you mentioned. i have succeeded . thank you very much!
 
回复:[原创]CLEC st 3和st 4子库一些格式上的纰漏

再加一点:
每个text没有end tag,所以用wordsmith的splitter工具分割出各个text之前,得自己加入自己设定的end tag。
 
再补充一点:有的text是annotation marks后没有回车键直接跟文本,有的却是后跟回车键,然后文本另起一行。这在分割文本时也会影响结果。
 
既然你发现那么多纰漏,能否改进一下,然后同我们共享!另外,是否有必要通知作者?

[本贴已被 作者 于 2005年07月10日 20时36分18秒 编辑过]
 
这需要多人的努力,我一个人是无法完成整个语料库的校对。所以最好是编制者集体自己进行系统性的校对。

[本贴已被 作者 于 2005年07月10日 23时15分55秒 编辑过]

[本贴已被 作者 于 2005年07月11日 21时39分40秒 编辑过]
 
I was told by some people at CL2005 that CLEC as thr first project of its kind could be vitrually considered as a failure becuase of repetitions, copyings etc. Many texts are repeated in the corpus, and some outside class writings are copied from textbooks or from each other. I think this is only true for some components, right?
 
There are some texts that are copied from the textbooks, as the compilers have stated, especially in st2.
there are too many texts with the same tiltles, but I have not found any repeated text so far.
 
I mean in some texts in st 2 the authors copied sentences from the textbooks.

[本贴已被 作者 于 2005年07月29日 10时15分12秒 编辑过]
 
Back
顶部