SWECCL建库感想点滴

frankliang

普通会员
SWECCL (Spoken and written corpus of Chinese learners)是王立非教授博士后期间的课题,是在文秋芳教授的指导下进行的。参与语料库建设的人员和学校很多,南京大学应用语言学专业的博士生和硕士生们投入了大量的精力,使得SWECCL得以在较短时间内完成。
回顾SWECCL建库的艰辛历程,再看看SWECCL各方面的得失,深感语料库建库之艰难。我的感受是,语料库建设与辞典编撰有许多共同之处。其一,两者都需要大量人力物力的投入;其二,再好的辞典和语料库都难免会有得与失,BNC如此,已经出版的CLEC如此,SWECCL和许多正在建设的语料库也不例外,完成后总会带有一点遗憾;第三,辞典与语料库都是工具资源,利在当代,功在千秋;第四,建议那些触犯刑法的人们,如果他们不愿意去编辞典,就来建设语料库吧!
 
Thanks a lot for sharing with our your experience with SWECCL.
利在当代,功在千秋”--江泽民总书记特别喜欢给别人题词时用这8个字,比如说教育、三峡之类的。

第四,建议那些触犯刑法的人们,如果他们不愿意去编辞典,就来建设语料库吧!
虽然老套,但其中深意大家自可揣摩得知。

On point to add: In addition to the hardship, every corpus compiler learns a lot from his hands-on experience in the construction process.
 
语料库真的很难么?
之前我看了很多这方面的文章了,觉得还是知道一个大概的应用
今天老板上课,正好是语料库方面的,我去问他开题的事
结果得到两句话"先慢慢听课,不用着急"
 
回复:SWECCL建库感想点滴

以下是引用 frankliang2005-9-14 13:53:25 的发言:
SWECCL (Spoken and written corpus of Chinese learners)是王立非教授博士后期间的课题,是在文秋芳教授的指导下进行的。参与语料库建设的人员和学校很多,南京大学应用语言学专业的博士生和硕士生们投入了大量的精力,使得SWECCL得以在较短时间内完成。
回顾SWECCL建库的艰辛历程,再看看SWECCL各方面的得失,深感语料库建库之艰难。我的感受是,语料库建设与辞典编撰有许多共同之处。其一,两者都需要大量人力物力的投入;其二,再好的辞典和语料库都难免会有得与失,BNC如此,已经出版的CLEC如此,SWECCL和许多正在建设的语料库也不例外,完成后总会带有一点遗憾;第三,辞典与语料库都是工具资源,利在当代,功在千秋;第四,建议那些触犯刑法的人们,如果他们不愿意去编辞典,就来建设语料库吧!
说得太玄乎了啊,在计算机辅助下,能和哪一部大型词典的编写相比?据管窥,SWECLL在选材方面,功利性要大于功能性。有真正意义上的spoken材料吗?得罪!
 
回复:SWECCL建库感想点滴

以下是引用 lizzawood2005-9-21 17:56:28 的发言:
以下是引用 frankliang2005-9-14 13:53:25 的发言:
SWECCL (Spoken and written corpus of Chinese learners)是王立非教授博士后期间的课题,是在文秋芳教授的指导下进行的。参与语料库建设的人员和学校很多,南京大学应用语言学专业的博士生和硕士生们投入了大量的精力,使得SWECCL得以在较短时间内完成。
回顾SWECCL建库的艰辛历程,再看看SWECCL各方面的得失,深感语料库建库之艰难。我的感受是,语料库建设与辞典编撰有许多共同之处。其一,两者都需要大量人力物力的投入;其二,再好的辞典和语料库都难免会有得与失,BNC如此,已经出版的CLEC如此,SWECCL和许多正在建设的语料库也不例外,完成后总会带有一点遗憾;第三,辞典与语料库都是工具资源,利在当代,功在千秋;第四,建议那些触犯刑法的人们,如果他们不愿意去编辞典,就来建设语料库吧!
说得太玄乎了啊,在计算机辅助下,能和哪一部大型词典的编写相比?据管窥,SWECLL在选材方面,功利性要大于功能性。有真正意义上的spoken材料吗?得罪!

建设语料库的确很难,领略过建设语料库艰辛的人将它如何夸张似乎都不为过,因为个人感受毕竟是别人难以体会到的。这种希望得到的理解的心情可以理解。但是,对于建设语料库的困难我们也要有一个客观的评价,不要一味夸大其难度。如果我们将language engineering和其他的engineering比较一下,也许不会认为唯有我们在干一些“体力劳动”。假如我们建语料库有比较充裕的时间和资金投入,不是纯粹为了赶进度,结题交差,那么语料库建设比建摩天大厦还难?想想看,摩天大厦也是一砖一瓦砌上去的。我们怎么就不能一个词,一句话地输入校对呢?
另外,建语料库的难度也因规模和要求不同有所不同。笔者也参与过语料库的建设,能够理解建库的艰辛,但是,本人觉得不宜无限夸大个人感受。
 
Oscar3的评价比较客观。
“SWECCL (Spoken and written corpus of Chinese learners)是王立非教授博士后期间的课题,是在文秋芳教授的指导下进行的。参与语料库建设的人员和学校很多,南京大学应用语言学专业的博士生和硕士生们投入了大量的精力,使得SWECCL得以在较短时间内完成。”
但若是重大而非应景项目,能在短时间内完成令人尊敬,仅“带有一点遗憾”那可是大幸啊。
 
目前用于语言研究的语料库建设大多只能通过社科课题立项,社科课题的资助金费很难和工科所获得的资助金费相比。由于金费限制,建库过程中语料处理所需人员聘请就只能限制在一个非常狭窄的范围内。受聘人员的劳动强度大,报酬低,往往是给自己的老师打工,有苦难言。这就增加了建库人员的痛苦感。所以,本人对参加建库的人员表示崇高的敬意。
 
回复:SWECCL建库感想点滴

We can only evaluate the corpus when it comes out. Anyway something is better than nothing, especially in the current situation in China where there is not many publicly available corpus resources.

以下是引用 lizzawood2005-9-21 17:56:28 的发言:
说得太玄乎了啊,在计算机辅助下,能和哪一部大型词典的编写相比?据管窥,SWECLL在选材方面,功利性要大于功能性。有真正意义上的spoken材料吗?得罪!
 
we are happy to have Frankliang with us talking about SWECCL! He is expert at corpus and beer by the way!
 
What do you think constitutes the majority of the speaking activities of Chinese college students? In other words, what do you think are the authentic spoken data that we can get from Chinese learners of English?

Interlanguage speaking map
http://forum.corpus4u.org/showthread.php?t=1091&highlight=interlanguage

My answer is: classroom interaction between teachers and students and speaking tasks performed by students in testing settings are the two most important and typical speaking activities. In the latter case, we can take students speech as the approximation of their best performance for most students, though exams are pressured activities, compared with their speech in English corners etc. We can imagine, in order to get higher scores, students have to “strive for excellence”.
 
我曾经参与过南京大学的口语语料库的建设工作,我有亲身体验。说实话,建语料库是在太难了。我现在想自己搞一个小型写作语料库,但很耗时间。
 
这里看到一些评论,很有意义,也很有意思。
语料库和计算机的结合应该是一个好的事情,但是,不知道原则、不知道标注技术、不考虑用户查询等,只是考虑“名”、“利”等而“乱建”,不一定是个好的事情。另外,有一些新人也一味追求这些“新”的东西,不加原则和思索的引用其中的内容,也不一定是个好的事情。
语料库的建立是很艰辛的,而且一个人建库就更艰辛,建立一个生库艰辛,建立一个标注语料库就更艰辛。这些艰辛是“功”,更关键的是要建立好库,是他人可以使用的好库。
似乎我这里多了一些指责和批评,我也知道自己没有任何资格批评这些新生事物,但是越来越多的已经出版的文章确实在引用库中的东西,有些人也在一些会议上有过“难堪”……
所以,在鼓励新生事物的同时,希望大家能合作起来,建立一个论坛,大家共同建立一个好的、真正属于我们中国学习者的“学习者语料库”!
同时,大家能齐心协力,研究语料库的开发和利用!
 
同意007的说法,乱建不如不建。说这话并不想招徕砖头,也许自己也正在"享受"建库的痛苦,所以更希望有认真的工作态度。
 
回复:SWECCL建库感想点滴

以下是引用 comet2005-9-21 20:19:00 的发言:
目前用于语言研究的语料库建设大多只能通过社科课题立项,社科课题的资助金费很难和工科所获得的资助金费相比。由于金费限制,建库过程中语料处理所需人员聘请就只能限制在一个非常狭窄的范围内。受聘人员的劳动强度大,报酬低,往往是给自己的老师打工,有苦难言。这就增加了建库人员的痛苦感。所以,本人对参加建库的人员表示崇高的敬意。

我完全同意这种观点。社科课题经费很难申请到,即使申请到了,也是杯水车薪。再加上做外语的本身编程技术和数学知识比较欠缺,目前只要基本能做已经很不错了。我们不是缺乏和工科研究者合作的精神,而是工科的不愿跟我们合作,因为没钱可挣。
 
本人也深知17楼yinghuang的苦衷。但是经费只是一个方面,而建库是另一个方面。打工的事情我虽然没有怎么干过,但是也看到那些孜孜不倦的打工仔的劳动。语料库的建立是很繁重的劳动,我们应该向他们表示敬意!
但是,我希望的是大家能在建库的时候,对技术多一点投入,这是个必须考虑的事情,而且就标注技术来讲,并没有那么复杂,只是稍微知道标记语言,稍微知道语料库的标注,就可以解决的问题;另外,考虑查询软件的开发。象SWECCL,那么多的声音文件,竟然是堆在那里的,这对于多数人来讲,是无用的,即使对于个别会编程的人来讲,恐怕编写一个查询文本和声音的工具也得半年三个月的功夫。
还是那句话,做,就做到最好!尤其是名人!
名人能申请国家项目,能有资金,而我们这些普通老百姓,恐怕就连参与的机会都没有……yinghuang是对的……所以他们有理由做好!
 
Back
顶部