有哪位想建应用语料库的吗?

happyw

初级会员
#22
To oscar3
我想我不会悲观,谢谢您的鼓励。关系如何组织得请您帮忙,的确这样一套系统在国内也应该有市场,但我确实第一考虑的是社会效益,一年能省去全国学生数以亿计小时的时间和精力。正因为它是一个涉及多个学科的复杂系统,所以需要前辈们的帮助。谢谢!谢谢!再一次谢谢oscar3!
 

happyw

初级会员
#23
To oscar 3
这800人中790人是打杂的(各学科的),只需要像各位专家前辈5-10名,这800人不是一天、一个月、或一年就完成了。我们知道,语料或系统是个沉淀的过程,永远没有完结。随着语料的增多,整个语料也要不断地优化。也不是一个子就需要800人,刚开始只需要几十个人,第二年需要100多个,预计到10年的时候才能用800人,培训也是分批进行!谢谢oscar3的提醒!
 

noel

sidere mens eadem mutato
#25
突然发现happyw改建库了啊
800人 10年 相当壮观噢 到时真不知CL成什么样子了
具体怎么合作呢
 

jerrywl

初级会员
#26
回复:有哪位想建应用语料库的吗?

以下是引用 happyw2006-3-26 9:51:32 的发言:
有没有哪位愿意一起建应用语料库的? Chinese English作为一个variety of English,我们可以把中国人的书面语作为一个语料来研究,如把China Daily, Beijing Review和中国人翻译的小说,中国人用英语写的论文,中国人学生写的作文等收集起来作研究,本人世间1994年就想做怎么一件事,但当时没有资金,只能作为一个dream,现在有条件做这件事了,大家一起做,何如?

语料库的作用远不止我们目前所见,有很大开发空间,用作文来出试题就是一个绝好想法
 
#27
回复: 有哪位想建应用语料库的吗?

我朋友很想参加你们的中国英语语料库建设计划。
他们现在主要针对中文语料的处理和统计分析工作,也有一定的成果。
已经利用语料的处理开发了很多产品,以及一个在线词典(多形式的)——中文助手

可以参看他们的网站:
www.languagetech.cn

可否e-mail详谈?
 
#28
回复: 有哪位想建应用语料库的吗?

W的建議挺好的,但是在協同上是存在一些亟待進一步解決的問題。
同時,這樣的資源庫(請原諒我這么稱呼),在錄入上的工作量是巨大的,不知道W是否考慮過網路途徑;恕我直言,我所在學校也意圖開展網絡教學資源整合,并且校方已經進一步作出了相關的努力,而習得者方面(學生)似乎對脫離傳統平面習作的方式很不買賬:造成很多工作不是投入于研究,而在于如何培養習得者的新習慣。
他們都很推崇你,但是并不代表他們會真實地為你的項目做進一步的改變,就如同他們通過英語等級考試后對外語學習的態度一樣!
最后原諒我言語的唐突!
 
#29
回复: 有哪位想建应用语料库的吗?

有没有哪位愿意一起建应用语料库的? Chinese English作为一个variety of English,我们可以把中国人的书面语作为一个语料来研究,如把China Daily, Beijing Review和中国人翻译的小说,中国人用英语写的论文,中国人学生写的作文等收集起来作研究,本人世间1994年就想做怎么一件事,但当时没有资金,只能作为一个dream,现在有条件做这件事了,大家一起做,何如?

我觉得,如果一味的想太多的困难,那么,可能永远都不会开始,兵马未动粮草先行不错,但是,作为一名在一线教书的英语教师还是希望一个有想法又有实力的人能先站出来做这件好事。
 
#30
回复: 有哪位想建应用语料库的吗?

小女子接触语料库是这学期的事情,因为研究兴趣是词汇,导师建议我使用语料库作为一个有效的研究手段,导师去英国了,临行之前留给我一个自建语料库,其中包含了非英语专业研究生用英语写的学术论文,看到这张贴的时候突然想起了一直在想的问题,我们的语料库到底有多少典型性。我们都在做自己的语料库,但是谁也不知道用这样的小规模自建语料库检索的信息到底有多少可信度,是时候开始一个系统的语料库建设工程了。我们也应该有一个中国的BNC了,中国的英语学习者需要全面地了解自己的英语使用状况。
 

oscar3

高级会员
#31
回复: 有哪位想建应用语料库的吗?

小女子接触语料库是这学期的事情,因为研究兴趣是词汇,导师建议我使用语料库作为一个有效的研究手段,导师去英国了,临行之前留给我一个自建语料库,其中包含了非英语专业研究生用英语写的学术论文,看到这张贴的时候突然想起了一直在想的问题,我们的语料库到底有多少典型性。我们都在做自己的语料库,但是谁也不知道用这样的小规模自建语料库检索的信息到底有多少可信度,是时候开始一个系统的语料库建设工程了。我们也应该有一个中国的BNC了,中国的英语学习者需要全面地了解自己的英语使用状况。
说得很不错。但是,语料库的建设不是一件很容易的事情,尤其是创建一个规模够大,又是质量上乘的语料库。即便如此,由于研究的目的不同,小规模的语料库仍然有其存在的价值。至于小规模的语料库到底有多少典型性这就只有研究者自己才清楚。用的一个学校的语料,干吗一定要说这是这就代表了所有中国英语学习者的状况呢?但是,这不等于说,基于个别学校的语料就没有价值,只是要注意结论的普遍性。
 
#32
回复: 有哪位想建应用语料库的吗?

众人拾柴火焰高,我们需要一个强有力的领导者和组织者.在这个论坛里,我想并不缺乏志愿者!
 

laohong

管理员
Staff member
#33
回复: 有哪位想建应用语料库的吗?

这里人人在用语料库,想自建语料库的也不少。不过,干什么都需要钱,要花钱就得先预算好。转发一个关于建语料库的预算的讨论:

------------------------------------------------------------------------
Kutz Arrieta asked:
>
> Dear list members,
> I'm trying to calculate what the cost of building annotated corpora for a
> language with no pre-existing annotated data with enough quality and volume
> to be used in initial versions of MT and translation memory would be.
> Any suggestions would be appreciated.
>
> KA
> karrieta@vicomtech.org
>
------------------------------------------------------------------------
Martin Wynne answered:

Dear Arrieta,

It's an interesting question, and I'm afraid that I don't know of any work that has been done on this. I don't think anyone will really be able to help you in terms of amounts of money, as there are too many variables, most importantly the cost of labour and overheads in your country.

However, to start the discussion on this topic, I would suggest that you need to work out the costs of the following:

- planning the project
- allocating or hiring staff, getting rooms, buying computers, arranging all the infrastructure; or paying for the costs of these things to your institution, or arranging permission to use them
- setting up a computing infrastructure for your project data and communications (text storage, version control system, intranet, wiki, etc)
- obtaining the texts (selection, obtaining permissions, downloading/digitising, collecting and marking up metadata, quality control)
- transforming the texts to a common format appropriate for further processing and annotation
- devising an annotation model
- training annotators
- manually annotating the corpus
- checking the corpus: size, sampling, text integrity, markup errors, annotation accuracy and consistency
- documenting the corpus and annotation
- making the corpus available, and continuing support for its storage, use and licensing
- long-term archiving and preservation

And when you've worked out the man-hours involved, double them for a realistic estimate.

So, for some projects, the biggest cost will be the digitisation of the materials. For others, it will be paying for permission to use them. For some, it will be to construct a schema for annotation. For many it will be to do the annotation, etc.

I welcome suggestions for the things that I've overlooked in the list above!

Martin Wynne

Oxford Text Archive: http://www.ota.ox.ac.uk/
Oxford e-Research Centre: http://www.oerc.ox.ac.uk/
CLARIN: http://www.clarin.eu/

Oxford University Computing Services
13 Banbury Road
Oxford
UK - OX2 6NN
Tel: +44 1865 283299
Fax: +44 1865 273275
martin.wynne@oucs.ox.ac.uk
 
顶部