语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

xujiajin

管理员
Staff member
语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成
 

附件

  • 语料库语言学与中国外语教学.pdf
    204.8 KB · 浏览: 938
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

Thx, Dr Xu.
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

个人认为,最近2-3年,国内语料库语言学的发展进入了一个相对平滑期。鲜有突破。。。
1.研究内容上,相对仍然比较集中。。。纵观语料库的一些论文,结果就很清晰了。
2.研究方法上,几种通用统计方法算来算去。一个新人不出几天,也可以基本掌握。
3.技术上,虽然xml和多模态概念早就有之,但多数建库仍然沿袭txt的基本模式。原因不讲自明。
4.语料库的使用来源上,同样就那么几个经典的语料库统计来统计去。很多学校建的语料库不是“不见庐山真面目”,就是几乎无人问津。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

同感啊,这几年不仅是语料库,整个学术界似乎都进入了一个相对疲软的阶段。书店里充斥着畅销书和考试用书,而真正有价值的研究性新书却鲜有上市,而那些记载了多年研究成果,厚积薄发的好书更是一本也看不到,大家都很浮躁,不知道这样下去,中国的学术界会变成什么样儿。

语料库是一门相对较新的学科,它具体能够为语言学习具体做些什么,带来多大的帮助,这是一个应该好好研究一下的问题。我们的很多语料库研究,在出论文出成果的同时,是否能够把研究得到的结论实实在在地应用于语言教学,语言诊断或翻译等实际领域?研究成果是否能为每一个教师,语言学习者或翻译工作者带来实质性的帮助?研究语料库的兄弟姐妹们都应该认真思考一下吧?

我曾经和我的导师讨论过为什么要学语言学的问题,语言学是一个高投入低产出的学科,中国每年招收这么多学语言学的硕士博士,但真正有所作为的几乎是万里挑一。学生在读研究生的过程中投入了很多的时间和精力,但所学到的很多知识却无法外化,不仅做不出有独创性的成果,而且口语面貌和掌握词汇的丰富程度都不如学文学的,学语言学的学生无法学以致用,这是一个应该深思的问题。有人说语言学重要的是培养学习者的思维模式,或者说是一种“语言意识”,可是如果不能用自己学到的,悟到的知识去影响大众,服务社会,那么这样的学科迟早会被束之高阁的。

过去十几年来,计算语言学和语言信息处理获得了很大的进展,取得了很多实质性的成果。但我们不得不承认这样一个事实,这些成果背后的核心人物大都是算法专家,语言学者的贡献并不多。

语料库技术的优势在于它可以把很多仅凭文字信息无法掌握的东西量化出来,在获得量化数据的同时,我们一定要思考研究结果的应用,要实现这些结果最基本,最广泛的应用,要入世不要出世,否则只是在有限范围里自娱自乐,就算修成了神,又能如何?
 
Last edited:
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

同感啊,这几年不仅是语料库,整个学术界似乎都进入了一个相对疲软的阶段。书店里充斥着畅销书和考试用书,而真正有价值的研究性新书却鲜有上市,而那些记载了多年研究成果,厚积薄发的好书更是一本也看不到,大家都很浮躁,不知道这样下去,中国的学术界会变成什么样儿。


语料库技术的优势在于它可以把很多仅凭文字信息无法掌握的东西量化出来,在获得量化数据的同时,我们一定要思考研究结果的应用,要实现这些结果最基本,最广泛的应用,要入世不要出世,否则只是在有限范围里自娱自乐,就算修成了神,又能如何?

自娱自乐,我想说了的,但没敢说。果然所见略同。语料库的某些研究目前更有自娱自乐之嫌,自己建了一个库,谁也看不到,摸不着。然后写几个论文一投,数据谁也验证不了。稍微玩点技术的,就做个演示,沽名钓誉,技术也不公开,谁也学不到,当然可以理解“保密”这个学术概念。但我说的这个沽名钓誉我想是最好的解释了,无需其他的言语【技术也有真伪之别】。

目前的发展态势的确有自娱自乐,自欺欺人的意味。语料库语言学到底往哪里走,如何走,是我们大家去思考一下的问题了。【所阐述观点是一种总体感觉,不是对某个人的映射,特此说明】
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

而且语料库有一个什么特点那?它是一把双刃剑。严谨的人用了语料库,会更加严谨,客观的数据统计、翔实的解读;有人为建库累死的,耗费了多年的经历;也有人随便建个库,随便一算,数据随便一解读,也是一个论文。所以语料库让严谨的人更严谨,让浮躁的人更浮躁。。。。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

弱弱地说一句,楼上的评论让人觉得比专家们讲得还精彩!
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

楼上几位对语言库语言学现状和一些问题的探讨值得我们每一位语料库研究者去思考。

语料库语言学发展到现在,已经有50多年的历史了,国内的语料库语言学研究在经历了前几年的“异常繁荣”之后,现在已进入maggieq58所说的“平滑期”,这个现象未必不是个好事。这说明很多研究者开始冷静地思考一些问题,而不是盲目地做没有价值的工作;当然,这也是语料库语言学界的一次重新洗牌,replicate过去的研究已经不可取了,没有创新、没有贡献的研究将不再会有市场
那么接下来的问题就是,语料库语言学怎么研究才叫有创新,有贡献?这个问题不好回答。还是从具体情况谈起。我个人认为,做语料库语言学首先需要弄清以下几个问题:

1. 语料库语言学研究要讲应用,同时也不能忽视理论方面的创新。
Flycap提到要将语料库研究用于语言学习和语言教学,这就是语料库语言学研究在应用方面的贡献!既然大家在问“很多论文在出成果的同时,是否能够把研究得到的结论实实在在地应用于语言教学,语言诊断或翻译等实际领域?”说明大家已经意识到了这个research gap,那么我们何不在自己的教学中验证一下这一成果呢?历史上很多研究成果不就是一代代研究者不断完善的产物吗?比如,“Zipf law”就不是由Zipf一个人完成的,对这一定律做出重要贡献的人至少有5个,提出者是法国速记学家J. Estoup,之后是 E. Condon, G. K. Zipf, M. Joos, B. Mandelbrot。可见,做一个Zipf似的完善者贡献也是大大的。

另外一个问题就是语料库语言学的理论创新。这一点致力于“语料库驱动”的学者还是挺让人敬仰的,尽管有时我们并不是很喜欢他们比较极端的言论。“语料库驱动”给我带来的不仅仅是方法论的拓展,它让我看到了语料库研究的根本,认识到了研究者的重要性。作为语言学的分支,语料库语言学的核心还是语言研究,我们有这么好的工具,这么丰富的语言材料,难道我们就不能为语言学理论添点什么吗?继续跟在Saussure、Bloomfield、Chomsky等大师们的后面吃“前语料库时代”留下来的“盛宴”让我们情何以堪?我们尊敬并认同大师们的劳动,但语言现象如此复杂,一定有他们没有观察到的现象。在做研究的时候多往深处考虑一下,多问几个why?how?或许就会有一些火花产生。

另外,语料库研究并不是只要技术优势,语料库研究中用到的统计手段说到底,只是在用量化的方法研究质化的数据,而质化的数据是需要研究者来提炼、解读的。一个只谈技术的语料库语言学研究是没有思想的。

2. 语言学是一个基础学科。那就意味着语言学研究确实存在成本和收益严重不平衡的问题。但是,客观来讲,基础学科之所以称为“基础学科”,就不能用立竿见影的盈亏去衡量,否则就是悖论。Chomsky 在上个世纪50年代提出“自然语言的形式模型”的时候也不被人认可,发论文也是到处被拒,但后来却成了自然语言处理的奠基之作,这点一定是他本人也没想到的。或许他做这个研究的初衷只是想换个视角研究语言,只是兴趣使然。还想提一下冯志伟教授,当年在北大已经读了两年的地球物理,就是凭着对语言学的热情,毅然转到语言学专业,从大一开始上起,比我们的大学多花了两年时间。抛开大师们超人的智商不说,他们对语言的那份热情、执着和敢于付出的精神又有几个人能敌?

回到Flycap提到的问题,“这么多学语言学的硕士博士,但真正有所作为的几乎是万里挑一”,如果真的是“万里挑一”那就是语言学界的大幸了。只是我们不应该要求语言学专业的学生马上就能将知识外化,学以致用。作为老师,给他们点“粮食”,在给他们点上路的时间,能否成名成家更多的还是靠他们自己的悟性和努力!

对于基础研究,亚洲微软研究院的一句名言是:我们的研究是为了赚后天的钱。20年来,我们一直致力于基础的、有潜力的科学研究以实现微软公司对未来计算的美好愿景。当然,有人会说微软财力雄厚,能做得起。其实,作为普通研究者,心中留有一幅美好愿景更加重要,研究不是用钱做的,更是用心做的。

3. 语言学对计算语言学的指导意义。自然语言处理的算法化、程序化和实用化的确是靠计算语言学家来推动的,而且如Flycap所言,“我们不得不承认这样一个事实,这些成果背后…语言学者的贡献并不多”,确实如此。但同时我们也需要承认另外一个事实,没有语言学者的贡献,自然语言处理无法朝更理想的目标发展。虽然现在机器学习、基于统计的方法也如火如荼,但是如果没有真正懂语言的人去指导,统计无异于平均意义上的模仿,很多语言细节还是抓不住关键特征。另外,“语言学者的贡献不多”还是怪我们这个专业队伍没有给自然语言处理提出更多更好的理论来。我们了解过这个领域的需要吗?这是不是也是我们的失职?


语料库语言学归根到底是语言学,抓住了这个核心,很多问题也就不难回答了。至于“大家都很浮躁”的问题,且不做评论,“环境不是借口。只有坚执自己认定的核心价值,才不会在惊涛骇浪中迷途。”(亚洲微软研究院院长洪小文)

个人拙见,欢迎拍砖!
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

以上回帖较长,对其中比较喜欢的字句,我用蓝色标示了。希望sharon不要介意。

其实,语料库研究还是大有可为的,随手举个例子:

看看Stefan Th. Gries这个家伙,他的成果看得我都头晕。
当然,要做Stefan Th. Gries做的相关研究,要有cognitive linguistics的背景,另外,还有计算方面能力要强。
http://www.linguistics.ucsb.edu/faculty/stgries/research/overview-research.html

上面的文章很多都可以下载。

每个人应根据自己所长,选择适合的切入点。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

唉,打了几百字,结果一提交,网页错误。算了。。。。哈哈
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

请问将语料库技术引入到高中英语词汇教学中的可行性大吗?我们最担心的就是语料库所提供的语言数据与我们高中生的语言实际水平之间的差异,有没有在这两者之间搭建桥梁的可能与途径?:eek:
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

请问将语料库技术引入到高中英语词汇教学中的可行性大吗?我们最担心的就是语料库所提供的语言数据与我们高中生的语言实际水平之间的差异,有没有在这两者之间搭建桥梁的可能与途径?:eek:

我认为在高中英语教学中应用语料库技术的可行性是有的,在作文和翻译练习中利用双语语料库提高学生的词汇应用能力可能会收到完全不同的效果。至于用单语语料库,我个人觉得最好是和语言测试相结合,搞语言诊断。高中学生写作训练比较少,对语言的应用能力也较大学生有所差异,搞横向比较的话,恐怕会有一定的难度。一家之言,仅供参考。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

谁有这篇文章:Douglas Biber,A corpus-driven approach to formulaic language in English Multi-wordpatterns in speech and writing. International Journal of Corpus Linguistics. 2009,14:3。十分感谢。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

我赞同 chensharon 的这个观点:
“另外,语料库研究并不是只要技术优势,语料库研究中用到的统计手段说到底,只是在用量化的方法研究质化的数据,而质化的数据是需要研究者来提炼、解读的。一个只谈技术的语料库语言学研究是没有思想的。”

不过说到具体的技术,记得一次开会的时候碰到 Prof. Michael Barlow,他说起 R 在语料库语言学里面的应用(即 Gries 教授的一系列的东西)对于他们自己老一代的人,也许可以不学了,但是对于年轻一些的人,还是要掌握的。

我个人觉得还是挺有道理的。编程固然比较枯燥,但也给我们提供一种不一样的思维的方式,通过程序,可以扩大我们研究的范畴。这里有一句话说的很有意思:
If you don't program, your research process will always be at the mercy of those who do. (记不得是谁说的了,知道的C友告诉我一下。)
 
Why you might want to learn to program

这里有一句话说的很有意思:
If you don't program, your research process will always be at the mercy of those who do. (记不得是谁说的了,知道的C友告诉我一下。)

http://niche-canada.org/member-projects/programming-historian/ch2.html
一本在线全文阅读的书,提出“历史研究者最好学会编程而便于挖掘历史事实”……
Why you might want to learn to program

We think that at least some historians really will need to learn how to program. Think of it like learning how to cook. You may prefer fresh pasta to boxed macaroni and cheese, but if you don't want to be stuck eating the latter, you have to learn to cook or pay someone else to do it for you. Learning how to program is like learning to cook in another way: it can be a very gradual process. One day you're sitting there eating your macaroni and cheese and you decide to liven it up with a bit of Tabasco, Dijon mustard or Worcestershire sauce. Bingo! Soon you're putting grated cheddar in, too. You discover that the ingredients that you bought for one dish can be remixed to make another. You begin to linger in the spice aisle at the grocery store. People start buying you cookware. You get to the point where you're willing and able to experiment with recipes. Although few people become master chefs, many learn to cook well enough to meet their own needs.

If you don't program, your research process will always be at the mercy of those who do.

At this point you might object that some of your primary sources are not in digital form and won't be for the foreseeable future. We get this. We're not suggesting that historians no longer need to know how to use material sources in real archives. What we're suggesting is that the rest of your scholarly life has already gone digital. You communicate electronically using e-mail and mailing lists; you search library catalogs and archival finding aids online; you submit drafts of monographs and articles electronically; you present yourself to the world on one or more websites; you have to put up lecture notes or submit grades online; an awful lot of the information that you need daily is already on the web. To use another food metaphor, imagine that digital sources are like sugar (and who wouldn't like to think of them that way?) In medieval Europe, sugar was a rare and expensive spice. Although some people might know how to use it in a dish, most people didn't ever need to think about it. Fast forward to the late 19th century, when sugar made up a relatively large proportion of many European diets. Not everyone needed to know how to make dessert, but it was no longer a rare skill. In the 21st century, some forms of sugar (e.g., high-fructose corn syrup) have become very difficult to avoid.
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

谢谢分享这本书。我看了开头几章,觉得 corpus linguistics 在 historical linguistics 里面也用的不少啊。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

可验证性一直是文科的硬伤,这不仅仅是语料库语言学的问题。同时,资源即财富,著名的语料库,软件这都是需要购买的,不能奢望啥都免费给你。
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

it is useful for me to read all your ideas about corpus. i am new here. and i was wondering.
对语料库语言学了解甚少,想作为下一阶段的学习目标,希望在这个领域做点事情。但是大家都好像谈及了技术,本人不懂技术能否踏入这一领域呢!请高手指教!
 
回复: 语料库语言学与中国外语教学:桂诗春、冯志伟、杨惠中、何安平、卫乃兴、李文中、梁茂成

制词表、算词频、觅搭配、求分布可能是语料库研究的主要功能,我所看到的语料库研究对语言学的最大贡献就是为语言学提供了一个系统实证研究的可能平台,特别是对语言的横组合研究有开拓性的贡献,有了语料库人们才对短语结构、搭配、语块、程式语、构式、型式结构具有更加深刻的认识,这也是语料库研究最直观的大贡献。
虽然目前的研究确实近乎止步不前,但语料库的工具性意义永远不会消失,如果不想仅此而已想由语料库本体研究带来整个语言学的革命,现在来看,几乎没有可能。因为个人认为,且不说语料库这一语言学研究的分支学科,就整个语言学研究来说,它的每一次重大理论转折无不带有其他更基础的学科的影子,特别是生物学、心理学、神经学、计算机等学科的理论创新和方法创新。在当前其他母体学科也基本处于“平滑期”的情况下语料库语言学这个小儿子得不到新鲜营养怎么可能有质变呢?
另外,关于语料库研究的实用性也应该是辩证的。语料库的用处之一就是“验证”功能,比如验证某个著名语言学论断,验证某个作家的文体风格等,这种验证本身就是语料库研究的“实用”所在。但由于这种实用不能给人带来知识的增长,因此受到怀疑,也确实有一定的“娱乐性”。
语料库当前最大的实用性应该是对词典编纂的贡献,当然对教学和教材编写也起着重要作用。用在词典和教学上的实用,应该具备大家所期待的实干性了吧。
目前的情况就是有一帮人在实干,有一帮人在娱乐。如果娱乐带有思辨色彩,能进一步推动、启发实干也值得鼓励,但若是为了跟风,为了发论文而娱乐,那就不对了。当然娱乐型的研究现在国内的情况,可能后者居多,这正是我们需要警惕的,也是前面各位所担心的。
 
Back
顶部