再说说WEB AS CORPUS和GOOGLE LINGUISTICS

dzhigner

Moderator
这个话题在我们这里依然讨论不多。国外一批学者在这个不大不小的领域已经小有成果。虽然还是有不少批评,至少是已经为WEB AS CORPUS建立了一个身份,相应的理论也通过一系列的文献渐渐建立起来了。我一直是WAC的粉丝,希望国内对这个领域的关注多一点。

尽管从根本上否认“WEB AS CORPUS”这个概念的声音很强大。但是不得不承认的是,WAC的实用价值很强大,不管是对于搞研究的还是搞文字工作的,尤其是后者,可能更能切身认识到WAC的价值。我本人也是个翻译,主要干英翻汉的活,曾经也是一时顿悟才想到了GOOGLE,发现就大喜。

为什么我这样的人喜欢GOOGLE,因为母语不是英语,语言知识有限,工作需要大量写英语,几本字典根本解决不了问题,需要大量可检索的本族语者文本和中英对照文本来做两件事,我自己用这样两个词来表示:知识挖掘和假设检验。从本族语文本和中英对照文本中都能挖掘出词语和表达方面的知识,假设检验主要是通过本族语者语料。

中英对照文本能派不小的用场,不过,对于外文写译工作中大量的择词表达问题,可检索的本族语者文本也同样有用,甚至可以说更有用。所谓大量文本,究竟大到什么程度?如果经常用外语写作或者往外文里译东西就知道了,BNC、ANC等几个大部头的攒一块也不够(信不信由您)。

为什么用GOOGLE,一方面是因为它索引过的文本数量大些,更重要的是GOOGLE有一个通配符(*),目前就GOOGLE一家有,这个星花十分有用,决定了GOOGLE能成为当前WAC“首席”工具中的一种,虽然GOOGLE对于语料查询而言已经“简陋”到了极致,举个简单的例子"a * consumption culture",你能用这个星花钓出许多供参考的形容词。对于相对不很常见的词语组合,用正统语料库解决不了几个,常常检索不到什么有用的资料,可是GOOGLE,常常可以“得手”。

这就是十分小众的“Google 语言学”,没几个人用这个词。不过不得不承认是个不错的字眼,跟“语料库语言学”一个骨架。当然了,Google语言学必定成不了气候,正如国外某个WAC学者说的那样:Google技巧玩得溜,不如赶快搞个和Google一样大的语言学检索引擎。这就是那些人正在努力的方向,虽然还比较遥远。
 
Weborpus, Googlinguistics, and Weboncordancer

我非常赞成楼主的观点!

语料库语言学,应该从“建库”走向“建器”。器,是检索工具。建库,从基本效果上,难度不大;建器,尤其是海量网页抓取器,难度就相当大了。

我的理念是:做好一个Web Concordancer,就等于做了一个Corpus或Weborpus;基于Google的抓取进行的抓取,就像 http://www.webcorp.org.uk/live/ 这个网站的做法和努力方向,就是典型的代表。

如此这般,语料库的建设就是技术高度密集的一个领域了。

“Online Concordancer”或“Web Concordancer”或“Weboncordancer”应该支持对用户本地硬盘的一系列语料文件的检索,也更能对用户指定的网站或一系列网站进行独立的深度的抓取,因为大部分的搜索引擎对大部分的网站的页面抓取是不完整不全面的,因为确实有很多页面是点击率不够高而被大型搜索引擎的爬虫所忽略。P2P技术也可以被引入,让同样进行在线检索的用户之间可以分享检索结果和分享搜索计算本身。

词性分析器和句法分析器和语义标注器之类的,都应该被集成在Weboncordancer,不必让普通的操作者专门学习,而是集中精力到数据的切入与分析与提升上。

所以,技术上,Googlinguistics is the study of Google as a Weborpus and some special sites as Weboncordancers.
 
回复: 再说说WEB AS CORPUS和GOOGLE LINGUISTICS

同意楼主和楼上的观点。网络搜索本身就是很大的产业,相关的技术包括文本挖掘、海量信息提取等等,意义很重大。就自己个人来说,经常翻译时会用google核实一下。
但现在的问题是:技术含量这么高,资本门槛也高的领域,语言研究者能贡献的是什么呢?
 
语言搜索,是个特殊的搜索领域,限于教学与研究,尚未开垦

语言教学与研究者就是利用Weboncordancer来查询自己想要知道的规律和数据,不必把Weboncordancer当作一个大产业,那是大公司的事情,就像人人都可以建语料库来自娱自乐 —— 有技术能力的人或单位建了Weboncordancer也只是一种探索性的事情,它只是辅助语言研究者和教学者更好地做好自己的本职工作,因为每个人做好自己的本职工作就是对社会或对学术的贡献。SPSS开发者和利用者是两批人,利用者充分用,就是对开发者的最好回报。
 
回复: 再说说WEB AS CORPUS和GOOGLE LINGUISTICS

同意楼主和楼上的观点。网络搜索本身就是很大的产业,相关的技术包括文本挖掘、海量信息提取等等,意义很重大。就自己个人来说,经常翻译时会用google核实一下。
但现在的问题是:技术含量这么高,资本门槛也高的领域,语言研究者能贡献的是什么呢?

如李亮说,用户其实最好的贡献就是尽量发挥其功用。我个人认为,即使和Google相当规模的语言学搜索能够建立,从商业的角度讲,也不会是个成功。如果GOOGLE自己愿意开发一个应用界面来增加一些用户,倒是一个不错的点子。。。

我个人写了两篇论文,但是没有涉及WAC工具开发的方向,而是从语言学和认知的层面分析GOOLE或者WAC的应用。

GOOGLE语言学这玩意,就像一把小刀,没螺丝刀的时候也许能凑合着拧螺丝,凑合着用来开罐头。但是其所具有的实用价值是不容否认的。

现在有个方向倒是很值得钻研一下,正统语料库做量化分析的套路比较分明,但是用WEB文本做量化分析究竟应该用什么策略。。。
 
回复: Weborpus, Googlinguistics, and Weboncordancer


词性分析器和句法分析器和语义标注器之类的,都应该被集成在Weboncordancer,不必让普通的操作者专门学习,而是集中精力到数据的切入与分析与提升上。

所以,技术上,Googlinguistics is the study of Google as a Weborpus and some special sites as Weboncordancers.

我多少有点不同意高度”集成“的观点,我认为分析工具(至少是当前)最好是用户层面的东西,搜索引擎的本职相对简单,就是提供大量可检索、噪音少的文本,提供的检索结果可以进行深加工。
 
Back
顶部