[探讨] Google As a Corpus Tool

dzhigner

Moderator
"The Web as Corpus"也是一个值得关注的话题。

虽然互联网不是语言学数据的完美来源,总体上就是文本数据无序的堆砌,种类不容易控制,且充斥着错误。但"Web as a Corpus"不失为语料库的发展潜在的优秀解决方案。一个语料库一旦建成,就不能反映语言更进一步的变化。而这还不是最严重的问题,关键是已建成的语料库中,即便是最大的通用语料库,也不能对许多具体的研究课题提供充足频率的样本。互联网作为语料来源的优势在于能提供数量巨大的语料,而且在不断动态更新。应用web as corpus方法, 目前主要的途径有:应用通用搜索引擎(如GOOGLE)和专用搜索引擎(如WebCorp)。本人对此有浓厚的兴趣,希望能和大家探讨一下。
2005052301052098.jpg
 
Like monitor corpra.

Here are some resources from centre for corpus linguistics in Birminham

Global English Monitor Corpus

The world is changing. We know this not because we see it change; we know it because we hear and read about it. We know that the world is changing because people talk about the world today differently from yesterday. To understand how the world is changing we must compare today's texts with yesterday's texts.

The Global English Monitor Corpus is an electronic archive of the world's leading English language newspapers. Sophisticated search procedures will tell us at a finger's tip how the meaning of terrorism has changed on September 11, 2001. It will tell us how the world will never be the same by finding what is being said now but has never been said before. It will tell us whether the English language discourses in Britain, the United States, Australia, Pakistan and South Africa have changed in the same way or differently.

The Global English Monitor Corpus will make it possible to document language use and, more important, semantic change. But the Global English Monitor Corpus is much more than a tool for lexicographers, historical linguists and semanticists.

The attitudes and beliefs of a society can be found nowhere else but in the discourse. Newspapers reflect this discourse in a nutshell. The Global English Monitor Corpus will monitor as accurately as conceivable all relevant changes of attitudes and beliefs. It will become the prime resource for social and political studies all over the world. It will become a prime information source for everyone with an interest in social affairs, both in social studies and in governance.

The Centre for Corpus Linguistics at the University of Birmingham has drawn up a plan for the Global English Monitor Corpus. Input will be electronic text files from English language newspapers from all over the world. Within a few years, the corpus will contain billions of words of running text.

The Global English Monitor Corpus is a long-term project. Work on the project was begun in late 2001. First results will be available at the end of 2003.
 
oscar3的论文提要

本研究的理论基础为语料库语言学。本研究以互联网上丰富的语言材料为语料库,选取中国英语学习者的12个表达及其对应的参考答案作为参照,以搜索引擎为检索工具进行检索, 并将检索结果进行比较,试图验证中国英语学习者表达的合法性(grammaticality)。本文的研究目标有两个,一是要验证所选中国英语学习者的表达方式是否合法,二是要探讨运用网络语料进行语料库途径的语言研究的方法。
语料库语言学关心的是常用的和典型的用法,而不是语言中孤立的、独特的例子。这些常用的典型语言现象构成了一种语言比较稳定的规则。从某一共时角度来看,符合这些规则的就是可以接受的用法。而不符合这种典型规则的用法对于本族语使用者,要么是一种创新用法,要么是一种不规范的用法。对于一个外语学习者来说,不符合这种典型趋势的用法很可能是不合法的。因为根据Davies的研究,尽管一个非本族语学习者通过学习可以达到非常熟练地掌握一种外语的水平,但是,和本族语者相比存在着明显的限制和差异。对于外语学习者来说,要获得判断目标语言合法性的相关知识尤其困难。这就成为本族语者和外语学习者之间的分界线。这就是我们之所以可以用语料库验证中国英语学习者表达的理论基础。
本研究所使用的语料不同于传统的语料库。首先,传统的语料库经过平衡性处理,语料采样注意了不同知识领域、不同语篇类型、以及语篇产生的时代等参数之间的合理平衡。其次,传统语料库经过词性标注或者句法标注等不同的深度加工,具有多种功能。最后,传统语料库有比较专业的检索工具(如concordancer)、语料分析工具和统计工具。
网络是随着计算机和网络技术的发展而出现的新生媒体。网络语料是人们利用网络交流的产物,是真实语言的反映。网络语料以其数量大和涉及的面广而著称。基于这两个原因,如果我们不是研究语言的某些普遍的特性的话,我们可以利用英语本族语者的网络语料来验证中国英语学习者表达方式的可接受性。本研究通过将某个表达方式出现的频率和参照标准在网络语料中的出现频率比较,来判断中国英语学习者的表达方式是否可以接受。
要利用网络语料,一个需要解决的重要问题是检索工具。网络语料散布在因特网上;没有有效的检索工具,将无法获取那些语料。本研究通过搜索引擎(Google)的网站定向搜索逻辑式,检索了英、美、澳三国网站的比较权威可信语料,作为临时性语料库(ad hoc corpora)保存于本地电脑上。再用检索软件进行检索统计,得到不同检索词串的频率数据。这就是我们判断的依据。本研究证明,网络语料库的研究验证是成功的。
网络语料库作为目前最大的语料库,有传统语料库无法比拟的优势,比如,规模大、使用费用低廉,使用方便等。但是,网络语料库也有无法避免的缺点;网络语料虽大,但是没有经过深度标注以及平衡性处理,基于网络语料研究结论的普遍性具有明显的局限性。因此,如何进一步开发利用网络语料,仍有不少问题需要探讨。
 
回复:[探讨] Google As a Corpus Tool

True, it cannot be detected with ease automatically.

以下是引用 dzhigner2005-8-21 22:21:18 的发言:
网页作者是否本族语者的问题是一个比较突出的问题。
 
回复:[探讨] Google As a Corpus Tool

与其用它来验证中国英语学习者表达的合法性(grammaticality),不如用它来
研究语言新现象或区域语言的差异。
 
很好的一个尝试。不过,现在的网页资源跟公共厕所没什么区别,谁都可以留点咚咚在那里。如果没有科学的文本内容、结构、话题等分类筛选工具,直接搜寻的结果就和垃圾堆没什么区别,因此而来的语料估计大多颇具误导性。
 
回复: [探讨] Google As a Corpus Tool

can't see any difference between a corpus and the web as a reservoir of language use in that they are in nuture drops of the language sea whose volume increases endlessly. the problem is not that which represents the use of language better, but which serves your research purpose better, if there were "difference".
 
回复: [探讨] Google As a Corpus Tool

Computer language corpora are compiled to represent the actual use of a language or a variety of a language. On the Net, however, texts are reproduced exponentially. Besides, text types like IT and news take up a large proportion of the web resources, they do not deserve such precentage though. And much more language facts we produce every day are not digitized. Web is not a good language corpus by its very nature.
 
回复: [探讨] Google As a Corpus Tool

i hope that this corpus can offer valuable reference to the construction of "China English", which needs some theroies based on some other varaities of english in the world, like indian english, singapore english.
 
回复: [探讨] Google As a Corpus Tool

I believe that is a promising field.
First, it is free.
Second, it contains abundant information.
Third, it is much faster.
 
回复: [探讨] Google As a Corpus Tool

Despite its convenience and accessibility, Like Laohong says, language on internet doesn't necessarily represent the actual usage of the language by its native speakers .
One big problem for researchers is to tell its authenticity. For example, you can search on Google for "考卷" as "test paper". it does show such keywords and many people do unnaturally use this way. but if you look it up in a corpus such as BNC, you may find "test paper" implying papers examinee can answer on directly instead of on a answer sheet. Therefore, if provided with a seperate answer sheet, "考卷" may be termed as "question book" for better.
 
Last edited:
回复: [探讨] Google As a Corpus Tool

如动态语法所说,用基于网络的语料来研究语言的变化性还是可行的.
 
回复: [探讨] Google As a Corpus Tool

“互联网用作语料库”的原理与实践

摘要:“互联网用作语料库”是一种把互联网上的文本用作语料资源的新兴方法。互联网并非标准意义的语料库,但因包含庞大数量的文本而有具有不可忽视的实用价值。“互联网用作语料库”方法已广泛服务于语言数据挖掘以及语言学假设检验。目前已有数种专门化检索工具问世,同时直接应用通用型搜索引擎搜集语料是应用最广泛的方法。本文介绍“互联网用作语料库”的发展现状、基础理论、基本原理、应用策略与手段。

关键词:互联网用作语料库;语料库;检索;搜索引擎;Google



“互联网用作语料库(web as a corpus,以下简称WAC)”指的是把互联网视为一个文本语料库,应用Google等通用型搜索引擎或WebCorp等专用检索工具作为检索手段。根据WebCorp创始人A. Kehoe的解释,WAC方法诞生并得到认可的原因在于:语料库一经建成,就有了时间上的固定性,不能反映更新一步的语言发展动态。而比起任何已成型的语料库,互联网上文本的数量最为庞大,并在不断动态增长。因此互联网已被广泛地视为具有极大潜能的语言数据资源。

1 对WAC的辩证认识

1.1 互联网并不是语料库

“语料库是具有结构原则的大量自然文本的集汇”;“用以典型化地描述语言的性质与变化”。Sinclair曾强调,文本的集合与语料库的根本区别在于后者具有一种特殊的代表性。与标准意义上的语料库相比,互联网文本远不符合上述定义与原则。实际上,在直接对互联网进行索引的语言学检索引擎问世前,WAC的解决方案均以通用型搜索引擎为基础,检索的是经过简单文本索引处理的网页,其组织结构与语料库大相径庭,不符合标准语料库意义上的典型性、代表性或系统的语言学原则。甚至不可确知网页作者是否某种语言的本族语者。此外,互联网上大多数文件以超文本为格式,包含大量基于超链接的交叉引用,以至于很难通过目前的检索技术获得精确的频率数据,且其中信息噪音的数量不得而知。

1.2 WAC的实用性

另一方面,在基于语言学标准的人工分析以及数据筛选的基础上,WAC是一种不容忽视的语言学数据源,具有巨大的应用潜力,其原因在于互联网文本的庞大数量与增长速度。而前者是WAC实用价值中更为关键的因素。尽管“与语料库代表性与数据采掘的系统性相比,数量并非重中之重[3]”,语料库研究的诸多方面显示,语料样本的数量对研究结果有直接的影响。其中典型的领域是词汇研究,如Biber强调:“许多词语与搭配出现的频次不高,因此语料库必须包含来自许多种不同文本的成百万的词语才使得我们能够调查它们的运用。”此外,语料库作为可系统化采掘的数据资源、语言学假想的试验台方面的价值被广泛的承认与开发[3]。在语言学假想检验方面,语料库有着广泛的应用与不断增长的用户群。因为语料库最为根本的一种实用价值被越来越多的人认可,即“汇集了大量本族语者的直觉知识,使得语言学研究更为客”。“始于直觉的假设,验证于语料数据”或通过语料寻求语言运用线索的实证主义方法不仅被语言研究采纳,也普及至写作、翻译、教学等应用领域。尤其是在外国语方面,非本族语者提出词语搭配或表达法的假想并以母语者语料为检验或参考的应用模式异军突起,要求语料库能够在语言组合轴上提供数量更大,变化更多的词语、短语共现样本。对此,互联网文本数量远远超过任何标准意义上的语料库。WAC能够凭借庞大的资源规模服务于这一要求。

2 WAC的实践原理与策略

2.1 WAC的基础应用模式与专门化工具

根据在英国伯明翰大学举行的“2005互联网作为语料库研讨会”的一项资料,应用互联网作为语料资源的模式主要有三种:(1)直接应用搜索引擎取得频次数据;(2)应用搜索引擎检索网页文件并下载,用以建立语料库;(3)制作网络机器人(spider)遍历网络,以组建处理数据的专门化检索引擎。然而,WAC仍是一个探索中的新课题,多数WAC应用方案仍处在开发试用阶段。符合第三种模式的高效语言学引擎至今没有问世,与其最接近的是英国利兹大学开发的“Internet Corpora”项目,其原理是通过下载并处理大量网上文本建立语料库,但该项目没有成熟的网络机器人技术,仍然使用其它搜索引擎来定位文本资源,因此语料数量以及更新的效率无法与通用搜索引擎相比。此外,已发布的WAC软件中最常见的是基于网上文本制作KWIC(Keyword in Context,上下文中显示关键词)形式语料样本的工具,其中包括WebCorp、WebConc、KWICFinder等。该三种工具对网上数据的采掘与分析方式相同:以Google,AltaVista等搜索引擎为底层检索机制,并非直接应用返回的结果,而是通过搜索引擎定位并下载与检索条件匹配的网页文件,此后执行细化的检索标准,对文件中的文本加以二次检索与分析。目的在于提供更精确的频数、更充足的上下文、更充分的检索选项。虽然检索过程因为网页下载而非常耗时,但与搜索引擎相比,上述工具的增强功能为采掘语料提供了便利:在检索条件方面,继承了搜索引擎的控制参数(如语言选择、域名控制等),并增强了文本检索功能(通配符、上下文长度控制等),实现了对文本的深入筛选;在语料分析方面,则借鉴了常规语料库检索软件,如WebCorp与KWICFinder在KWIC之外还提供词频表与搭配词统计功能。

2.2 直接应用通用型搜索引擎

虽然搜索引擎对于语料检索而言并非完善,但搜索引擎返回的结果不乏应用价值,尤其是对于词语搭配的检验。此外,在专门化语言学引擎出现之前,通过通用搜索引擎进行语言学检索是最快捷的方式,而实际上也是应用最为广泛的WAC方法。其可行性在于:单次检索的结果数量可多达800-900,不乏长度与上下文充分的记录。Google返回的文本摘录与语料库检索结果的KWIC格式相似,Google采用了切句等自然语言处理技术,使文本摘录的上下文格式更为规范。Google拥有最大的索引数量并且为文本检索提供“*(一个或多个词)”等通配符。

2.3 Google语言学检索的策略

运用计算机检索来获取语料并纳入分析过程并非一种程式化的技术,而是与语言知识和计算机操作能力均有关联的技能。对于不同性质的问题,分析模式分为两类(如下以分析词语BUSINESS语义为“扩展”的动词搭配为例):(1)挖掘模式:通过观察检索结果,在关键词上下文中发现语言运用依据。比如:检索“to * business by”,获取通配符位置上高频出现,语法、语境特征合适的词语,(2)检验模式:提出关于目的语结构的假想并加以检验。比如:通过检索“to grow * business”检验假想搭配GROW BUSINESS的存在及频率,在上下文中确定其性质。在这两种模式中,检索表达式的设置既要合乎语言问题的性质,亦须考虑WAC的特点。首先,互联网文本中含有大量支离的词语(如链接文本、目录项)、含自然语言词语的计算机语言字串(如域名或网址),所以将独立关键词作为检索式的效果并不理想,因此可以运用辅助词语来加强检索式的限制性,况且网上文本的巨大数量支持了这种方法的可行性。运用双引号操作符的固定短语检索式中使用辅助词与通配符,在某种程度上可达到语义聚类或限制语法结构的目的。比如:应用检索式“to * small business by”能够聚集概念为“扩展”的词语;检索式“to * business by”目的在于尽可能在通配符位置聚集与BUSINESS搭配的动词并确保BUSINES处在动名序列中名词的位置。设想使用一个较宽松的检索式“to * business”,有用的语料会淹没于大量与BUSINESS动词搭配性质不符的结果。比如:

… other small to midsized business magazine …(通配符位置无动词)

… organization to extend business processes via the Internet … (与EXTEND构成搭配关系的名词实则为PROCESS)

除通配符外,Google也提供了限定关键词逻辑关系的操作符AND、OR、NOT。其应用应符合研究问题的逻辑性质:AND适合表达组合关系,比如共现的两个词语;OR则适合于近义或聚合关系,比如一个词语的屈折形式。逻辑符也能够为某些语言问题提供有效的解决方法,例如:通过在搭配词间使用OR逻辑符,在节点词前使用AND,比较两个或多个词语与节点词的搭配力。检索结果中节点词毗邻区域中分布稀疏的搭配词与节点词的搭配力相对弱,反之则强。

综合上文,以下以辨析BUSINESS与EXPAND或EXTEND的搭配为个案:应用Google搜索,在三则不同检索式的各200条记录中统计节点词BUSINESS左侧毗邻区域内两搭配词的频次与频次差异(以频次比值反映)。

A: expand AND extend AND business

B: (expand OR extend) AND business

C: (expand OR extend) AND "to * business by"

检索式 搭配词 合计 差异
EXPAND EXTEND
A 45 18 63 2.5
B 75 10 85 7.5
C 96 1 97 96

三次统计的结果中,EXPAND的频次均高于EXTEND,说明EXPAND与节点词BUSINESS搭配力更强。从差异来看,符合研究问题逻辑性质的检索式B、C得出相对较大的频次差异,而以辅助词语严格限制的C式得出最大的差异。通过合计可见,符合研究问题逻辑性质的B、C式能更有效地挖掘预期或潜在的搭配词,而带有辅助词语的C式最有效。可见,检索式对语言问题的拟合程度越高,越能够有效地吸引有用的语料数据。

3 结语

WAC方法本质上符合现代语料库方法的基本特征:实证分析自然语言文本中语言使用的实际模式;以语料库为分析研究的基础;使用计算机的自动与互动技术进行分析;使用定量与定性分析的技术。须强调的是,虽然语料库方法的本质是实证主义的,理性的作用不可或缺。语言研究与学习的主体是人,语料库应用的效果必然受语言知识、认知能力等主观因素影响,对于尚不完善的WAC方法尤其如此。使用者应在数据为驱动,理性为标准的模式中实践WAC方法。
 
回复: [探讨] Google As a Corpus Tool

Googleology is Bad Science
Adam Kilgarriff
Computational Linguistics March 2007, Vol. 33, No. 1: 147–151.
 
Back
顶部