你所说的“样本”这个词在语料库语言学中所对应的术语是hit或concordance,表示你在库中找到了多少个实例(同时呈现出左右两侧的一些单词)。
sample这个词与example这个词在日常英语中有一定区别,sample更多用来指抽取或选取的整体的不可直接计算或不方便直接计数的固体液体气体之类的一把或一瓶或一桶东西;example这个词的最直接特征是“演示”与“模范”,所以,侧重个体,侧重典型。所以,你想知道某盘菜是否可口,你弄一勺子,叫做sample,不叫example;而你是个语料库的初学者,你是个example,而不是一个sample。与sample与example最容易混淆的单词应该是instance。instance是个案,是未必典型的例子,是很形象很鲜活的例子。在写作或口头上,你可以大致上随意用for example代替for instance或反之。在轻松的口语中,我们有个词很接近于instance,它是case,例如你可以说He is a good case of honesty(他是个典型的老实人)。
近义词辨析是个有趣的事情,语料库是个生猛的工具!有了语料库,我们都变成猎人,总能满载而归……
1亿个人之中才能发现3个好人的话,好人能算存在么。1亿就是1后面跟随8个0呢,就算是1亿有100个例子,也等于10万分之1而已的概率呢。概率太小的事情,很难说有什么规律或类型。
低频现象的存在有多种原因(本族语者也有对拼写,词汇,句法,语用的瞬间失误甚至为了彰显个性而刻意地制造另类现象),如果你在google之类搜索引擎打入一个错误了某个字母的英语单词,你都能发现数百甚至数千的结果呢,例如你把defeat的过去式错误地多打了一个t而变成defeatted,那么,你会跟我一样发现整个互联网有157个instance或concordance呢!链接在此:http://www.bing.com/search?q=%2bdefeatted&FORM=RCRE (但是,正常情况下,搜索引擎会自动纠错而让你无法直接搜索某些错误拼写的,但都会以不起眼的字体字号而提醒你“你是否真的是要搜索某某单词或词组呢”。例如当我直接输入defeatted之后,我就看到页面顶部有Do you want results only for defeatted?我点了这个defeatted的链接才有了上面的链接的,否则搜索引擎将会只是提供defeated的搜索结果而自认为自己很智能)
在至少有数百万单词的语料的情况下,低频词的品种庞大(type total)而重复个数(token total)相同的单词的量挺大,你在这里(点此跳转)下载BNC(一亿词的英式英语语料库)的词频列表就会发现在一亿词中出现5次的单词的数量很多,6次的也很多,7次的也很多,这就是所谓的“齐夫效应”与“长尾效应”,类似于这个社会上的低收入人群其实比高收入人群的数量与品种要多得多。
英语语法分为两大类:学校语法(也叫教学语法,teacher's grammar)与学者语法(也叫学术语法,scholar's grammar)。学校语法是用来约束初学者和水平不够高的人和希望遵从主流与正统语法的人的;学者语法是研讨不算高频的各种现象的合法性与规律性的。《薄冰语法》、《张道真语法》、《张振邦语法》、《牛津语法》都是属于teaching grammar的,这叫做“规范主义”,强调“随大流”。而《朗文英语口语和笔语语法(点此链接)》与《Quirk第1版语法(点此链接)》以及《Quirk第2版语法(点此链接)》都属于scholarly grammar,这叫做“描写主义”,强调“次流与低频也是合理的存在”。
已经熟谙主流的人刻意走向次流,是彰显个性;尚未熟悉主流的人有意无意走向次流,往往导致非议;跟正统的人交流或在正统的场合,就应该偏向正统与主流;若在不够严肃的场合下或亲密型交流,那么,使用远离主流的用法是取得更好交际效果的甚至必经之路。脱离语境或脱离场合,凭空谈论“合理合法”是务虚;不分场合,都采用单一的或固定的交际策略或语言特色,是僵化。
历史到底是领袖缔造还是群众创造,要辩证地看;语言规则到底是少数人的时装,还是多数人的西装,要历史地看;语料库到底用来举例,还是用来统计,要看个人需求和个人面临的挑战者(们)。
搭配主要是两个词之间的若远若近的形影不离,中间的间隔词可能有一个或多个。
一方面,搭配就像夫妻,这对人如果不喜欢社交,就很少露面,作为整体,你可以叫这对是“罕见”,这种情形是“整体测量”或“整体评价”;
另一方面,搭配就像朋友,这两个人可能各自都有自己的朋友圈,而需要衡量两者之间“关系有多铁”,这,你也可以叫做“罕见”或“搭配力”或“互信息(mutual information)”,这种情形是“相对测量”。
作为读硕读博的学生,主要面临3种竞争与评价。一,是自己的知识积累与学术套路的兴趣;二,是导师的知识积累与学术套路的兴趣;三,是国内外的同行专家的评价与兴趣。这三种力量往往是冲突的,每个人都希望自己身上的这三股力量是吻合的。
你说某种搭配是罕见,可以凭直觉,凭肉眼,也可以凭统计,凭统计测量的显著性的取值。有些导师(有的年轻,有的年老)很反感统计学哟,你用统计学的严肃手段,他或她反而给你盖个帽子“统计学都是骗人的,你不要拿这些来糊弄我”(我在博士答辩会上亲眼所见)。学术积累毕竟就跟技术积累是类似的,跟高尚无关,跟思维灵活性有关,跟兼容并蓄有关,跟习惯性思维有关。寄人篱下的时光毕竟是短暂的,自由的翅膀迟早会飞翔在属于你的高空……