词块的界定以及标注

[FONT=宋体]本人想做一个关于学生词块使用特征的一个调查分析,但是通过[/FONT] Antconc [FONT=宋体]的[/FONT]N-gram [FONT=宋体]和[/FONT]cluster[FONT=宋体]对语料检索的结果发现很多词块有重合部分,例如,[/FONT]than other types of [FONT=宋体]和[/FONT] better than other types of[FONT=宋体]还有一些词块自身没有意义,比如,[/FONT]more and, is the, make a,[FONT=宋体]等等。如果将这些词块纳入我们的研究中,是不是会影响到我们的研究结果?[/FONT]

[FONT=宋体]个人的一点看法[/FONT]
N-Gram [FONT=宋体]([/FONT]N[FONT=宋体]元结构)是利用计算机技术将所有的“单词连续体”看作是多元序列或者词块,比如[/FONT]face to face communication,[FONT=宋体]利用[/FONT]antconc[FONT=宋体]来进行[/FONT]n[FONT=宋体]元结构的检索,(结构长度设定为[/FONT]2-5[FONT=宋体]),那么检索的结果会将[/FONT]face to[FONT=宋体],[/FONT]to face, face to face, face communication, face to face communication[FONT=宋体]看作是不同的[/FONT]n[FONT=宋体]元结构或者词块,可是根据常识,在这个短语中“[/FONT]face to face[FONT=宋体]”或者“[/FONT]face to face communication[FONT=宋体]”才能被看作是有意义的预制结构,[/FONT]face to, to face, face communication [FONT=宋体]都是[/FONT]broken fragments, [FONT=宋体]不能被认为是词块或者说“意义连续体”和“语义连续体”。相反地,很多单词,如[/FONT]nowadays[FONT=宋体],[/FONT]however, firstly [FONT=宋体]虽然只是一个单词,但是它们能够表达一个完整的意义,或者完成一个语法功能,那么我感觉这就可以被认为是一个词块。另外,分散在文本的不同位置但却表达完整意义的结构,比如说[/FONT]it takes ...... to do[FONT=宋体],[/FONT] when......happens, as far as .....be concerned, [FONT=宋体]也应该看作是词块结构,在[/FONT]N-gram[FONT=宋体]中却是无法检索出来的。[/FONT] [FONT=宋体]同样在[/FONT] cluster [FONT=宋体]中也是无法解决以上问题的。因此,“词块”的定义是否需要重新界定,同时要对学生的词块使用进行调查是否只能对本文进行手动的标注。具体的标注方案和手段有没有借鉴呢,希望大家能给我一些建议。[/FONT]
 
回复: 词块的界定以及标注

很久以前读过一篇文章(忘了作者了...应该是Hunston之类的大家)曾经分析过这些“破碎词块”(用你的术语),并认为它们都是有意义的...
等哪天找出来了再看看。

从你的分析来看,对词块的认识似乎还是传统语法的观点,最多算corpus-based而不是corpus-driven。
 
回复: 词块的界定以及标注

很久以前读过一篇文章(忘了作者了...应该是Hunston之类的大家)曾经分析过这些“破碎词块”(用你的术语),并认为它们都是有意义的...
等哪天找出来了再看看。

从你的分析来看,对词块的认识似乎还是传统语法的观点,最多算corpus-based而不是corpus-driven。


我并不否认这些破碎词块有一定的意义,但是如果评价一个学习者的词块使用能力或者水平的话,这些互相重叠甚至是没有意义的破碎词块是不是会影响到评价结果呢?
 
Back
顶部