在2006年7月北京的“语料库在外语教学和研究中的应用”研修班上,有几个新的研究思路值得关注:
1)梁茂成博士提出的对给定语篇统计word cluster词表,并利用该词表对其他文本进行批量检索,这样每个索引行都有一个对应的文件路径,把文件路径列表通过EXCEl处理读入到SPSS中进行频率统计,可得到某一word cluster在一个单篇文本中的频数,如果把这些文本中其他对应的参数输入,可做相关分析或差异检验。梁博士一个更高级的做法是,只抽取这些cluster的语法模式,如N + N + V + Adjective + N,分析的意义会更大。
2)高超在辅导学员是提出的一个思路:观察一个搜索词跨距内各个位置出现的搭配词数,会得到一个V型分布,即越靠近搜索词,搭配词的数量就越有限,而远离搜索词的位置上搭配词选择更为自由。利用这个思路,可以把这种分布做成矩阵,并以此来检验在一个搭配中,哪些词是核心词。我们以前只观察每个位置的词频以及该词语搜索词的搭配强度,而没有充分利用wordsmith中的pattern这个功能。
3)索引行有利于观察词的搭配和用法,但在提取数据时不够精致。可以对collocates词表某一列排序,并在保存文件时指定列即可。比如需要提取检索词或cluster的各种形式,并获得频数,可在collocates栏中降序排序。
4)利用powergrep某一种pattern,比如查找动词与后跟第一个名词,可用正则表达式中的*?来控制。
1)梁茂成博士提出的对给定语篇统计word cluster词表,并利用该词表对其他文本进行批量检索,这样每个索引行都有一个对应的文件路径,把文件路径列表通过EXCEl处理读入到SPSS中进行频率统计,可得到某一word cluster在一个单篇文本中的频数,如果把这些文本中其他对应的参数输入,可做相关分析或差异检验。梁博士一个更高级的做法是,只抽取这些cluster的语法模式,如N + N + V + Adjective + N,分析的意义会更大。
2)高超在辅导学员是提出的一个思路:观察一个搜索词跨距内各个位置出现的搭配词数,会得到一个V型分布,即越靠近搜索词,搭配词的数量就越有限,而远离搜索词的位置上搭配词选择更为自由。利用这个思路,可以把这种分布做成矩阵,并以此来检验在一个搭配中,哪些词是核心词。我们以前只观察每个位置的词频以及该词语搜索词的搭配强度,而没有充分利用wordsmith中的pattern这个功能。
3)索引行有利于观察词的搭配和用法,但在提取数据时不够精致。可以对collocates词表某一列排序,并在保存文件时指定列即可。比如需要提取检索词或cluster的各种形式,并获得频数,可在collocates栏中降序排序。
4)利用powergrep某一种pattern,比如查找动词与后跟第一个名词,可用正则表达式中的*?来控制。