各位老师好!我是正在写汉语词语搭配相关论文的硕士,刚刚接触语料库语言学,深感这门科学对语言研究的巨大作用,可是我之前一直没有 学习过相关内容,最近看论坛自己摸索,得到很多帮助!非常感谢!但是,还是有问题……。真的是什么都不懂,希望老师们能看到我的问题并回答,感激不尽!
1. 要用antconc研究某个词的高频搭配,我应该用cluster还是collocates?大部分的搭配词都不是直接出现在目标词的两侧,可能隔好几个,那么 cluster size或者window span 我应该选多少合适?
2. 上面一个问题提取了搭配词以后,应该用人工筛选过滤掉不符合的词对吗,那频率和MI值有没有改变呢?原来包括非搭配的词的时候的数据应该不能用了吧?怎么重新计算剩下的搭配词的频率和MI值呢?或者用Excel算么==。还是过滤掉那些词的语料后重新生成一个文本再去antconc分析?
3. 我要研究某一类词的常用搭配,这样国家语委语料库是经过分词处理的可以直接用antconc,可是规模有点小。CCL语料库大,可是没有分词,得用分词软件(不一定分得好),还有lancaster我不熟悉,老师们建议哪个更合适呢?
4. 我看软件提取搭配存在误差,其实我的语料不是很巨大,要研究的词有120个左右,所以或者我直接人工先鉴别每个词常用搭配,再用excel或antconc算出MI值或T值来排一下常用度??
.我的学校没有这方面课程,也不聪明所以才有这些笨问题,比较啰嗦。谢谢老师们了!
1. 要用antconc研究某个词的高频搭配,我应该用cluster还是collocates?大部分的搭配词都不是直接出现在目标词的两侧,可能隔好几个,那么 cluster size或者window span 我应该选多少合适?
2. 上面一个问题提取了搭配词以后,应该用人工筛选过滤掉不符合的词对吗,那频率和MI值有没有改变呢?原来包括非搭配的词的时候的数据应该不能用了吧?怎么重新计算剩下的搭配词的频率和MI值呢?或者用Excel算么==。还是过滤掉那些词的语料后重新生成一个文本再去antconc分析?
3. 我要研究某一类词的常用搭配,这样国家语委语料库是经过分词处理的可以直接用antconc,可是规模有点小。CCL语料库大,可是没有分词,得用分词软件(不一定分得好),还有lancaster我不熟悉,老师们建议哪个更合适呢?
4. 我看软件提取搭配存在误差,其实我的语料不是很巨大,要研究的词有120个左右,所以或者我直接人工先鉴别每个词常用搭配,再用excel或antconc算出MI值或T值来排一下常用度??
.我的学校没有这方面课程,也不聪明所以才有这些笨问题,比较啰嗦。谢谢老师们了!
Last edited: