关于国家语委语料库汉语词汇搭配的问题

#1
首先先公布一个好消息:上周我在论坛中发了个求问“国家语委语料库”总词容的帖子,不过似乎没有人知道。于是我发邮件问了相关负责人,他很热心地解答了我的问题。这是他给我的信息,拿出来共享,希望能对大家的相关研究有帮助:
网上供检索的语料库的基本信息如下:
总字符数:约2000万字
不计词类不同:
总分词单位个数:162967个 总出现次数:12842555 次
不同词类单独计算:
总分词单位个数:188215个 总出现次数:12940716 次

言归正传,我的两个问题是:1.我在研究汉语语料库的动词(如:修建、有 这样的动词)搭配,总词容我应该使用上面那个数据呢?2.研究汉语词汇搭配的时候,在跨距的界定有没有什么依据呢?(望各位老师不要嫌我的问题太菜,我是第一次接触词汇搭配研究,完全是一边看书自学,一边依葫芦画瓢,而且我现在参照的是研究英语词汇搭配的书,感觉很多地方直接往汉语上套似乎不能完全契合。)
恳请各位老师不啬赐教,先谢谢大家了!:)
 
#3
回复: 我有两个关于汉语词汇搭配的问题,恳请赐教!

1 12940716;
2 看具体问题。
谢谢楼上朋友的帮助!:)
不过对于您的第二个回答我还是很蒙。有没有相关的资料可供参考呢?(我现在手头只有一本《词语搭配的界定与研究体系》卫乃兴 著,都是探讨英语的。)或者能不能给个思路?比如说我想研究“有”这个动词。
 
#4
回复: 关于国家语委语料库汉语词汇搭配的问题

Xtract把一个词的影响所及定为前后5个词。(孙茂松,1997)
一般而言,前后4-5词可以满足需要。(邓耀臣,《词语搭配抽取的统计方法及计算机实现》)
有的情况会考虑长距离搭配,可以根据需要适当增加跨距。(跨距的界定也受所研究文本的语体、文体和语域等因素的影响,因此也要视文本的具体性质和特点而定(卫乃兴 2002))
这就是我所谓的“看具体问题”。
 
顶部