在对比great 一词在CLEC和LOCNESS的名词搭配的异同时,设定T>=2, mi>=3, 在LOCNESS里只有3个显著搭配, 而在CLEC里却有二十几个显著搭配, 很难对比分析. 后来用BNC的一个子库检索,库容是CLEC的十几倍, 发现GREAT的显著搭配有六十几个. 看起来显著搭配词的数量与库容有关. 想请教老师:是不是一定要两个库容差不多时才能做这样的搭配对比分析?
第二个问题是:BNC是赋码语料库,我用的是antcon,在统计库容时那些标注码(NN, ADJ...)都被统计到库容里, 而CLEC没有标注,这样两库的实际容量还是不一样, 不知怎么才能解决这个问题?
请老师们给我指导, 十分感谢!
第二个问题是:BNC是赋码语料库,我用的是antcon,在统计库容时那些标注码(NN, ADJ...)都被统计到库容里, 而CLEC没有标注,这样两库的实际容量还是不一样, 不知怎么才能解决这个问题?
请老师们给我指导, 十分感谢!