N nalenici 2009-12-03 #1 本人目前正在研究语料的适应性问题,即是:在crf++环境下,假如用msr的训练语料去预测msr的测试语料,那么结果肯定是非常好的(使用较好模板的情况下),但是如果用msr的训练语料去预测pku的测试语料,结果会是如何呢?很差!那么有没有什么方法可以使得用msr的训练语料去预测msr的测试语料获得的结果和预测pku的测试语料获得同样好的效果呢?我的qq:251325951 Last edited: 2009-12-03
本人目前正在研究语料的适应性问题,即是:在crf++环境下,假如用msr的训练语料去预测msr的测试语料,那么结果肯定是非常好的(使用较好模板的情况下),但是如果用msr的训练语料去预测pku的测试语料,结果会是如何呢?很差!那么有没有什么方法可以使得用msr的训练语料去预测msr的测试语料获得的结果和预测pku的测试语料获得同样好的效果呢?我的qq:251325951
superyangt 2009-12-03 #2 回复: 求研究伙伴 我个人觉得,第一,两类语料的性质(如语体、文体等;规模、大小等)不同,造成用一类语料训练的模型,对另一类语料进行测试,结果很差。第二,MSR标记集和PKU的标记集不同,这样你的模板中如果利用了词性等信息,也会导致效果差距很大。
回复: 求研究伙伴 我个人觉得,第一,两类语料的性质(如语体、文体等;规模、大小等)不同,造成用一类语料训练的模型,对另一类语料进行测试,结果很差。第二,MSR标记集和PKU的标记集不同,这样你的模板中如果利用了词性等信息,也会导致效果差距很大。
superyangt 2009-12-03 #3 回复: 求研究伙伴 你可以先试着对标记集进行转换,再把实验结果提上来讨论。 或者扩大训练语料规模。不过我猜想你除了这MSR和PKU,也没有其他好的训练语料了。
N nalenici 2009-12-03 #4 回复: 求研究伙伴 并不是所有扩大训练语料的规模就能提高预测结果的,相反,如果语料扩大的不适当反而会大大降低预测性能!同时,即使训练语料和测试语料的分词规则是一样的,你就是再扩大训练语料的规模,其预测性能几乎没什么提高!反而是浪费了大量的计算资源和时间。谢谢
回复: 求研究伙伴 并不是所有扩大训练语料的规模就能提高预测结果的,相反,如果语料扩大的不适当反而会大大降低预测性能!同时,即使训练语料和测试语料的分词规则是一样的,你就是再扩大训练语料的规模,其预测性能几乎没什么提高!反而是浪费了大量的计算资源和时间。谢谢
superyangt 2009-12-04 #5 回复: 求研究伙伴 你说的有道理。但是你没有实验数据说明,到底多大的训练语料就达到了最佳的训练效果。 bakeoff用于训练的语料规模,我个人认为,是不够的。