大家好。
我想做两组中文分词开放测试的实验,以验证我的分词模型的实用性。我使用的训练语料是Bakeoff2005的PKU(北大的)和MSRA(微软亚洲研究院的),这两个训练语料对应两个不同的分词标准。开放测试的测试语料也应该对应这两个分词标准,但是与训练语料是不同领域的,或相关性较小的。
我看到Bakeoff2003中有PKU的测试集,Bakeoff2006中有MSRA的测试集,但是不知道哪里能够下载,我在CLDC上没有找到,网上也没有找到。
哪位有的可以分享一下,只要与北大分词标准一致的分词语料、或者与微软研究院分词标准一致的分词语料,都行。
万分感谢。
可以发到我的email:yingyul@mail.ustc.edu.cn
或: YingYul1218@gmail.com
我想做两组中文分词开放测试的实验,以验证我的分词模型的实用性。我使用的训练语料是Bakeoff2005的PKU(北大的)和MSRA(微软亚洲研究院的),这两个训练语料对应两个不同的分词标准。开放测试的测试语料也应该对应这两个分词标准,但是与训练语料是不同领域的,或相关性较小的。
我看到Bakeoff2003中有PKU的测试集,Bakeoff2006中有MSRA的测试集,但是不知道哪里能够下载,我在CLDC上没有找到,网上也没有找到。
哪位有的可以分享一下,只要与北大分词标准一致的分词语料、或者与微软研究院分词标准一致的分词语料,都行。
万分感谢。
可以发到我的email:yingyul@mail.ustc.edu.cn
或: YingYul1218@gmail.com