当代汉语翻译小说语料库(CCTFC corpus)这个怎么用啊
介绍上面有一个链接说这里能用 但是没有找到
求助
Link updated http://www.bfsu-corpus.org/static/cctfc/
介绍上面有一个链接说这里能用 但是没有找到
求助
Link updated http://www.bfsu-corpus.org/static/cctfc/
当代汉语翻译小说语料库这个怎么用啊
介绍上面有一个链接说这里能用 但是没有找到
求助
好东西,谢谢。
1。界面应该参照了Mark Davis的吧,很清爽;中文分词确实是中文检索的老大难问题,使用N-gram的方法召回率是100%,,但噪音信息又太多了,准确率又下降了。
2。请教对结果排序的原则,是按拼音、笔画、频率、unicode编码还是其他?
多谢提醒,都怪自己懒。至于排序的方法,搜索一个词,排一下序就能看出来了。
分词的准确率按照大众(不是语言学家)的要求来说还能接受,但针对语言学家的汉语搜索引擎的质量受分词影响太大了啊,不知laohong怎么会说无关呢?搜索词分空格不分空格其实就是在人工分词。然后去匹配数据库里已分好了词的内容啊。汉语分词的准确率很令人失望,但是这只是影响语料库的字词词性,和搜索engine的功能好坏无关。
或许商用版的那个好几万块钱的可能会不一样。
...但针对语言学家的汉语搜索引擎的质量受分词影响太大了啊,不知laohong怎么会说无关呢?搜索词分空格不分空格其实就是在人工分词。然后去匹配数据库里已分好了词的内容啊...
我不能认同laohong的这一观点(但我认同他其他很多观点)。分词阶段的错误确实不是检索程序本身的错误,但我不杀伯仁,伯仁却因我而死,分词的质量会影响检索的质量也是不争的事实。检索程序是不能独善其身的,人们看待搜索好坏不只是看程序的运行速度,就好像Google不能因为后台分词方面的错误造成检索失误而说那不是它的责任,即便它能闪电般的取出结果。当然,大规模语料库的自动分词是不可能100%的正确的(哪怕是人工分词,就算我们有足够的人力、物力和时间,100%的正确率恐怕也只是梦想,因为自然语言本身具有模糊性)。如果我们能承认语言现象是概率的(正如Probalistic linguistics所认为的那样),那么,只要在满足应用的前提下,一点误差是应当允许的,也是无须回避的。我最近看了Oralce的全文搜索,也是采用了自动分词和N-gram结合的方式,工业标准也不过如此,我们没有什么好担心的。搜索好坏得看是不是能迅速准确地拿到数据库里的东东,分词阶段的错误怎么能怪检索本身呢?
我不能认同laohong的这一观点(但我认同他其他很多观点)。分词阶段的错误确实不是检索程序本身的错误,但我不杀伯仁,伯仁却因我而死,分词的质量会影响检索的质量也是不争的事实。检索程序是不能独善其身的,人们看待搜索好坏不只是看程序的运行速度,就好像Google不能因为后台分词方面的错误造成检索失误而说那不是它的责任,即便它能闪电般的取出结果。当然,大规模语料库的自动分词是不可能100%的正确的(哪怕是人工分词,就算我们有足够的人力、物力和时间,100%的正确率恐怕也只是梦想,因为自然语言本身具有模糊性)。如果我们能承认语言现象是概率的(正如Probalistic linguistics所认为的那样),那么,只要在满足应用的前提下,一点误差是应当允许的,也是无须回避的。我最近看了Oralce的全文搜索,也是采用了自动分词和N-gram结合的方式,工业标准也不过如此,我们没有什么好担心的。
问题开始有趣了,我可能没看懂laohong的一部分内容,因为laohong原来说的是“和搜索engine的功能好坏无关”,但laohong后来也说了"迅速准确地",我对“准确”的定义是基于汉语语义的,原文的,laohong的定义可能是基于从数据库连接那一刻算起的准确,所以我们会出现意见分歧了。我是这样理解的:检索程序是依赖分词结果的,如果分词分对了,那么检索自然是顺风顺水 ;如果不巧分词出现了偏差,检索程序就说不是我的事,因为我恰巧调用一个不太聪明的分词器的分词结果,下一次我换一个聪明的分词器,那么就没有任何问题了。"牛皮_n"和"好象"两例只是分词器可能犯(或已经犯了)的错误之一(但大部分情况分词还是做对了,不然想想我们的检索程序的表现会多么horrible), 这个时候,检索程序不愿出来替一个表现还不错的分词器处理稍显杂乱的现场是情有可原的, 但因此贬低分词器就有点喝水忘了掘井人的味道了。所以我想表明的观点是:(1)承认分词和检索是两个相对独立的语料处理阶段(但就目前技术来看,不分词好像就没办法快速检索,因为建立索引的key就是检索的对象,而这些对象必须分词得来);(2)强调大规模汉语检索程序的精度是严重依赖于分词精度的(除非我们只作一个小规模的非动态语料库(这样碰到的分词岐义会大大降低,乃至于0)。我们有理由期盼一个完美的分词器,虽然在短期(或长期 )来看,这是Mission Impossible。至于"google里的简单字符匹配"就不便发表评论了,因为不知其技术内幕。做汉语检索程序的人有理由期盼分词程序的改良,在没有兴趣或精力的情况了,我们也只能等了。除非。。。除非我们自己做(天啊,多大的任务!即便做了,还能做得更好吗?这也是个疑问。)