当代汉语翻译小说语料库(CCTFC)怎么用啊

xusun575

高级会员
#2
回复: 当代汉语翻译小说语料库 怎么用啊

当代汉语翻译小说语料库这个怎么用啊
介绍上面有一个链接说这里能用 但是没有找到
求助
内容丰富,说明详尽,很有吸引力,但超级链接并没有指向语料库,且其它链接也没有指向标明的地址.确实没有办法使用.可能属于调试运行的过程中吧.
 

laohong

管理员
Staff member
#3
回复: 当代汉语翻译小说语料库 怎么用啊

啊呀,这个要怪laohong,我答应许博和胡博做这个检索部分,最近一忙,竟然一拖再拖。这个周末就贡献出来吧。请大家耐心等待。http://www.fleric.org.cn/cctfc/
 

laohong

管理员
Staff member
#4
回复: 当代汉语翻译小说语料库 怎么用啊

说一个星期,结果拖到现在才把这个测试版搞好,这其中有时间、精力的局限,也有语料和数据带来的问题。再过几天虎年就来了,终于有个测试版可以当作给大家的过年红包了。请点击这里进入测试界面,欢迎提出问题和报告bug。顺祝各位网友虎年健康快乐!
 

xujiajin

管理员
Staff member
#5
回复: 当代汉语翻译小说语料库 怎么用啊

非常非常感谢老洪帮忙制作了CCTFC的网络检索界面。
这段时间给老洪添了不少麻烦。
 

laohong

管理员
Staff member
#6
回复: 当代汉语翻译小说语料库 怎么用啊

测试检索时请先注意阅读首页里的关于Query Syntax的说明,这里再用实例说明一下:

1、直接输入字符检索,例如,检索“”得到2928条记录,点击2928前的那个“”,就看到下面的concordances;

2、检索短语注意使用空格,如“好 人”,中间有空格和没空格结果不一样;

3、如果要一次检索多个词语,中间用“/”即可,如“好/坏”,可以一次性检索出“好”和“坏”的结果;

4、“好 *”(中间有空格)和“好*”(中间没空格)得到的结果也不一样,前者指所有以“好”开头的词语,而后者指“好”和另一个词组成的短语;

5、"好?"(中间没空格,英文问号)得到的是“好”字为头的二字词语;

6、"书 [n]"(注意“书”和“[”中间的空格)得到“书”加上后面为名词的词语而形成的短语,如“书 房”、“书 店”等(注意这两个例子是分词器导致的词语切分错误);如果把“书”和“[”中间的空格换成英文句号,即“书.[n]”,则指检索自身的词性为名词的“书”;

7、大家可以自己尝试更多的组合;

8、显示结果方面,可以选择显示为concordance或是句子形式;是纯文本形式还是带上词性等等;

9、有几个在别的地方看不到的创新,如对结果进行排序,用户可以选择以检索词的左边(L1 to L5)或右边(R1 to R5)第几个词来对检索结果排序,正序ascending或是倒序decending都行;

10、点击每条结果后面对应的文件名,可以显示该文件的信息。

另外,我自己觉得这界面在IE里显示的比Firefox漂亮些。
 

xusun575

高级会员
#7
回复: 当代汉语翻译小说语料库 怎么用啊

这红包咱就领了,谢谢呵! query syntax 确实棒,不知咱能学会不?laohong出手就是不一样.已是春暖,花开在即, MMAX的培训班可以办了呵.
 

laohong

管理员
Staff member
#8
回复: 当代汉语翻译小说语料库 怎么用啊

CCTFC的语料是采用中科院计算所汉语词法分析系统ICTCLAS进行词语切分文词性标注的,虽然ICTCLAS声称准确率很高,但是在这个语料库里大家可以检索到很多明显的分词错误,例如把好象(不是好像)都切成了两个词“好_a" "象_ng"。看来,汉语分词方面的研究还是个需要很多投入的地方。
 

xujiajin

管理员
Staff member
#9
回复: 当代汉语翻译小说语料库 怎么用啊

老洪说的对。我也注意到“好象”标错的情况了。

当然,我想我们一般用的都是Free ICTCLAS。或许商用版的那个好几万块钱的可能会不一样。
 

laohong

管理员
Staff member
#10
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

顶一下,好多人没看到这个库的优点。
 

iCasino

普通会员
#12
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

好东西,谢谢。
1。界面应该参照了Mark Davis的吧,很清爽;中文分词确实是中文检索的老大难问题,使用N-gram的方法召回率是100%,,但噪音信息又太多了,准确率又下降了。
2。请教对结果排序的原则,是按拼音、笔画、频率、unicode编码还是其他?
 
Last edited:

laohong

管理员
Staff member
#13
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

好东西,谢谢。
1。界面应该参照了Mark Davis的吧,很清爽;中文分词确实是中文检索的老大难问题,使用N-gram的方法召回率是100%,,但噪音信息又太多了,准确率又下降了。
2。请教对结果排序的原则,是按拼音、笔画、频率、unicode编码还是其他?
谢谢!界面确实是参考了Mark Davis的。其实2008年3月在他办公室时,就问到能否使用他的engine,他当然不同意,回来后就开始着手开发我们自己的。不过他的一个建议非常管用,那就是“不要照书本上教的去做!”。

汉语分词的准确率很令人失望,但是这只是影响语料库的字词词性,和搜索engine的功能好坏无关。至于排序的方法,搜索一个词,排一下序就能看出来了。
 

iCasino

普通会员
#14
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

至于排序的方法,搜索一个词,排一下序就能看出来了。
多谢提醒,都怪自己懒。
汉语分词的准确率很令人失望,但是这只是影响语料库的字词词性,和搜索engine的功能好坏无关。
分词的准确率按照大众(不是语言学家)的要求来说还能接受,但针对语言学家的汉语搜索引擎的质量受分词影响太大了啊,不知laohong怎么会说无关呢?搜索词分空格不分空格其实就是在人工分词。然后去匹配数据库里已分好了词的内容啊。

顺被说一下ictclas的商用版, xu博提到过的。我在ictclas原作者网页看到的一则报道是i说ctclas 3.0版和原版 1.0在质量上并没有突破,只是运行速度快了一个数量级(大约),主要是针对工业运用。而且,作者张华平提到新版没有使用到一个字符串函数,全用统计方法,所以分词结果不可能达到语言学家要求的精细度(我们真的要求那么精细了吗?有时是的),这可能是任何使用分词软件做出的语料库的一个硬伤吧。不过,这个伤的程度或许没有我们担心的那么严重,就好像我们过分担心语料库的representiveness一样。
或许商用版的那个好几万块钱的可能会不一样。
 

laohong

管理员
Staff member
#15
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

...但针对语言学家的汉语搜索引擎的质量受分词影响太大了啊,不知laohong怎么会说无关呢?搜索词分空格不分空格其实就是在人工分词。然后去匹配数据库里已分好了词的内容啊...
检索时提取的是已经储存在数据库里的分词结果,所以检索本身只是提取,并不是去给分词再加工。搜索好坏得看是不是能迅速准确地拿到数据库里的东东,分词阶段的错误怎么能怪检索本身呢?
 

iCasino

普通会员
#16
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

搜索好坏得看是不是能迅速准确地拿到数据库里的东东,分词阶段的错误怎么能怪检索本身呢?
我不能认同laohong的这一观点(但我认同他其他很多观点)。分词阶段的错误确实不是检索程序本身的错误,但我不杀伯仁,伯仁却因我而死,分词的质量会影响检索的质量也是不争的事实。检索程序是不能独善其身的,人们看待搜索好坏不只是看程序的运行速度,就好像Google不能因为后台分词方面的错误造成检索失误而说那不是它的责任,即便它能闪电般的取出结果。当然,大规模语料库的自动分词是不可能100%的正确的(哪怕是人工分词,就算我们有足够的人力、物力和时间,100%的正确率恐怕也只是梦想,因为自然语言本身具有模糊性)。如果我们能承认语言现象是概率的(正如Probalistic linguistics所认为的那样),那么,只要在满足应用的前提下,一点误差是应当允许的,也是无须回避的。我最近看了Oralce的全文搜索,也是采用了自动分词和N-gram结合的方式,工业标准也不过如此,我们没有什么好担心的。
 

laohong

管理员
Staff member
#17
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

我不能认同laohong的这一观点(但我认同他其他很多观点)。分词阶段的错误确实不是检索程序本身的错误,但我不杀伯仁,伯仁却因我而死,分词的质量会影响检索的质量也是不争的事实。检索程序是不能独善其身的,人们看待搜索好坏不只是看程序的运行速度,就好像Google不能因为后台分词方面的错误造成检索失误而说那不是它的责任,即便它能闪电般的取出结果。当然,大规模语料库的自动分词是不可能100%的正确的(哪怕是人工分词,就算我们有足够的人力、物力和时间,100%的正确率恐怕也只是梦想,因为自然语言本身具有模糊性)。如果我们能承认语言现象是概率的(正如Probalistic linguistics所认为的那样),那么,只要在满足应用的前提下,一点误差是应当允许的,也是无须回避的。我最近看了Oralce的全文搜索,也是采用了自动分词和N-gram结合的方式,工业标准也不过如此,我们没有什么好担心的。
说的有些道理,但是你并没看懂我在说什么。如果把“牛皮”分词成了“牛_adj” “皮_n”,然后存入了数据库里。用户要求检索“牛皮_n”,你非要在检索过程中自作主张给人家把“牛_adj” “皮_n”合并成“牛皮_n”输出来,你不觉得这个检索器管的也太多了吧?要多大的智能运算能力啊?这是带词性的检索,不是google里的简单字符匹配而已。楼下也给了一些标错的例子,再思考一下,一股脑的把“好” “象”合并成“好象”就对了吗?人家说的是“这是一头好象,其它都生病了。”
 

iCasino

普通会员
#18
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

问题开始有趣了,我可能没看懂laohong的一部分内容,因为laohong原来说的是“和搜索engine的功能好坏无关”,但laohong后来也说了"迅速准确地",我对“准确”的定义是基于汉语语义的,原文的,laohong的定义可能是基于从数据库连接那一刻算起的准确,所以我们会出现意见分歧了。我是这样理解的:检索程序是依赖分词结果的,如果分词分对了,那么检索自然是顺风顺水 ;如果不巧分词出现了偏差,检索程序就说不是我的事,因为我恰巧调用一个不太聪明的分词器的分词结果,下一次我换一个聪明的分词器,那么就没有任何问题了。"牛皮_n"和"好象"两例只是分词器可能犯(或已经犯了)的错误之一(但大部分情况分词还是做对了,不然想想我们的检索程序的表现会多么horrible), 这个时候,检索程序不愿出来替一个表现还不错的分词器处理稍显杂乱的现场是情有可原的, 但因此贬低分词器就有点喝水忘了掘井人的味道了。所以我想表明的观点是:(1)承认分词和检索是两个相对独立的语料处理阶段(但就目前技术来看,不分词好像就没办法快速检索,因为建立索引的key就是检索的对象,而这些对象必须分词得来);(2)强调大规模汉语检索程序的精度是严重依赖于分词精度的(除非我们只作一个小规模的非动态语料库(这样碰到的分词岐义会大大降低,乃至于0)。我们有理由期盼一个完美的分词器,虽然在短期(或长期 )来看,这是Mission Impossible。至于"google里的简单字符匹配"就不便发表评论了,因为不知其技术内幕。做汉语检索程序的人有理由期盼分词程序的改良,在没有兴趣或精力的情况了,我们也只能等了。除非。。。除非我们自己做(天啊,多大的任务!即便做了,还能做得更好吗?这也是个疑问。)
 
Last edited:

laohong

管理员
Staff member
#19
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

问题开始有趣了,我可能没看懂laohong的一部分内容,因为laohong原来说的是“和搜索engine的功能好坏无关”,但laohong后来也说了"迅速准确地",我对“准确”的定义是基于汉语语义的,原文的,laohong的定义可能是基于从数据库连接那一刻算起的准确,所以我们会出现意见分歧了。我是这样理解的:检索程序是依赖分词结果的,如果分词分对了,那么检索自然是顺风顺水 ;如果不巧分词出现了偏差,检索程序就说不是我的事,因为我恰巧调用一个不太聪明的分词器的分词结果,下一次我换一个聪明的分词器,那么就没有任何问题了。"牛皮_n"和"好象"两例只是分词器可能犯(或已经犯了)的错误之一(但大部分情况分词还是做对了,不然想想我们的检索程序的表现会多么horrible), 这个时候,检索程序不愿出来替一个表现还不错的分词器处理稍显杂乱的现场是情有可原的, 但因此贬低分词器就有点喝水忘了掘井人的味道了。所以我想表明的观点是:(1)承认分词和检索是两个相对独立的语料处理阶段(但就目前技术来看,不分词好像就没办法快速检索,因为建立索引的key就是检索的对象,而这些对象必须分词得来);(2)强调大规模汉语检索程序的精度是严重依赖于分词精度的(除非我们只作一个小规模的非动态语料库(这样碰到的分词岐义会大大降低,乃至于0)。我们有理由期盼一个完美的分词器,虽然在短期(或长期 )来看,这是Mission Impossible。至于"google里的简单字符匹配"就不便发表评论了,因为不知其技术内幕。做汉语检索程序的人有理由期盼分词程序的改良,在没有兴趣或精力的情况了,我们也只能等了。除非。。。除非我们自己做(天啊,多大的任务!即便做了,还能做得更好吗?这也是个疑问。)
老汉年纪大了,内存不够用,脑子不灵光,看不懂在说什么。不明白为什么在做米饭时,发现米不好,就要坐时光列车返回田里去给没长好的稻谷再施点肥。这个想法很了不起,可以随意来回跨越几个不同阶段和时段。也许,这位朋友先搞出个这样的检索引擎给大家示范一下,说服力就够强了。
 

iCasino

普通会员
#20
回复: 当代汉语翻译小说语料库(CCTFC)怎么用啊

laohong误解了,我只是说分词是中文语言处理的基础,没有它的改良,其他一切依存它的应用都会受到制约。你的检索程序在汉语界是有开创性的,不用我怀疑。本人不才,指点江山还可以,示范就不敢当了。我发现中文检索如果要求精度的话(即便是不带词性的),没有什么好办法可以撇开分词而独立存在,这也是困惑我的地方。
 
顶部