[转帖]第三代智能分词系统3GWS

清风出袖

高级会员
飞嘉华智能科技有限公司的科学家们在继承优秀研究成果ICTCLAS自由源代码的基础上,综合统计方法、语义网络、模式推理与语言进化论等领域的最新研究成果,推出了第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。其主要功能有汉语智能分词、命名实体与新词识别、词性标注以及支持用户自定义词典。3GWS是飞嘉华公司智能分词系列产品的统称,其中有简体GB2312智能分词系统,繁体BIG5智能分词系统以及Unicode智能分词系统。相比自由版本ICTCLAS来说,3GWS分词速度和精度均有全面提高,性能更加稳定,已经经过50G语料的大规模测试,欢迎访问http://www.fajava.cn/products_01.asp,您可以下载共享软件、试用各种形式的API,敬请多提宝贵意见。
 
汉语分词是中文内容处理、分析与理解的必要条件,它的任何错误都将使处理结果受到或大或小的影响,有时是严重的影响。从1983年第一个实用分词系统CDWS的诞生到现在,国内外的研究者在汉语分词方面进行了广泛的研究。我们可以粗略地将这些系统分为两代:第一代是基于语言学知识的机械规则方法,例如:最大匹配、最少切分方法、错误驱动机制。第二代是基于大规模语料库的机器学习方法,比如N元语言模型,信道-噪声模型,最大期望,隐马模型等。第一代和第二代分词系统往往缺乏一个相对统一的模型框架将分词算法、切分排歧和未登录词识别进行有机的融合,对切分结果也缺乏统一的评估体系。最终导致分词的准确率在开放测试的条件下并不像宣称的那样理想,处理含有未登录词、歧义字段的真实文本时,效果更是不尽人意。
 
还是要看测试的文本本身的情况来评价,口语、文学类文本的处理没有哪个比别的好到哪里去。
 
Thank you 清风出袖 that one more option is available and yet at the same time I do hope too many tools will not spoil the files.
 
不同题材的文本可以采用加载自己定义的词典方式解决,很多中文分词软件是以人民日报的语料为训练库的,通过加载自定义的词库就可以解决口语或者是文学语体的分词问题,不过海量的分词系统粒度比较细。
 
Back
顶部