有哪位大神有基于语料库的中文知识自动提取程序源码

csm603921962 · 2014-03-18

最近一直在学习语料库，想做一个自动提取语料库知识的软件，谁有相关方面的经验或者资料学习，不胜感激！

李亮1975重庆 · 2014-03-19

知识莫过于是百科知识和语言知识

语言知识的获得，又细分语音、词汇、句法、语义、语用、文体，每个子类又涉及到不同的算法；百科知识的获得，可以是多模态知识，可以是文本态知识，两方面的算法学习也差异大。中文知识与英文知识获得的原理是一致的，中文一旦分词就很像英文了；源代码获得，主要是从英语版开源软件去研习吧，中国没有什么在世界上很有影响的开源综合网站。知识获得也就是“文本挖掘+数据挖掘”，这两个术语text mining和data mining的本质就是利用统计学进行“信息提取、信息降维、信息解歧、信息索引、信息分类、信息聚类”，进一步的简洁来说，就是“机器学习”，而机器学习就是计算机从信息与数据中找“规律”，这种“找规律”又分为“没有预定标准的找规律”和“有预定标准的找规律”，前者就是信息聚类，后者就是信息分类；信息分类与聚类的结果往往是大于2的“集合”，如果结果是等于2的“集合”，就是“判别分析（discriminant analysis）”了。所以，熟悉了统计学的种种原理，再看别人的“从语料库获取知识”的万般代码和千般工具就都是“统计软件”了。

从“语料库获得知识的技能”的起步最好不涉及编程，而是从傻瓜化的现成软件操作入手……
最傻是antconc和wordsmith tools（都是鼠标键盘操作），
再深是vba这种内置了字词句基本模型的特萌的Office脚本编程语言，
再深是python呀perl呀java呀ruby呀之类的有着庞大NLP生态圈的通用编程语言，
再深是R呀Octave呀这类包含了现成的多维统计算法的编程语言，
再深是NLTK或OpenNLP或StanfordNLP这类的现成的语料文本分析的框架性的编程平台环境，
再深是Tika与WebCAT之类的文本挖掘编程的工具箱，
再深是Weka之类的数据挖掘编程的工具箱；

nltk/tika/weka/opennlp/stanfordnlp都是公开源代码的！

hemixiu · 2014-03-19

回复: 有哪位大神有基于语料库的中文知识自动提取程序源码

这个可以利用NLP领域中的Named Entity Recognition（命名实体识别）技术，很多库例如OpenNPL、Lingpipe里面都有已经写好的函数，可以直接用。

有哪位大神有基于语料库的中文知识自动提取程序源码

csm603921962

李亮1975重庆

语料库快乐军政委

hemixiu