有哪位大神有基于语料库的中文知识自动提取程序源码

最近一直在学习语料库,想做一个自动提取语料库知识的软件,谁有相关方面的经验或者资料学习,不胜感激!
 
知识莫过于是百科知识和语言知识

语言知识的获得,又细分语音、词汇、句法、语义、语用、文体,每个子类又涉及到不同的算法;百科知识的获得,可以是多模态知识,可以是文本态知识,两方面的算法学习也差异大。中文知识与英文知识获得的原理是一致的,中文一旦分词就很像英文了;源代码获得,主要是从英语版开源软件去研习吧,中国没有什么在世界上很有影响的开源综合网站。知识获得也就是“文本挖掘+数据挖掘”,这两个术语text mining和data mining的本质就是利用统计学进行“信息提取、信息降维、信息解歧、信息索引、信息分类、信息聚类”,进一步的简洁来说,就是“机器学习”,而机器学习就是计算机从信息与数据中找“规律”,这种“找规律”又分为“没有预定标准的找规律”和“有预定标准的找规律”,前者就是信息聚类,后者就是信息分类;信息分类与聚类的结果往往是大于2的“集合”,如果结果是等于2的“集合”,就是“判别分析(discriminant analysis”了。所以,熟悉了统计学的种种原理,再别人的“从语料库获取知识”的万般代码和千般工具就都是“统计软件”了。

从“语料库获得知识的技能”的起步最好不涉及编程,而是从傻瓜化的现成软件操作入手……
最傻是antconcwordsmith tools(都是鼠标键盘操作),
再深是vba这种内置了字词句基本模型的特萌的Office脚本编程语言,
再深是pythonperljavaruby呀之类的有着庞大NLP生态圈的通用编程语言,
再深是ROctave呀这类包含了现成的多维统计算法的编程语言,
再深是NLTKOpenNLPStanfordNLP这类的现成的语料文本分析的框架性的编程平台环境,
再深是TikaWebCAT之类的文本挖掘编程的工具箱,
再深是Weka之类的数据挖掘编程的工具箱;

nltk/tika/weka/opennlp/stanfordnlp都是公开源代码的!
 
回复: 有哪位大神有基于语料库的中文知识自动提取程序源码

这个可以利用NLP领域中的Named Entity Recognition(命名实体识别)技术,很多库例如OpenNPL、Lingpipe里面都有已经写好的函数,可以直接用。
 
Back
顶部