李亮1975重庆 语料库快乐军政委 2014-03-19 #2 知识莫过于是百科知识和语言知识 语言知识的获得,又细分语音、词汇、句法、语义、语用、文体,每个子类又涉及到不同的算法;百科知识的获得,可以是多模态知识,可以是文本态知识,两方面的算法学习也差异大。中文知识与英文知识获得的原理是一致的,中文一旦分词就很像英文了;源代码获得,主要是从英语版开源软件去研习吧,中国没有什么在世界上很有影响的开源综合网站。知识获得也就是“文本挖掘+数据挖掘”,这两个术语text mining和data mining的本质就是利用统计学进行“信息提取、信息降维、信息解歧、信息索引、信息分类、信息聚类”,进一步的简洁来说,就是“机器学习”,而机器学习就是计算机从信息与数据中找“规律”,这种“找规律”又分为“没有预定标准的找规律”和“有预定标准的找规律”,前者就是信息聚类,后者就是信息分类;信息分类与聚类的结果往往是大于2的“集合”,如果结果是等于2的“集合”,就是“判别分析(discriminant analysis)”了。所以,熟悉了统计学的种种原理,再看别人的“从语料库获取知识”的万般代码和千般工具就都是“统计软件”了。 从“语料库获得知识的技能”的起步最好不涉及编程,而是从傻瓜化的现成软件操作入手…… 最傻是antconc和wordsmith tools(都是鼠标键盘操作), 再深是vba这种内置了字词句基本模型的特萌的Office脚本编程语言, 再深是python呀perl呀java呀ruby呀之类的有着庞大NLP生态圈的通用编程语言, 再深是R呀Octave呀这类包含了现成的多维统计算法的编程语言, 再深是NLTK或OpenNLP或StanfordNLP这类的现成的语料文本分析的框架性的编程平台环境, 再深是Tika与WebCAT之类的文本挖掘编程的工具箱, 再深是Weka之类的数据挖掘编程的工具箱; nltk/tika/weka/opennlp/stanfordnlp都是公开源代码的!
知识莫过于是百科知识和语言知识 语言知识的获得,又细分语音、词汇、句法、语义、语用、文体,每个子类又涉及到不同的算法;百科知识的获得,可以是多模态知识,可以是文本态知识,两方面的算法学习也差异大。中文知识与英文知识获得的原理是一致的,中文一旦分词就很像英文了;源代码获得,主要是从英语版开源软件去研习吧,中国没有什么在世界上很有影响的开源综合网站。知识获得也就是“文本挖掘+数据挖掘”,这两个术语text mining和data mining的本质就是利用统计学进行“信息提取、信息降维、信息解歧、信息索引、信息分类、信息聚类”,进一步的简洁来说,就是“机器学习”,而机器学习就是计算机从信息与数据中找“规律”,这种“找规律”又分为“没有预定标准的找规律”和“有预定标准的找规律”,前者就是信息聚类,后者就是信息分类;信息分类与聚类的结果往往是大于2的“集合”,如果结果是等于2的“集合”,就是“判别分析(discriminant analysis)”了。所以,熟悉了统计学的种种原理,再看别人的“从语料库获取知识”的万般代码和千般工具就都是“统计软件”了。 从“语料库获得知识的技能”的起步最好不涉及编程,而是从傻瓜化的现成软件操作入手…… 最傻是antconc和wordsmith tools(都是鼠标键盘操作), 再深是vba这种内置了字词句基本模型的特萌的Office脚本编程语言, 再深是python呀perl呀java呀ruby呀之类的有着庞大NLP生态圈的通用编程语言, 再深是R呀Octave呀这类包含了现成的多维统计算法的编程语言, 再深是NLTK或OpenNLP或StanfordNLP这类的现成的语料文本分析的框架性的编程平台环境, 再深是Tika与WebCAT之类的文本挖掘编程的工具箱, 再深是Weka之类的数据挖掘编程的工具箱; nltk/tika/weka/opennlp/stanfordnlp都是公开源代码的!
H hemixiu 2014-03-19 #3 回复: 有哪位大神有基于语料库的中文知识自动提取程序源码 这个可以利用NLP领域中的Named Entity Recognition(命名实体识别)技术,很多库例如OpenNPL、Lingpipe里面都有已经写好的函数,可以直接用。
回复: 有哪位大神有基于语料库的中文知识自动提取程序源码 这个可以利用NLP领域中的Named Entity Recognition(命名实体识别)技术,很多库例如OpenNPL、Lingpipe里面都有已经写好的函数,可以直接用。