实现的功能
一、实现了词频率(TF),文档频率(DF)的统计。
二、实现了特征词提取。
文档频率DF方法:DF大于指定的阀值而且在各分类之间具有差异性。
开方(χ2) 方法:衡量特征与类别的独立性
信息增益IG方法:衡量特征能够为分类系统带来多少信息,跟具体类别无关。
三、实现了文本分类。
分类快速。
能对单个文件、目录、文件列表进行分类。
附件中是帮助说明,安装程序,部分测试数据(来自搜狗语料库)。
分词使用的是ICTCLAS2010,请自己下载。
欢迎提出宝贵意见,以让我做进一步的修改。
现在的CLEC 中的ST2/ST3/ST4/ST5/ST6等都是一个级别的作文放在一个文本文档里,造成几千篇作文放在一个文档里很杂乱,不适合做相关的子语料库。请问你的这个软件能否将CLEC 中的大文本进行分类,分成一篇作文一个文档的形式吗?如果不行的话,您知道有那个软件可行,推荐一下好吗?