发布一个语料库处理、文本分类的软件wordfeature

实现的功能
一、实现了词频率(TF),文档频率(DF)的统计。
二、实现了特征词提取。
文档频率DF方法:DF大于指定的阀值而且在各分类之间具有差异性。
开方(χ2) 方法:衡量特征与类别的独立性
信息增益IG方法:衡量特征能够为分类系统带来多少信息,跟具体类别无关。
三、实现了文本分类。
分类快速。
能对单个文件、目录、文件列表进行分类。

附件中是帮助说明,安装程序,部分测试数据(来自搜狗语料库)。
分词使用的是ICTCLAS2010,请自己下载。

欢迎提出宝贵意见,以让我做进一步的修改。
 

附件

  • WordFeature.zip
    1,014.6 KB · 浏览: 614
回复: 发布一个语料库处理、文本分类的软件

直接把帮助文件发上来。
 

附件

  • 使用帮助.doc
    177 KB · 浏览: 209
回复: 发布一个语料库处理、文本分类的软件

做得很好。谢谢。希望能用到你的分类器做实验。
不知道和李荣陆老师的相比,你的准确率如何?
 
回复: 发布一个语料库处理、文本分类的软件

分类的算法有很多,分类的准确率跟算法有关,还跟具体的情况有关,比如在搜狗的语料库中,有一个分类的文件普遍比其他分类的文件大,如果使用DF计算分类结果就会偏向这个分类。

我做这个软件的目标是方便用户使用、提高人工分类效率。
在分类的时候先用软件做一个初分,然后人工根据这个分类的结果进行分类,可以提高分类的效率。

跟李荣陆老师的分类器我没有做比较,如果你做这方面的比较,希望你把结果告诉我。

希望我的软件能够对你有帮助,如果遇到什么问题,请给我反馈。
 
回复: 发布一个语料库处理、文本分类的软件

关于分类准确率,使用搜狗的语料库,两种准确率分别是84.87%、85.43%。
 

附件

  • 按目录.jpg
    按目录.jpg
    42.7 KB · 浏览: 27
  • 按分类.jpg
    按分类.jpg
    39.9 KB · 浏览: 17
Last edited:
回复: 发布一个语料库处理、文本分类的软件wordfeature

为什么我下载后不能用?分词我自己已经分出来了
 
请问您这个软件可以把CLEC中的ST3(一个文本文件)分成一篇作文一个文本的形式吗?

实现的功能
一、实现了词频率(TF),文档频率(DF)的统计。
二、实现了特征词提取。
文档频率DF方法:DF大于指定的阀值而且在各分类之间具有差异性。
开方(χ2) 方法:衡量特征与类别的独立性
信息增益IG方法:衡量特征能够为分类系统带来多少信息,跟具体类别无关。
三、实现了文本分类。
分类快速。
能对单个文件、目录、文件列表进行分类。

附件中是帮助说明,安装程序,部分测试数据(来自搜狗语料库)。
分词使用的是ICTCLAS2010,请自己下载。

欢迎提出宝贵意见,以让我做进一步的修改。

现在的CLEC 中的ST2/ST3/ST4/ST5/ST6等都是一个级别的作文放在一个文本文档里,造成几千篇作文放在一个文档里很杂乱,不适合做相关的子语料库。请问你的这个软件能否将CLEC 中的大文本进行分类,分成一篇作文一个文档的形式吗?如果不行的话,您知道有那个软件可行,推荐一下好吗?
 
回复: 请问您这个软件可以把CLEC中的ST3(一个文本文件)分成一篇作文一个文本的形式吗?

现在的CLEC 中的ST2/ST3/ST4/ST5/ST6等都是一个级别的作文放在一个文本文档里,造成几千篇作文放在一个文档里很杂乱,不适合做相关的子语料库。请问你的这个软件能否将CLEC 中的大文本进行分类,分成一篇作文一个文档的形式吗?如果不行的话,您知道有那个软件可行,推荐一下好吗?

对CLEC 文档不支持,要找个工具把里面的作文导出才能进行分类。
 
Back
顶部