发布一个基于CLAWS4的多核并发语料库批量标注软件

本文由 li_bopr2015-11-27 发表於 "语料库标注" 讨论区

  1. 软件介绍:
    能够基于著名的语料库标注软件CLAWS4进行批量的并发标注;能够自动修复原软件的部分错误;能够以多种标注形式存储,能够简化许多操作,普通电脑几分钟对齐数百万词没什么问题。

    使用说明:
    一、按原CLAWS安装说明安装好Java运行库及CLAWS文件夹,并把WinClawsGUI.exe放到winclaws.exe所有目录;

    二、双击WinClawsGUI运行,在界面中点“…”选取语料库文件目录,选择所有语料文本文件的编码(可选GB2312默认编码,或者UTF-8);
    三、界面中会显示所有等待标注的语料;点击“开始标注”进行语料标注;此时系统会运用并行处理技术多线程对语料文件进行标注;标注速度取决于计算机CPU的核数及内存大小;标注结束后,会有提示;未注册版本每次仅能标注5份语料,且对语料大小有限制;

    四、结束后会产生标注中间结果。目的用于人工查看语料标注情况,对应三个目录:
    tmp是语料库准备文件存放目录:里面所有的文档被加入标记信息,并替换其中影响标注的<>为();
    tagged是标注的结果存放目录:其中标注结果以原文件名命名;标注过程附属信息以原文件名.supp结尾,可用文本文件打开。.supp文件是查看标注是否有错的关键文件,如果其内容仅为标记信息,则为完整无错标注;如果有个别长单词,也可认为是无错标注(因在后面整理结果功能中,系统会自动查找长单词,并智能纠错);对于出现句子或大幅文本时,说明标注有失败。
    err是标注过程产生的信息。错误信息以原文件名命名,其记录了标注过程中所有产生的警告及错误,对于.supp文件中出现的标注失败情况,在err文件夹中相应文件名的记录中都会完整体现。

    五、整理标注结果。该功能分为两种模式,一种是无错模式,另一种是允许一定的标注错误率,错误率的计算方法是:.supp中余下未标注的文本长度/原始未标注语料文本长度*100%。两种方式实现的流程为:按照原始未标注文件,查找.supp文件后,1)如果.supp文件除标识标记外无任何未标注内容,或者纠错后无任何标注内容,则认为是完全成功标注;2)如果.supp文件在纠错后依然有未标注内容,则计算标注错误率。按照选择的模式,对标注中间过程产生的结果进行最终归并处理,产生“已标注”和“标注失败”两个文件夹。
    六、句子模式功能。原系统标注出来的是竖型模式,在软件中我开发了段落及句子模式,点击“转换为句子”会自动创建文件夹“句子形式”,然后进行批量转换,并添加段落与句子信息;当选择“全部词性”后,会列出词的所有可能,并附上百分比,去除选择“全部词性”后,仅列出最大可能的词性;

    一点小建议:对“标注失败”的文件进行人工检查,检查重点是:1)文件编码是否一致或正常;2)文件内容不得有乱码,过多的特殊字符;3)过长的单词个数是否过多。去除这几个问题,经几十次试验测试,一般标注都没有错误。

    论坛不支持贴图,也不支持
    如果有需要使用CLAWS4进行语料标注的,或者使用斯坦福标注器进行语料标注的,可以加入QQ群:461241012,需要定制啥的,直接联系我:
    QQ:363954866
    E-mail:li_bopr@126.com
     
  2. oscar3

    oscar3 高级会员

    感谢分享。
     
  3. Haiyang Ai

    Haiyang Ai Administrator Staff Member

    谢谢分享。
     
  4. 清风出袖

    清风出袖 高级会员

    多谢分享!