回复: tagger、SentenceTokenizer方面的几段Python代码
我也放一个基于该版本的修改版,更亲民一点,呵呵
(1)使用方法
解压后的目录介绍:
srcendir为要处理的英文目录
dstendir为处理后的英文目录
srccndir为要处理的中文目录
dstcndir为处理后的中文目录
首先将要处理的文件放到对应的目录里面
用户只需要运行
HunposWithTokenizer.exe
或者
TreeTaggerTokenizer.exe
即可完成对英文的标注与赋码。
注意:暂时不支持中文。。。。(你也可以测试下中文)
(2)源代码
附上源代码...