Yacsi 0.96分词utf-8文件后是乱码

http://pan.baidu.com/share/link?shareid=1120733969&uk=3104117188
我今天晚上正在用Yacsi进行一个历时平行语料库的标注,选项:“计算所一级、UTF-8”批量处理了512个汉语文件,但是发现了很多的乱码文件,但也有一半左右的正常分词文件。
上面的链接是出现问题的源文件和分词标记后的文件示例,大家可是尝试分词一下源文件。
我用notepad2检查,源文件是utf-8,分词标记后的文件是ANSI。
而且我把文件转换成ANSI后标注,依旧是乱码。
为什么会出现这种问题?有点头疼。
应该怎么解决?各位高手来看看呀~~
 

附件

  • 问题案例.zip
    6.7 KB · 浏览: 3
回复: Yacsi 0.96分词utf-8文件后是乱码

请将文件转存为ANSI格式(GB2312格式)在重新分词试试看,Yacsi调用的ICTCLAS版本在处理UTF-8时存在一点问题。原来的UTF-8功能仅用来测试用的,正式用途请用ANSI格式。
 
回复: Yacsi 0.96分词utf-8文件后是乱码

请将文件转存为ANSI格式(GB2312格式)在重新分词试试看,Yacsi调用的ICTCLAS版本在处理UTF-8时存在一点问题。原来的UTF-8功能仅用来测试用的,正式用途请用ANSI格式。

我刚发现是我的用的批量转码工具的问题,已经解决了,谢谢!
 
Back
顶部