http://pan.baidu.com/share/link?shareid=1120733969&uk=3104117188
我今天晚上正在用Yacsi进行一个历时平行语料库的标注,选项:“计算所一级、UTF-8”批量处理了512个汉语文件,但是发现了很多的乱码文件,但也有一半左右的正常分词文件。
上面的链接是出现问题的源文件和分词标记后的文件示例,大家可是尝试分词一下源文件。
我用notepad2检查,源文件是utf-8,分词标记后的文件是ANSI。
而且我把文件转换成ANSI后标注,依旧是乱码。
为什么会出现这种问题?有点头疼。
应该怎么解决?各位高手来看看呀~~
我今天晚上正在用Yacsi进行一个历时平行语料库的标注,选项:“计算所一级、UTF-8”批量处理了512个汉语文件,但是发现了很多的乱码文件,但也有一半左右的正常分词文件。
上面的链接是出现问题的源文件和分词标记后的文件示例,大家可是尝试分词一下源文件。
我用notepad2检查,源文件是utf-8,分词标记后的文件是ANSI。
而且我把文件转换成ANSI后标注,依旧是乱码。
为什么会出现这种问题?有点头疼。
应该怎么解决?各位高手来看看呀~~