请教各位老师和高手们~
我在弄一个迷你平行语料库,在切分句子后分别用Treetagger和ICTClAS 2011对英语和汉语进行了词性标注,之后treetagger生成的OUT文件,ICTCLAS生成的我粘贴到记事本上了。接着用Parallel Text Aligner进行对齐,就出错了,生成的文件为空。Parallel Text Aligner要求UTF-8的文件,请问怎么转换呢??
请教各位老师和高手们~
我在弄一个迷你平行语料库,在切分句子后分别用Treetagger和ICTClAS 2011对英语和汉语进行了词性标注,之后treetagger生成的OUT文件,ICTCLAS生成的我粘贴到记事本上了。接着用Parallel Text Aligner进行对齐,就出错了,生成的文件为空。Parallel Text Aligner要求UTF-8的文件,请问怎么转换呢??
---------------------------------------------------------------------告诉你两个简单的转换UTF-8的做法:
1、如果文件不多,用记事本(Notepad)打开你的文件,然后转存,选择编码为UTF-8(见下图)。如果你的记事本没有这个选项,就使用EditPlus吧,网上一搜就有下载。
2、如果要批处理文本,建议使用转换工具,这里推荐香港李志成开发的免费软件ConvertZ。如果链接不能打开,自己就在网上搜搜吧。 下面是介绍:
ConvertZ is a Chinese/Japanese code converter. Features:
- Supported file (plain text) and clipboard conversion among the following encodings: big5, gbk, hz, shift-jis, jis, euc-jp, unicode big-endian, unicode little-endian, and utf-8.
- Batch files conversion
- Preview before actual conversion.
- Auto-update the charset in meta tag if specified in HTML docs.
- Auto-fix mis-mapped Big5/GBK characters.
- Change encoding of mp3's ID3v1/v2 tag among big5, gbk, shift-jis, unicode and utf-8.
把英汉分词的标注格式统一下试试:"_"换成"/",或"/"换成"_"。
抑或是对齐工具不支持汉语,你用的是什么对齐工具?
把英汉分词的标注格式统一下试试:"_"换成"/",或"/"换成"_"。
抑或是对齐工具不支持汉语,你用的是什么对齐工具?
好的,我试试看。
用的是parallel text aligner中的Hunalign,试过对齐未标注的汉英文本,是没问题的。
既然文本编码没问题了,那就再去看看是不是格式等还不符合程序要求。没用过Hunalign,没法给你更多的帮助。仔细读一下帮助文件,用软件自带的文本练习练习。
或者你把软件和文本上传到这里,大家帮你试着看看。
确实是utf-8,但可能还应考虑两点:谢谢laohong,我把文本发上来,麻烦您帮我看看是不是格式还有问题。
确实是utf-8,但可能还应考虑两点:
1、中文是一段,而英文则是以句为段,并且句标记符不一样:前者是_sent而中文是_w;
2、hunalign支持中英文对齐吗?
如果是1,则调整一下即可;如果是2,总无解。我直觉应该是2,即不支持中文。
用查找替换就可以解决:非常感谢xusun575!hunalign应该是支持中英文对齐的,我试着对齐过没有标注的中英文,见下图。
您说的第一个问题,应该怎么调整呢?新手上路,望不吝赐教,拜谢~~
另,英文和中文我都进行了分句处理,但是中文再用ICTCLAS 2011进行标注后,就变成了一堆,我都没注意,谢谢提醒!
非常感谢xusun575!hunalign应该是支持中英文对齐的,我试着对齐过没有标注的中英文,见下图。
您说的第一个问题,应该怎么调整呢?新手上路,望不吝赐教,拜谢~~
另,英文和中文我都进行了分句处理,但是中文再用ICTCLAS 2011进行标注后,就变成了一堆,我都没注意,谢谢提醒!
是否可能是,hunalign不支持经过赋码的语料呢?
是否可能是,hunalign不支持经过赋码的语料呢?
嗯,有可能。回头我问问parallel text aligner的开发者。
您的意思是把"._w"和"._SENT"都替换成"._w"加段落符或者"._SENT"加段落符?段落符是^p吗?
这个可能性不大,赋码只是给原文增加了一些文字符号而已。用没赋码的语料测试一下就应该能知道问题所在了。重点注意一下段落句子格式以及特殊符号是否会导致程序出错。建议先用三四句话的短文本测试。debug是个累人的活,却也是喜欢problem-solving的人的春药.....
哈哈,"debug....春药", 会成为今年的流行语滴!laohong强人呵!
哈哈,"debug....春药", 会成为今年的流行语滴!laohong强人呵!