我是一名本科在读学生。想学习研究一下如何建立一个韩语语料库,最好是韩汉对齐语料库。以探究一下中韩机器翻译问题。但是没有基础,毫无头绪。目前有以下几个问题:
1 建立语料库需要什么工具?标注应该用什么工具?对齐语料库是否需要其他工具?
2 素闻语料库都要先输入到TXT里面的。但是TXT在UTF-8编码下显示不了韩语,只有用unicode编码才可以。请问unicode编码是否与WS等工具冲突?
3 所谓“标注词性”是否要自己一个词一个词地去手动辨认标注?
在下之前听说过stanford-postagger,wordsmith,antconc等软件,但是不知道具体是什么作用。望看到此贴的前辈能不吝赐教。
1 建立语料库需要什么工具?标注应该用什么工具?对齐语料库是否需要其他工具?
2 素闻语料库都要先输入到TXT里面的。但是TXT在UTF-8编码下显示不了韩语,只有用unicode编码才可以。请问unicode编码是否与WS等工具冲突?
3 所谓“标注词性”是否要自己一个词一个词地去手动辨认标注?
在下之前听说过stanford-postagger,wordsmith,antconc等软件,但是不知道具体是什么作用。望看到此贴的前辈能不吝赐教。