各位老师,我研究《唐璜》和其两个中文译本。现在用Winalign完成了句子层面的对齐。现在我想要分别对中英文文本进行分词和词性赋码,以便进行词性和词汇密度的统计。论坛上推荐ICTCLAS,但是我下载了以后发现完全不会用,似乎需要不少编程知识。对于我这种文科学生来说有点太难了,现学编程也有点来不及因为论文比较紧。各位老师可不可以推荐一下一些可以直接用的中文和英文的文本分词赋码软件呢(类似于.exe软件)?。万分感激。
各位老师,我研究《唐璜》和其两个中文译本。现在用Winalign完成了句子层面的对齐。现在我想要分别对中英文文本进行分词和词性赋码,以便进行词性和词汇密度的统计。论坛上推荐ICTCLAS,但是我下载了以后发现完全不会用,似乎需要不少编程知识。对于我这种文科学生来说有点太难了,现学编程也有点来不及因为论文比较紧。各位老师可不可以推荐一下一些可以直接用的中文和英文的文本分词赋码软件呢(类似于.exe软件)?。万分感激。
搜索本坛可以找到能用好用的ICTCLAS 2012版。同样,英文词性标注软件Treetagger同样可以在本坛搜索后下载,准确率高且是免费的。
其实对齐后赋码是个和麻烦的事情。
因为赋码会破坏句子的切分。
太感谢了,这个省了好多事。本来我打算实在不行,就把文本切分成20-30个子文本,每个文本包含原文的1000行。然后每个子文本用软件提供的demo演示版一个一个处理。这个软件真的帮了很大忙。虽然一开始提示license.dll有问题,查看LOG文件提示许可证过期。但我调了一下系统日期就可以正常使用了。
再次感谢老师。