求助文本对齐后如何进行分词和赋码

各位老师,我研究《唐璜》和其两个中文译本。现在用Winalign完成了句子层面的对齐。现在我想要分别对中英文文本进行分词和词性赋码,以便进行词性和词汇密度的统计。论坛上推荐ICTCLAS,但是我下载了以后发现完全不会用,似乎需要不少编程知识。对于我这种文科学生来说有点太难了,现学编程也有点来不及因为论文比较紧。各位老师可不可以推荐一下一些可以直接用的中文和英文的文本分词赋码软件呢(类似于.exe软件)?。万分感激。
 
回复: 求助文本对齐后如何进行分词和赋码

各位老师,我研究《唐璜》和其两个中文译本。现在用Winalign完成了句子层面的对齐。现在我想要分别对中英文文本进行分词和词性赋码,以便进行词性和词汇密度的统计。论坛上推荐ICTCLAS,但是我下载了以后发现完全不会用,似乎需要不少编程知识。对于我这种文科学生来说有点太难了,现学编程也有点来不及因为论文比较紧。各位老师可不可以推荐一下一些可以直接用的中文和英文的文本分词赋码软件呢(类似于.exe软件)?。万分感激。


搜索本坛可以找到能用好用的ICTCLAS 2012版。同样,英文词性标注软件Treetagger同样可以在本坛搜索后下载,准确率高且是免费的。
 
回复: 求助文本对齐后如何进行分词和赋码

其实对齐后赋码是个和麻烦的事情。
因为赋码会破坏句子的切分。
 
回复: 求助文本对齐后如何进行分词和赋码

搜索本坛可以找到能用好用的ICTCLAS 2012版。同样,英文词性标注软件Treetagger同样可以在本坛搜索后下载,准确率高且是免费的。

太感谢了,这个省了好多事。本来我打算实在不行,就把文本切分成20-30个子文本,每个文本包含原文的1000行。然后每个子文本用软件提供的demo演示版一个一个处理。这个软件真的帮了很大忙。虽然一开始提示license.dll有问题,查看LOG文件提示许可证过期。但我调了一下系统日期就可以正常使用了。

再次感谢老师。
 
回复: 求助文本对齐后如何进行分词和赋码

其实对齐后赋码是个和麻烦的事情。
因为赋码会破坏句子的切分。

一开始其实没想着赋码,但是后来发现用wordsmith无法处理中文文档,制作词表会乱码。在论坛里看了诸位老师以前的帖子后,发现应该是需要分词后进行才能正常处理。所以逼不得已寻找分词工具。但是这样一来顺便还能进行赋码考察词汇密度。 我的对齐文本是一个句子一行。标记用的是节省地方的“/"而不是<>型的xml符号,手工校对后应该问题不大。

我们学院只有硕导里才有研究语料库的,现在带我的本科论文导师没有涉及这个领域,还好在论坛里学了很多,跌跌撞撞地做下去。
 
回复: 求助文本对齐后如何进行分词和赋码

太感谢了,这个省了好多事。本来我打算实在不行,就把文本切分成20-30个子文本,每个文本包含原文的1000行。然后每个子文本用软件提供的demo演示版一个一个处理。这个软件真的帮了很大忙。虽然一开始提示license.dll有问题,查看LOG文件提示许可证过期。但我调了一下系统日期就可以正常使用了。

再次感谢老师。

不用谢,看到你自己能够发现问题、解决问题且分享心得真高兴。
 
Back
顶部