各位达人:
我想用Antconc检索俄语,做频率词表,统计词频,但俄语的词形变化特别多,不知道大家有没有什么办法,先谢谢大家了!
我想用Antconc检索俄语,做频率词表,统计词频,但俄语的词形变化特别多,不知道大家有没有什么办法,先谢谢大家了!
那么有什么办法可以在生成词表的时候把几个词形归为一类吗?我是初学者,通配符是不是就是*之类的?麻烦能细致解释一下,要是有现成的帖子就更好的。听说wordsmith能用在俄语上,我下载了,英语学得不好,不知道坛子里有没有相关的使用说明。俄语的inflection确实非常复杂,不过似乎多数词的前面词根部分是基本一致的,后面用通配符就可以了,至于特殊变位词,还是用一个专用的表比较合适。
你所说的把几个词形归为一类,术语是lemmatization,这个目前恐怕只能通过一个词表来实现,要事先编辑好的,靠规则实现恐怕有不小的难度。город的各种变形都以город为主干,检索的时候可用город\w*。关于“通配符”的说法只是为了简便,其实是所谓正则表达式(Regular Expressions),这个可以找些资料来学学。那么有什么办法可以在生成词表的时候把几个词形归为一类吗?我是初学者,通配符是不是就是*之类的?麻烦能细致解释一下,要是有现成的帖子就更好的。听说wordsmith能用在俄语上,我下载了,英语学得不好,不知道坛子里有没有相关的使用说明。
谢谢,编辑的意思是不是对原文本进行标注(tag)之类的操作啊?正则表达式已经很头痛了,呵呵你所说的把几个词形归为一类,术语是lemmatization,这个目前恐怕只能通过一个词表来实现,要事先编辑好的,靠规则实现恐怕有不小的难度。город的各种变形都以город为主干,检索的时候可用город\w*。关于“通配符”的说法只是为了简便,其实是所谓正则表达式(Regular Expressions),这个可以找些资料来学学。
但是WordSmith不支持正则表达式,这个需要注意。
Thank you very much!Not sure if this would be helpful:
http://lemmatizer.org/en/
谢谢!
这个语料库是哪个机构开发的?是南京的学校吗?挺有意思,可惜就是规模比较小,我们学校也打算建语料库呢,我是黑龙江大学的。