[FONT=楷体]向大家请教一下,我收集学生的作文,txt格式的,现在想对文本进行词簇化,把单词的曲折变化和派生变化都用相应的基本形表示,知道如何操作的同仁们,请指点一下吧!谢谢![/FONT]
好像许老师曾经回复过的,《语料库应用教程》上也有,可利用http://www.lextutor.ca/familizer/ 上的辅助工具完成。
你用的词簇化这个表达是错的。
你的意思应该是词性还原。
所有文本里的单词都变成原型。TreeTagger应该可以实现这一功能。但现有的TreeTagger并没有把这个功能表现出来。
把文本中的所有单词都变成原型,其实没有多大用途。