关于Wordsmith词表制作的问题

各位前辈们你们好。我是一名外语系学生,目前正在写语料库语言学的结课论文,选题是基于语料库对《沙丘》第一部的两个汉译本的译者风格进行比较。为了达到研究目的,我用到了Wordsmith的词表功能,以此来获取标准类符形符比和句长之类的数据。我首先获取了两个汉译本的txt文件,并进行了清洗,随后分词(暂未标注),然后喂到Wordsmith,是可以正常生成两个文本的wordlist的。然后我又去找了大量其他中国科幻小说作为参考语料库,也是拿到了txt文件,整合,然后清理,分词,喂到wordsmith想要生成wordlist,却一直报错,试了很多次都失败了,这让我非常的苦恼。请问这究竟是什么原因?编码什么的我都核对过了,是UTF-8,也重复清洗分词了很多次,依旧报错。难道是wordsmith对语料的大小有限制?
 
Back
顶部