回复: BFSU PowerConc A freeware concordancer for Windows免费通用型语料库检索分析工具
在语料库文本处理中,将don't拆分开的过程,叫tokenization,几乎所有的词性标注系统都是如此处理的。
如果你用raw text则只会以空格来区分单词。
许博士,我想用我自己建立的词块txt,不可以么?一定要此软件生成么?另:有没有地方设置将i don't 看成两个词而不是三个词?
在语料库文本处理中,将don't拆分开的过程,叫tokenization,几乎所有的词性标注系统都是如此处理的。
如果你用raw text则只会以空格来区分单词。