我是信息处理方向的,做文本分类方面的研究,需要语料库。在论坛学习后下载了LCMC和PH语料库的数据,但这两个语料库是分词之后的,请问如何得到分词前的整篇文本呢?非常感谢!
以前碰到过类似的情况。这里说一种有效的做法,用EditPro Pad或其他软件如 PowerGrep打开你的语料库(MS word加载大语料库很慢),用正则表达式查找然后全部替换即可。编写表达式的时候,一定要考虑周全些,不要有漏网之鱼。我是信息处理方向的,做文本分类方面的研究,需要语料库。在论坛学习后下载了LCMC和PH语料库的数据,但这两个语料库是分词之后的,请问如何得到分词前的整篇文本呢?非常感谢!
以前碰到过类似的情况。这里说一种有效的做法,用EditPro Pad或其他软件如 PowerGrep打开你的语料库(MS word加载大语料库很慢),用正则表达式查找然后全部替换即可。编写表达式的时候,一定要考虑周全些,不要有漏网之鱼。