如何获得LCMC和PH语料库的全文

我是信息处理方向的,做文本分类方面的研究,需要语料库。在论坛学习后下载了LCMC和PH语料库的数据,但这两个语料库是分词之后的,请问如何得到分词前的整篇文本呢?非常感谢!
 
我是信息处理方向的,做文本分类方面的研究,需要语料库。在论坛学习后下载了LCMC和PH语料库的数据,但这两个语料库是分词之后的,请问如何得到分词前的整篇文本呢?非常感谢!
以前碰到过类似的情况。这里说一种有效的做法,用EditPro Pad或其他软件如 PowerGrep打开你的语料库(MS word加载大语料库很慢),用正则表达式查找然后全部替换即可。编写表达式的时候,一定要考虑周全些,不要有漏网之鱼。
 
回复: Re: 如何获得LCMC和PH语料库的全文

以前碰到过类似的情况。这里说一种有效的做法,用EditPro Pad或其他软件如 PowerGrep打开你的语料库(MS word加载大语料库很慢),用正则表达式查找然后全部替换即可。编写表达式的时候,一定要考虑周全些,不要有漏网之鱼。

谢谢!对PH语料库试了EditPlus正则表达式,结果EditPlus没响应了,可能文件太大(2447700行)。因为这个库缺乏每个文本时间信息,所以想问发布者是否有原文可以提供。说明里提到这是Guo Jin's Chinese PH corpus,Guo Jin是中科院的?有知道联系方式的可以提供以下吗?
 
回复: 如何获得LCMC和PH语料库的全文

The PH corpus is composed of news texts produced by Xinhua News Agency in 1991.
 
Back
顶部