如何获得LCMC和PH语料库的全文

smilelife1979 · 2011-03-08

我是信息处理方向的，做文本分类方面的研究，需要语料库。在论坛学习后下载了LCMC和PH语料库的数据，但这两个语料库是分词之后的，请问如何得到分词前的整篇文本呢？非常感谢!

Brainstorming · 2011-03-08

作者 smilelife1979:
我是信息处理方向的，做文本分类方面的研究，需要语料库。在论坛学习后下载了LCMC和PH语料库的数据，但这两个语料库是分词之后的，请问如何得到分词前的整篇文本呢？非常感谢!

以前碰到过类似的情况。这里说一种有效的做法，用EditPro Pad或其他软件如 PowerGrep打开你的语料库（MS word加载大语料库很慢）,用正则表达式查找然后全部替换即可。编写表达式的时候，一定要考虑周全些，不要有漏网之鱼。

smilelife1979 · 2011-03-09

回复: Re: 如何获得LCMC和PH语料库的全文

作者 Brainstorming:
以前碰到过类似的情况。这里说一种有效的做法，用EditPro Pad或其他软件如 PowerGrep打开你的语料库（MS word加载大语料库很慢）,用正则表达式查找然后全部替换即可。编写表达式的时候，一定要考虑周全些，不要有漏网之鱼。

谢谢！对PH语料库试了EditPlus正则表达式，结果EditPlus没响应了，可能文件太大（2447700行）。因为这个库缺乏每个文本时间信息，所以想问发布者是否有原文可以提供。说明里提到这是Guo Jin's Chinese PH corpus，Guo Jin是中科院的？有知道联系方式的可以提供以下吗？

xiaoz · 2011-03-10

回复: 如何获得LCMC和PH语料库的全文

The PH corpus is composed of news texts produced by Xinhua News Agency in 1991.

xiaoz · 2011-03-10

回复: 如何获得LCMC和PH语料库的全文

The source information, include date of publication, of each text sample in the LCMC is available at the corpus website. e.g. for news reports in category A:

http://www.lancs.ac.uk/fass/projects/corpus/LCMC/lcmc/kat_a.htm

如何获得LCMC和PH语料库的全文

smilelife1979

Brainstorming

smilelife1979

xiaoz

永远的超级管理员

xiaoz

永远的超级管理员