回复: 请教如何提取汉语语料库中的评价语言资源?
方法一:你有一个这样的列表,内容就是“重要的”、“有价值的”此类。然后你可以利用现有检索软件如AntConc提取出来。查全率和查准率之间可能会有矛盾,需要二次排查。
方法二:你自己在语料中先对“重要的”、“有价值的”之类的短语进行标注。然后一次性提取出来。100%准确,但需要大量前期工作。
方法三:利用检索软件查找“的”。准确率很低,后期需要大量人工工作。
此外,我们初步设计了一个你所说的评价性语料的标注体系,预计标注100万字的汉语语料。目前已试标完成约25万字。可以考虑采用这种用标注方法,自己先标注一点看看。预处理包括分词标注和生成xml格式待标文件,标注过程不是很麻烦。
希望对你有用。