请教如何提取汉语语料库中的评价语言资源?

#1
我有一些汉语图书描述或者介绍的语料,大约有几十万汉字库容。经过观察我发现其中有不少的评价性语言资源,如“重要的,有价值的”,我想通过语料库软件将此类显性的评价资源提取出来。不知道哪种软件比较合适?应该怎样操作?另外其中还有一些隐性的评价,如通过对图书的客观描述来引发隐性的评价,不知道此类评价有无方法提取?谢谢回应。
 
#2
回复: 请教如何提取汉语语料库中的评价语言资源?

先看看这些评价有哪些共性,然后再找合适的软件。软件不是问题,如何找出这些内容的共性是穷尽的关键。
 
#3
回复: 请教如何提取汉语语料库中的评价语言资源?

方法一:你有一个这样的列表,内容就是“重要的”、“有价值的”此类。然后你可以利用现有检索软件如AntConc提取出来。查全率和查准率之间可能会有矛盾,需要二次排查。
方法二:你自己在语料中先对“重要的”、“有价值的”之类的短语进行标注。然后一次性提取出来。100%准确,但需要大量前期工作。
方法三:利用检索软件查找“的”。准确率很低,后期需要大量人工工作。
此外,我们初步设计了一个你所说的评价性语料的标注体系,预计标注100万字的汉语语料。目前已试标完成约25万字。可以考虑采用这种用标注方法,自己先标注一点看看。预处理包括分词标注和生成xml格式待标文件,标注过程不是很麻烦。
希望对你有用。
 
#4
回复: 请教如何提取汉语语料库中的评价语言资源?

非常感谢二楼和三楼的答复。

我想这些评价资源在形式上可能会缺乏普遍的共性,虽然很多都是形容词,以“的”结尾。其在语义上的分类,如系统功能语言学中评价系统的评价意义分类对于评价的自动识别或许帮助不大。但我想,这个思路有其道理,问题是如何找到共性,形式上的还是语义上的?

就方法一而言,我现在尚且没有就绪的列表,所举例子是典型的。我也曾经学习过antconc的中文检索用法,但似乎有时出现乱码,无法使用。不知道为何。方法二准确率高,但是标注需要耗费大量时间精力。如果说通过查找“的”,则会漏掉不少。我会对这几种方法进一步试验。另外,对于您所说“评价性语料的标注体系”,我颇感兴趣,能否进一步告知一些详情。因为我也是对评价感兴趣,也曾经注意到有国外学者用软件标注。可能更重要的是“标注体系”。谢谢。
 
顶部