如何利用已标注的语料库?

ilovecorpu

初级会员
各位好! 我是个新手, 想询问一下,如何使用已标注的语料库? 如何使用索引工具(antconc 3.1.2)搜索类联接?
 
问题不太清楚。

1、“已标注的语料库” --- 标注了什么?用什么标注的?最好把语料情况说明一下,给点例子或贴个图也成。

2、“如何使用” --- 想要从语料库里找到什么?检索目的不同需要不同的检索工具。
 
我的问题可能麻烦一点,如何对文本或语料库进行标注?好象学会了标注才是真正的应用语料库及其检索软件。
 
“如何对文本或语料库进行标注?” ---- 这个问题涉及以下几个问题:

1、为什么要标注? 标注的目的是为了什么样的研究目的? 比如,基于生语料的 concordances 就能解决的问题就没有必要去做音韵、词类、句法、语义、语用等标注,原因很简单:劳民伤财!

2、要标注什么? 音韵? 词类? 语义? 句法?.......

3、生语料本身的特性、质量能达到标注要求吗? 需不需要做到语料转换,如从HTML或Word文档到纯文本? 如何转换? 怎样才能保证在转换过程中没有信息失真?

3、要怎样标注? 人工还是自动? 不管是人工还是自动,工作能力、时间、资金能得到保证吗? 如果单纯人工,所需语料的量就得打折扣了。如果是自动,可以利用和负担得起的工具又有哪些?为什么要选用其中的特定的一个? 而且,所谓自动标注的工具,没有几个能真正自动的,能真正自动的准确率也各有千秋,生语料的特性、质量等也影响标注的正确率。因此,紧接着的一个问题就是:

5、要达到怎样的标注质量? 需不需要进行标注后的 post-editing ? 这又要涉及到人力、物力和时间等问题。

总之,语料的标注是个累人的活,费时、费钱、费力,没有想好前面的问题最好不要匆忙动手。
 
支持!最近也是为了语料标注的事烦呢。因为我想标注的是语篇层次的,体裁分析中的move 和 step。由于不熟悉WordSmith能处理的类型,现在用澳洲QSR公司的NVivo定性分析软件进行标注。界面友好,修改也方便,检索选项比较丰富但是比传统语料库的检索功能还是要差一些。不知道哪位大侠指点一二。
 
Nvivo是个不错的软件,简单的培训就可上手,当然银子是要花一点在注册版上的。另外,Nvivo的标注功能不太适合做大量的语料标注,简单提几点:
1、用户语言兼容性还得提高;
2、如果需要对同一文本进行多层语言特征(如词性、语义、语用、语篇等)或多模态的标注就更不适合了;
3、考虑到检索和与现有他人语料对比研究,语料标注结果的提取和存储不具推广性;
4、.......
 
补充一句:

语篇层面的标注,由于目前几乎没有自动处理的工具可用,建议使用 MMAX Annotation Tool (http://www.eml-research.de/english/research/nlp/download/mmax.php)。 不过需要用户自己制作标注的 Scheme。详情可阅读该软件的页面介绍。

dwhuang 如果愿意试用MMAX来标注体裁分析中的move和step,有问题可以和我联系。
 
回复:如何利用已标注的语料库?

以下是引用 laohong2006-3-12 10:30:07 的发言:
补充一句:

语篇层面的标注,由于目前几乎没有自动处理的工具可用,建议使用 MMAX Annotation Tool (http://www.eml-research.de/english/research/nlp/download/mmax.php)。 不过需要用户自己制作标注的 Scheme。详情可阅读该软件的页面介绍。

dwhuang 如果愿意试用MMAX来标注体裁分析中的move和step,有问题可以和我联系。

强人啊!谢谢laohong的指点;我回这两天跟您email请教。我去网上瞅瞅先
 
我尝试着用gototagger给几篇文章做了pos标注,但是不知道准确率到底是多少,也不知道应该如何去post editing,另外,pos标注的准确率达到多少就能保证研究的结果是有说服力的呢?
 
说得有道理!!!严重支持!!!我也经常考虑到这个问题,有时候使用统计软件时,经常会问问自己,我需要的数据它都统计出来了吗?有数据遗漏吗?如果有遗漏,那是哪些呢?
 
回复:如何利用已标注的语料库?

以下是引用 singer2006-3-12 23:48:32 的发言:
我尝试着用gototagger给几篇文章做了pos标注,但是不知道准确率到底是多少,也不知道应该如何去post editing,另外,pos标注的准确率达到多少就能保证研究的结果是有说服力的呢?

1、GotoTagger的准确率:
我只是看了看Gototagger,没有拿它实际处理语料,不敢妄作评论。开发者说是基于广泛用在自然语言处理上的Brill Tagger的,因此该Tagger属于Rule-Based 。请找它的相关技术报告或文献里面的说明看看。也不妨自己动手与其它Tagger就同一语料进行标注,然后对比一下。

2、关于POS Tagger的分类和技术支持:
请参见Automated Part of Speech Tagging: A Brief Overview (文章有点旧了,但内容还是很经典的)
http://www.georgetown.edu/faculty/ballc/ling361/tagging_overview.html

3、Post-Editing:
先要知道哪里出现问题,才能考虑怎样着手去修改。有些错误是系统性的,有些是随机的。由于大多数人是不会或不愿去修改原程序的,因此不管是系统性的还是随机的错误都得靠编辑器来人工修改。也就是用EditPlus这类文本编辑器打开机器标注好的结果,通过Search and Replace来实现修改。

4、CLAWS Tagger:
处理英文的POS Tagger, 还是推荐用在BNC上的CLAWS Tagger。这里是关于其准确率的介绍“CLAWS has consistently achieved 96-97% accuracy (the precise degree of accuracy varying according to the type of text). Judged in terms of major categories, the system has an error-rate of only 1.5%, with c.3.3% ambiguities unresolved, within the BNC.” 详情请参阅:CLAWS part-of-speech tagger for English
http://www.comp.lancs.ac.uk/ucrel/claws/

5、语料标注的准确率和研究结果的说服力:
没有100%准确的,而且语料和文本类别对标注结果影响很大;因此,研究结果说服力大小,仁者见仁,智者见智。

[本贴已被 作者 于 2006年03月14日 11时58分40秒 编辑过]
 
回复:如何利用已标注的语料库?

以下是引用 patricx2006-3-13 8:00:09 的发言:
说得有道理!!!严重支持!!!我也经常考虑到这个问题,有时候使用统计软件时,经常会问问自己,我需要的数据它都统计出来了吗?有数据遗漏吗?如果有遗漏,那是哪些呢?

语料标注的准确性和统计时的数据遗漏是两个不同的问题,建议阅读统计学相关方面的论述。在统计语料标注后的语言特征频数时,如POS标注后的不同词性的词的频数,为了防止数据遗漏,一个笨办法就是把所有POS词性统计出来,看总数和词的总数是否一致。
 
能否进一步指点如何用Antconc3.1.302 来统计SECCL中的v+n搭配?

SECCL是用CLAW4自动词性赋码器Java版。


[本贴已被 作者 于 2006年03月25日 23时26分19秒 编辑过]
 
Back
顶部