如何利用已标注的语料库？

ilovecorpu · 2006-03-08

各位好！我是个新手，想询问一下，如何使用已标注的语料库？如何使用索引工具（antconc 3.1.2)搜索类联接？

laohong · 2006-03-08

问题不太清楚。

1、“已标注的语料库” --- 标注了什么？用什么标注的？最好把语料情况说明一下，给点例子或贴个图也成。

2、“如何使用” --- 想要从语料库里找到什么？检索目的不同需要不同的检索工具。

seanxpq · 2006-03-08

我的问题可能麻烦一点，如何对文本或语料库进行标注？好象学会了标注才是真正的应用语料库及其检索软件。

laohong · 2006-03-09

“如何对文本或语料库进行标注？” ---- 这个问题涉及以下几个问题：

1、为什么要标注？标注的目的是为了什么样的研究目的？比如，基于生语料的 concordances 就能解决的问题就没有必要去做音韵、词类、句法、语义、语用等标注，原因很简单：劳民伤财！

2、要标注什么？音韵？词类？语义？句法？.......

3、生语料本身的特性、质量能达到标注要求吗？需不需要做到语料转换，如从HTML或Word文档到纯文本？如何转换？怎样才能保证在转换过程中没有信息失真？

3、要怎样标注？人工还是自动？不管是人工还是自动，工作能力、时间、资金能得到保证吗？如果单纯人工，所需语料的量就得打折扣了。如果是自动，可以利用和负担得起的工具又有哪些？为什么要选用其中的特定的一个？而且，所谓自动标注的工具，没有几个能真正自动的，能真正自动的准确率也各有千秋，生语料的特性、质量等也影响标注的正确率。因此，紧接着的一个问题就是：

5、要达到怎样的标注质量？需不需要进行标注后的 post-editing ？这又要涉及到人力、物力和时间等问题。

总之，语料的标注是个累人的活，费时、费钱、费力，没有想好前面的问题最好不要匆忙动手。

dwhuang · 2006-03-12

支持！最近也是为了语料标注的事烦呢。因为我想标注的是语篇层次的，体裁分析中的move 和 step。由于不熟悉WordSmith能处理的类型，现在用澳洲QSR公司的NVivo定性分析软件进行标注。界面友好，修改也方便，检索选项比较丰富但是比传统语料库的检索功能还是要差一些。不知道哪位大侠指点一二。

laohong · 2006-03-12

Nvivo是个不错的软件，简单的培训就可上手，当然银子是要花一点在注册版上的。另外，Nvivo的标注功能不太适合做大量的语料标注，简单提几点：
1、用户语言兼容性还得提高；
2、如果需要对同一文本进行多层语言特征（如词性、语义、语用、语篇等）或多模态的标注就更不适合了；
3、考虑到检索和与现有他人语料对比研究，语料标注结果的提取和存储不具推广性；
4、.......

laohong · 2006-03-12

补充一句：

语篇层面的标注，由于目前几乎没有自动处理的工具可用，建议使用 MMAX Annotation Tool （http://www.eml-research.de/english/research/nlp/download/mmax.php）。不过需要用户自己制作标注的 Scheme。详情可阅读该软件的页面介绍。

dwhuang 如果愿意试用MMAX来标注体裁分析中的move和step，有问题可以和我联系。

dwhuang · 2006-03-12

回复：如何利用已标注的语料库？

以下是引用 laohong 在 2006-3-12 10:30:07 的发言：
补充一句：

语篇层面的标注，由于目前几乎没有自动处理的工具可用，建议使用 MMAX Annotation Tool （http://www.eml-research.de/english/research/nlp/download/mmax.php）。不过需要用户自己制作标注的 Scheme。详情可阅读该软件的页面介绍。

dwhuang 如果愿意试用MMAX来标注体裁分析中的move和step，有问题可以和我联系。

强人啊！谢谢laohong的指点；我回这两天跟您email请教。我去网上瞅瞅先

singer · 2006-03-12

我尝试着用gototagger给几篇文章做了pos标注，但是不知道准确率到底是多少，也不知道应该如何去post editing，另外，pos标注的准确率达到多少就能保证研究的结果是有说服力的呢？

singer · 2006-03-12

请laohong不吝指教。

patricx · 2006-03-13

说得有道理！！！严重支持！！！我也经常考虑到这个问题，有时候使用统计软件时，经常会问问自己，我需要的数据它都统计出来了吗？有数据遗漏吗？如果有遗漏，那是哪些呢？

laohong · 2006-03-14

回复：如何利用已标注的语料库？

以下是引用 singer 在 2006-3-12 23:48:32 的发言：
我尝试着用gototagger给几篇文章做了pos标注，但是不知道准确率到底是多少，也不知道应该如何去post editing，另外，pos标注的准确率达到多少就能保证研究的结果是有说服力的呢？

1、GotoTagger的准确率：
我只是看了看Gototagger，没有拿它实际处理语料，不敢妄作评论。开发者说是基于广泛用在自然语言处理上的Brill Tagger的，因此该Tagger属于Rule-Based 。请找它的相关技术报告或文献里面的说明看看。也不妨自己动手与其它Tagger就同一语料进行标注，然后对比一下。

2、关于POS Tagger的分类和技术支持：
请参见Automated Part of Speech Tagging: A Brief Overview （文章有点旧了，但内容还是很经典的）
http://www.georgetown.edu/faculty/ballc/ling361/tagging_overview.html

3、Post-Editing：
先要知道哪里出现问题，才能考虑怎样着手去修改。有些错误是系统性的，有些是随机的。由于大多数人是不会或不愿去修改原程序的，因此不管是系统性的还是随机的错误都得靠编辑器来人工修改。也就是用EditPlus这类文本编辑器打开机器标注好的结果，通过Search and Replace来实现修改。

4、CLAWS Tagger：
处理英文的POS Tagger，还是推荐用在BNC上的CLAWS Tagger。这里是关于其准确率的介绍“CLAWS has consistently achieved 96-97% accuracy (the precise degree of accuracy varying according to the type of text). Judged in terms of major categories, the system has an error-rate of only 1.5%, with c.3.3% ambiguities unresolved, within the BNC.” 详情请参阅：CLAWS part-of-speech tagger for English
http://www.comp.lancs.ac.uk/ucrel/claws/

5、语料标注的准确率和研究结果的说服力：
没有100%准确的，而且语料和文本类别对标注结果影响很大；因此，研究结果说服力大小，仁者见仁，智者见智。

[本贴已被作者于 2006年03月14日 11时58分40秒编辑过]

laohong · 2006-03-14

回复：如何利用已标注的语料库？

以下是引用 patricx 在 2006-3-13 8:00:09 的发言：
说得有道理！！！严重支持！！！我也经常考虑到这个问题，有时候使用统计软件时，经常会问问自己，我需要的数据它都统计出来了吗？有数据遗漏吗？如果有遗漏，那是哪些呢？

语料标注的准确性和统计时的数据遗漏是两个不同的问题，建议阅读统计学相关方面的论述。在统计语料标注后的语言特征频数时，如POS标注后的不同词性的词的频数，为了防止数据遗漏，一个笨办法就是把所有POS词性统计出来，看总数和词的总数是否一致。

patricx · 2006-03-14

真是个好办法，值得推荐啊，谢谢laohong！！！

千晴 · 2006-03-25

能否进一步指点如何用Antconc3.1.302 来统计SECCL中的v+n搭配？

SECCL是用CLAW4自动词性赋码器Java版。

[本贴已被作者于 2006年03月25日 23时26分19秒编辑过]

如何利用已标注的语料库？

ilovecorpu

初级会员

laohong

管理员

seanxpq

corpus explorer

laohong

管理员

dwhuang

初级会员

laohong

管理员

laohong

管理员

dwhuang

初级会员

singer

普通会员

singer

普通会员

patricx

高级会员

laohong

管理员

laohong

管理员

patricx

高级会员

千晴

普通会员