新手求教编码问题

新手求教speech acts标注问题

请问各位高手,怎样对口语生语料进行人工编码?比如说按照speech acts来进行编码,以对demand,complain, apologize等言语行为进行统计分析?还有编码时应该注意什么?以前这里提到的XML格式是什么?跟编码有关系吗?望指教!本人水平有限,望各位不要见笑.
 
Last edited by a moderator:
回复: 新手求教编码问题

你也问了一个我正在做的一个项目,这样的标注可不容易 。回头有空再细谈 ,这里先给几个参考文献,都是可以下载的,先读读看有什么启发。

SPAAC -- A Speech Act Annotated Corpus for Dialogue Systems: Pilot Project
http://bowland-files.lancs.ac.uk/groups/spaac/SPAAC.htm

Generic speech act annotation for task-oriented dialogues
http://www.tu-chemnitz.de/phil/engl...ents/mw/publications/CL2003_Leech_Weisser.pdf

A Speech-Act Annotated Corpus for Dialogue Systems
http://www.comp.lancs.ac.uk/ucrel/SPAAC/SPAAC Annotation Scheme1.pdf

Dialogue Corpora, Dialogue Systems, and Speech Act Annotation
http://ufal.mff.cuni.cz/vmc/vmc17/LeechAbstract.doc

Classifying speech Acts using Verbal Response Modes
http://www.ict.csiro.au/staff/Andrew.Lampert/writing/papers/SpeechActsVRM-ALTW2006-Lampert.pdf

Discourse Annotation in the Monroe Corpus
http://www.cs.rochester.edu/u/www/u/swift/acl04-anno.pdf

A Human-Human Train Timetable Dialogue Corpus
http://home.zcu.cz/~filip/jurcicek05human.pdf
 
回复: 新手求教编码问题

曾经在网上问过另一位高人,他说可以就相应的言语行为分别设计码集,<demand>...</demand><apologize>...</apologize>等.他建议使用PowerGREP, 我觉得使用WordSmith 4.0的Concord就可以对特定的赋码进行搜索了.我对PowerGREP不是很熟悉,不知道用这个工具是否比WordSmith 4.0搜索赋码更为简单?
 
回复: 新手求教编码问题

It appears that you are talking about two separate things - corpus annotation and concordancing. Both Powergrep and WST4 can do concordancing, not annotation.
 
回复: 新手求教编码问题

谢谢laohong与xiaoz的回复.由于我只是刚刚接触到语料库,有些问题还弄不明白.我在做硕士论文,论文中需要对口语中各中言语行为进行统计.我说一下我的想法,错误的地方请各位高人不要见笑.我想首先对口语中出现的各种言语行为进行赋码,然后通过WordSmith 4.0的Concord工具来搜索所出现的言语行为,这样就得出了出现的频率.
 
回复: 新手求教编码问题

WordSmith 4.0的Concord工具可以对赋码进行搜索.但是我不知道赋码的目的是什么?是否在赋码以后,计算机可以直接对赋码进行读取分析?或者在赋码以后,根本不需要工具对其进行统计,计算机可以自动生成统计数据?望各位高人指点.
 
回复: 新手求教编码问题

1. 赋码的目的:
你自己不是要检索和统计言语特征吗?有些语言特征可以自动赋码,大部分还得靠人工。Speech Act机器自动标注目前准确率还不理想,只能靠人工标注,要检索这样的特征就得先标注它们。

2. 自动统计:
自动统计你标注的信息取决于你的标注工具是否有此功能设计。大多数情况下,使用第三方软件,如WordSmith,就可以统计遵循一定格式标注的语料。但是,如果标注的层次多,而且有嵌套,折腾第三方软件来实现检索统计功能还不如自制。
 
回复: 新手求教编码问题

非常感谢laohong的回答.看来我还需要多多学习啊.路漫漫其修远兮,吾将上下而求索.
 
回复: 新手求教编码问题

我写这篇硕士论文用到的语料库就是COLSEC,我想首先应该去掉该语料库原来的赋码,然后按照speech act重新进行赋码,这样嵌套应该不会很多吧?(说实话,我不知道嵌套的意思:confused: )我目前的能力确实很有限,但是我会努力的学习,尽力把问题写清楚,争取能够得到行家的认可.
 
回复: 新手求教编码问题

我在使用WordSmith 4.0搜索COLSEC原来的赋码时,在Concord 这个工具的specify search word方框中输入需要搜索的赋码就可以找到所需要的信息.但是我在用这个方法来搜索我自己对speech act的赋码时,却搜不到了.是不是我编码的格式不对?还有哪些问题会造成这样的结果呢?
 
Back
顶部