T txianne 2007-01-29 #1 新手求教speech acts标注问题 请问各位高手,怎样对口语生语料进行人工编码?比如说按照speech acts来进行编码,以对demand,complain, apologize等言语行为进行统计分析?还有编码时应该注意什么?以前这里提到的XML格式是什么?跟编码有关系吗?望指教!本人水平有限,望各位不要见笑. Last edited by a moderator: 2007-01-30
新手求教speech acts标注问题 请问各位高手,怎样对口语生语料进行人工编码?比如说按照speech acts来进行编码,以对demand,complain, apologize等言语行为进行统计分析?还有编码时应该注意什么?以前这里提到的XML格式是什么?跟编码有关系吗?望指教!本人水平有限,望各位不要见笑.
laohong 管理员 Staff member 2007-01-30 #2 回复: 新手求教编码问题 你也问了一个我正在做的一个项目,这样的标注可不容易 。回头有空再细谈 ,这里先给几个参考文献,都是可以下载的,先读读看有什么启发。 SPAAC -- A Speech Act Annotated Corpus for Dialogue Systems: Pilot Project http://bowland-files.lancs.ac.uk/groups/spaac/SPAAC.htm Generic speech act annotation for task-oriented dialogues http://www.tu-chemnitz.de/phil/engl...ents/mw/publications/CL2003_Leech_Weisser.pdf A Speech-Act Annotated Corpus for Dialogue Systems http://www.comp.lancs.ac.uk/ucrel/SPAAC/SPAAC Annotation Scheme1.pdf Dialogue Corpora, Dialogue Systems, and Speech Act Annotation http://ufal.mff.cuni.cz/vmc/vmc17/LeechAbstract.doc Classifying speech Acts using Verbal Response Modes http://www.ict.csiro.au/staff/Andrew.Lampert/writing/papers/SpeechActsVRM-ALTW2006-Lampert.pdf Discourse Annotation in the Monroe Corpus http://www.cs.rochester.edu/u/www/u/swift/acl04-anno.pdf A Human-Human Train Timetable Dialogue Corpus http://home.zcu.cz/~filip/jurcicek05human.pdf
回复: 新手求教编码问题 你也问了一个我正在做的一个项目,这样的标注可不容易 。回头有空再细谈 ,这里先给几个参考文献,都是可以下载的,先读读看有什么启发。 SPAAC -- A Speech Act Annotated Corpus for Dialogue Systems: Pilot Project http://bowland-files.lancs.ac.uk/groups/spaac/SPAAC.htm Generic speech act annotation for task-oriented dialogues http://www.tu-chemnitz.de/phil/engl...ents/mw/publications/CL2003_Leech_Weisser.pdf A Speech-Act Annotated Corpus for Dialogue Systems http://www.comp.lancs.ac.uk/ucrel/SPAAC/SPAAC Annotation Scheme1.pdf Dialogue Corpora, Dialogue Systems, and Speech Act Annotation http://ufal.mff.cuni.cz/vmc/vmc17/LeechAbstract.doc Classifying speech Acts using Verbal Response Modes http://www.ict.csiro.au/staff/Andrew.Lampert/writing/papers/SpeechActsVRM-ALTW2006-Lampert.pdf Discourse Annotation in the Monroe Corpus http://www.cs.rochester.edu/u/www/u/swift/acl04-anno.pdf A Human-Human Train Timetable Dialogue Corpus http://home.zcu.cz/~filip/jurcicek05human.pdf
T txianne 2007-01-30 #3 回复: 新手求教编码问题 曾经在网上问过另一位高人,他说可以就相应的言语行为分别设计码集,<demand>...</demand><apologize>...</apologize>等.他建议使用PowerGREP, 我觉得使用WordSmith 4.0的Concord就可以对特定的赋码进行搜索了.我对PowerGREP不是很熟悉,不知道用这个工具是否比WordSmith 4.0搜索赋码更为简单?
回复: 新手求教编码问题 曾经在网上问过另一位高人,他说可以就相应的言语行为分别设计码集,<demand>...</demand><apologize>...</apologize>等.他建议使用PowerGREP, 我觉得使用WordSmith 4.0的Concord就可以对特定的赋码进行搜索了.我对PowerGREP不是很熟悉,不知道用这个工具是否比WordSmith 4.0搜索赋码更为简单?
X xiaoz 永远的超级管理员 Staff member 2007-01-30 #4 回复: 新手求教编码问题 It appears that you are talking about two separate things - corpus annotation and concordancing. Both Powergrep and WST4 can do concordancing, not annotation.
回复: 新手求教编码问题 It appears that you are talking about two separate things - corpus annotation and concordancing. Both Powergrep and WST4 can do concordancing, not annotation.
T txianne 2007-02-02 #5 回复: 新手求教编码问题 谢谢laohong与xiaoz的回复.由于我只是刚刚接触到语料库,有些问题还弄不明白.我在做硕士论文,论文中需要对口语中各中言语行为进行统计.我说一下我的想法,错误的地方请各位高人不要见笑.我想首先对口语中出现的各种言语行为进行赋码,然后通过WordSmith 4.0的Concord工具来搜索所出现的言语行为,这样就得出了出现的频率.
回复: 新手求教编码问题 谢谢laohong与xiaoz的回复.由于我只是刚刚接触到语料库,有些问题还弄不明白.我在做硕士论文,论文中需要对口语中各中言语行为进行统计.我说一下我的想法,错误的地方请各位高人不要见笑.我想首先对口语中出现的各种言语行为进行赋码,然后通过WordSmith 4.0的Concord工具来搜索所出现的言语行为,这样就得出了出现的频率.
T txianne 2007-02-02 #6 回复: 新手求教编码问题 WordSmith 4.0的Concord工具可以对赋码进行搜索.但是我不知道赋码的目的是什么?是否在赋码以后,计算机可以直接对赋码进行读取分析?或者在赋码以后,根本不需要工具对其进行统计,计算机可以自动生成统计数据?望各位高人指点.
回复: 新手求教编码问题 WordSmith 4.0的Concord工具可以对赋码进行搜索.但是我不知道赋码的目的是什么?是否在赋码以后,计算机可以直接对赋码进行读取分析?或者在赋码以后,根本不需要工具对其进行统计,计算机可以自动生成统计数据?望各位高人指点.
laohong 管理员 Staff member 2007-02-02 #7 回复: 新手求教编码问题 1. 赋码的目的: 你自己不是要检索和统计言语特征吗?有些语言特征可以自动赋码,大部分还得靠人工。Speech Act机器自动标注目前准确率还不理想,只能靠人工标注,要检索这样的特征就得先标注它们。 2. 自动统计: 自动统计你标注的信息取决于你的标注工具是否有此功能设计。大多数情况下,使用第三方软件,如WordSmith,就可以统计遵循一定格式标注的语料。但是,如果标注的层次多,而且有嵌套,折腾第三方软件来实现检索统计功能还不如自制。
回复: 新手求教编码问题 1. 赋码的目的: 你自己不是要检索和统计言语特征吗?有些语言特征可以自动赋码,大部分还得靠人工。Speech Act机器自动标注目前准确率还不理想,只能靠人工标注,要检索这样的特征就得先标注它们。 2. 自动统计: 自动统计你标注的信息取决于你的标注工具是否有此功能设计。大多数情况下,使用第三方软件,如WordSmith,就可以统计遵循一定格式标注的语料。但是,如果标注的层次多,而且有嵌套,折腾第三方软件来实现检索统计功能还不如自制。
T txianne 2007-02-03 #9 回复: 新手求教编码问题 我写这篇硕士论文用到的语料库就是COLSEC,我想首先应该去掉该语料库原来的赋码,然后按照speech act重新进行赋码,这样嵌套应该不会很多吧?(说实话,我不知道嵌套的意思 )我目前的能力确实很有限,但是我会努力的学习,尽力把问题写清楚,争取能够得到行家的认可.
回复: 新手求教编码问题 我写这篇硕士论文用到的语料库就是COLSEC,我想首先应该去掉该语料库原来的赋码,然后按照speech act重新进行赋码,这样嵌套应该不会很多吧?(说实话,我不知道嵌套的意思 )我目前的能力确实很有限,但是我会努力的学习,尽力把问题写清楚,争取能够得到行家的认可.
T txianne 2007-02-03 #10 回复: 新手求教编码问题 我在使用WordSmith 4.0搜索COLSEC原来的赋码时,在Concord 这个工具的specify search word方框中输入需要搜索的赋码就可以找到所需要的信息.但是我在用这个方法来搜索我自己对speech act的赋码时,却搜不到了.是不是我编码的格式不对?还有哪些问题会造成这样的结果呢?
回复: 新手求教编码问题 我在使用WordSmith 4.0搜索COLSEC原来的赋码时,在Concord 这个工具的specify search word方框中输入需要搜索的赋码就可以找到所需要的信息.但是我在用这个方法来搜索我自己对speech act的赋码时,却搜不到了.是不是我编码的格式不对?还有哪些问题会造成这样的结果呢?