关于使用MMAX标注语料的培训

xusun575

高级会员
啊呀,这个要怪laohong,我答应许博和胡博做这个检索部分,最近一忙,竟然一拖再拖。这个周末就贡献出来吧。请大家耐心等待。http://www.fleric.org.cn/cctfc/
老洪出马,一个顶两.期待中呵.
另外,MMAX讲习/培训的事进入议程了没有? 我们这个"非著名"小学校位于江南水乡,山清水秀,是个适合讲习的地儿.让咱承接这个事算了,别再找"著名"的了,这样也能让大伙看看我们这里的电风扇.如何?:D
 
回复: 当代汉语翻译小说语料库 怎么用啊

老洪出马,一个顶两.期待中呵.
另外,MMAX讲习/培训的事进入议程了没有? 我们这个"非著名"小学校位于江南水乡,山清水秀,是个适合讲习的地儿.让咱承接这个事算了,别再找"著名"的了,这样也能让大伙看看我们这里的电风扇.如何?:D

我举双手赞成啊!孙老师,你的电风扇到底是啥原理啊?有哪个帖子说了吗?我好像没有看到啊!:p
 
回复: 当代汉语翻译小说语料库 怎么用啊

老洪出马,一个顶两.期待中呵.
另外,MMAX讲习/培训的事进入议程了没有? 我们这个"非著名"小学校位于江南水乡,山清水秀,是个适合讲习的地儿.让咱承接这个事算了,别再找"著名"的了,这样也能让大伙看看我们这里的电风扇.如何?:D

MMAX讲习我也在期待中,关键不知道这个讲习是以学校为单位一个一个全国游走,还是在某地为单位面向全国招生?具体讲习的内容和目录。
 
回复: 当代汉语翻译小说语料库 怎么用啊

MMAX这样的全手工标注,我不知道有多少人是真的想做?

如果认真的准备,有项目支持,是可以做的。

另外,最主要是看洪哥有没有档期,以及有没有承办方?
 
回复: 当代汉语翻译小说语料库 怎么用啊

MMAX这样的全手工标注,我不知道有多少人是真的想做?

如果认真的准备,有项目支持,是可以做的。

另外,最主要是看洪哥有没有档期,以及有没有承办方?

许博士说的很真实啊。mmax这个软件,我一直报有很大的希望,因为hong老师的推荐我是绝对信服的。但最近折腾这个软件很久了,发现,如果真想用这个软件做出实体的东西,达到hong老师的程度,基本与我如浮云。我最近的个人心得,说的不对大家多批评。
1.如果要学习使用本软件,XML的精通是必须的!如果毫无基础,就想用mmax可能是在说笑。
2.mmax的项目创建,尤其是scheme创建那个部分,界面不友好。hong老师自己开发了一个scheme designer,但我们这些普通的朋友如何开发这样一个软件那?或如何得到这样一个软件或技术支持那?
3.xaira这个程序的稳定性和兼容性一般(事实上精通xaira高级查询的人本来就不多,会用antconc和ws的人很多。很多人不精通xaira也是由于对xml的理解有限所致)。对于mmax标注过的信息,是否有更好的软件或方式去提取。而且xaira很久没有更新了。MMAX本身的语句查询需要重新学习。
4.目前我能找到关于mmax的介绍和文章很有限,国内真正会用这个软件的只有hong老师,很多卡住的地方折腾不出来。
5.MMAX的scheme的制定、标注、文本的对齐、标注信息的提取,以及导入SQL数据库和后期在线检索的建设,是一个相对独立、一条龙的体系。(如果很多朋友还是只停留在使用ws 和antconc的阶段)

当然,我对xml和mmax标注的意义是有信心的。以上只是我个人学习这个软件的时候遇到的一些难题,只是说出来和大家交流下。我很期待这个讲习班,更期待能把以上问题解决。欢迎批评灌水。。。
 
回复: 当代汉语翻译小说语料库 怎么用啊

MMAX这样的全手工标注,我不知道有多少人是真的想做?

如果认真的准备,有项目支持,是可以做的。

另外,最主要是看洪哥有没有档期,以及有没有承办方?

很有道理。现在人人都想有自动标注的东西,除了POS、Semantics、Syntax等有限的特征可以自动处理外(且不谈其准确性),任何涉及到语篇层面的特征,如speech acts,cohesive devices,clause complex,transitivity,move structure等等,不手工标注就是mission impossible。既然人工标注是不可避免的,那我们就不应该等、停、靠、要,而应该思考怎么才能用最少的人工投入来达到最好的标注效果。MMAX这样的机器辅助的标注程序就是因此而应运而生的。

当然,机器再怎么辅助,也得人来参与,所以并不能盲目的去什么都标,而应该要为自己的研究目的去做。先得有个明确的研究目的,再找到必须要标的特征,然后看怎么去标,标好后如何检索、提取。所以,办班与否得跟研究目的有很大关系。也就是许博士所说的,得有项目支持。档期倒是可以商量的。最后,用我在北外开会时讲我这里语料库标注时的一个图来说明以上观点:
 

附件

  • 2010-1-21 17-43-32.png
    2010-1-21 17-43-32.png
    27.2 KB · 浏览: 9
回复: 当代汉语翻译小说语料库 怎么用啊

不一样就是不一样!
"不应该等、停、靠、要,而应该思考怎么才能用最少的人工投入来达到最好的标注效果",放之四海而皆准呵!:p[/COLOR][/SIZE]
 
回复: 当代汉语翻译小说语料库 怎么用啊

不一样就是不一样!
"不应该等、停、靠、要,而应该思考怎么才能用最少的人工投入来达到最好的标注效果",放之四海而皆准呵!:p

谢谢老孙!这也是电风扇理论的一个有机部分。
 
回复: 当代汉语翻译小说语料库 怎么用啊

许博士说的很真实啊。mmax这个软件,我一直报有很大的希望,因为hong老师的推荐我是绝对信服的。但最近折腾这个软件很久了,发现,如果真想用这个软件做出实体的东西,达到hong老师的程度,基本与我如浮云。我最近的个人心得,说的不对大家多批评。
1.如果要学习使用本软件,XML的精通是必须的!如果毫无基础,就想用mmax可能是在说笑。
2.mmax的项目创建,尤其是scheme创建那个部分,界面不友好。hong老师自己开发了一个scheme designer,但我们这些普通的朋友如何开发这样一个软件那?或如何得到这样一个软件或技术支持那?
3.xaira这个程序的稳定性和兼容性一般(事实上精通xaira高级查询的人本来就不多,会用antconc和ws的人很多。很多人不精通xaira也是由于对xml的理解有限所致)。对于mmax标注过的信息,是否有更好的软件或方式去提取。而且xaira很久没有更新了。MMAX本身的语句查询需要重新学习。
4.目前我能找到关于mmax的介绍和文章很有限,国内真正会用这个软件的只有hong老师,很多卡住的地方折腾不出来。
5.MMAX的scheme的制定、标注、文本的对齐、标注信息的提取,以及导入SQL数据库和后期在线检索的建设,是一个相对独立、一条龙的体系。(如果很多朋友还是只停留在使用ws 和antconc的阶段)

当然,我对xml和mmax标注的意义是有信心的。以上只是我个人学习这个软件的时候遇到的一些难题,只是说出来和大家交流下。我很期待这个讲习班,更期待能把以上问题解决。欢迎批评灌水。。。

由于时间关系,这里简单回复你所提到的五点:
1、如果有时间学习一下XML当然好;但并不是要Xaira、MMAX的普通用户也去学XML,这并不是软件开发者的初衷;其实很多人并不了解XML照样用MMAX,如原燕山大学参与红楼梦项目的人员,都是laohong培训怎么用MMAX去标注的,但从没教XML;
2、MMAX是极具可定制性的,要自己定制当然是要学习的,不是一般人员就可以上手的。因此我们才开发了一系列配套的辅助工具,如scheme desinger、input files converter、output files converter、database indexer、online/offline query console等等;这样一整套的工具包在手任何人经过半小时的培训就可以操作了;
3、MMAX自带的project wizard和检索部分确实是很糟糕的,这也不能怪原开发者,他主要的贡献就是程序的可定制性,我所改制和应用的很多方面都是他当初没想到的;而MMAX的局限都在我们开发的工具包里得到了解决;
4、确实没有多少介绍文章,原因有三:一、甚少有人愿意去花时间标注,大家一窝风都在搞词汇和词块等易于提取的层面;二、可能用了MMAX做过标注,但是时间和精力不够来写介绍文章;三、没有市场需求,这个就有点是chicken-egg issue了;
5、说的没错,MMAX确实是个一个完整的体系,从研究的特征选择、语料的准备、标注的进行到后期的数据库索引、检索统计都是要一体设计的。

至于是否要办班,这还是个问题,具体请见9楼的回复。
 
回复: 当代汉语翻译小说语料库 怎么用啊

2、MMAX是极具可定制性的,要自己定制当然是要学习的,不是一般人员就可以上手的。因此我们才开发了一系列配套的辅助工具,如scheme desinger、input files converter、output files converter、database indexer、online/offline query console等等;这样一整套的工具包在手任何人经过半小时的培训就可以操作了;

恩,真是太好了。hong老师指点我绝对相信30分钟够了,因为明白的人一句两句话就可以点醒人,不明白的人搞多少天不一定明白。而且有了hong老师开发的工具的确是还解决了我说的第一点。因为有您的开发工具,所以使用者可以较少的了解xml了。我以前是自己写代码(参照一些成型代码,照猫画虎)写出层级scheme。但有了您的工具,这一切问题的确是迎刃而解。
 
Back
顶部