刘泽权《红楼梦》句对齐标注问题求解

xusun575

高级会员
《当代语言学》第10卷2008年第4期329 - 339页, 《红楼梦》中英文平行语料库的创建

刘泽权等(2008:p.334)提到,"在MMAX界面下, 对句子属性标注的同时进行汉英文本的句级对齐。每个汉语句子和对应的英语句子连接起来, 形成一个对应句子集",

"汉语句子标注及对应标记信息:
<markable id = "markable_249" span = "word_3266. . word_3284" idiom_saying = "without" sentence_mode
= " declarative" voice = " active" chinese _ sentence = " comp lex" rhetoric = " without" linktype = " parallel"
language = " chinese" linkclass = " set_102" comp lex_sentence = " coordinate" register = "written" / >
英语句子标注及对应标记信息:
<markable id = "markable_267" span = "word_3481. . word_3499" idiom_ saying = "without" sentence_
mode = " declarative" voice = " active" rhetoric = " without" linktype = " parallel" language = " english" english_sentence = " complex" linkclass = " set_102" register = "written" / >

汉英句子都有起止的字或词的编号(如示例中的“word _3266. . word _3284”和“word _3481. . word_3499”) , 因而可以从存储文本原始数据的XML文档中找到以上两个句子对应的 字或词。如下所示:
<word id = "word_3266" >宝< /word >
<word id = "word_3267" >钗< /word >
<word id = "word_3268" >看< /word >
<word id = "word_3269" >毕< /word >
<word id = "word_3270" > , < /word >
<word id = "word_3271" >又< /word >
<word id = "word_3272" >从< /word >
<word id = "word_3273" >新< /word >
<word id = "word_3274" >翻< /word >
<word id = "word_3275" >过< /word >
<word id = "word_3276" >来< /word >
<word id = "word_3277" > , < /word >
<word id = "word_3278" >正< /word >
<word id = "word_3279" >细< /word >
<word id = "word_3280" >看< /word >
<word id = "word_3281" >口< /word >
<word id = "word_3282" >内< /word >
<word id = "word_3283" >念< /word >
<word id = "word_3284" >道< /word >
<word id = "word_3481" >When < /word >
<word id = "word_3482" >Bao < /word >
<word id = "word_3483" > - < /word >
<word id = "word_3484" > chai < /word >
<word id = "word_3485" > had < /word >
<word id = "word_3486" > looked < /word >
<word id = "word_3487" > at < /word >
<word id = "word_3488" > the < /word >
<word id = "word_3489" > stone < /word >
<word id = "word_3490" > all < /word >
<word id = "word_3491" > over < /word >
<word id = "word_3492" > , < /word >
<word id = "word_3493" > she < /word >
<word id = "word_3494" > turned < /word >
<word id = "word_3495" > back < /word >
<word id = "word_3496" > to < /word >
<word id = "word_3497" > the < /word >
<word id = "word_3498" > inscrip tion < /word >
<word id = "word_3499" > on < /word >"

我的问题是:既然是句层面对齐,而字对齐又无法实现,那么如此详尽的标注又有何必要?先谢谢啦!
 

附件

  • _红楼梦_中英文平行语料库的创建.pdf
    1.1 MB · 浏览: 262
Last edited:
回复: 刘泽权《红楼梦》句对齐标注问题求解

你再问一百遍,三位作者也不敢应答,因为本来就不是他们的设计和创作啊!
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

你再问一百遍,三位作者也不敢应答,因为本来就不是他们的设计和创作啊!
:p咱现在也正折腾着,拖了一帮人下了水,想捣腾个库出来,所以对这个很关心:如此详尽标注对同一语系的双语可能是必要的,但对汉英差异如此之大的两种语言,有此必要吗?咱没开窍,有点迷糊。向Laohong求解。
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

想搭个便车:p 楼主引述道“可以从存储文本原始数据的XML文档中找到以上两个句子对应的字或词。”我看不出汉英词(字)标号之间有什么关联,请问如何能够快捷找到对应的字或者词?我说的不是用人工肉眼去找,而是通过搜索工具进行。
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

想搭个便车:p 楼主引述道“可以从存储文本原始数据的XML文档中找到以上两个句子对应的字或词。”我看不出汉英词(字)标号之间有什么关联,请问如何能够快捷找到对应的字或者词?我说的不是用人工肉眼去找,而是通过搜索工具进行。

俺也郁闷着呢,所以求解。
1.若记忆无误,王克非的平行库也是作了类似标记的,Xu博应该有心得。
2.Laohong那里在“帮”:p着搞法律那段时间偷学了一点窍门,好象没有“找到以上两个句子对应的字或词”的麻烦。
3.XiaoZ的平行库句层面对齐是否也有字或词对应的类似做法?这里一并存疑。

此外,刘泽权等(2008:334)中提及,
“在MMAX界面下, 对句子属性标注的同时进行汉英文本的句级对齐”,对齐与标注,建库的两大难题一并搞定,在下怀疑其合理性和可行性。
“对齐实际生成的对应句子集存在以下几种形式: 一对一、一对多、多对一和多对多的连接模式”,何谓“多对多”?不解,而文中又未见句例。
同样存疑求解。先谢谢啦!

 
回复: 刘泽权《红楼梦》句对齐标注问题求解

My Lancaster Babel parallel corpus is aligned at sentence level, not word level.
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

词级对齐是可以办到的,为目前机器翻译中的一项研究。但是,自动对齐的准确率约为80%,所以人工校对是免不了的。不知道刘的句对齐效果如何,至少从laohong的网站来看,句对齐质量很差,无法在此基础上进行词对齐。
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

词级对齐是可以办到的,为目前机器翻译中的一项研究。但是,自动对齐的准确率约为80%,所以人工校对是免不了的。不知道刘的句对齐效果如何,至少从laohong的网站来看,句对齐质量很差,无法在此基础上进行词对齐。

迟复了,刚从香港返回。看来史兄是对laohong的那点破铜烂铁很了解的,但是不知史兄是否能推荐一个更好的版本?

另:个人从来都不认为词的层面的对齐和句子层面的自动对齐可以达到80%的准确率,很简单,看处理的是什么语言什么文本。ACL每年都有很多人在自欺欺人,在各种算法里打转转……写写文章骗骗stakeholders投钱烧钱就行了,要真以为是在做惊天动地的科学研究也未免可笑.....
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

对齐分为基于长度和基于词汇两大类方法。英法双语由于众多因素比较“类似”,因此在基于长度的方法进行对齐的时候效果较好。(以上说法文献中颇多)但本人认为,中英语法结构相差比较大。尤其是“倒装(倒装只是相对来说,其实很多外国人学汉语,他们经常说汉语的很多句子是倒装句,换位思维吧)”句型很多。如此的词的id标记和排序,可能很难真正对应的上。也就说:
what are u doing?
你正在做什么?
很难把what和“什么”对上,如果只是词序标记的话。(因为我没看到原文献,只是在lz的帖子中看的片段)。说到这里我觉得可能需要“转换成生语法”了。但后者的难度有多大,和发展过程,各位朋友都很清楚,也可以查得到。也就是需要“规则”了。

凌晨3点多 语无伦次的话,还请各位见谅。但当然论文中作者做的探讨也是可以的。
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

你再问一百遍,三位作者也不敢应答,因为本来就不是他们的设计和创作啊!

呵呵,一段时间没来溜达,大家讨论挺热闹。Laohong言之有理,MMAX他最熟。师傅顺带也给大家说说用XML语言进行信息存储的好处吧。:)
 
回复: 刘泽权《红楼梦》句对齐标注问题求解


刘泽权等(2008:334)中提及,
“在MMAX界面下, 对句子属性标注的同时进行汉英文本的句级对齐”,对齐与标注,建库的两大难题一并搞定,在下怀疑其合理性和可行性。
“对齐实际生成的对应句子集存在以下几种形式: 一对一、一对多、多对一和多对多的连接模式”,何谓“多对多”?不解,而文中又未见句例。
同样存疑求解。先谢谢啦!


《红楼梦》中英文语料库是用MMAX工具,对文本进行的人工对齐与标注,所以xusun575的疑惑也就不存在了。换句话说,利用语料库工具进行自动对齐与标注的问题并没有在《红楼梦》中英文语料库中得到解决。

英文译本中的句子大部分是与中文文本一一对应的,所以汉英句子间的对应大部分为一对一的形式,但是也有很多一个汉语句子对应两个或多个英语句子、两个或多个汉语句子对应两个或多个英语句子的情况。因此,实际生成的对应句子集存在以下几种形式:一对一、一对多、多对一和多对多的对齐模式。论文因篇幅所限,所以许多示例都删掉了。
 

附件

  • 汉英二对二对齐示例.doc
    44 KB · 浏览: 80
回复: 刘泽权《红楼梦》句对齐标注问题求解

呵呵,一段时间没来溜达,大家讨论挺热闹。Laohong言之有理,MMAX他最熟。师傅顺带也给大家说说用XML语言进行信息存储的好处吧。:)

呵呵, ivysweet应该很清楚,laohong不仅仅是跟MMAX熟,跟HLM更熟。请问三位作者谁在laohong之前就知道MMAX?谁知道怎么去制定项目任务以及如何达成目标?知道最早在什么时候开始筹划搞那个项目的吗?我花了多少时间和心血来整理数据、全盘设计、取舍分类、开发程序、答疑解惑、钻研解决问题吗?是怎样牺牲自己的年假单凭热情两次毫无报酬的万里迢迢上门培训,自己花钱打国际长途答疑解惑,深更半夜抓图、制作视频辅导材料,光emails就好几千封都在这里存着呢,结果最后成果都没laohong什么事了?专家组哪一个老师不是我介绍认识的?干活时laohong成了实际负责人,连课题组成员的个人论文也顺带指导,活干完了突然没有人再联系laohong了?突然间从项目合作者变成了访问人员了?最终结项时连一个email、电话、短信也不能告知一声?结项的消息还是在本坛知道的。文章的思路和创作跟我没有关系吗?我没有改过吗?项目的实际主创兼施工人员最后只在鸣谢里出现了一下,就这样似乎还落了三位作者一个天大的恩惠?天下有这样做学问的人吗?良心都叫狗吃了!
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

《红楼梦》中英文语料库是用MMAX工具,对文本进行的人工对齐与标注,所以xusun575的疑惑也就不存在了。换句话说,利用语料库工具进行自动对齐与标注的问题并没有在《红楼梦》中英文语料库中得到解决。

英文译本中的句子大部分是与中文文本一一对应的,所以汉英句子间的对应大部分为一对一的形式,但是也有很多一个汉语句子对应两个或多个英语句子、两个或多个汉语句子对应两个或多个英语句子的情况。因此,实际生成的对应句子集存在以下几种形式:一对一、一对多、多对一和多对多的对齐模式。论文因篇幅所限,所以许多示例都删掉了。

谢谢ivysweet的细心解答,现在对红楼工程的对齐与标注工作有了一些了解。
仔细看了您提供的附件,但对于贵工程的对齐方式还是感到疑问。汉英对齐的参照系应该是固定的。汉语的句切分原则一旦确定,“一个”对齐单位只能是“一个”汉语句,即英语只能与汉语的“一”而不是“多”参照。
所谓“多对一”或“多对多”似成了动态对齐:汉语句的切分或对齐单元要视英译文的情势而定。这样的合理性似乎不足。这也正是在下疑问所在。
您所提供的“二对二”例句,似乎并没有真正做到“句层面”的对齐。

Ps:ivysweet,您能否再提供几例“多对一”和多对多”的例句呢?谢谢!

 
回复: 刘泽权《红楼梦》句对齐标注问题求解

呵呵, ivysweet应该很清楚,laohong不仅仅是跟MMAX熟,跟HLM更熟。请问三位作者谁在laohong之前就知道MMAX?谁知道怎么去制定项目任务以及如何达成目标?知道最早在什么时候开始筹划搞那个项目的吗?我花了多少时间和心血来整理数据、全盘设计、取舍分类、开发程序、答疑解惑、钻研解决问题吗?是怎样牺牲自己的年假单凭热情两次毫无报酬的万里迢迢上门培训,自己花钱打国际长途答疑解惑,深更半夜抓图、制作视频辅导材料,光emails就好几千封都在这里存着呢,结果最后成果都没laohong什么事了?专家组哪一个老师不是我介绍认识的?干活时laohong成了实际负责人,连课题组成员的个人论文也顺带指导,活干完了突然没有人再联系laohong了?突然间从项目合作者变成了访问人员了?最终结项时连一个email、电话、短信也不能告知一声?结项的消息还是在本坛知道的。文章的思路和创作跟我没有关系吗?我没有改过吗?项目的实际主创兼施工人员最后只在鸣谢里出现了一下,就这样似乎还落了三位作者一个天大的恩惠?天下有这样做学问的人吗?良心都叫狗吃了!
唉,无语:confused:
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

呵呵, ivysweet应该很清楚,laohong不仅仅是跟MMAX熟,跟HLM更熟。请问三位作者谁在laohong之前就知道MMAX?谁知道怎么去制定项目任务以及如何达成目标?知道最早在什么时候开始筹划搞那个项目的吗?我花了多少时间和心血来整理数据、全盘设计、取舍分类、开发程序、答疑解惑、钻研解决问题吗?是怎样牺牲自己的年假单凭热情两次毫无报酬的万里迢迢上门培训,自己花钱打国际长途答疑解惑,深更半夜抓图、制作视频辅导材料,光emails就好几千封都在这里存着呢,结果最后成果都没laohong什么事了?专家组哪一个老师不是我介绍认识的?干活时laohong成了实际负责人,连课题组成员的个人论文也顺带指导,活干完了突然没有人再联系laohong了?突然间从项目合作者变成了访问人员了?最终结项时连一个email、电话、短信也不能告知一声?结项的消息还是在本坛知道的。文章的思路和创作跟我没有关系吗?我没有改过吗?项目的实际主创兼施工人员最后只在鸣谢里出现了一下,就这样似乎还落了三位作者一个天大的恩惠?天下有这样做学问的人吗?良心都叫狗吃了!
唉,林子大了呀,……
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

今天终于知道了这段恩怨了。。。。。
 
回复: 刘泽权《红楼梦》句对齐标注问题求解

Robert闻讯前来抚慰laohong受伤的心灵并表示深切理解。
送laohong四句话并再度自勉:众生平常人,胜败平常事;天下平常物,得失平常心
 
Back
顶部