‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

xusun575

高级会员
为《红楼梦》对齐建库需要,做相关内容调查和googling,结果发现下面这篇大连海事大学的硕士论文,现节选贴出.其中提到"作者建立了两个包括《红楼梦》原文与两个译本的平行语料库(CYPARA和CHPARA),..并尝试用新的对齐方法‘锚点与重叠信息’使语料库文本在句子层面对齐。http://www.lw23.com/lunwen_423722067/

发现这个"新方法',兴奋之余,不禁想到:

1.‘锚点与重叠信息’应该是自动对齐,正确率是如何保证的?
2. 《红楼梦》建库工程巨大,而作者个人在硕士阶段建立了包括原文和两个译本的语料库,时间是如何保证的?

这里向C友,尤其是mandel和laohong请教.
更希望燕山大学和大连海事的C友(最好是作者本人或导师) 能转达或解答.谢谢.
PS:
1.红楼的双语两译本对齐建库.其难度远远超过其它作品.非亲历亲为,无从想象。经试对齐,我们对齐阶段的工作量预估:
每一章回单译本纯对齐工作时间约为 3-5小时,单译本对齐工时约在1000-1500小时/人.
再加上前期和后期诸多的工作,应该不小于3000人时。
2.红楼很热,绍兴文理学院加入这股热流,自有充要理由,决非重复劳动.呵呵:p


论文标题:《红楼梦》两个英语译本的描述性研究
A Descriptive Study on Two English Versions of Hong Lou Meng
论文作者
论文导师 范凤祥,论文学位 硕士,论文专业 外国语言学及应用语言学
论文单位 大连海事大学,点击次数 18,论文页数 93页File Size6122K
2007-03-06论文网 http://www.lw23.com/lunwen_423722067/
Hong Lou Meng; Descriptive Translation Studies; Corpus Translation Studies; Parallel Corpus; Aligning

"... ...作者建立了两个包括《红楼梦》原文与两个译本的平行语料库(CYPARA和CHPARA),..并尝试用新的对齐方法‘锚点与重叠信息’使语料库文本在句子层面对齐。作者将从两个语料库得到的统计结果与大型语料库的数据进行对比,保证系统的研究摆脱单一对应文本研究的局限,并使译文的语言特点和译者的独特语言习惯得以展现。 该研究表明:......"
 
‘锚点与重叠信息’,大连海事的对齐利器又一例:《尤利西斯》意识流语言特点翻译


如题.刚刚google得到的结果.
看来"锚点与重叠信息"法是大连海事大学研发,并在研究中广泛使用的一种语料库对齐技术.这里更希望能向大连海事取经了.
摘贴如下.


《尤利西斯》意识流语言特点翻译

--------------------------------------------------------------------------------

论文标题:《尤利西斯》意识流语言特点翻译
A Corpus-aided Translation Study on the Linguistic Features of Stream of Consciousness in Ulysses
论文作者
论文导师 夏廷德,论文学位 硕士,论文专业 外国语言学及应用语言学
论文单位 大连海事大学,点击次数 5,论文页数 88页File Size5017K
2008-03-04论文网 http://www.lw23.com/lunwen_297361572/
stream of consciousness;; stylistics;; functionalism;; corpus translation studies
"《尤利西斯》代表着二十世纪意识流小说的最高成就。....作者建立了包括《尤利西斯》原文与两个中文译本的两个平行语料库(EXPARA和EJPARA),并尝试用“锚点与重叠信息”方法使每一个平行语料库的中英文译本在句子层面对齐。作者将从两个语料库得到的统计结果与原文文体风格参数进行对比,以保证取证和结论的客观性和全面性。该研究表明: ..."
 
‘锚点与重叠信息’:向大连海事致敬

向研发出对齐新方法的大连海事大学同仁学习与致敬!
http://cdmd.cnki.com.cn/Article/CDMD-10151-2008048926.htm
基于功能理论的国际海事公约翻译研究
【摘要】:"......本文根据语料库翻译研究理论建立了一个国际海事公约中英文平行语料库CONYENTIONPARA,该语料库包括STCWPARA、SOLASPARA和MARPOLPARA三部分,并用锚点与重叠信息对齐方法将语料库文本在句子层面对齐。 该研究表明:...."
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:H059
【DOI】:CNKI:CDMD:2.2008.048926
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

我觉得xusun575有点小题大作,对齐方法本质上分为基于长度和基于词典两类(当然也可以结合使用)。基于长度的方法只用到了待对齐文本的句子的长度信息,因此准确率低一些,基于词典的方法因为要用到词典,准确率高一些,但是因为词典是不完善的,句子也不一定逐词翻译(红楼梦里有大量的省译),所以,准确率取决于对译中直译的比例和词典的质量。锚点,只是没有词典或者文本有某些特殊标记下才能采用,可以看作是词典方法的特例(见吴德恺在中英法律文本对齐的工作,把法律的1.1.1之类章节编号作为锚点,有时候数字之类也可以作为锚点,但不一定可靠)。基于重叠信息的对齐方法没听说过。

至于时间,其实机器自动给出一个粗对齐,人工在适当的软件辅助下做调整,速度应该是非常快的。而且也不一定是一个人做。不过这种工作是在是很没有意思,除非是爱好者或者在钱的驱动下才能坚持。所以目前很多的对齐文本质量不高,原因在此。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

谢谢mandel! 这么一点拨,咱就有了点明白.不论是基本长度还是基于词典,自动对齐后人工干预是不可少的.基于"锚点与重叠信息"应该是一种创新,当属自动对齐,因此人工干预也是必要的.
经机器或计算机自动对齐的文本再作人工对齐,其速度是很快的,差别仅在于正确率:基于词典者,高;基于于长度者,低. 而"锚点与重叠信息"法,应该高于前两者了.:)
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

史老师的解释很清楚,切中肯綮。谢谢分享。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

不过细细一想,咱们进行中的对齐,既非基于长度,也非基于词典或锚点啊,但正确率却是有大大保证滴:D
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

不过细细一想,咱们进行中的对齐,既非基于长度,也非基于词典或锚点啊,但正确率却是有大大保证滴:D


xusun575 能否把自己的方法和大家分享一下。。。。尤其是正确率是如何保证的,如果不是只靠人工的话。我曾听过有人想建大型平行双语库,最后得出的结论是,全部人工对齐,如果是那样,那正确率的确是有保证。如果在人员充足的情况下,的确。。。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

xusun575 能否把自己的方法和大家分享一下。。。。尤其是正确率是如何保证的,如果不是只靠人工的话。我曾听过有人想建大型平行双语库,最后得出的结论是,全部人工对齐,如果是那样,那正确率的确是有保证。如果在人员充足的情况下,的确。。。

我们的做法属“山寨”电风扇之流:D,没什么技术含量,和“学院派”无法相比,因为我们的做法与“长度、词典、锚头、重叠信息”等,怎么也挂不上钩(或许总结一下会发现有某种形式的挂钩)。我们主要的工具是MS Office的常用文字和数据软件和另外一些文本工具如editplus等。我们核心的经验是:用好用足“查找替换”功能,注意每一个文本处理的细节,即使是章回的分割,我们都有很笨但很有效的操作。操作过程见附件。
真诚希望C友评头论足,更欢迎不同声音,感谢任何质疑。鼓励、批评、建议、不同声音、质疑、关注等等,都是我们的财富。我始终认为,这些是我们积小收获为大成果的关键所在。另外也请maggieq58或其他C友交流一下自己的对齐经验,不论是工具的还是人工的,成功的或失败的。​
 

附件

  • 外国语学院语料库建设流程图.doc
    29 KB · 浏览: 65
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

本论坛中有不少是大连海事的朋友,能不能解释一下利用“锚点与重叠信息”的对齐方法呢?
 
回复: ‘锚点与重叠信息’,大连海事的对齐利器又一例:《尤利西斯》意识流语言特点翻译


如题.刚刚google得到的结果.
看来"锚点与重叠信息"法是大连海事大学研发,并在研究中广泛使用的一种语料库对齐技术.这里更希望能向大连海事取经了.
摘贴如下.


《尤利西斯》意识流语言特点翻译

--------------------------------------------------------------------------------

论文标题:《尤利西斯》意识流语言特点翻译
A Corpus-aided Translation Study on the Linguistic Features of Stream of Consciousness in Ulysses
论文作者
论文导师 夏廷德,论文学位 硕士,论文专业 外国语言学及应用语言学
论文单位 大连海事大学,点击次数 5,论文页数 88页File Size5017K
2008-03-04论文网 http://www.lw23.com/lunwen_297361572/
stream of consciousness;; stylistics;; functionalism;; corpus translation studies
"《尤利西斯》代表着二十世纪意识流小说的最高成就。....作者建立了包括《尤利西斯》原文与两个中文译本的两个平行语料库(EXPARA和EJPARA),并尝试用“锚点与重叠信息”方法使每一个平行语料库的中英文译本在句子层面对齐。作者将从两个语料库得到的统计结果与原文文体风格参数进行对比,以保证取证和结论的客观性和全面性。该研究表明: ..."

"锚点与重叠信息”能把"《尤利西斯》对齐,咱电风扇也是管用的(但意义真的不大)。最后一章只有一句话,结果如下,并希望能向大连海事学习,见到大连海事的结果。
 

附件

  • UlyssesChapter18 Penelope.doc
    331.5 KB · 浏览: 31
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

不知道“锚点”是不是anchor words的中文翻译。我在文本对齐的技术性文献里看见过这个词,比如法语和英语平行文本之间有同源词可以作为锚点。另外,Trados的WinAlign的对齐界面有一个微调功能就是通过bilingual terms来实现的。如果大连海事大学使用了锚点技术也不能算他们发明的。如果他们使用锚点帮助对齐应该是开发了对齐软件软件。最好请他们透露一下软件的情况,以帮助大家释疑解惑。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

正如oscar3所说,基于“锚点与重叠信息”的对齐方法在许多文献中都谈到,确实不是我们大连海事大学的新发明,我们是借用这种思想利用foxpro程序实现语料对齐。以上所谈的几个研究目的都在于利用语料库语言学的方法来揭示语言使用特征,不把提出一种新的对齐算法作为首要任务,正如大量语料库研究都使用现成的WORDSMITH TOOLS。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

正如oscar3所说,基于“锚点与重叠信息”的对齐方法在许多文献中都谈到,确实不是我们大连海事大学的新发明,我们是借用这种思想利用foxpro程序实现语料对齐。以上所谈的几个研究目的都在于利用语料库语言学的方法来揭示语言使用特征,不把提出一种新的对齐算法作为首要任务,正如大量语料库研究都使用现成的WORDSMITH TOOLS。
谢谢dychen的回复,但这也是创新。正确率如何?有这方面的统计吗?谢谢!
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

该对齐方法针对限定语域的语料自动对齐(如海事英汉文献对齐)准确率很高,仅需少量人工干预;而对于文学作品的对齐,锚点词表的建立(即锚点词的选择)很关键,但仍需大量人工调整。有关准确率在论文中有相应的报道。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

该对齐方法针对限定语域的语料自动对齐(如海事英汉文献对齐)准确率很高,仅需少量人工干预;而对于文学作品的对齐,锚点词表的建立(即锚点词的选择)很关键,但仍需大量人工调整。有关准确率在论文中有相应的报道。

谢谢!那么检索工具呢?paraconc还是其他?
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

该对齐方法针对限定语域的语料自动对齐(如海事英汉文献对齐)准确率很高,仅需少量人工干预;而对于文学作品的对齐,锚点词表的建立(即锚点词的选择)很关键,但仍需大量人工调整。有关准确率在论文中有相应的报道。
文学作品句对齐,anchor words是根据每一句确定的还是有一个统一的词表?如一句一确定,anchor words确定的工作量一定巨大;而统一词表,人工调整又费大量人力。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

建议大连海事大学在C坛开一个“锚点与重叠信息”对齐的专题,分享介绍一下成功的经验。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

重叠信息---这个概念我不是很明白。何为重叠信息?又如何利用重叠信息进行对齐?锚点这个概念是早就听过了。
 
回复: ‘锚点与重叠信息’:对大连海事毕业论文《红楼梦》一对二建库"新方法"质疑

重叠信息---这个概念我不是很明白。何为重叠信息?又如何利用重叠信息进行对齐?锚点这个概念是早就听过了。

Aha,2005年5月9日,dychen是本坛最资深C友之一了!希望能揭开“锚点与重叠信息”之盖头来!先谢了!
 
Last edited:
Back
顶部