句对齐时一对多或多对一时的切分、对齐问题

各位老师,有两个句对齐的切分、对齐问题想求教于大家,先谢了!
1. 原文是一个句子,比较长。译文采用分译法译成了两个句子。句对齐时就可能有两种选择:
1)一对二
<seg>现代化的交通、电信与大众传媒手段使世界越来越小,国际社会如同一个地球村,居住在地球村里的各国人民在文化交流和冲撞中和睦相处、彼此尊重、共求发展。</seg>
<seg>Modern means of transportation, telecommunication and mass media have shortened the geographical distance of the world. The international community appears to be no more than a global village, in which peoples of all nations experience the inevitable cultural exchanges and clashes, while seeking common development in a harmonious and respectful relationship.</seg>
2)二对二(但汉语的第一个segment并不是一个句子,而是一个分句[以逗号结束]):
<seg>现代化的交通、电信与大众传媒手段使世界越来越小,</seg>
<seg>国际社会如同一个地球村,居住在地球村里的各国人民在文化交流和冲撞中和睦相处、彼此尊重、共求发展。</seg>
<seg>Modern means of transportation, telecommunication and mass media have shortened the geographical distance of the world.</seg>
<seg>The international community appears to be no more than a global village, in which peoples of all nations experience the inevitable cultural exchanges and clashes, while seeking common development in a harmonious and respectful relationship.</seg>

这两种对齐方式,哪种更为合理?像第二种做法,以逗号(或分号等,而非句号、感叹号、问号)作为一个segment的结束是否可以?

2. 原文、译文都是一句话,但很长,不把两者作为一个句子对齐(因为检索起来不方便),而是把原文和译文分别切分成两个或多个对应的分句,然后对齐(这样更方便检索时检索项的对应),这样的做法是否可以?
谢谢啦!
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

这两种对齐都有可能:如果汉译英,前者;英译汉,后者。
对齐后效果见附件
 

附件

  • seg.doc
    27.5 KB · 浏览: 105
回复: 句对齐时一对多或多对一时的切分、对齐问题

我是刚刚接触语料库,不知前辈能否指点一下如何实现句级对齐,比如利用MMAX如何实现。
是不是在对齐前要对句子进行标注。
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

我是刚刚接触语料库,不知前辈能否指点一下如何实现句级对齐,比如利用MMAX如何实现。
是不是在对齐前要对句子进行标注。
实现句级对齐的方法多种多样。
如果要求只是“只见句子不见篇章”,那么能编或弄到一些公司的软件,正确率能达到80%以上,那是很爽的。本坛前一阶段有人推介并演示了一二,很雷人呢:)
小批量的完全对齐,则可以用trados, 雅信或paraconc自带的工具,人辅机助。具体如何使用,请看说明书吧。
如果大批量完全对齐的,目前没有什么“好”办法。我们用的是"笨"办法,即MS word,excel,notepad,自录编了些"宏",再乱棍齐下,效果还挺好。
MMAX没有试过,听说很不错,你去问问燕山大学的团队,他们的红楼用的就是这个工具。(在本坛用"红楼梦"搜索一下)。当然罗,laohong是专家,但人在海外有所不便。
至于对齐与标注,不知其他方家有何见解,本人认为同时进行是不可取的,应该分个先后。我们的做法是先对齐,才标注。
我建议,你就搞点小批量的玩玩吧,高精度的大批量对齐,没有点绝活,不要轻举妄动,呵呵:p
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

实现句级对齐的方法多种多样。
如果要求只是“只见句子不见篇章”,那么能编或弄到一些公司的软件,正确率能达到80%以上,那是很爽的。本坛前一阶段有人推介并演示了一二,很雷人呢:)
小批量的完全对齐,则可以用trados, 雅信或paraconc自带的工具,人辅机助。具体如何使用,请看说明书吧。
如果大批量完全对齐的,目前没有什么“好”办法。我们用的是"笨"办法,即MS word,excel,notepad,自录编了些"宏",再乱棍齐下,效果还挺好。
MMAX没有试过,听说很不错,你去问问燕山大学的团队,他们的红楼用的就是这个工具。(在本坛用"红楼梦"搜索一下)。当然罗,laohong是专家,但人在海外有所不便。
至于对齐与标注,不知其他方家有何见解,本人认为同时进行是不可取的,应该分个先后。我们的做法是先对齐,才标注。
我建议,你就搞点小批量的玩玩吧,高精度的大批量对齐,没有点绝活,不要轻举妄动,呵呵:p

非常感谢您的指点。我处理的是一个四万词的文本,不知道算不算小批量。
因为之前您推荐的一些翻译软件或检索软件我这边没有,所以关于使用MS word, excel 和 notepad自制宏,不知您可不可以传授一下。呵呵。
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

非常感谢您的指点。我处理的是一个四万词的文本,不知道算不算小批量。
因为之前您推荐的一些翻译软件或检索软件我这边没有,所以关于使用MS word, excel 和 notepad自制宏,不知您可不可以传授一下。呵呵。
四万词应该是很小很小的啦,自己弄弄,练练手,没有问题的. 如有问题,传一点上来看看。这点东西,我们处理一下也就是举手之劳。
至于对齐工具,paraconc,trados和雅信,google一下即可找到demo. 另外有一款可用于对齐的工具"Tadoser"为国人所编,免费的,口碑很好,你可以下载试试.
至于msword,excel等,没有什么技术含量,这里对学生也仅是边干边学,谈不上什么传授。如传统匠人,借用书圣语,“学书之法,非口传心授,不得其精”。对齐亦然。
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

四万词应该是很小很小的啦,自己弄弄,练练手,没有问题的. 如有问题,传一点上来看看。这点东西,我们处理一下也就是举手之劳。
至于对齐工具,paraconc,trados和雅信,google一下即可找到demo. 另外有一款可用于对齐的工具"Tadoser"为国人所编,免费的,口碑很好,你可以下载试试.
至于msword,excel等,没有什么技术含量,这里对学生也仅是边干边学,谈不上什么传授。如传统匠人,借用书圣语,“学书之法,非口传心授,不得其精”。对齐亦然。

谢谢您,我先研究一下,不懂之处再请教。
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

谢谢xusun575的详细说明!Trados的winalign自动对齐后的确还需要花较多的时间来人工辅助对齐。个人觉得使用winalign时,导入语料前先把那些较长的段落划分短点有助于减少自动对齐的出错可能,以便提高对齐效率。tradoser曾经粗略试过,好像不太适合自动句对齐的处理(个人意见)。
另外还想请教两个问题,先谢过了!
1)前面xusun575提到过一句话“如果要求只是“只见句子不见篇章”,请问一般双语平行语料库的建设,除应该对对齐的句子进行分界标注外(<seg>,</seg>),是否有必要对相关段落信息进行标定?
2)对齐句子的标注中,是否有必要在句子前面标上相关序号?如下面的序号344...348是否有必要标上?:
<seg>344/m 那/rzv 送/v 大夫/n 的/ude1 家人/n 再三/d 央告/v ,/wd 说/v 请/v 老爷/n 看看/v 脉/ng ,/wd 小/a 的/ude1 好/a 回禀/v 家/n 主/ag 。/wj </seg>
<seg>345/m 那/rzv 大夫/n 用/p 手/n 一/d 摸/v ,/wd 已/d 无/v 脉息/n 。/wj </seg>
<seg>346/m 贾/nr1 环/n 听/v 了/y ,/wd 然后/c 大/d 哭/v 起来/vf
<seg>347/m 只/d 有/vyou 周/nr1 姨娘/n 心里/s 苦楚/n 。/wj </seg>
<seg>348/m 想到/v 做/v 偏房/n 侧室/n 的/ude1 下场/n 头/q ,/wd 不过/c 如此/rzv 。/wj </seg>
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

谢谢xusun575的详细说明!Trados的winalign自动对齐后的确还需要花较多的时间来人工辅助对齐。个人觉得使用winalign时,导入语料前先把那些较长的段落划分短点有助于减少自动对齐的出错可能,以便提高对齐效率。tradoser曾经粗略试过,好像不太适合自动句对齐的处理(个人意见)。
另外还想请教两个问题,先谢过了!
1)前面xusun575提到过一句话“如果要求只是“只见句子不见篇章”,请问一般双语平行语料库的建设,除应该对对齐的句子进行分界标注外(<seg>,</seg>),是否有必要对相关段落信息进行标定?
2)对齐句子的标注中,是否有必要在句子前面标上相关序号?如下面的序号344...348是否有必要标上?:
............
问题搞大了!:D
我们用的是土法,你这个问题有点深度,我还真回答不了。尽管俺的tagging工具有一些,但平行对齐从未想到要做tagging,看来以后还得改进一下才行。不过这样一来整个检索思路都要改变,这对技术的要求会更高了。
如果是语篇,段落标记肯定是要的,这个做起来应该没有什么难度。
如果序号是对应的anchor,我想应该是需要的,序号应该能自动生成的,留着吧。不过更重要的应该是标记出被检索出的语料在整个语篇中的位置。


 
回复: 句对齐时一对多或多对一时的切分、对齐问题

谢谢xusun575的详细说明!Trados的winalign自动对齐后的确还需要花较多的时间来人工辅助对齐。个人觉得使用winalign时,导入语料前先把那些较长的段落划分短点有助于减少自动对齐的出错可能,以便提高对齐效率。tradoser曾经粗略试过,好像不太适合自动句对齐的处理(个人意见)。
另外还想请教两个问题,先谢过了!
1)前面xusun575提到过一句话“如果要求只是“只见句子不见篇章”,请问一般双语平行语料库的建设,除应该对对齐的句子进行分界标注外(<seg>,</seg>),是否有必要对相关段落信息进行标定?
2)对齐句子的标注中,是否有必要在句子前面标上相关序号?如下面的序号344...348是否有必要标上?:
<seg>344/m 那/rzv 送/v 大夫/n 的/ude1 家人/n 再三/d 央告/v ,/wd 说/v 请/v 老爷/n 看看/v 脉/ng ,/wd 小/a 的/ude1 好/a 回禀/v 家/n 主/ag 。/wj </seg>
<seg>345/m 那/rzv 大夫/n 用/p 手/n 一/d 摸/v ,/wd 已/d 无/v 脉息/n 。/wj </seg>
<seg>346/m 贾/nr1 环/n 听/v 了/y ,/wd 然后/c 大/d 哭/v 起来/vf
<seg>347/m 只/d 有/vyou 周/nr1 姨娘/n 心里/s 苦楚/n 。/wj </seg>
<seg>348/m 想到/v 做/v 偏房/n 侧室/n 的/ude1 下场/n 头/q ,/wd 不过/c 如此/rzv 。/wj </seg>

标注是否必要要看研究者是否用得着。如果用得着就有必要标注段落信息。当然,段落信息不仅仅是段落分界标记<p>和</p>,通过段落元素属性的值可以储存更多的信息。不过,标注的信息越多,标注的难度也就越大。上面引用的句子标号标注格式好像有问题,标注符号和文本的内容混在一块了。数字标号既然是句子的特性,该放在句子分解标记中,成为句子元素属性的内容。
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

谢谢楼上两位的回复!
我那个例子中的句子标号标注格式是有问题,标注符号和文本的内容混在一块了。当时举例子时没有太注意这个问题,虽然我心里知道这个序号应该与文本内容区别开来。这里也想请问Oscar3一个很菜的问题:你提到的“句子分解标记”具体是怎样的?能否用上面的例子给示范一下?谢谢啦!
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

谢谢楼上两位的回复!
我那个例子中的句子标号标注格式是有问题,标注符号和文本的内容混在一块了。当时举例子时没有太注意这个问题,虽然我心里知道这个序号应该与文本内容区别开来。这里也想请问Oscar3一个很菜的问题:你提到的“句子分解标记”具体是怎样的?能否用上面的例子给示范一下?谢谢啦!

对不起,我写错一个字了,不是“句子分标记”,是“句子分标记”。这里指使用XML标记语言时的句子标记符号<s>和</s>。现汉英对照一例,需要说明的是,以下标注并未完全使用XML标注系统。
<s n="529"> 她_r 高声_d 叫_v 道_q :_w “_w 跟着_v 我_r 做_v 。_w </s>
<s n="530"> 一_m ,_w 二_m ,_w 三_m ,_w 四_m !_w </s>
<s n="531"> 一_m ,_w 二_m ,_w 三_m ,_w 四_m !_w </s>
<s n="532"> 来_v ,_w 同志_n 们_k ,_w 精神_n 点儿_q !_w </s>

<s n="529"> she rapped out.' Take your time by me. </s>
<s n="530"> One, two, three, four! </s>
<s n="531"> One, two, three, four! </s>
<s n="532"> Come on, comrades, put a bit of life into it! </s>
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

OSCAR3果然厉害!顺便问一句,序号可以自动生成的吗?
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

when you break the texts into sentenses, you'd better keep the text information. or you will not know who is who when you do some concordance.
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

我想那个序号应该是自动生成的。请教Oscar3,这个序号的生成方法具体如何操作?另外这些序号应该是对齐句子的前后顺序号吧,与句子在原文中的位置没有关系吧。先谢过啦!
 
回复: 句对齐时一对多或多对一时的切分、对齐问题

不好意思,刚才没看到Oscar3的回复。用Excel来加那些序号,下去再试试看。

Patricx:when you break the texts into sentenses, you'd better keep the text information. or you will not know who is who when you do some concordance.
———————————————————————————————————————————————————
"Keeping the text information" must be necessary and useful, but the techniques and amount of work involved may be a little intimidating ...
Could you please give us a simple example to illustrate how "text information" is kept in an aligned text? Thanks you!
 
Back
顶部