(求教)求以标准通用置标语言辅助人工标注的软件

wangdw

初级会员
计划用国际标准通用置标语言SGML标注语料库,但不知有无辅助人工标注SGML的软件?
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

先问几个问题:
1、标注什么样的文本?
2、要标注什么信息?
3、标注后打算用什么工具来检索?
4、有多大的工作量以及多少人力和时间可以投入?
....
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

老洪问得好,其实就是在开始之前,先要明确自己为什么要这么做?这么做有什么用?而我们往往是听别人说要sgml和xml就一股热情地去做了。实际上,自己将来打算怎么用,怎么检索也并不清楚。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

非常感谢楼上两位专家的垂询!谨回复有关问题如下:

一、标注文本。我要标注的是《红楼梦》霍译本、杨译本和中文原文(人民文学出版社1982年出版)。

二、标注信息。计划对以上三种文本进行语言、文学和文化方面的标注,标注后的语料库可以进行霍译本、杨译本有关语言、文学和古代文化等方面的翻译检索,并进行对比研究。在这方面,我非常渴望借鉴深圳大学一九八六年研制成功的《红楼梦》多功能计算机自动检索系统的标注成果,但是经多方与深圳大学电话咨询,十年后的今天已无人能准确说出此检索系统的具体去向。愿只愿这个系统还存在着,只是我没有在正确的时间请教正确的人。

三、检索工具。我很喜欢PARACONC的界面,因而选它为主要的平行翻译检索工具,laohong保佑PARACONC支持SGML检索呵:)语言方面的数理统计不知用什么软件好,请laohong指教。计划用SGML进行标注,只是因为做就做规范之事,只是为了今后有意之人,可以踩着我铺就的路继续往前走,而不必像我这样遍寻深圳大学《红楼梦》检索系统而不得,就是得到了,天知道我是不是看得懂它的标注。

四、工作量及时间投入。现在最大的工作量在于文本录入和标注,如果能找到深圳大学《红楼梦》检索系统的标注语料就好了,我们就可以埋头工作,而不必瞻前顾后了,我盼望能出现奇迹。我有一班学生可以帮我,他们都极聪慧,请 laohong不要说我使用“廉价劳动力”呵:)如果我是学生,我也愿意在这方面帮助我的老师,非常乐意!现在的问题是他们的老师正摸不着北呢。投入时间看情况,这个工作为兴趣所致,完全没有赶时间结题的烦恼,我们会尽全力、尽情享受探索之乐。
 
Last edited by a moderator:
回复: (求教)求以标准通用置标语言辅助人工标注的软件

如果要标注《红楼梦》,那就建议你再考虑一下,因为2005国家社科基金支持的燕山大学的红楼梦中英对应项目的语料标注工作已经接近尾声了。该项目的酝酿是在5、6年前了,在2005年获得国家基金之前电子版的语料也基本收集齐整,而且已经有了一些前期研究成果。在过去的两年里,主要做到了原文与通行的三大译本(霍译、杨译、乔译)的文本在段落和句子层面的对齐(邦译的文本正在处理)。每个汉语句子和英文句子也加注了句子类型、语言特色、修辞、翻译技巧等内容。语料的检索既可以使用Paraconc等第三方软件,也可以使用用户自己定制的工具。为方便更多用户在线使用,目前正在完成基于网页的检索。语料的准备、标注、规范、转换、检索等方面的工具和设计大部分都是由我本人完成的,实际语料标注是由燕山大学外语学院的部分教师和研究生花费近两年的时间完成的。只是由于种种原因,语料目前还不能对外开放。

这样的一个项目不是想一想就可以动手的,得有很多准备和筹划工作。即使标注本身也有很多问题需要解决,比如说,杨译、霍译本来用的原文就和人民文学出版社1982的版本不一样,你怎么去对比和评述翻译的特色呢?有些章节、段落、句子,译者都是根据自己对“剧情”、“版本”、“场合”的理解而做了改动的,要如何对比各个译本?

另外,标注设计与规范、工具的开发和使用、人员培训、项目管理等等问题都要考虑到。就人力来说,学生的参与对他们来说是非常难得的锻炼,但是也不能期望他们每个人都真的愿意投入到枯燥的标注工作中。心态是一个方面,知识是另一个方面,经验和技术的运用也很重要,因此训练是必须的。我曾经两个暑假从新加坡飞到秦皇岛培训项目参与人员,燕山大学也先后邀请了顾曰国、冯志伟、Wolfgang Teubert等教授前去开语料库方面的讲座。凡此种种都使参与的师生获益匪浅,项目的进行才能顺利。

之所以还问你个人的时间是因为项目负责人一定要亲力亲为,光顾不问或光问不顾都是不可能有好的语料的。既然你有时间、人力和财力,建议考虑其它文本。如果需要,本人可以在技术上、经验上提供一些支持。相信坛中很多人也愿意献计献策。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

诚哉斯言
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

诚哉斯言

laohong是热心人,对热心人的回报,不是简单两个字“谢谢”可以了得的。

见过高人,还没见过laohong这么合我心意的高人:)。但恕我直言,《红楼梦》涉及中国文化范围极广(如饮食、家居、诗辞、服饰、宗教、官制、戏剧、书画、园林、中医、礼仪以及香文化等等),而翻译又与文化密不可分,如此大型语料库如不做相应标注,深以为憾。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

另外,标注设计与规范、工具的开发和使用、人员培训、项目管理等等问题都要考虑到。就人力来说,学生的参与对他们来说是非常难得的锻炼,但是也不能期望他们每个人都真的愿意投入到枯燥的标注工作中。心态是一个方面,知识是另一个方面,经验和技术的运用也很重要,因此训练是必须的。我曾经两个暑假从新加坡飞到秦皇岛培训项目参与人员,燕山大学也先后邀请了顾曰国、冯志伟、Wolfgang Teubert等教授前去开语料库方面的讲座。凡此种种都使参与的师生获益匪浅,项目的进行才能顺利。

之所以还问你个人的时间是因为项目负责人一定要亲力亲为,光顾不问或光问不顾都是不可能有好的语料的。既然你有时间、人力和财力,建议考虑其它文本。如果需要,本人可以在技术上、经验上提供一些支持。相信坛中很多人也愿意献计献策。

总是幸运的,在我需要时间另找感觉时我病了,时间就大把大把地来了。

我读英文原著中译本,总觉得语言不如中文原创流畅,有时竟至不忍猝读,译文终不如中文原创那样该简时惜墨如金,该繁时浓墨重彩,字正腔圆、文通句顺;将心比心,英美人士读我们中文原著英译本,难免也会有这种生涩感。那么在进行英译创作中,该如何译写原著人物心理、刻划原著人物行为,做到既忠实于原著,又不致时时酸麻外国读者的神经,从而使中国文学流传久远呢,为什么不听听英美著名作家的意见呢。

手头刚好有一光盘,内含英文世界名著1000部,其中英语文学经典文本692部。如果能对这些文本进行“描写类型”标注有多好!比方在翻译人物悲伤情绪时,可检索692部名著中所有“悲伤”情绪标注,显示其内容,统计其用词、搭配、语法结构、语句的内在逻辑等等等等,用以指导我们的译文创作,岂不有趣?研究成果将会是一串串的,葡萄般滴。

有了这个愿望,我们更加要祈祷健康长寿,629部名著的标注呀:)……laohong,我先做《简爱》好吗,我特喜欢简。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

你的想法很好,只是692部太多了,很多人这一辈子也没读过那么多书。不必贪大贪全,有代表性就行。可以先从《简爱》入手,练练手艺,等时机成熟再扩大也不迟。

另:

关于红楼梦的标注,你提到的文化方面的特征(如饮食、家居、诗辞、服饰、宗教、官制、戏剧、书画、园林、中医、礼仪以及香文化等等),问题不是有没有想到,而是如何妥善处理。试想想,如果没有句子层次的对应标注,如何才能迅速找到几个不同译者怎么处理“红尘”这个词的翻译的?如果连这也做不到,何谈深层次的研究?在做好了句子层面的对应后,在中英文本中标注和检索你提到的特征是不是更容易了?所以,目前的句子对应标注实际上是在为以后的深层次的标注和检索打基础,也希望对不同角度的再研究提供一个新的平台。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

试想想,如果没有句子层次的对应标注,如何才能迅速找到几个不同译者怎么处理“红尘”这个词的翻译的?如果连这也做不到,何谈深层次的研究?在做好了句子层面的对应后,在中英文本中标注和检索你提到的特征是不是更容易了?所以,目前的句子对应标注实际上是在为以后的深层次的标注和检索打基础,也希望对不同角度的再研究提供一个新的平台。

laohong所言极是!!

有没有考虑过出“光盘版”红楼梦英汉语料库?想买。

网络版也许会有诸多限制,比如限制检索方IP地址、限制检索文本范围、限制显示检索结果…..
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

不必贪大贪全,有代表性就行。可以先从《简爱》入手,练练手艺,等时机成熟再扩大也不迟。

谢谢laohong!计划大体分下列几个步骤完成此次建库:
1.清除文本噪声。
2.中英文本句子层面对齐(如有余力,再标注词类、句法)。
3.拟定《描写分类标注方案》。
4.标注中英文本。
5.试验检索。

laohong说得对,凡事亲力亲为才能真正发现问题。现在尚未开工问题已如泉涌,难受。待我把一个个问题梳理清楚了,再拿来请教laohong,可好?如有幼稚露拙之处,请多海涵。

众C友如有兴趣,可找来喜欢的文本,在laohong及其他专家的指导下,排除困难、分享经验,一步步通关达标,也是乐事!
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

Laohong您好!《简爱》中英文本已找到。中文本很齐整、规范;英文文本一行一个硬回车,后用“文本整理器”(从我们这个论坛下载的:))一键搞定,那叫一个爽!

文本消除噪声工作已完成:)
请教Laohong:用何软件做句子层面对齐,谢谢!
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

首先应该把原文和译文的每个章节存成一个一个独立的文件,比如,Jane_C001.txt, Jane_E001.txt.....。这样方便后面的处理。

要做到句子对应,先得做好段落对应,因为译者并不是简单地把一段就翻译成一段,有时候,一变多,有时候多合一。因此,建议先把段落标注出来。具体做法如下:

1、段落划分:
先得决定以中文还是英文为基准来分段。既然你的文本是先有英文原文后有汉语翻译,就应该以英文原著为基准分段。

2、先给中文加段标:
这里以在EditPlus里处理为例说明。建议每行一个段(用硬回车分段),完成后,在Search菜单里选Replace, 然后在Find What 里填入“^(.)”(不要引号,且全部英文拼写,下同),在Replace with里填入“<P>\t\1”,在Regular Expression前打勾,最好敲 Replace All就得到每段都有段落开始标记<P>的新文本。

3、再给译文划分段落:
根据原文的段落来决定译文的段落。需要阅读原文段落的起始和结束句子,然后在译文中找到对应的句子,用硬回车分段。同样,一行一段。完成后,用第二步的方法给译文加上段落标记。

等你做好了上述工作,咱们下回再讲如何做句子对应。其实,做到了段落对应,就基本上可以用Paraconc来检索了,只是如果段落太长,找对应的检索项还是麻烦。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

恭喜老洪开门收徒!学费建议交新币。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

迫切想知道如何进行句子对齐,请Dr.Hong赐教!
谢谢!
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

迫切想知道如何进行句子对齐,请Dr.Hong赐教!谢谢!

肖教授不是说要收学费吗?子曰:“自行束脩以上,吾未尝无诲焉。”

这句话很多人理解成了:“只要学生自行送给我十条干肉,我就没有不教他的。”是因为把夫子的话断句成了:“自行\束脩\以上”(“自己带着\薄礼或学费\来见我。”),必然导致上述理解。

当然,也可以断句成:“自\行束脩\以上”。古代男子十五入学,所备之礼即为“束脩”,行此礼之人的年龄用“行束脩”称之。(《后汉书·延笃传》中,汉人注“束脩”为“年十五已上”)如此,孔圣语意则为“从十五岁以上的人,我是没有不教的。”可见,孔圣有教无显,无论贵贱。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

再加一条:

  说到孔子那是世界上第一个开补学班的人了,不仅有教无类,连补习费的多寡,可享受到的福利也都规定的一清二楚了:

  $30 三十而立——只交了三十两银子的人只能站着听课

  $40 四十不惑——交了四十两银子的人可以发问,直到你没有疑问为止

  $50 五十知天命——交了五十两银子,那你就可以知道明天考试的命题了

  $60 六十耳顺——能出得起六十两这个价格的人,老师可以讲些你喜欢的话给你听,让你耳顺

  $70 七十从心所欲——只要你交了七十两银子,你上课想躺着坐着或来与不来,都随你高兴
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

恭喜老洪开门收徒!学费建议交新币。

欢迎肖教授来小楼视查,请坐!请上坐!:)

“闻君一席言,胜读十年书”,我会珍惜机会!只是辛苦了我们亲爱的laohong教授……

对了,我手头只有人民币,请肖教授帮忙兑换新币。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

  $30 三十而立——只交了三十两银子的人只能站着听课

  $40 四十不惑——交了四十两银子的人可以发问,直到你没有疑问为止

  $50 五十知天命——交了五十两银子,那你就可以知道明天考试的命题了

  $60 六十耳顺——能出得起六十两这个价格的人,老师可以讲些你喜欢的话给你听,让你耳顺

  $70 七十从心所欲——只要你交了七十两银子,你上课想躺着坐着或来与不来,都随你高兴

:):)笑翻了!!!
 
Back
顶部