(求教)求以标准通用置标语言辅助人工标注的软件

回复: (求教)求以标准通用置标语言辅助人工标注的软件

laohong您好!《简爱》中英文本已按38章做成了76个独立的中英TXT文件,分别命名为
Jane_C01.txt,
Jane_E01.txt,
……
Jane_C38.txt,
Jane_E38.txt..

《简》的中译本段落与原文原本就是对齐的,真让人省心:)。EditPlus里显示段落顺序号,中英文段落顺序号应是对应的,如果不对应,一定是某一文本空行或多或少的问题,很容易纠正;如果再不放心可以抽样核对中英段落是否对齐,那就万无一失了。

laohong的指示简明扼要,真好!

请教laohong:我们只做了段首标记<p>,需要做段尾标记<\p>吗,如何用EditPlus替换?谢谢laohong!
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

老洪开班既带着教具有带着玩具,有得学有得玩。学费也就10条干肉或40两银子 -- 不建议交40两以上,那是弯门邪道。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

By the way, for sentence alignement, you might wish to try Trados WinAlign. It appears working well with modern Chinese (see the screen shot in the attachment). In my test, the 1-to-2 and 2-to-1 alignments are all correct. I have used the default settings in this test, you can also define sentence boundraries if you like (e.g. do you consider semi-colons, exclamation marks etc as sentence markers?)
 

附件

  • WinAlign.JPG
    WinAlign.JPG
    162.8 KB · 浏览: 35
回复: (求教)求以标准通用置标语言辅助人工标注的软件

......我们只做了段首标记<p>,需要做段尾标记<\p>吗,如何用EditPlus替换?谢谢laohong!

有很多简单的办法做这样的替换,比如说用Excel打开你的文本,在第一栏中每个单元格里都是<P>,第二栏是文字,第三栏是</P>,完成后存成文本文件就成了。不过这样来处理78个文件,得一个一个来,太麻烦了。这里还是用EditPlus的正则表达式(Regular Expression)来做,一次性搞完(建议先把你的文件备份,以防在进行下面的处理时出错):

1、一次打开78个文件:
到你存放那78个文件的文件夹去,敲菜单里的编辑(Edit)健,选“全选(Select All)”(这也可以用热键组合ctrl+A得到),然后鼠标右键点其中的一个文件,再选择EditPlus,这样就把所有文件一次打开了。

2、全部替换:
敲Search, 选择Replace, 在Find What里填入“<P>”,在Replace With里填入“</P>\n<P>”,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;

3、整理结果:
敲Search, 选择Replace, 在Find What里填入“\n</P>”,在Replace With里填入“\t</P>”,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;--这样把</P>标记都移到<P>同一行去了

敲Search, 选择Replace, 在Find What里填入“^</P>\n”,在Replace With里清空,啥都不填入,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;--这样就去掉了每个文本第一行的那个</P>标记

敲Search, 选择Replace, 在Find What里填入“([^>])\n”,在Replace With里填入“\1\t</P>\n”,把Regular Expression前打勾,并点选All open files,然后敲Replace All 得到结果;--这样给每个文本最后一行加上了个</P>标记

最后敲File, 选择Save All,就得到了78个有开始和结尾段落标记的文本。基本上就可以用ParaConc来检索了。

肉干准备好了吗?明天记得叫家长拿来,最后一次警告,不然仿效西安邮电学院:欠学费者不准参加考试!
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

laohong早上好!每早一上网就能看到您的答复真好,您很认真,谢谢!

刚好现在就有两包麻辣牛肉干,来,您一包我一包,先吃着再说,爱吃辣不…

还有,laohong,太阳怎么这么早就去亲近您?
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

By the way, for sentence alignement, you might wish to try Trados WinAlign. It appears working well with modern Chinese (see the screen shot in the attachment).

谢谢您为我打开了一扇门,我会查寻Trados WinAlign软件及用法。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

前两天过于急于求成,现在发现第一阶段消除噪声工作有疏漏,已做段首标记的TXT文件里竟有英语单词拼写错误,打算再对单词拼写全面检查一遍,不然真担心会把库建成漏斗、把楼盖成比萨斜塔。但TXT文件不显示拼写错误,想把TXT文件内容一个个剪贴至WORD文档,根据WORD文档的拼写错误标识改好后,再剪贴回TXT文件。行吗,laohong?Jane忘了“欲速则不达”,Jane的天空要下雨…
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

如果中英文本段落差异较大的话,如《红楼梦》中英文本,要做到段落对齐,通常情况会在中英TXT文件之间来回切换,费时费力、效率低。

真需要一个简单工具:至少可以同时显示两种文本,并允许手工编辑(可惜不懂编程,书到用时方恨少)。请laohong指教。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

最好不要用Micorsoft Word。EditPlus 里本来就有Spell Check的,打开文件后,敲Tools, Preferences ,Tools ,Spell checker,把US 和UK English 都勾选。如果不让选,说明你还没有装字典,到EditPlus的网站去下载安装。

关于同时打开两个文本对照处理的问题,其实很简单,用EditPlus同时打开两个文件,如Jane_C001.txt和Jane_E001.txt,然后敲菜单里的Window,Arrange,Tile Horizontally,就行了。如果嫌这样麻烦,也可以使用MLEditor (Multi-Language Editor) ,下载和用法说明可从如下地址获得:
http://www.speedy7.com/mleditor/english/index.html
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

《红楼梦》有些译本可以出版,有些受版权保护,恐不能出版。
 
[求教]如何构建双语平行语料库

EditPlus 里本来就有Spell Check的...
关于同时打开两个文本对照处理的问题...用EditPlus...也可以使用MLEditor

谨遵师命!EditPlus显示段落顺序号,就这一点来说优于MLEditor,故仍用EditPlus审核段落对齐,并进行文字校对。MLEditor软件也已下载并保存。谢吾师!

至此,已除净千里大堤所有蚁穴。洒扫房屋、备好香茗,只等吾师明日开讲“如何做好双语平行语料库句子层面对齐”。:)
 
[求教]如何构建双语平行语料库

《红楼梦》有些译本可以出版,有些受版权保护,恐不能出版。

《红楼梦》九种译本,若论代表性及可比性,有杨译、霍译足矣!关于语料库语料收集,吾师有言:“不必贪大贪全,有代表性就行。”吾师又将之与婚姻有一比。

吾师更说过:“顶是一种美德”!:)
 
[求教]如何构建双语平行语料库

吾师在上:我们把小楼初始题目改为“[求教]如何构建双语平行语料库”(不要引号),可好?改不了也没关系,大不了您少收点肉干,弟子我少蹭您点肉干吃。干肉无异于肉干,是不?如有异,强烈建议吾师改收肉干做学费,肉干更美味!譬如牛肉干,那个香呵…:)
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

赞一个,笑一个。
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

前面说过了,好几个版本都有版权问题。所以应该不能出版光盘。
 
[求教] 如何构建双语平行语料库

工作尴尬定律:能干的不如光看的,光看的不如能说的,能说的不如捣蛋的。对此不服不行!

说些题外话。太憋闷了,打开窗户透透气儿!
 
[求教] 如何构建双语平行语料库

thanks a lot, laohong.

一起感谢恩师laohong!:)

先依照laohong所教标段首段尾的方法,仍用EditPlus断句、做句首句尾标注。

还有,别忘了用肖教授介绍的Trados WinAlign核查句子是否对齐。:)
 
回复: (求教)求以标准通用置标语言辅助人工标注的软件

最近网站不好登录,手头也赶几个东西,得罪了。可以先研究一下Xiao推荐的WinAlign。
 
Last edited:
Back
顶部