Three Versions of Dao De Jing [Tao Te Ching]

清风出袖

高级会员
Notes on the Translations
The complete text of the Dao De Jing is presented here side-by-side with three different translations. Translation is an inherently difficult task not just because of the difficulty of translationg words without exact equivalents but also because translators tend to overlay their own religious and social contexts on the translated work. It is hoped that by presented these three translations side-by-side the reader could better determine the true meaning of the original text. The sources of the three translations are:

"The Tao Teh King" or "The Tao and Its Characteristics", translated by James Legge, 1891. (Source: Project Gutenberg)
"The Canon of Reason and Virtue", translated by D. T. Suzuki and Paul Carus, 1913. (Source: Internet Sacred Text Archive)
"Laotzu's Tao and Wu Wei" translated by Dwight Goddard and Henri Borel, 1919. (Source: Internet Sacred Text Archive)


http://www.yellowbridge.com/onlinelit/daodejing.html
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

不过要做这些古文献的平行语料库有点麻烦,就是没有现成的可对顾问进行分词的工具啊。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

那就每个字后面加空格就是了。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

不过要做这些古文献的平行语料库有点麻烦,就是没有现成的可对顾问进行分词的工具啊。

分词的确是汉语语料库建设中的一个问题。燕山大学所建《红楼梦》平行语料库也只是增加了空格,没有分词和词性标注。曾经看到过一篇关于对唐诗宋辞进行分词的文献,不多过是技术方面的。很多分词软件允许使用加载词典来进行分词和标注(如CIPP),要是通过待分词的语料的研究,制作出相关语料的分词词典,解决这一问题也许不难。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

分词的确是汉语语料库建设中的一个问题。燕山大学所建《红楼梦》平行语料库也只是增加了空格,没有分词和词性标注。曾经看到过一篇关于对唐诗宋辞进行分词的文献,不多过是技术方面的。很多分词软件允许使用加载词典来进行分词和标注(如CIPP),要是通过待分词的语料的研究,制作出相关语料的分词词典,解决这一问题也许不难。


可是CIPP和CLAW7 一样都是以一定年代的语料进行训练的,所以可能不一定能够兼顾到古文。而且古文中的词性情形更加复杂。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

可是CIPP和CLAW7 一样都是以一定年代的语料进行训练的,所以可能不一定能够兼顾到古文。而且古文中的词性情形更加复杂。

正是考虑到这个变化问题,才有了根据词典来分词和标注思路。词典可以由使用者自己来制作,比如,词的划界,词性等参数都可以由操作者来定。如果操作者对这些问题心中有数,词典应该可以制作出来。有了词典,软件识别就有了标准。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

....燕山大学所建《红楼梦》平行语料库也只是增加了空格,没有分词和词性标注....
是经过分词和词性处理的,本人做的,如果你测试过我在网上给的那个检索界面,就应该看到过分词结果。只是目前供测试的部分没有公布词性标注。
 
Last edited:
回复: Three Versions of Dao De Jing [Tao Te Ching]

正是考虑到这个变化问题,才有了根据词典来分词和标注思路。词典可以由使用者自己来制作,比如,词的划界,词性等参数都可以由操作者来定。如果操作者对这些问题心中有数,词典应该可以制作出来。有了词典,软件识别就有了标准。
没有词典,分词器和词性标注是不可能工作的,但光有词典还远远不够,很多人还在做消歧方面的研究就是一个说明。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

即使所有的词都已经收录在词典的条目里, 如果没有语义、语法、语境规则来支持算法,分词器还是一定会出错的。例如南京市、江、长江、大桥、市长、杭州、长春、春药、店、药店等都在词典里,分词器还是会把这两句话搞成这样的:

南京市长江大桥 ==> 南京/市长/江大桥 (cf 南京市/长江/大桥)
杭州市长春药店 ==> 杭州/市长/春药/店 (cf 杭州市/长春/药店)

20061011754396967.jpg
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

老洪举的例子十分精辟,看来分词是一个十分复杂的系统工程,需要语义、语法、语境规则等等来支持.
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

我记得第一个例子是分词里面最经典的一个例子,第二个更dramatic,倒是第一次见到。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

即使所有的词都已经收录在词典的条目里, 如果没有语义、语法、语境规则来支持算法,分词器还是一定会出错的。例如南京市、江、长江、大桥、市长、杭州、长春、春药、店、药店等都在词典里,分词器还是会把这两句话搞成这样的:

南京市长江大桥 ==> 南京/市长/江大桥 (cf 南京市/长江/大桥)
杭州市长春药店 ==> 杭州/市长/春药/店 (cf 杭州市/长春/药店)

20061011754396967.jpg

老洪同志所言极是!
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

即使所有的词都已经收录在词典的条目里, 如果没有语义、语法、语境规则来支持算法,分词器还是一定会出错的。例如南京市、江、长江、大桥、市长、杭州、长春、春药、店、药店等都在词典里,分词器还是会把这两句话搞成这样的:

南京市长江大桥 ==> 南京/市长/江大桥 (cf 南京市/长江/大桥)
杭州市长春药店 ==> 杭州/市长/春药/店 (cf 杭州市/长春/药店)

20061011754396967.jpg

有道理,看来词典也不是万能的。我见过中南大学出版社出版的一本书,在词和词之间加了空格,这中做法也许考虑到分词的因素,但是,阅读起来又有些不习惯。还有一些地方,恐怕更加难以容忍,比如招牌上要分词多难看:
杭州 市长 春药 店
看上去像是互不相干的内容。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

曾经读过一篇文章(记不清是谁写的了)提倡从娃娃抓起,在学校里就开始分词教学和写作,即写的时候要求在词和词之间留空格。这样,起初会觉得繁琐,经过一代人的努力,汉语就和西方语言一样不会再有分词的问题了。典型的矫枉过正,不过真要得到教育部门的支持似乎没有可能。
 
回复: Three Versions of Dao De Jing [Tao Te Ching]

我记得第一个例子是分词里面最经典的一个例子,第二个更dramatic,倒是第一次见到。

第一个是设计出来的,第二个才是实际分词的幽默,所以我才把图也贴出来。另外,下面这个和杭州市长春药店有异曲同工之妙:

KIDSEXCHANGE

==> Kids Exchange?
==> Kid Sex Change?


11819601970.jpg
 
Back
顶部