易 汉 语 简 介
―――一种面向机器处理的受限汉语设计方案( 将汉语汉字改革、人类共同语、人机共用语一揽子解决的方案)
一、什么是易汉语?它的设计要达到什么目的?
易汉语主要是一种人工的人际中介语,目的是为了创造一种人能够方便实用的,又很有规则的逻辑性、从而方便计算机处理的语言。他立志成为人工智能的语言基础。没有语言将没有人工智能,只有机器能理解的语言却没有人能理解的语言,这种人工智能也不能真正有效的为人类服务。目前国内外计算机语言学界所能做的工作,主要就是让机器适应自然语言,虽然在各个领域已经取得了很大的成就,但是要想让机器像人一样灵活的理解和使用自然语言,那几乎是不可能的。所以作者就换了一种思维方式,对机器做一定的让步,让人和机器互相适应,即按机器所能理解和使用的目标,创制了一种人也能方便的学习和掌握的语言。同时这种语言又能完全具备或替代自然语言的功用。
有多少种自然语言,就需要研制多少种自然语言的计算机处理方式。这无疑增加了人类的劳动负担。而易汉语立志成为比一切自然语言都更方便机器处理的语言,而且其方便性,不仅有量的进步,而且有质的飞跃;那么所有的将要和电脑打交道的人,都将为了实用的目的而学这种语言。在未来的社会里,人只要生存和发展,都必须使用电脑,所以从这个意义上说,易汉语将成为一种为存在语言障碍的人的沟通而其中解和辅助作用的语言,并最终发展成为世界共同语。历史上产生了很多立志成为世界共同语的人工语言,结果都失败了,原因在于人们学他没有现实的使用价值。吉他的使用者不是一个强大的群体,不拥有别人需要与之交流的经济、文化、政治内涵。而易汉语则绕开了这个障碍,他搭载上了电脑这一强大的资讯工具,所以使使用各种语言的人不得不为了使用同一工具而使用同一语言。电脑文化因为拥有了自己的语言而成为真正的文化,电脑这一技术对社会的革命因为其所引起的语言革命而成为真正的革命。易汉语将随着电脑的普及和发展,把人类引向一个新的时代。人类语言障碍的清除对人类政治、经济、文化、科技的交流和发展的推动作用,将超过人和技术革命的作用。
人工世界共同语的生命里决定于他是否与一种优势的自然语言构成一种简便的、清晰的、映射关系。如果有了这种映射关系,则这种人工语言又可成为该种语言的发展方向。选择何种自然语言作为人工语言的基础,要看十代人以后这种自然语言在人类语言中所处的地位,国力的生率数百年为一个周期。在未来的一二百年内,使用英语的国家和民族的政治和、经济、科技、文化力量的总和将占世界第一位是无疑的。而三四百年后却不一定了。而在此期间,世界一体化的进程将促使越来越多的人说英语,但一体化的速度将很难使人来在一二百年内说英语的人数占超过半数,占第一位。中华民族目前虽然是发展中国家,但人口是世界的五分之一,从一定的意义上说:人类就是中华民族的人类。人口第一位已经保持了几千年,而是还将保持几千年。所以说汉语的人数将始终是世界第一位。中国在廿一世纪普及高等教育是没有问题的。彼时国民素质将与欧美国家不再有大的差异,从而为中国国力跻身于世界强国打下了基础;汉语的经济文化含量也将因之成为与英语不相上下的强势语言。所以易汉语选择了汉语作为映射语言。汉语素简练、生成力强,具有独立意义,每个语素含的信息量大,以之作映射语言最科学。但是汉语却是公认的难学难认难读难写。易汉语不仅做了语言改革,而且作了文字改革,可以成为汉语汉字的改革发展方向。易汉语和汉语最接近;既节省了汉语使用者学习未来的世界共同语的精力和财力,又促进其他语种的人们通过易汉语的学习而加强与中华的交流,进而促进中华民族的改革开放,从这个意义上说,汉语的改革与易汉语的运用也是一条语言兴国之路。
圣经上说:人在开始的时候使用的是同一种语言,他们在古巴别城要建一座通往天堂的塔,叫通天塔。上帝看到后说:人类在使用同一种语言,团结起来的力量是很可怕的。于是便变换了人类的语言,建塔的人们因为语言不通而纷争四起,于是建塔的工作便半途而废。“易汉语”的命名来源于这个传说。人类语言统一,团结合作才是通往天堂,而且含有“通行天下”意思,也有表示宇宙语与外星人相沟通的意思。
二、易汉语的特色有哪些?
易汉语最根本的特征是语音和字形成一对一的映射关系,音型有和字形成严格的映射关系,使人和机器能见其一即能知其二,廿六个字母分别代替24个辅音和28个元音,从这些辅音和元音中选择了497个区别特征明显、最易拼合的音节,加上三个特殊音节,共500个音节。这些音节均有特定的语素意义,能组合各种自然语言和所有的词汇,完成人类语言交际的所有人物。文字上选择了最简练、区别最明显的26个笔画代表字母,减少了人辨认的难度,提高了人书写的速度。
在语调上,易汉语从汉语的四个声调和一个轻音中选择了区别明显的音平、阳平、去声三个音调。没有英语的轻重音和长短音变化,语调变化表示句法意义而不表示词汇意义。以避免词义混淆,易汉语吸取英语词性变幻的曲折优点,用声调和变幻分别代表名词、代词的主格、宾格、所有格和动词的过去、现在、未来时态,及形容词、副词的原级、比较级、最高级,数词的基数、序数。
以上提的特点,形成了易汉语使用上的三大特点:一是经济性,最经济的利用了音、形,以谈易学易用。二是易学性。从理论和知识上说,懂汉语的人半个月就能掌握它,其他语种的人一个月也能掌握它,如果有使用的需要和充足的语境,半年内能像母语那样熟练灵活的用于听说读写。三是可形式分析性。易汉语以有限的、规则的、递归的、形式容纳了无限的、多彩的、动态的语义,便与计算机通过辅助的形式分析而进行语义的分析。人何能以微不足道的代价,学到一种受益无穷的语言,这是易汉语的生命力和易于普及的关键。
三、易汉语的音标和字符。
易汉语有两个既是元音、又能兼辅音的音素,和两个特殊元音有几对基本上清浊对称的辅音,有两个基本单元音,他们经过变动而成四对单元音,这5对元音又分别和两个辅元音拼成8对双元音。清浊音和大口元音又称阳音;与之对称的浊辅音和小口元音又称阴音,共13对,包括了24个辅音和28个元音。
音标和字符是统一的,也分13对,长笔、正笔代表阳音,短笔、反笔代表与之对称的阴音。孤立的看,一个字符分别代表了辅音和元音两个因素,但是在实际使用和书写中,易汉语每个音节的拼合只有“一个辅音+一个元音”和一个“元音”两种方式,所以可以通过前后顺序判断该字符的功能。有对例外的字符“―”、“-”不能同时代表辅音,却能同时代表两对元音,当他代表辅元音这对特殊的元音时,规定它与辅音的拼合在书写上逆序写,即顺序写“辅元音+辅音” 。
易汉语的字符和国际音标对照
易汉语阳符
简写辅音
国际音标
简写元音
国际音标
易汉语阴符
简写辅音
国际音标
简写元音
国际音标
特殊音
四、易汉语的语素和构词法
(一)词素
在自然界,无限种类的物质是由有限种类的元素按有限的规则组合而成的。在语音上,成百上千个音节是由几十个因素拼合而成的。因为事物的无限丰富性和人类历史的无限长久性。词汇在共时上有大量性,在历史上具有无限性。这给人的学习和电脑的处理带来了很大的难度。人工语言的关键是确定少量的词素和简明给规则的构词法。而且这种词素应该和音节成映射关系。词素的立场应该和一种自然语言的义场成映射关系,否则既难定义,又难学习。词素的定义是电脑进行语义分析的关键,这也是自然语言的语义的困难所在。词素要具有独立性,衍生性,有限性。自然语言在开始的时候,在人类需要表述的对象少的时候,是以单词的形式发展词汇的。例如汉藏语系是单音节单字词,印欧语系是多音节单字词,随着表述对象的无限增多,在语言的简省规律支配下,一些简单的常用词开始具备了语素性,但是还没有一种语言已经形成完备的语素系统,由于产词机制的单音节限制,表意文字对语素的需要和依赖性要比表音文字强,所以汉语的字要比印欧语的词根、词头、词缀、可构成合成词的词具有更强的语素性,这也是我国汉语的词义分析比西方先进的客观便利条件。这也是易汉语选择汉语为映射关系的主要原因。
根据统计学的分析,在日常思想和生活所有词汇中,掌握95%就能基本满足需要,剩余的
字 位
字位是区别字所指称概念的最小的字的特征,它的提出主要是为了人工语言中的字的归并,以使用频率最高的字为其字位名。例如:房、屋、楼、厦,这四个字尽管义项有区别,但所指都是供居住的建筑物,就称之为处于同一字位,并以最常用的“房”字指称它。四个概念归并为一个音形符号后,在使用时如需区别,可加区别词。如“房”称“平房”,“楼”称“叠楼”。
字位在易汉语中的创新是为了减少汉字的词性,增加汉语的语素性,词是易变的,而词素是不变的,所以从一种适宜的自然语言中分解出词素,是易汉语的基础的关键。
词 素 义 总 场 及 分 类
词义的总场是无限的,而语素的总场则是有限的,通过词素以把握词义,是通过有限把握无限的方法,这种义场的确定及其分类,既是一个语言学问题,又是一个哲学问题。
所有的一切为总场,称为“存在”,本体又可分为物质及其运动两部分,时空是本体的存在方式,思维及语言是述体,对物质的描述为物词性,对动作的描述是动词性,物分为死物、活物和事物,前两者是自然物,后者是社会物。
义 构 语 法
无论汉语还是印欧语,都要研究语言的语义,在这个意义上,都有自己的语义语法,在语句的构造规律上,印欧语偏重形构句法,汉语偏重义构语法,义构语法并不是词义语法,抛弃结构和形式,语义是无法机器理解的,它把语义和结构结合起来研究了。
义构句法的特点有两个:一:与思维程序相对应。汉语的句法实际上就是词序的排列法则,需要义变的情况下,通过语境实现直接的义变,需要义变的情况下,通过语境实现直接的义变,而印欧语对语境的依赖少,可直接通过形变而实现义变,这既是东方人偏向于整体直观思维,西方人偏向具体逻辑分析思维的结果,又是这种思维方式差异的原因,任何语言的语序都趋向于与思维程序相对应,但汉语都对应的更紧密。例如写信的地址时,汉语险些较大的地址,最后写较小的地址,英语则与此相反。语法是自由排队的结果。二、前启后线性排列;汉语词序通过前词对后词的意义的启发和链接而实现有序化。前词对后词具有暗示性、可推导性。
与上述特点相对应,产生了义构句法的下列理论和范畴。
一、刺激反应理论。A物刺激B物,B物对A物作出反应,A和B为名词,刺激、反应为动词,反应是对刺激的反刺激。例:
我 爱 你, 你 也 爱 我。
刺激物 刺激 反应物 反刺激物 动述语 反应 反应物
我 爱 你, 你 爱 我 吗?
反刺激物 刺激 原刺激物 动述语
世界是物质的,物质是运动的,运动是物质、能量、信息的输入输出的过程,输入和输出是相互的过程。
二、环境个体理论。环境决定个体,是个体变化的动固和依据。个体必须适应环境。个体构成环境并反作用于环境。词、句的意义是在这个那个篇章语境中确定的。脱离语境的词句是模糊的,只代表一种“位”,可称作“词位”或“句位”。任何孤立的词、句只是一种抽象的词句,脱离了环境的个体是不存在的,只是便于研究和表述的抽象的个性。环境决定论在语义学中作用犹大,当我们研究音、义、字、词、句等处于语言系统中的子系统或系统的局部时,就不得不引进“位”这一系统性、有机性范畴,于是便出现了音位、义位、字位、词位、句位等的概念。
三、机体论。认为语言是个有机的整体,具有系统性、层次性、有序性。
四、质与量:处于同一字位的不同字的变化,属于同一质的范畴,但是不同的量。量分重力量和引力量,重力量是该字在接近实际用语的统计资料中的总频率,引力量是该字前后构词的能力。例第700号“杂”字的重力量是0.02417,引力量是48,引力是除了该字构词条数这一质的规定外,还有所构词使用的频率(即词的重力量)这一量的规定。
语 言 文 字 过 渡 中 的 双 轨 制 衔 接
作为人工人际共同语,其生命力决定于是否能与其对应的自然语言轻便的实行双轨衔接,易汉语较好的解决了这一问题,它采用了新的拼音符号,避免了旧拼音的干扰,对于改变了音形的意项,习惯了汉字的人可以把它看作汉字的简化,仍读他的汉语音,这样与只会易汉语的的人虽不能进行语言的交流,但仍可进行文字交流,使他逐渐的熟练易汉语。汉字的使用者习惯了形记而不依赖于拼音的习惯,是适应了进行这种文字改革的基础之一,对于700字以外需分解组合的字,使用汉字者可不分解之后仍用汉字标记,这种情况只占15%;而在改革之初,大部分易汉语使用者都是同时认识汉字的,所以保这个尾巴并不影响易汉语使用者的阅读。
从简化汉字这一方面说,易汉语是一种成批地称系统地成类的按词性类和字义类的分别简化,较与传统的按字形的行政简化或自然简化更深入彻底,更方便合理,更易学易记,按字形的简化是有限度的,只能有量的简化,不能有质的简化,当简化到难以推测出原字性的时候,简化就不被人接受了,简化也就失败了。区别词素意义的符号就要简便,又要不易混淆,满足这一平衡值只能需要千把字符,而汉语按传统方法是设法简化到这一高效值的,因为他的字符冗余度有数百万,造成这一高冗余度的原因,是汉字曾经走过单字词的方向。
句 义 组 合
如果说词是语言的基本建构单位的话,句就是言语的基本建构单位,话是要一句一句地说的,句义是怎样组合的,或曰词是这样在句中实现的表达自己功能的,这是语法的根本问题。句义的组合有两种方式,一是词义组合,简称义合;二是词形和语序组合,简称形合,任何语言都兼有两种组合方式,又有主次之分,汉语以义合为主,印欧语以形合为突出特点。
印欧语系以词为分析句的基本单位。汉语则可实行双轨制――既以词轨分析,又以字轨分析,二者互相验证,以交合的办法实现排他的功能,从而避免歧义。不可以徐通锵的理论恢复字的单轨,那不是进步而是退步,双轨制才是中西结合的产物。
语 言 与 国 力
随着近二百年的国际经济及文化交流的增大,语言也从多元的孤立状态走向了多元的互学状态。英语、汉语、德语、日语、法语、俄语……这些经济文化处于强势的语言,由于经济实力的竞争与消长,很难在数百年内走向一元化,尽管目前已经有一元化趋势――英语,因而人类语言的沟通在未来仍会长期存在下去,且沟通越多,这种浪费就越大。
是否愿意学习某语言,首先决定于该语言的经济文化含量,其次决定于该语言门坎的高低。而有很多外族人学习该语言,又反过来对于该语言的民族的经济文化的发展起很大作用,一种具有吸附力的语言的拥有国家,又能为该国省下已大的学习外语的人力物力。因而汉语汉字的改革也是一条强国之路。
人 造 语 言
尽管人类那么聪明,造出了很多巧夺天工的东西,但人类至今还没有造出一种有生命力的语言,人造语将会像人造人一样,一旦成功,将开辟人类的新纪元,并给人类的生产生活以革命性的变革。
以往人工语言的失败,源于其只是为了满足人际沟通,新人造语的翅膀则是人机交流的需要,从而使对这种语言的学习能够满足人的急功近利的要求。这是决定人造语言的生命力的关键。
人造语言于一种强势的自然语言的兼容性、可转换性,决定了人造语言是否能很快的拥有自然语言那样的经济文化含量。也是决定人造语言生命力的关键。
语言不仅具有自然性、科学性、而且具有文化性,从一定意义上说,多元的文化产生了多元的语言,多元的语言又反过来强化了多元的文化的个性和特色。世界文化的交流所衍生的一体化文化,表现为计算机或网络文化,则是新人类语言的文化基础。
语 言 工 作 者 的 时 代 任 务
“寻章摘句老雕虫,文章何处哭秋风。”语言工作者不应沉没于故纸堆中,而应以语言为武器,做世界文化交流和济民兴国的马前卒。具体到当代,就是这样拆除语言壁垒,具体到中国,就是怎样改革汉字,或怎样创造一种和汉语兼容的易于计算机处理的语言。
汉 语 与 易 汉 语 的 兼 容 性
汉语和英语的语法,看不出谁更适合思维法则,而是由于思法研究的空白,也不知道知道哪种人工语言更适合思法式计算及处理方法,所以易汉语的语法及构词法,暂且挪用了汉语的法则。汉语和易汉语的不同,只是发音与书写变了,词的义位与义项亦没有变,而且这种变化亦称一对一的映射关系,所以易汉语可以看成汉语的改进产品或转写产品。
汉字本来就不是拼音文字,所以易汉语字形的改革对中国人来说其学习难度不大于字形的简化。因而成年人仍可发汉语的原因;而对于未成年人可兼拼读成易汉语的语音,对于非汉语字母的外国人,按易汉语读,虽音不同,但字同,所以也达到了很快能书面交流的目的。而在口语交流发生困难的情况下,可轻易的改写成书面语言交流,且书面交流本来就是一种重要性不亚于口语交流的方式,所以这项改革轻易地完成了实现交流的目的。
语 素――人 工 语 言 的 关 键 问 题
语言以语素为砖瓦构筑了语言大厦。宇宙物质的形态及运动状态是无限的,这就像而且决定了语言中的无限的词汇及其见无限的组合方式及由此而成的无限的语句,但是宇宙却是极有限的已经发现的几十种元素和未曾发现的估计数量也不多的元素化合而成的,这就像词汇必须也只能由有限的语素组合而成。无限的词汇和人有限的学习和记忆之间的矛盾就决定了词汇必须有语素生成,而且语素越少越好。
在语言之初,当词汇量很少的时候,就不存在语素。当人们要表达更丰富的易斯的时候,一些基本的常用词就会兼容语素的意义。拼音文字的语素是作词根、前缀、后缀的音节,汉子由单音节词已发展到多音节词,在它以单音节词为主的时候,他的语素是由一部分偏旁部首充任的,有这个字的两部分或多部份意合而成,其中每个成分多数有一定的意义,甚至就是但字词:例如“洞”、“眼”里留“水”,有闷“心”在“门”里,不自由,或作动词,同时又表音,这种部首是有限的,因为同时又要有区别形的作用,在于单字次无限发展的趋势的矛盾下,他就逐渐丧失了其表意的语素功能。例如:口+大=阴,、王+里=理、马+虽=强等;当部首完成里其表意的历史任务后,单字词就出来充当语素的重任。英语也有类似现象,pre例如(前、先)+fer(取、拿)=prefer(更喜欢、宁愿),transfer[trans (form…to…)+fer(=carrt,bring)],但也是这些表音的语素,在无限的词形和有限的音节的矛盾下,也会丧失其语素功用,而作为一种区别音节和词形的标志,例如在offer,preference,difler等词中,就看不出“fer”是语素了。
一个完善的语素系统应该是音形对映,形意有固定关系,数量适当,既不造成过重的记忆烦恼,又能通过几个层次的递归关系造成同时关系上的庞大的词汇量。并通过词义的引申和转换在历史上形成无限的词汇量,从历史上考察各种语言,这种共时在词汇量约需50万,以平均每词素在同一层次上具有20个词的构词力计算,按平均四个递归层次计算,则词汇容纳量可达500万,加上必要的冗余度,则700个语素如能分工合理,则足够用矣。汉字前700个使用频率最高的字平均构词率约30个,如不作构词法改革,则实构词数为:但音节词700个;双音节词700*50*85%(700字累计的使用频率)=297500;三音节词297500*50*85%=12643750,50*700*85%=29750个已够常用词用。这个统计也说明:掌握了700个汉字,就等于掌握了3万个词语,等于掌握了语言的85%的词汇,这是别的语言所不能及的,这也是新人工与选择汉语为本语的原因。
2001年12月---2002年4月散论
2005年7月26日赵路打字
更多论文在我个人学术网站www.e-chine.com 欢迎捧场赐教
http://www.corpus4u.org/upload/forum/2005072811561180.doc
―――一种面向机器处理的受限汉语设计方案( 将汉语汉字改革、人类共同语、人机共用语一揽子解决的方案)
一、什么是易汉语?它的设计要达到什么目的?
易汉语主要是一种人工的人际中介语,目的是为了创造一种人能够方便实用的,又很有规则的逻辑性、从而方便计算机处理的语言。他立志成为人工智能的语言基础。没有语言将没有人工智能,只有机器能理解的语言却没有人能理解的语言,这种人工智能也不能真正有效的为人类服务。目前国内外计算机语言学界所能做的工作,主要就是让机器适应自然语言,虽然在各个领域已经取得了很大的成就,但是要想让机器像人一样灵活的理解和使用自然语言,那几乎是不可能的。所以作者就换了一种思维方式,对机器做一定的让步,让人和机器互相适应,即按机器所能理解和使用的目标,创制了一种人也能方便的学习和掌握的语言。同时这种语言又能完全具备或替代自然语言的功用。
有多少种自然语言,就需要研制多少种自然语言的计算机处理方式。这无疑增加了人类的劳动负担。而易汉语立志成为比一切自然语言都更方便机器处理的语言,而且其方便性,不仅有量的进步,而且有质的飞跃;那么所有的将要和电脑打交道的人,都将为了实用的目的而学这种语言。在未来的社会里,人只要生存和发展,都必须使用电脑,所以从这个意义上说,易汉语将成为一种为存在语言障碍的人的沟通而其中解和辅助作用的语言,并最终发展成为世界共同语。历史上产生了很多立志成为世界共同语的人工语言,结果都失败了,原因在于人们学他没有现实的使用价值。吉他的使用者不是一个强大的群体,不拥有别人需要与之交流的经济、文化、政治内涵。而易汉语则绕开了这个障碍,他搭载上了电脑这一强大的资讯工具,所以使使用各种语言的人不得不为了使用同一工具而使用同一语言。电脑文化因为拥有了自己的语言而成为真正的文化,电脑这一技术对社会的革命因为其所引起的语言革命而成为真正的革命。易汉语将随着电脑的普及和发展,把人类引向一个新的时代。人类语言障碍的清除对人类政治、经济、文化、科技的交流和发展的推动作用,将超过人和技术革命的作用。
人工世界共同语的生命里决定于他是否与一种优势的自然语言构成一种简便的、清晰的、映射关系。如果有了这种映射关系,则这种人工语言又可成为该种语言的发展方向。选择何种自然语言作为人工语言的基础,要看十代人以后这种自然语言在人类语言中所处的地位,国力的生率数百年为一个周期。在未来的一二百年内,使用英语的国家和民族的政治和、经济、科技、文化力量的总和将占世界第一位是无疑的。而三四百年后却不一定了。而在此期间,世界一体化的进程将促使越来越多的人说英语,但一体化的速度将很难使人来在一二百年内说英语的人数占超过半数,占第一位。中华民族目前虽然是发展中国家,但人口是世界的五分之一,从一定的意义上说:人类就是中华民族的人类。人口第一位已经保持了几千年,而是还将保持几千年。所以说汉语的人数将始终是世界第一位。中国在廿一世纪普及高等教育是没有问题的。彼时国民素质将与欧美国家不再有大的差异,从而为中国国力跻身于世界强国打下了基础;汉语的经济文化含量也将因之成为与英语不相上下的强势语言。所以易汉语选择了汉语作为映射语言。汉语素简练、生成力强,具有独立意义,每个语素含的信息量大,以之作映射语言最科学。但是汉语却是公认的难学难认难读难写。易汉语不仅做了语言改革,而且作了文字改革,可以成为汉语汉字的改革发展方向。易汉语和汉语最接近;既节省了汉语使用者学习未来的世界共同语的精力和财力,又促进其他语种的人们通过易汉语的学习而加强与中华的交流,进而促进中华民族的改革开放,从这个意义上说,汉语的改革与易汉语的运用也是一条语言兴国之路。
圣经上说:人在开始的时候使用的是同一种语言,他们在古巴别城要建一座通往天堂的塔,叫通天塔。上帝看到后说:人类在使用同一种语言,团结起来的力量是很可怕的。于是便变换了人类的语言,建塔的人们因为语言不通而纷争四起,于是建塔的工作便半途而废。“易汉语”的命名来源于这个传说。人类语言统一,团结合作才是通往天堂,而且含有“通行天下”意思,也有表示宇宙语与外星人相沟通的意思。
二、易汉语的特色有哪些?
易汉语最根本的特征是语音和字形成一对一的映射关系,音型有和字形成严格的映射关系,使人和机器能见其一即能知其二,廿六个字母分别代替24个辅音和28个元音,从这些辅音和元音中选择了497个区别特征明显、最易拼合的音节,加上三个特殊音节,共500个音节。这些音节均有特定的语素意义,能组合各种自然语言和所有的词汇,完成人类语言交际的所有人物。文字上选择了最简练、区别最明显的26个笔画代表字母,减少了人辨认的难度,提高了人书写的速度。
在语调上,易汉语从汉语的四个声调和一个轻音中选择了区别明显的音平、阳平、去声三个音调。没有英语的轻重音和长短音变化,语调变化表示句法意义而不表示词汇意义。以避免词义混淆,易汉语吸取英语词性变幻的曲折优点,用声调和变幻分别代表名词、代词的主格、宾格、所有格和动词的过去、现在、未来时态,及形容词、副词的原级、比较级、最高级,数词的基数、序数。
以上提的特点,形成了易汉语使用上的三大特点:一是经济性,最经济的利用了音、形,以谈易学易用。二是易学性。从理论和知识上说,懂汉语的人半个月就能掌握它,其他语种的人一个月也能掌握它,如果有使用的需要和充足的语境,半年内能像母语那样熟练灵活的用于听说读写。三是可形式分析性。易汉语以有限的、规则的、递归的、形式容纳了无限的、多彩的、动态的语义,便与计算机通过辅助的形式分析而进行语义的分析。人何能以微不足道的代价,学到一种受益无穷的语言,这是易汉语的生命力和易于普及的关键。
三、易汉语的音标和字符。
易汉语有两个既是元音、又能兼辅音的音素,和两个特殊元音有几对基本上清浊对称的辅音,有两个基本单元音,他们经过变动而成四对单元音,这5对元音又分别和两个辅元音拼成8对双元音。清浊音和大口元音又称阳音;与之对称的浊辅音和小口元音又称阴音,共13对,包括了24个辅音和28个元音。
音标和字符是统一的,也分13对,长笔、正笔代表阳音,短笔、反笔代表与之对称的阴音。孤立的看,一个字符分别代表了辅音和元音两个因素,但是在实际使用和书写中,易汉语每个音节的拼合只有“一个辅音+一个元音”和一个“元音”两种方式,所以可以通过前后顺序判断该字符的功能。有对例外的字符“―”、“-”不能同时代表辅音,却能同时代表两对元音,当他代表辅元音这对特殊的元音时,规定它与辅音的拼合在书写上逆序写,即顺序写“辅元音+辅音” 。
易汉语的字符和国际音标对照
易汉语阳符
简写辅音
国际音标
简写元音
国际音标
易汉语阴符
简写辅音
国际音标
简写元音
国际音标
特殊音
四、易汉语的语素和构词法
(一)词素
在自然界,无限种类的物质是由有限种类的元素按有限的规则组合而成的。在语音上,成百上千个音节是由几十个因素拼合而成的。因为事物的无限丰富性和人类历史的无限长久性。词汇在共时上有大量性,在历史上具有无限性。这给人的学习和电脑的处理带来了很大的难度。人工语言的关键是确定少量的词素和简明给规则的构词法。而且这种词素应该和音节成映射关系。词素的立场应该和一种自然语言的义场成映射关系,否则既难定义,又难学习。词素的定义是电脑进行语义分析的关键,这也是自然语言的语义的困难所在。词素要具有独立性,衍生性,有限性。自然语言在开始的时候,在人类需要表述的对象少的时候,是以单词的形式发展词汇的。例如汉藏语系是单音节单字词,印欧语系是多音节单字词,随着表述对象的无限增多,在语言的简省规律支配下,一些简单的常用词开始具备了语素性,但是还没有一种语言已经形成完备的语素系统,由于产词机制的单音节限制,表意文字对语素的需要和依赖性要比表音文字强,所以汉语的字要比印欧语的词根、词头、词缀、可构成合成词的词具有更强的语素性,这也是我国汉语的词义分析比西方先进的客观便利条件。这也是易汉语选择汉语为映射关系的主要原因。
根据统计学的分析,在日常思想和生活所有词汇中,掌握95%就能基本满足需要,剩余的
字 位
字位是区别字所指称概念的最小的字的特征,它的提出主要是为了人工语言中的字的归并,以使用频率最高的字为其字位名。例如:房、屋、楼、厦,这四个字尽管义项有区别,但所指都是供居住的建筑物,就称之为处于同一字位,并以最常用的“房”字指称它。四个概念归并为一个音形符号后,在使用时如需区别,可加区别词。如“房”称“平房”,“楼”称“叠楼”。
字位在易汉语中的创新是为了减少汉字的词性,增加汉语的语素性,词是易变的,而词素是不变的,所以从一种适宜的自然语言中分解出词素,是易汉语的基础的关键。
词 素 义 总 场 及 分 类
词义的总场是无限的,而语素的总场则是有限的,通过词素以把握词义,是通过有限把握无限的方法,这种义场的确定及其分类,既是一个语言学问题,又是一个哲学问题。
所有的一切为总场,称为“存在”,本体又可分为物质及其运动两部分,时空是本体的存在方式,思维及语言是述体,对物质的描述为物词性,对动作的描述是动词性,物分为死物、活物和事物,前两者是自然物,后者是社会物。
义 构 语 法
无论汉语还是印欧语,都要研究语言的语义,在这个意义上,都有自己的语义语法,在语句的构造规律上,印欧语偏重形构句法,汉语偏重义构语法,义构语法并不是词义语法,抛弃结构和形式,语义是无法机器理解的,它把语义和结构结合起来研究了。
义构句法的特点有两个:一:与思维程序相对应。汉语的句法实际上就是词序的排列法则,需要义变的情况下,通过语境实现直接的义变,需要义变的情况下,通过语境实现直接的义变,而印欧语对语境的依赖少,可直接通过形变而实现义变,这既是东方人偏向于整体直观思维,西方人偏向具体逻辑分析思维的结果,又是这种思维方式差异的原因,任何语言的语序都趋向于与思维程序相对应,但汉语都对应的更紧密。例如写信的地址时,汉语险些较大的地址,最后写较小的地址,英语则与此相反。语法是自由排队的结果。二、前启后线性排列;汉语词序通过前词对后词的意义的启发和链接而实现有序化。前词对后词具有暗示性、可推导性。
与上述特点相对应,产生了义构句法的下列理论和范畴。
一、刺激反应理论。A物刺激B物,B物对A物作出反应,A和B为名词,刺激、反应为动词,反应是对刺激的反刺激。例:
我 爱 你, 你 也 爱 我。
刺激物 刺激 反应物 反刺激物 动述语 反应 反应物
我 爱 你, 你 爱 我 吗?
反刺激物 刺激 原刺激物 动述语
世界是物质的,物质是运动的,运动是物质、能量、信息的输入输出的过程,输入和输出是相互的过程。
二、环境个体理论。环境决定个体,是个体变化的动固和依据。个体必须适应环境。个体构成环境并反作用于环境。词、句的意义是在这个那个篇章语境中确定的。脱离语境的词句是模糊的,只代表一种“位”,可称作“词位”或“句位”。任何孤立的词、句只是一种抽象的词句,脱离了环境的个体是不存在的,只是便于研究和表述的抽象的个性。环境决定论在语义学中作用犹大,当我们研究音、义、字、词、句等处于语言系统中的子系统或系统的局部时,就不得不引进“位”这一系统性、有机性范畴,于是便出现了音位、义位、字位、词位、句位等的概念。
三、机体论。认为语言是个有机的整体,具有系统性、层次性、有序性。
四、质与量:处于同一字位的不同字的变化,属于同一质的范畴,但是不同的量。量分重力量和引力量,重力量是该字在接近实际用语的统计资料中的总频率,引力量是该字前后构词的能力。例第700号“杂”字的重力量是0.02417,引力量是48,引力是除了该字构词条数这一质的规定外,还有所构词使用的频率(即词的重力量)这一量的规定。
语 言 文 字 过 渡 中 的 双 轨 制 衔 接
作为人工人际共同语,其生命力决定于是否能与其对应的自然语言轻便的实行双轨衔接,易汉语较好的解决了这一问题,它采用了新的拼音符号,避免了旧拼音的干扰,对于改变了音形的意项,习惯了汉字的人可以把它看作汉字的简化,仍读他的汉语音,这样与只会易汉语的的人虽不能进行语言的交流,但仍可进行文字交流,使他逐渐的熟练易汉语。汉字的使用者习惯了形记而不依赖于拼音的习惯,是适应了进行这种文字改革的基础之一,对于700字以外需分解组合的字,使用汉字者可不分解之后仍用汉字标记,这种情况只占15%;而在改革之初,大部分易汉语使用者都是同时认识汉字的,所以保这个尾巴并不影响易汉语使用者的阅读。
从简化汉字这一方面说,易汉语是一种成批地称系统地成类的按词性类和字义类的分别简化,较与传统的按字形的行政简化或自然简化更深入彻底,更方便合理,更易学易记,按字形的简化是有限度的,只能有量的简化,不能有质的简化,当简化到难以推测出原字性的时候,简化就不被人接受了,简化也就失败了。区别词素意义的符号就要简便,又要不易混淆,满足这一平衡值只能需要千把字符,而汉语按传统方法是设法简化到这一高效值的,因为他的字符冗余度有数百万,造成这一高冗余度的原因,是汉字曾经走过单字词的方向。
句 义 组 合
如果说词是语言的基本建构单位的话,句就是言语的基本建构单位,话是要一句一句地说的,句义是怎样组合的,或曰词是这样在句中实现的表达自己功能的,这是语法的根本问题。句义的组合有两种方式,一是词义组合,简称义合;二是词形和语序组合,简称形合,任何语言都兼有两种组合方式,又有主次之分,汉语以义合为主,印欧语以形合为突出特点。
印欧语系以词为分析句的基本单位。汉语则可实行双轨制――既以词轨分析,又以字轨分析,二者互相验证,以交合的办法实现排他的功能,从而避免歧义。不可以徐通锵的理论恢复字的单轨,那不是进步而是退步,双轨制才是中西结合的产物。
语 言 与 国 力
随着近二百年的国际经济及文化交流的增大,语言也从多元的孤立状态走向了多元的互学状态。英语、汉语、德语、日语、法语、俄语……这些经济文化处于强势的语言,由于经济实力的竞争与消长,很难在数百年内走向一元化,尽管目前已经有一元化趋势――英语,因而人类语言的沟通在未来仍会长期存在下去,且沟通越多,这种浪费就越大。
是否愿意学习某语言,首先决定于该语言的经济文化含量,其次决定于该语言门坎的高低。而有很多外族人学习该语言,又反过来对于该语言的民族的经济文化的发展起很大作用,一种具有吸附力的语言的拥有国家,又能为该国省下已大的学习外语的人力物力。因而汉语汉字的改革也是一条强国之路。
人 造 语 言
尽管人类那么聪明,造出了很多巧夺天工的东西,但人类至今还没有造出一种有生命力的语言,人造语将会像人造人一样,一旦成功,将开辟人类的新纪元,并给人类的生产生活以革命性的变革。
以往人工语言的失败,源于其只是为了满足人际沟通,新人造语的翅膀则是人机交流的需要,从而使对这种语言的学习能够满足人的急功近利的要求。这是决定人造语言的生命力的关键。
人造语言于一种强势的自然语言的兼容性、可转换性,决定了人造语言是否能很快的拥有自然语言那样的经济文化含量。也是决定人造语言生命力的关键。
语言不仅具有自然性、科学性、而且具有文化性,从一定意义上说,多元的文化产生了多元的语言,多元的语言又反过来强化了多元的文化的个性和特色。世界文化的交流所衍生的一体化文化,表现为计算机或网络文化,则是新人类语言的文化基础。
语 言 工 作 者 的 时 代 任 务
“寻章摘句老雕虫,文章何处哭秋风。”语言工作者不应沉没于故纸堆中,而应以语言为武器,做世界文化交流和济民兴国的马前卒。具体到当代,就是这样拆除语言壁垒,具体到中国,就是怎样改革汉字,或怎样创造一种和汉语兼容的易于计算机处理的语言。
汉 语 与 易 汉 语 的 兼 容 性
汉语和英语的语法,看不出谁更适合思维法则,而是由于思法研究的空白,也不知道知道哪种人工语言更适合思法式计算及处理方法,所以易汉语的语法及构词法,暂且挪用了汉语的法则。汉语和易汉语的不同,只是发音与书写变了,词的义位与义项亦没有变,而且这种变化亦称一对一的映射关系,所以易汉语可以看成汉语的改进产品或转写产品。
汉字本来就不是拼音文字,所以易汉语字形的改革对中国人来说其学习难度不大于字形的简化。因而成年人仍可发汉语的原因;而对于未成年人可兼拼读成易汉语的语音,对于非汉语字母的外国人,按易汉语读,虽音不同,但字同,所以也达到了很快能书面交流的目的。而在口语交流发生困难的情况下,可轻易的改写成书面语言交流,且书面交流本来就是一种重要性不亚于口语交流的方式,所以这项改革轻易地完成了实现交流的目的。
语 素――人 工 语 言 的 关 键 问 题
语言以语素为砖瓦构筑了语言大厦。宇宙物质的形态及运动状态是无限的,这就像而且决定了语言中的无限的词汇及其见无限的组合方式及由此而成的无限的语句,但是宇宙却是极有限的已经发现的几十种元素和未曾发现的估计数量也不多的元素化合而成的,这就像词汇必须也只能由有限的语素组合而成。无限的词汇和人有限的学习和记忆之间的矛盾就决定了词汇必须有语素生成,而且语素越少越好。
在语言之初,当词汇量很少的时候,就不存在语素。当人们要表达更丰富的易斯的时候,一些基本的常用词就会兼容语素的意义。拼音文字的语素是作词根、前缀、后缀的音节,汉子由单音节词已发展到多音节词,在它以单音节词为主的时候,他的语素是由一部分偏旁部首充任的,有这个字的两部分或多部份意合而成,其中每个成分多数有一定的意义,甚至就是但字词:例如“洞”、“眼”里留“水”,有闷“心”在“门”里,不自由,或作动词,同时又表音,这种部首是有限的,因为同时又要有区别形的作用,在于单字次无限发展的趋势的矛盾下,他就逐渐丧失了其表意的语素功能。例如:口+大=阴,、王+里=理、马+虽=强等;当部首完成里其表意的历史任务后,单字词就出来充当语素的重任。英语也有类似现象,pre例如(前、先)+fer(取、拿)=prefer(更喜欢、宁愿),transfer[trans (form…to…)+fer(=carrt,bring)],但也是这些表音的语素,在无限的词形和有限的音节的矛盾下,也会丧失其语素功用,而作为一种区别音节和词形的标志,例如在offer,preference,difler等词中,就看不出“fer”是语素了。
一个完善的语素系统应该是音形对映,形意有固定关系,数量适当,既不造成过重的记忆烦恼,又能通过几个层次的递归关系造成同时关系上的庞大的词汇量。并通过词义的引申和转换在历史上形成无限的词汇量,从历史上考察各种语言,这种共时在词汇量约需50万,以平均每词素在同一层次上具有20个词的构词力计算,按平均四个递归层次计算,则词汇容纳量可达500万,加上必要的冗余度,则700个语素如能分工合理,则足够用矣。汉字前700个使用频率最高的字平均构词率约30个,如不作构词法改革,则实构词数为:但音节词700个;双音节词700*50*85%(700字累计的使用频率)=297500;三音节词297500*50*85%=12643750,50*700*85%=29750个已够常用词用。这个统计也说明:掌握了700个汉字,就等于掌握了3万个词语,等于掌握了语言的85%的词汇,这是别的语言所不能及的,这也是新人工与选择汉语为本语的原因。
2001年12月---2002年4月散论
2005年7月26日赵路打字
更多论文在我个人学术网站www.e-chine.com 欢迎捧场赐教
http://www.corpus4u.org/upload/forum/2005072811561180.doc